百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

北大和人大团队在通用人形机器人动作生成领域取得重大突破!

北大和人大团队在通用人形机器人动作生成领域取得重大突破!

首创性地提出了具备数据-模型协同放量(Scaling Law)特性的通用动作生成框架Being-M0

通过大规模互联网视频,构建了业界首个百万规模的动作生成数据集MotionLib

又基于此数据集,研发了端到端的文本驱动动作生成模型,实现了具备规模效应的复杂、多样的人类动作生成,做到了人体动作向多类型人形机器人的动作迁移。

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

文章将发表于ICML2025。

创新点

百万级动作数据集MotionLib

  • Being-M0团队构建了业界首个突破百万规模的动作生成数据集,并建立了从原始视频到高质量动作数据的全自动化处理流程,大幅提升了数据获取效率。

大规模动作生成模型

  • 同团队提出的动作生成大模型展现出显著的规模效应,成功验证了“大数据+大模型”在人体运动生成领域的技术可行性,为通用动作智能奠定基础。

多平台动作重定向

  • Being-M0团队创新融合优化与学习方法,实现了动作数据向宇树H1、H1-2、G1等多款人形机器人的高效迁移,显著提升了跨平台运动适配能力。

MotionLib: 突破数据规模瓶颈

在人工智能领域,数据规模的突破往往能带来模型性能质的飞跃。

为构建大规模动作数据集,Being-M0团队从公开数据集和在线平台系统性地收集了超过2000万段人体动作视频。面对海量的互联网视频数据,如何实现高质量动作数据的自动化提取成为了关键挑战。

百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

为此,Being-M0团队开发了一套创新的数据处理流水线:

首先,基于预训练模型进行2D人体关键点估计,并通过置信度阈值实现初步筛选;随后,采用经过大规模3D数据集训练的先进模型,生成高精度的3D关键点数据。

在动作标注方面,针对现有数据集普遍存在的描述粒度粗糙问题(通常仅用单句话概括整个动作),团队创新性地提出了分层标注方案:

该方案利用Gemini-1.5-pro为每个视频生成了结构化描述,不仅包含动作的整体语义,还详细记录了手臂、腿部等身体部位的运动特征。这种细粒度的标注体系为高精度动作生成提供了关键支持。

MotionLib的独特优势还体现在其多模态特性上:每个动作序列不仅包含标准RGB视频,还提供了深度信息等辅助数据,并支持多人交互场景的分析。这些丰富的多模态信息显著拓展了数据集的应用场景。

经过严格的质量筛选流程,Being-M0团队最终构建了包含超过100万条高质量动作序列的数据集,其规模达到现有最大公开数据集的15倍,为突破动作生成领域的规模瓶颈奠定了坚实基础

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

讨厌RAG生成幻觉?试一下SAT重构文本分块,按语义而不是Token

2025-5-15 12:15:09

AI新闻资讯

奥特曼最新访谈暗示:OpenAI终极目标是打造订阅制AI服务

2025-5-15 12:45:06

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索