北大和人大团队在通用人形机器人动作生成领域取得重大突破!
首创性地提出了具备数据-模型协同放量(Scaling Law)特性的通用动作生成框架Being-M0。
通过大规模互联网视频,构建了业界首个百万规模的动作生成数据集MotionLib。
又基于此数据集,研发了端到端的文本驱动动作生成模型,实现了具备规模效应的复杂、多样的人类动作生成,做到了人体动作向多类型人形机器人的动作迁移。
文章将发表于ICML2025。
创新点
百万级动作数据集MotionLib
- Being-M0团队构建了业界首个突破百万规模的动作生成数据集,并建立了从原始视频到高质量动作数据的全自动化处理流程,大幅提升了数据获取效率。
大规模动作生成模型
- 同团队提出的动作生成大模型展现出显著的规模效应,成功验证了“大数据+大模型”在人体运动生成领域的技术可行性,为通用动作智能奠定基础。
多平台动作重定向
- Being-M0团队创新融合优化与学习方法,实现了动作数据向宇树H1、H1-2、G1等多款人形机器人的高效迁移,显著提升了跨平台运动适配能力。
MotionLib: 突破数据规模瓶颈
在人工智能领域,数据规模的突破往往能带来模型性能质的飞跃。
为构建大规模动作数据集,Being-M0团队从公开数据集和在线平台系统性地收集了超过2000万段人体动作视频。面对海量的互联网视频数据,如何实现高质量动作数据的自动化提取成为了关键挑战。
为此,Being-M0团队开发了一套创新的数据处理流水线:
首先,基于预训练模型进行2D人体关键点估计,并通过置信度阈值实现初步筛选;随后,采用经过大规模3D数据集训练的先进模型,生成高精度的3D关键点数据。
在动作标注方面,针对现有数据集普遍存在的描述粒度粗糙问题(通常仅用单句话概括整个动作),团队创新性地提出了分层标注方案:
该方案利用Gemini-1.5-pro为每个视频生成了结构化描述,不仅包含动作的整体语义,还详细记录了手臂、腿部等身体部位的运动特征。这种细粒度的标注体系为高精度动作生成提供了关键支持。
MotionLib的独特优势还体现在其多模态特性上:每个动作序列不仅包含标准RGB视频,还提供了深度信息等辅助数据,并支持多人交互场景的分析。这些丰富的多模态信息显著拓展了数据集的应用场景。
经过严格的质量筛选流程,Being-M0团队最终构建了包含超过100万条高质量动作序列的数据集,其规模达到现有最大公开数据集的15倍,为突破动作生成领域的规模瓶颈奠定了坚实基础。