百万规模数据集打造人形机器人通用大模型，实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

北大和人大团队在通用人形机器人动作生成领域取得重大突破！

首创性地提出了具备数据-模型协同放量（Scaling Law）特性的通用动作生成框架Being-M0。

通过大规模互联网视频，构建了业界首个百万规模的动作生成数据集MotionLib。

又基于此数据集，研发了端到端的文本驱动动作生成模型，实现了具备规模效应的复杂、多样的人类动作生成，做到了人体动作向多类型人形机器人的动作迁移。

文章将发表于ICML2025。

百万级动作数据集MotionLib

大规模动作生成模型

多平台动作重定向

在人工智能领域，数据规模的突破往往能带来模型性能质的飞跃。

为构建大规模动作数据集，Being-M0团队从公开数据集和在线平台系统性地收集了超过2000万段人体动作视频。面对海量的互联网视频数据，如何实现高质量动作数据的自动化提取成为了关键挑战。

百万规模数据集打造人形机器人通用大模型，实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

为此，Being-M0团队开发了一套创新的数据处理流水线：

首先，基于预训练模型进行2D人体关键点估计，并通过置信度阈值实现初步筛选；随后，采用经过大规模3D数据集训练的先进模型，生成高精度的3D关键点数据。

在动作标注方面，针对现有数据集普遍存在的描述粒度粗糙问题（通常仅用单句话概括整个动作），团队创新性地提出了分层标注方案：

该方案利用Gemini-1.5-pro为每个视频生成了结构化描述，不仅包含动作的整体语义，还详细记录了手臂、腿部等身体部位的运动特征。这种细粒度的标注体系为高精度动作生成提供了关键支持。

MotionLib的独特优势还体现在其多模态特性上：每个动作序列不仅包含标准RGB视频，还提供了深度信息等辅助数据，并支持多人交互场景的分析。这些丰富的多模态信息显著拓展了数据集的应用场景。

经过严格的质量筛选流程，Being-M0团队最终构建了包含超过100万条高质量动作序列的数据集，其规模达到现有最大公开数据集的15倍，为突破动作生成领域的规模瓶颈奠定了坚实基础。

{{userData.name}}已认证