人形机器人1:1复刻真人:技术执念、场景刚需,还是资本故事?——具身之路03期

腾讯科技《具身之路》系列直播,关注具身智能技术演进、场景应用与行业争议。本期直播,分享人形机器人复刻真人背后的难点和刚需。

腾讯科技《具身之路》系列直播,关注具身智能技术演进、场景应用与行业争议。本期直播,分享人形机器人复刻真人背后的难点和刚需。

过去一年,关于人形机器人到底应该“多像人”,行业内外已有不少讨论。但如果把“像人”进一步拆解,会发现这个问题远比想象中复杂。

有的机器人比如Ameca强调表情,能眨眼、能微笑;有的机器人比如Sophia追求形象,还被授予“公民”身份;而更激进的做法,是类似波兰知名的机器人公司Clone Robotics那样,试图复刻人类的肌肉与骨骼结构。这也引出一个根本性的问题:

我们连“机器人是否一定需要双腿”都还没有达成共识,为何有些机器人演进路径,却在“1:1复刻人类”这条路上走到极致?这是工程师的技术执念,是真实场景的刚需,还是为了讲一个更好听的资本故事?

本期腾讯科技《具身之路》直播,邀请了数字华夏研究院院长刘迅、同创伟业投资总监程建以及申万宏源证券机械分析师胡书捷共同探讨以下主题:人形机器人 1 : 1 复刻真人:技术执念、场景刚需,还是资本故事?

在国内,EX集团、数字华夏、松延动力等企业都在探索仿生机器人赛道,其中,EX集团于2013年成立,目前是新三板上市企业;松延动力完成数亿元A+轮融资,已研究出沉浸式交互的仿生机器人头。数字华夏成立于2024年4月,目前推出三类机器人载体:帅气风格的男性化机器人“夏起”,知性的女性机器人“夏澜”,以及可爱风的“星行侠”多胞胎IP系列,它们均搭载自研的“巨号平台”,探索在真实场景中如何与人互动、提供服务。

今年3月,数字华夏获得同创伟业数千万元天使轮融资。同创伟业在机器人领域已投资霞智科技、数字华夏、中科第五纪,覆盖商用机器人、仿人交互与具身智能等方向。在人形机器人领域,其投资策略侧重从上游核心部件切入,包括减速器、丝杠、关节等,同时也持续关注非人形形态在工业和仓储等场景的应用。

《具身之路》系列往期回顾:

第一期:《机器人跑马拉松,累到“断腿”的是工程师》

第二期:《苹果手机用了15年才“通用”,机器人还要多久?》

本期直播核心要点:

1、机器人是否需要“像人”,本质取决于场景需求:对老人陪护、教育导览等强调情绪交流的应用,“仿真”并非为了还原人类形貌,而是为打造低疲劳、高共鸣的人机交互。

2、仿人机器人当前主要沿两条技术路径推进:电机驱动,以及液压或气动驱动。电机路径以Sophia、数字华夏为代表,通过向量控制驱动数十块“面部肌肉”,实现表情与语言的拟人交互;气动驱动如Clone Robotics,更贴近生物结构,从肌肉骨骼层面全面仿生。它们一个面向可交付与落地,另一个聚焦未来式仿生体验。

3、在人形机器人感知、结构、运动和表情四大“拟人”技术中,感知拟人技术最成熟、表情拟人技术最复杂。表情拟人不仅要求电机驱动肌肉协同、还原口型,还要通过心智建模实现情绪表达,是当前最具系统性挑战的方向。

以下为本期直播精华内容整理:

从骨骼、肌肉到微表情,复刻多少才算“像人”?

胡书捷:回顾全球的一些典型案例,并对技术路线进行比较,可以看到仿生机器人已经成为全球共同的研发方向:比如海外的Ameca注重表情的精细表达,Sophia强调人形外观和公众形象,Clone Robotics则追求肌肉仿生;国内也有诸多探索者,比如今天的嘉宾数字华夏,以及大连的EX Robot。那么,从骨骼、肌肉到微表情,机器人需要复刻到什么程度才算“像人”?

刘迅:我先简单回顾一下几个典型代表。

Ameca是英国一个工程团队Engineered Arts做的,印象中他们主要是在上半身发力,特别是面部的传神表达。比如嘴型、眼部的自动化控制这些,他们做得比较精致。

Sophia相对来说诞生得更早一点,是2015年由汉森机器人团队开发的一个女性形象的机器人。她的重心也是在“脸”上,注重表情和微表情的表达,再加上一些端到端的AI对话能力。Sophia比较出圈的一个点,是她在2017年拿到了沙特阿拉伯的公民身份。

再来说Clone Robotics,这家公司会令很多人联想到《西部世界》这部剧,它的LOGO好像也和那部剧有点关联,我们也开玩笑叫它“僵尸机器人”。这家公司走的路线是很不同的:上肢采用气动驱动,身体骨骼采用液压系统,整体是在全仿生结构上追求“更像人”。

人形机器人1:1复刻真人:技术执念、场景刚需,还是资本故事?——具身之路03期

(从左到右:Engineered Arts旗下机器人Ameca,Hanson Robotics旗下机器人Sophia,波兰Clone Robotics机器人)

程建:在探索机器人“如何实现仿人化”的过程中,目前主要有两种技术路线。一种是电机驱动,以Sophia和数字华夏为代表;另一种则是液压和气动驱动,例如Clone Robotics和早期的波士顿动力。

电机驱动的原理是利用电机输出的向量控制,推动或牵拉机器人面部的40多块“肌肉”,从而生成各种表情,包括微表情。其具体实现方式可能是推杆式或牵拉式,核心在于通过机械结构来模拟肌肉组织的功能。

其实,人类对制造“像人”机器的尝试并非始于当下。据我查阅的资料,早在蒸汽机时代,人们就已着手探索这一领域。然而,由于当时技术条件的限制,许多设想未能真正实现,相关成果也鲜有流传。

胡书捷:也就是说,在“像人”这件事上,目前行业内部存在明显的技术分歧?

刘迅:我不觉得是分歧,更像是路径不同。我们选的是电机驱动这条路,它本质上是“电机智能”——基于绿色能源背景,走城市化、智能化路线。虽然还不能说完全成熟,但这条技术路径具备多端通用性,逻辑是清晰的。

在人形机器人里,电机智能可以支撑我们在“像人”这件事上实现表情和语言的能力。人是高度集成的生物,我们希望机器人也具备这种复合能力。

但像Clone Robotics,他们更像是在做生物动力系统。他们上肢用气动,骨骼结构用液压,目标是从结构层面全面仿生。这条路很硬核,技术天花板很高,但难度也大。我觉得他们现在做的是体验性探索,也许未来会打开一个新世界。

我是认可他们的方向的,但现在更现实的是看我们能不能在材料、结构、驱动这些方面突破,把液压真正工程化,这方面我们也在关注。而我们做表情这条线,既是技术驱动,也是业务驱动。市场确实需要可交互、能服务的“类人”机器人,这不是空谈。

程建:目前整个行业仍处于早期发展阶段,而表情、肌肉等仿人化技术更是处于探索的前沿。目前的技术路径尚未收敛,各种路线都值得尝试,每一种探索都具有重要意义。

以Clone Robotics为例,其采用液压和气动技术,而其他公司,包括数字华夏,大多采用电机驱动。电机驱动的优势在于控制更加精准、易于数字化,且精度较高,这为后续的智能化发展提供了便利。相比之下,液压和气动系统则显得较为复杂,控制难度大,调试成本高。因此,在产品落地方面,电机驱动更具现实性,开发速度也更快。

Clone Robotics所选择的液压和气动路线可能更偏向于实验性研发,其商业化周期可能会更长。

刘迅:波士顿动力本身就是一个典型案例,他们在去年正式从液压系统转向电驱动。对于我们这些学工科的人来说,几乎是看着他们的视频长大的。从最初的双足机器人,到类人形,再到四足机器狗,波士顿动力一步步走到了如今的人形机器人。

气动这条路确实很有想象力,比如柔性和结构控制,但它的问题在于精度和可控性。相比之下,电机的控制更精准,成本也更可控。虽然人形机器人整体系统很复杂,但电驱还是目前比较可行的路径。

胡书捷:两位都认为电驱在当前阶段是更可行的路线,而液压和气动更多是技术层面的探索。回到微表情这个点——刘总,你们现在在做很多面部表情的工作,你觉得这些仿人表情,在不同的场景里,有什么实际价值?

刘迅:人形机器人这个“具身智能”,我把它分成三块:运控智能、交互智能、业务智能。交互是最基础的,人类最早的沟通方式就是交互,语言是核心工具。

但语言不只有语音,它包括动作语言、表情语言,还有语音语言。甚至还有“神韵”,也就是表情传递出的情绪。这些维度综合起来,才构成完整的交互。

我们的目标是让机器人不只是“speech to speech”,而是“多模态”的交互能力,说话时要有肢体动作,有面部表情,有情绪状态。尤其是表情,它在情感共鸣上的作用很大。我们在机器人面部上加了几十个电机,用来还原这些细微的情绪变化——有些是主动表达,有些是被动反馈。

这背后不是单纯为了“像”,而是为了实现更顺畅的交互体验,有了这些能力,用户才不会感受到“恐怖谷效应”。

现在大家都在讲恐怖谷,就是你做得像人,但又不够自然,看起来反而怪。所以,我们强调“smooth”的交互体验,这才是“像人”的关键。

当然,有些场景比如工业作业,它对表情要求不高。但在一些安全、应急场景里,一个恰当的面部表情能在毫秒级内传达关键信息,这是语音做不到的。

所以我们认为表情语言不是可有可无的,而是一个不可或缺的技术点。这也是我们在表情交互这个方向上“出圈”的地方。

胡书捷:确实,情绪价值本身也是一种很重要的价值。程总怎么看?

程建:归根结底,是否需要表情和人形化,还是要看机器人的应用场景。

目前的机器人大致分为两类:一类是用于工业生产的,比如优必选的搬运机器人。在工厂场景中,机器人只需完成搬运任务即可,根本不需要表情,甚至不需要人形化。一个底盘加上机械臂,就能高效完成工作,任务完成后即可离开,无需与人进行情绪交流。

另一类是面向人类用户的,比如陪伴机器人或客服机器人。在这种场景下,“像人”变得至关重要。丰富的表情和微表情能够产生真正的情绪价值,从而更好地与人类用户互动。

以酒店的送餐机器人为例。如果它只是一个简单的桶状机器人,将物品送到你面前后,你拿完就会转身离开,不会与它有任何交流。但如果它是一个具有表情和神态的人形机器人,你可能会多看它一眼,甚至与它交谈几句。

因此,是否需要表情和人形化,从根本上取决于机器人的应用场景。如果机器人需要与人互动,那么它就必须“像人”;如果它只需要完成任务,那么人形化和表情就并非必要。

胡书捷:关于技术这块,我们说表情拟人、结构拟人、运动拟人、感知拟人——这些分别涉及哪些底层技术?在难度和技术成熟度上有什么差异?

刘迅:我简单拆一下。

第一是表情拟人。底层核心是电机控制,所有电机动作都要做到平滑、有节奏,才能还原出人的“神态”。比如微笑时嘴角怎么拉、嘴巴怎么张,都是一套控制模型。而且不仅是静态的模仿,更重要的是“个性感”——因为每个人的表情风格都不一样。

第二层,我们会用扩散模型来实现表情的自动生成。一句话或一个语音输入,就可以生成匹配的面部动作。这背后牵涉的是心智建模,每个角色要有自己的“性格档案”。比如一个老师说“请进”和一个前台说“请进”,表情应该完全不同。

第三个关键点,是要基于“心智性格”去绑定机器人的表情输出方式和频率。

所以,表情拟人其实涉及三个层级:底层是电机节奏控制,中层是模型自动生成,上层是基于“心智”的个性化驱动。

第二个是结构拟人,主要对应的是骨骼、肌肉、关节这些,如果走液压路线,确实要求非常高。但现在行业里其实并不强求这部分完全1:1仿人。大多数人形机器人,还是用电机驱动结构,只要形态上像人、动作上有胳膊腿就行,这是工程上的“够用”标准。

第三是运动拟人,这块非常关键。现在技术上一般用强化学习(RL)来做,从传统位置控制转向数据驱动。它分两层,一层是“基础运动”——像人一样走路、上下楼梯、跑步,这是必须具备的。另一层是“表演级动作”——比如跳跃、翻跟头,这要求结构稳定性和协同控制更强。目前最大挑战还在运动稳定性上。双足行走天然不稳定,但正因为它不稳定,才需要机器人去适应复杂环境,而不是让环境适配机器人。

第四是感知拟人。人靠五感交流,最核心的是视觉和听觉,机器人也是。视觉上我们用RGB和RGB-D相机;听觉上是语音识别。嗅觉和味觉现在也有人在做,比如模拟呼吸气体识别、食物成分检测,我们甚至做过“美食讲解员”机器人。但说到底,感知更多是为功能服务。比如视觉用于避障、识别、导航;语音用于控制和对话。

从成熟度上说,感知拟人是最成熟的,毕竟AI发展几十年了,图像、语音识别都非常成熟。

其次是运动拟人,现在很多企业已经能实现稳定的双足行走,我们自己也在不断优化走姿。结构拟人对精度要求没那么极端,只要满足功能需求就行。

表情拟人,是我们比较专注的方向。它的难点在于不仅要还原肌肉动作,还要做情绪表达,实现情感共鸣和交互自然。

我认为当前最难的还是运动,特别是双足运动。一旦这块稳定下来,整个人形机器人产业无论在技术上还是落地上都会迈大步。

程建:刘博士已经讲得很细致了,我再补充一点看法。

结构、运动、感知这些方面,其实更多是功能性的,且已经有了一定的产业基础。例如,结构部件可以借鉴汽车或自动化产业链,而感知传感器则很多来自自动驾驶领域,比如摄像头、激光雷达等。

不过,运动和表情是两大难点。尤其是表情能力,这一领域其实处于“技术无人区”,此前没有任何成熟的产业链为其提供支持。

如果表情不够“像人”,用户的直接反应就是“怪异”,那种“皮笑肉不笑”的感觉会产生“恐怖谷效应”。因为人脸表情并非由单个肌肉动作构成,而是由多个肌肉协同作用形成的动态组合,这种协调性非常难以实现。以前我们看动画片,没有使用面部捕捉技术时,表情总是让人觉得有些别扭。后来好莱坞采用面部动作捕捉技术,比如在《阿凡达》《阿丽塔》中,才真正解决了这一问题。归根结底,表情仅靠参数调节是难以实现的,必须通过系统性模拟。

因此,我们认为表情拟人化是难度最高的部分。要通过多个电机驱动数十块面部肌肉,精确控制向量输出,还要配合说话时的口型变化,整个协调过程极其复杂,工程难度非常高。

胡书捷:我简单做个小结:从骨骼结构到微表情,各种技术路线都在并行探索。目前来看,电机驱动的路径在技术可行性上更成熟一些。微表情在很多人机交互场景中具备真实价值,技术难度也不低。它不仅涉及机电系统,还需要软件模型,甚至是大模型的支持。可以说,这块的技术目前还比较空白,探索空间很大。

机器人1 : 1 拟真,是真需求还是演示秀?

胡书捷:我们接下来进入场景维度的讨论。这个环节的问题比较直接:1:1仿真是真需求,还是演示秀?我们先探讨第一个问题,当前人形机器人涉及的迎宾、导览、陪护、表演等场景中,有多少是必须仿真的?

刘迅:首先,技术本身也是经验的积累,我们从小有机器人梦,这条路不只是技术,也是一种坚持。在这个过程中就会”烧钱“,而最该烧钱的地方是“场景”。

我们去年4月成立数字华夏时,定位很清晰——做交互领域,不做工业场景。

我们希望机器人是“面向人”的,要跟人打交道。而一旦面向人,就绕不开“恐怖谷效应”,简单说,就是人和机器人互动时的心理疲劳感。比如几年前的送餐机器人,桶状外形一开始挺新鲜,现在大家都不太愿意搭理了。

从生物角度来看,和人交互疲劳感最低的生物,还是人。那我们就要往“像人”这个方向去靠,这不只是长得像,更重要的是行为像。

我们团队内部会不断反思,比如我们 CEO 会说:“你模型指标都挺漂亮,但用起来还是不像人。”所以我们定义了一套交互标准,从H1到H5,第一是外观,人是感性的动物,第一眼的接受度非常重要;第二是能力,包括表情语言、动作语言、语音语言这三种交互方式。

再往上,是情感交互。比如一个眼神、一个微笑,让你觉得“它懂我”。这和我们对宠物的感情是一样的,猫狗不会说话,但能让你觉得被理解。这个“懂”,其实就是交互价值的体现。

当然,交互不只是“卖萌”。最终,我们还是要让机器人能完成一些真实的服务,体现出业务价值。一比一仿真,其实是为了让它能自然地融入人类社会。

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

淘宝推出桌面版客户端 支持 AI 购物功能

2025-5-11 10:00:06

AI新闻资讯

只有通过海量测试才能抓住泛化性的本质吗?

2025-5-11 14:48:06

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索