宇树机器人到底强不强?深度解读具身智能都有哪些流派?

【来源:虎嗅网】

宇树科技无疑是今年科技圈最炙手可热的名字之一,它的火爆甚至点燃了整个人形机器人赛道,但喧嚣之下,不同的声音开始浮现。在北京人形机器人马拉松、央视机器人搏击赛中,人形机器人跌倒、遥控的现象也印证了技术距离成熟应用的差距——这个领域存在着类似“买家秀与卖家秀”的巨大反差。

这篇文章的观点,主要提炼自科技播客“脑放电波”与资深硬件黑客Rex的对谈。你可以在主流播客、视频平台找到这些内容。我们将试图回答以下几个核心问题:

  • 宇树的产品为何部分从业者甚至自家员工都“不推荐”?它的机器人究竟卖给了谁?实际商业化基本盘如何?

  • 为什么宇树这样的公司注定诞生在中国?“土硕”王兴兴和宇树少为人知的发展历程是怎样的?宇树的技术到底属于哪个流派?

  • 不同具身智能技术流派,真实表现到底如何?怎样一眼看穿其中的“水分”?

一、销售、产品、应用三层反差:谁在为宇树机器人买单?

创始人王兴兴宣称其机器狗占据全球超60%市场份额,人形机器人销量同样领先。一个细节是:某段时间,宇树那台售价近两万元的机器狗,竟然冲上了京东机器人销量榜第二名,榜单上其他产品,几乎全是售价不过千元的儿童玩具。

相反,如果你尝试与宇树团队进行沟通,感受会截然不同。

最直接的反差来自宇树内部的“预期管理”。当我们尝试联系一位负责对外沟通的员工了解产品细节时,微信加上第一时间就发来一份详尽的“避坑指南”,直白且主动地管理着潜在买家的预期:

  • 产品定位清晰切割:售价9.99万的G1人形机器人标准版?“不支持二次开发,只能用来展示和玩具”,本质就是个遥控货。真正面向科研、高校和开发者的G1 EDU版,价格跳到20万~40万元。想要完整的行业解决方案?加上配件、服务器、定制开发,请准备好一两百万元。

  • 技术落地坦诚相告:工厂物流、迎宾接待这些热门咨询场景(据说半年接到5000多个咨询电话)目前做技术储备可以,实用化还有好些年”。这位员工甚至给出了个人判断的时间表:稳定性可靠性,2026年6月后;±5cm精准导航,2026~2028年;复杂的手眼协调抓取,得等到2028~2034年;至于机器人大模型和复杂环境理解,普遍指向2028~2030年。

  • 核心价值聚焦“本体”:宇树现阶段卖的就是“机器人的本体”,提供开发资料,你自己评估,或者找第三方开发。“暂时不承接人形机器人的定制化开发”。

这种坦诚,一面是市场热度反复“拷问”后的直接反应,另一面也揭示了宇树现阶段的商业本质——提供一个硬件平台,而非打包好的解决方案。

另一个反差在于炫酷演示与“创客级”现实的脱节。公众看到的宇树机器人能跑能跳还能后空翻,酷炫十足。但深入到实际体验和产品细节,距离“精致完善”还有相当长的路。

在科技播客“脑放电波”组织的一场线下活动中,40位参与者体验G1人形机器人消费者版,只有10人表示“符合预期”。

多数人的失望点在于:它本质上还是个遥控玩具,运动时噪音和地面接触声也偏大。此外,宇树还有零部件产品线——电机、机械臂、激光雷达等,单独卖给开发者和创客。这些零件的产品精致度和服务,同样停留在“创客级”。

我们的节目嘉宾Rex曾经在宇树官方旗舰店购买电机时遭遇漏发货,客服竟回应称“需要去仓库看一看才知道有没有库存”,这与主流电商的服务标准相去甚远。产品细节处理也相当粗犷,控制电路板仅用一个透明热缩管包裹做绝缘,缺乏标准工业包装,观感“如同大学生为了打比赛手搓的板子”。

官方开发文档更是极度简化,电机代码库只有一个范例,还没有注释,命名方式也相当随意。所以,无论是整机还是零件,宇树当前的产品完成度、精致度和服务,更像一个面向开发者和早期爱好者的“高级套件供应商”,而非工业级或消费级成熟产品公司。

既然消费者版体验有落差,那卖出去的机器狗和人形机器人,到底谁在用?科研教育是基本盘,但近半年宇树真正“出圈”,靠的是消费者版。这些机器人的主要用途集中在租赁和表演上。

科技播客“脑放电波”组织线下活动时,发现参与者里就有做机器人租赁生意的,服务对象多是论坛开幕式、商业活动或自媒体拍摄——核心价值是利用机器人的稀缺性和科技感吸引眼球。宇树机器人的租赁甚至开始标准化,出现在闲鱼、芝麻信用这类平台上。

不过,随着宇树产能爬坡,这种稀缺性红利正在快速消失。在表演和流量之外,极少数硬核用户开始挖掘出宇树机器人的真实效率。“脑放电波”在制作节目过程中调研到一位摄影师,他的案例就很有趣:他把宇树机器狗改装成移动灯光架,承载打光灯、补光板,通过遥控或预设路径,在户外街拍时替代了部分摄影助理的工作。他甚至进一步改装,在狗背上加装电池、网络摄像头和机械臂,让机器狗具备了在家中进行安防巡检的能力。

这些早期用户的探索,恰恰利用了宇树机器狗的核心优势:相对出色的机动性能(爬坡、摔倒自恢复)、高达40公斤的负重能力、较长的续航(4小时以上),以及相对开放、对二次开发友好的特性——尽管官方文档粗糙,但对比同行,宇树提供的开发自由度已属难得。

二、“土硕”王兴兴与宇树的中国基因

宇树身上的朴实甚至粗糙感,并非刻意为之。原因藏在创始人王兴兴的个人经历和公司发展史中。

王兴兴曾在知乎平台发文回顾他的创业原点:一个源自硕士毕业设计的机器狗项目,因为一段演示视频在优酷、YouTube等平台意外走红而获得最初的关注。他自己也坦承“运气还不错吧”,当年考研英语失利调剂到上海大学,反而获得了接触并改进四足机器人方案的机会。

他在知乎写道:“当时发现(用电机驱动实现类似波士顿动力BigDog性能)这个点后,激动不已……认为这是四足机器人的发展趋势,势不可当。”

这股“势”,离不开当时技术“基础设施”的成熟。两个关键的趋势在此交汇:一是感知基石的普及,日本村田制作所等公司率先将角速度传感器小型化,消费电子对角速度传感器的巨大需求,甚至曾导致索尼PS3手柄因内置高精度惯性传感器一度被限制出口(担心被用于非民用用途)

二是巨大的中国供应链溢出效应,智能手机爆发极大推动了IMU芯片低成本化,同时Hobbyking等航模配件商将生产重心移至中国,加上大疆创新崛起和APM等开源飞控成熟,推动了无人机行业发展,也使得高性能无刷电机及其控制系统变得廉价且触手可及。

正是这些“基础设施”的完善,让尚在校园的王兴兴能以一两万元人民币的成本,“攒”出具备相当运动能力的机器狗原型。他自己也说,那份毕业作品“XDog算是我当时个人能力的最高水平了,正好发挥了我在机械、电子、编程等方面的积淀”。

抓住了时代的机遇,王兴兴的创业之路却远非一帆风顺。他并非一毕业就扎入创业大潮,而是先去了当时如日中天的大疆创新,短暂工作了几个月(从事云台算法工作)。即便在2016年发布了号称“首个低成本高性能”的四足机器人方案Laikago后,挑战依然严峻。

在一次早期分享中,王兴兴言语间常常流露出“资源不够,这个暂时不是重点”的无奈。他不避讳公司历史上的波折。

2017年,就在发布首款产品后不久,宇树便因融资不顺陷入困境,一度发不出工资,被迫裁员。一个重要的外部变量是,2018年MIT(麻省理工学院)开源了其Cheetah Mini机器狗项目(由其Biomimetics Robotics Lab成员Benjamin Katz在其博士论文中开源)

这套方案极大地降低了四足机器人的开发门槛,并引起了机器人圈子及资本的广泛注意,这为宇树在2019年获得红杉投资奠定了一定认知基础(不过,并无直接证据表明宇树后续开发直接使用了该开源项目的成果。按照王兴兴本人的说法,MIT开源的电机和电控方案与他2016年公布的版本高度相似,且宇树方案公布在前)

在后续的过程中,为了“活下去”,宇树甚至尝试过偏离主线的项目,比如一款名为“健身泵”的奇特产品——试图将电机控制技术用在力量训练设备上,意在快速切入消费市场获取现金流,缓解经营压力,但这在团队内部引发了路线争议且最终并未成功。

这种务实甚至有些“笨拙”的风格,与王兴兴的“反精英”背景不无关系。本科毕业于浙江理工大学,硕士就读于上海大学(据他自己说是因为考研英语不及格才调剂过去的),这在遍地名校、海归博士的硬科技创业圈中,显得格外“接地气”。他在民企座谈会上是少有的穿着牛仔裤出席的代表,这种不拘小节、工程师本色的风格贯穿始终。

第二次转折点来自大洋彼岸的科技巨头。2021年起,埃隆·马斯克开始高调介绍特斯拉的人形机器人项目Optimus,并在2022年9月展示了原型机。王兴兴曾在公开场合坦言,宇树的人形机器人研发深受此启发。

宇树的反应极为迅速。2023年8月,他们发布了自己的人形机器人H1,并在后续迭代中部分运动指标超越了特斯拉当时展示的基准,更以9.99万元起的价格切入市场。

宇树能够快速跟进并实现“低成本高性能”,核心在于两点:一是长期积累的机电一体化能力,二是独特的控制算法策略。

机电层面,宇树坚持核心部件自研,掌握了电机、传感器等关键环节的设计与生产制造,实现了中等性能与中等价格的良好平衡,具备很强的垂直整合能力。

一个比较具体的案例是资深硬件创客Rex对宇树Go系列机器狗电机的拆解分析:宇树选用了尼龙而非金属作为齿轮材料以降低成本;整个驱动系统仅用一片电路板,省略了中高级电机常见的温控等功能模块,极限压缩了成本。

但其设计亦有巧妙之处,例如利用尼龙齿轮的弹性,通过偏心轴减少齿轮间隙(backlash)。说明宇树在降本的同时,掌握了一套与之匹配的设计方法,这套硬件设计方法也与其独特的控制算法相辅相成。

而在让机器人“动起来”的控制算法上,宇树春晚舞台和近期社交网络上广为流传的“机器人跳舞”视频,其技术底色源于模仿学习(Imitation Learning)与强化学习(Reinforcement Learning)的“叠加态”。这条技术路线并非宇树首创,如我们可以找到迪士尼研究部门为主题乐园开发的BD-1双足机器人(B站有一些爱好者通过开源项目复刻)

他们的做法是:先通过模仿学习让机器人习得一套预先编排好的动作脚本(动画),再通过强化学习算法,在机器人执行这些动作时,实时叠加动态平衡能力(这种动态平衡能力赋予了机器人真实动物的感觉,动作不僵硬),防止摔倒。宇树的“舞蹈”正是基于此原理。相比几年前那些只能呆板播放动作的机器人,宇树机器人的动态平衡能力确实有了显著提升。

但一个残酷的事实必须被指出:无论是宇树在春晚展示,还是社交媒体上其他博人眼球的“机器人跳舞”,现阶段大多是在“闭眼”状态下完成的。

这些机器人在跳舞时,并没有真正利用视觉或其他传感器来感知周围环境。它们无法理解任务的语义,更不能像人类一样“看一遍就会”并举一反三,比如让它通过观察模仿来学会拧开一个瓶盖,目前还做不到。所以,这些“跳舞”机器人现阶段最匹配的应用场景,或许真的是去各地“印象刘三姐”式的实景演出中担任群演。

与之对比,部分研究机构如苏黎世联邦理工学院(ETH)或腾讯Robotics X实验室,他们也在使用包括宇树的硬件平台进行更深入的研究,这部分研究中的宇树机器狗能够利用激光雷达或深度相机感知环境,实现更复杂的自主行为,比如根据前方障碍物实时调整姿态,或者完成急速折返跑。

这与宇树目前公开展示的技术存在显著差异。一个细节是,宇树近期发布的G1人形机器人跳舞视频中,其双手甚至是无法活动的塑料假手,这进一步印证了其当前能力的局限性,重点仍在全身运动而非手部的操作。

所以,宇树的真正价值,并非体现在无所不能的“智能”上,它有点像AI领域的DeepSeek——提供了一个低门槛、高性能的硬件运动平台,同时掌握了从核心零部件研发到整机生产制造的垂直整合能力,并以极具杀伤力的价格,将原本极其昂贵的先进机器人技术(尤其是运动控制部分)带给了更广泛的研究者和开发者。

这极大地降低了全球范围内机器人科研探索和应用开发的门槛。这种独特的平台价值,赋予了宇树超越自身营收规模的战略地位。这也是王兴兴能够与众多行业巨头一同列席高规格民企座谈会的重要原因。

宇树的存在,客观上起到了行业催化剂的作用,也培育了开发生态,比如能够在强化学习的主题微信群中,直接看到有机构愿意提供机器人本体并出资50万,请人复现宇树的运动控制算法。

三、如何“打假”具身智能?六大技术流派全解析

资深硬件黑客、机器人开发者Rex,在清华大学智能产业研究院的冬令营中,亲身实践了当前主流的六大技术流派。他的经验为我们理解这些技术的真实能力和局限性,提供了一个清晰的参照。

1. “展会打假指南”:两道坎看穿机器人成熟度

判断一个机器人项目是“骡子是马”,最直观的方式是看它能否走出实验室,直面真实世界的复杂性。Rex提出了两个简单有效的观察点:

第一道坎:敢不敢摆摊?“不敢摆摊的一律都是拍电影。”Rex的判断很直接。许多酷炫的概念视频,展示机器人在家中服务、照顾老人,很可能只是对未来的畅想,并非现有能力的真实写照。无法在人流嘈杂、光线多变、环境干扰众多的线下展会稳定运行的项目,其技术成熟度值得怀疑。敢于公开展示真机,是迈向实际应用的第一步。

第二道坎:摆不摆警戒线?“摆摊拉不拉警戒线又是一道坎。”观察展会现场,这是一个更细微却关键的指标。那些需要用警戒线围起来,甚至配备保安严密看护的机器人,即便在演示特定动作(如跳舞),也往往暴露出其在鲁棒性、安全性或抗复杂环境干扰能力上的不足。

Rex提到,有些机器人在演示抓取时,目标物体不能移动,因为它是在伸手之前就计算好坐标再执行,缺乏实时适应能力。相比之下,像逐际动力等公司的双足或四足机器人,能在展会现场的人群中自由穿梭,甚至鼓励观众进行互动(如轻踹),这体现了厂家对其产品稳定性和安全性的高度自信。

目前,能达到这种“无保护”展示水平的,主要是部分机器狗和极少数双足机器人。

从“不敢摆摊”到“摆摊拉线”,再到“撤掉警戒线自由互动”,这反映了机器人技术从实验室走向真实场景应用的艰难爬坡。

2. L1到L5:智能分级,看清具身智能的当前身位

AI技术的快速迭代点燃了人形机器人的希望,让人们看到了通用智能的可能性。为了更清晰地定位当前行业所处阶段,我们可以借鉴小鹏汽车创始人何小鹏提出的机器人智能等级划分(类比自动驾驶的L1~L5)

L1是纯遥控,完全由人操控,无自主决策能力,宇树的消费者版机器人就属于此列。L2是基础辅助智能加操控监督,能执行预编程动作(如春晚跳舞、扫地机器人),但需人持续监督。

L3是具身智能加训练监督,能在大量场景中独立运行,但关键时刻需人工接管,类似当前高阶智能驾驶。行业标杆Figure AI近期展示的Helix机器人双臂协作(分拣购物袋、手递手交接、按属性归位),是目前最接近L3的演示,其背后是VLA模型的初步应用和System 1/2架构创新,但其商业化仍主要面向B端大客户。

L4是自成长智能加轻微监督,能执行更广泛任务,具备一定自主学习能力,接近通用智能体(Agent)的终极形态,目前尚无成熟产品。

L5则是完全自主智能(AGI),具备通用人工智能,达到甚至超越人类,是行业的终极梦想。

结论显而易见:即使是Figure AI这样的顶尖玩家,其公开展示也仅刚触及L3门槛的演示阶段。市场上绝大多数机器人产品,其智能水平仍停留在L1~L2。

3. 不同流派技术实践:理想与现实的瓶颈

Rex强调一个观点:做下盘(腿部,负责移动与平衡)和做上肢(手臂/手,负责精细操作)的技术要求差异巨大,很可能是两类公司的能力分野。当前很多“炫技”集中在运动能力(下盘),这相对容易通过强化学习等方式快速提升;而真正体现智能、能完成复杂任务的上肢操作,挑战重重。

以下是Rex对几种主流技术流派的解析:

流派一:视觉+传统控制。原理类似工业机器人,先通过视觉精确定位物体坐标,再精确计算机械臂运动轨迹执行。对于已知、静态环境下的重复性任务(如自动化药房抓药),效果稳定、精度高(毫米级)。缺点是任务泛化能力极差,只能处理预先建模、认识的物体,抗干扰能力弱,不适用于家庭等非结构化、多变的环境,且编程和数据准备时间长。

流派二:端到端(End-to-End)。以斯坦福Aloha项目及其核心算法ACT为代表。试图直接将传感器输入(主要是视觉)通过模型(如Transformer)映射到动作输出(关节角度)。数据通常通过VR、外骨骼、手柄遥操作真人演示采集。理论上潜力巨大,汽车自动驾驶领域(尤其是特斯拉)已证明其可行性。但在机器人领域,现实瓶颈突出:

  • 数据采集效率极低且成本高昂,导致难以覆盖长尾复杂场景:Rex团队想用真人演示从盒子中取出巧克力,一小时最优秀的“数采圣手”也仅能生成上百条数据,而后续尝试的强化学习一小时可产生千万次尝试数据;且个别场景希望人贡献“完成同一个结果但是动作不重样”的演示,实际上也非常消耗脑力。

  • 任务与视角泛化能力差:摄像头面对的背景或视角轻微变动即失效,显然不足以满足生活场景需求。(相反,自动驾驶能用端到端,部分原因在于一辆汽车上的摄像头视角相对固定)

  • 缺乏语义闭环与结果验证:例如模仿人类拧了三下瓶盖,但不代表拧紧了。

流派三:强化学习(Reinforcement Learning,RL)。以开源库SB3、RSL-RL等为代表。在仿真环境(如Nvidia Isaac Sim)中,设定明确的奖惩规则,让机器通过海量并行试错自主学习最优策略。

其优势在于极适合下肢运动控制(行走、平衡、适应地形),训练速度惊人(笔记本电脑上训练上60秒就能走起来),无需精确演示,能探索超乎想象的方案,对特定场景(如下肢控制)潜力巨大。

然而,这一技术的瓶颈也很明显:奖励函数设计极难,尤其对复杂、柔性任务(如拉拉链、判断碗是否洗净),把这类任务的完成度编程为奖励函数,需要极高的工程能力,难以规模化。

流派四:监督模仿学习(Supervised Imitation Learning)。结合了模仿学习和强化学习的优点。先由人类提供少量成功演示,然后设定明确的任务成功标准(监督信号),让机器在仿真中基于演示大量随机探索、增殖数据,并用监督标准筛选有效数据。

这种方法数据效率高(10次演示可增殖上万有效数据),简化了奖励函数设计(比如让机器人学会“拉拉链”,在强化学习中需要设计奖励函数,但在监督模仿学习中只需要让机器人学会判定“拉链的左右两端碰在一起”即可)

Rex个人看好此方向,Figure等公司可能在采用类似思路(正在大规模招聘遥控操作员且三班倒,推测存在大量的演示数据需求)。但它仍依赖仿真环境,如何有效增殖和筛选数据是关键。

流派五:在线强化学习/持续学习(Online RL/Continual Learning)。以Berkeley的SERL、HIL-SERL研究为代表。将强化学习过程直接放到真实机器人上,让机器人在与物理世界交互中“边做边学”,实时微调策略(初始奖励模型来自少量人类演示)

理论上,这能弥合仿真与现实鸿沟,解决“手感”等难以建模的问题,更接近人类学习方式(Rex用学骑车、游泳类比,强调亲身实践微调的重要性)。但现实是技术非常早期,效率低、复现困难,且在现实中大量试错存在安全和成本风险。Rex认为它更适合在模型基本掌握技能后,进行最后的精细调整(任务的最后1%),而非从零开始。

流派六:视觉-语言-行动模型(Vision-Language-Action,VLA)。以Helix模型(来自Figure AI)、Pi-0及Pi-0.5(来自physica lintelligence)等为代表。这是当前最受瞩目、被认为最有希望通向通用具身智能的路径。

它基于大模型思想,试图将视觉感知(V)、语言理解(L)、动作执行(A)统一到一个模型框架中。语言模型不仅用于接收指令,其蕴含的世界知识和推理能力是关键,能帮助机器人理解抽象概念、泛化,甚至涌现新能力。其优势巨大:

  • 自然语言交互降低门槛(未来可能“语言即SaaS”)

  • 具备基于“概念空间”的涌现和泛化能力(如figure机器人被要求去拿“沙漠里的东西”,会推理拿起仙人掌)

然而,现实瓶颈同样尖锐:

  • 数据是核心难题,需要海量、高质量、多模态(视觉序列、关节序列、语言、力反馈等)对齐数据,复杂度远超纯语言或视觉模型;

  • 人工采集成本高昂(如智元等公司,选择在上海建3000平大小,容纳几百人的数采中心)

  • 现有VR/遥操作数据维度缺失(缺力、空间、多感官信息,更像“舞蹈数据”,无法复刻人类综合运用声、温、震动、重量等感官判断的过程)

  • 硬件标准不统一导致数据难通用,数据壁垒高筑;

  • 模型规模受限,当前VLA模型参数量小(Rex类比0.01B语言模型),远未达到涌现所需规模(可能需10B-100B级别),易过拟合。

在这个方面,虽然Pi-0的开源模型如同LLaMA,为社区研究提供了基础,但仍属早期。

4. 症结所在:数据,难以逾越的高墙?

梳理完各大技术流派,一个共同的挑战浮出水面:数据。

Rex的结论非常明确:当前阻碍具身智能发展的最大瓶颈,并非制造能力(中国在电机、传感器、供应链方面有巨大优势,制造一个物理上合格的机器人本体对大厂而言并非难事,手机、汽车公司都可以轻松实现),也非基础算法(大部分算法已开源或快速迭代,领先优势难以长期保持),而是高质量、大规模、标准化的训练数据。

理想的数据构成可能是:10%高质量人类演示数据+80%仿真生成的合成数据+10%在线/持续学习获得的真实世界反馈数据。所有这些数据,最终都需要服务于强大的VLA模型。

本文来自微信公众号:脑放电波 (ID:BrainAMP),作者:脑放电波