人形机器人的理想与现实

2025-06-24 11:54:32

来源：新华网

字体：小大

文|脑极体。

李开复曾提到AI界流传的“骗子又来了曲线”。人们将继续识别机器“是否有人类智能”，这个过程总是被人工智能在某些领域的惊人表现所震惊，并逐渐意识到当时人工智能仍然存在各种局限性，导致巨大的心理差距。

最近，人形特定智能机器人在WAIC世界人工智能会议上密集亮相。我们在现场感受到的是“人类将被摧毁”和“骗子又来了”，这两种复杂的现象同时存在。

具体来说，大多数认为“人类将被摧毁”的普通观众都是无意识的普通观众，而人工智能大多是冷静甚至不乐观的人形机器人、业内人士在机器人领域。

例如，猎豹移动董事长兼CEO、猎户星空董事长傅生说：“今年的展厅里爆发了机器人，但在日常生活中，我们看不到它在哪里被大规模使用。机器人行业的产业爆发还远未到来……对人形机器人的不乐观肯定会被时间证明”。

这两种心态中哪一种代表了人形机器人产业的真相？

事实上，没有真相。不同的心态是由不同的判断标准产生的。公众、从业者和技术专家都有“我心中的人形机器人”评分表，评价规模不同。

至于人形机器人的期望，在人形、大模型、具体三个标准上，公众的期望、媒体的宣传、行业的实际进步都有很大的差异。这就构成了当前人形机器人的理想与现实。

“他们为什么不动？不表演有什么必要插电源？”。

“插电式好看。”。

本届WAIC最抢眼的是中央展厅的“十八金刚”。18个人形机器人站在同一个舞台上，几乎每个游客都聚集在展台前打卡拍照。在展台旁边，我听到了这次对话。

在公众的理想中，人形机器人就像变形金刚和机甲战士一样，走路稳定快捷，动作灵活，随意移动。无论是在工厂工作，照顾老人，还是交付包裹，他们都用手捏。

然而，在工业现实中，WAIC上的人形机器人大部分时间都呆在展位上，在特定时间表演一些手部动作，如苹果和杯子。特斯拉的机器人甚至一动不动地呆在玻璃展示柜里。与机器狗相比，人形机器人更“内向”。

由此可见，目前公众和从业者对人形机器人的认知差异最大，是否需要“双脚行走”。

一般来说，双足人形机器人是“机器人的皇冠”，是终极方向，是大众期待的“变形金刚”。

但是至少要走三步：双足行走，执行复杂任务，大规模商业化。

目前只是“双足行走”的第一步，在技术和商业上都不是最好的状态。

一方面，稳定行走需要系统具有很高的鲁棒性。

面对各种异常情况和输入，机器人仍能通过运动控制模块快速调整姿态，保持正常运行。

依靠机器人与人类、物理世界的真实交互，提高系统的鲁棒性(或稳定性)，积累高质量的数据。如果在训练环境中没有出现问题，机器人可能会出现异常或“死机”，系统研发效率相对较低。

另外，商业上的“双足行走”也不是刚需。

例如，特斯拉、Figure等都宣布要让人形机器人“进厂打工”，从事电池分拣等工作。但实际上，80%以上的制造环节实际上很少用于下肢和躯干，主要是手工完成的。这种简单的上肢系统可以降低控制难度，降低投资成本，更容易大规模生产，因为只需要复制最重要的功能（手）的一部分。一旦加上四肢和躯干，控制难度、耐久性和成本都会大大提高。

因此，目前能够大规模应用的机器人形式是单一极简主义的形式，如机器狗和机械手。为了满足公众的期望，“变形金刚”必须经过许多步骤才能带来巨大的工业效应。

在几年内，我们应该经常在展位和展示柜中看到人形机器人，而不是零距离互动。

一位计算领域的从业者对我说：“现场机器人很多，我觉得主题有点偏离。”。

智能机器人在人工智能会议上遍地开花，基本逻辑是大模型为特定的智能打开了一扇新的解决方案之门。

由于缺乏先验知识，传统的人工智能系统缺乏理解和泛化能力，机器人很难像人类一样具备基本的常识判断能力，这严重制约了高水平个人智能的发展。当机器人执行任务时，人类工程师通常需要将复杂的指令分解为一系列简化和程序化的步骤，然后由机器人（如机械臂）逐一执行。显然，这种“智能水平”并不是很高，人们需要做大量的代码和开发工作。

理想情况下，大模型会给人形机器人的“智能水平”带来颠覆性的变化。

与传统的机器学习方法相比，大模型具有更强的泛化能力，可以为复杂的任务分析、流畅的连续对话、零样本推理等人形机器人的大量任务提供新的解决方案。

例如，告诉人形机器人“我饿了”，它会自动分析这句话背后的需求，并将其分解为可执行的具体动作。通过观察物理环境，从冰箱里拿出一个苹果给你吃，不需要人来分割指令。

但实际上，大模型给人形机器人带来的变化仍然停留在初级的“自然语言交互”中。

目前绝大多数人形机器人都有类ChatGPT的“嘴”。虽然这种组合可以提供更自然、更生动的交互体验，但它只是升级了现有的语音交互，而不是“端到端”任务执行能力的颠覆性突破。

高度自动化不需要人工参与，为什么大模型不能快速实现？

从根本上说，机器人是一门非常复杂的学科，涉及精密机械、自动控制、电子和计算科学，最终呈现出一个非常复杂的智能机电一体化系统。

从监督机器学习到大型语言模型，是计算领域的技术突破，能够在交互、规划、决策等方面发挥作用。然而，从机械化到高度自动化，人形机器人的再进化还需要感知技术、驱动传动技术、万兆网络等技术和资源支持。

“美国公司负责愚弄概念，中国公司负责让机器人着陆和商业化，降低价格，让每个人都能实现机器人的自由。”。

在这次WAIC大会上，国产人形机器人的表现确实比海外公司要亮得多。特斯拉和谷歌在机器人展示上都很无聊。国产人形机器人不仅批量大规模出现，而且在烹饪机器人、电信机器人、家政陪伴机器人等具体场景中展现了商业能力。

那么，这是否意味着国内人形机器人制造商将迅速崛起呢？

当然，我们希望这一天能尽快实现，但现实仍然存在不确定性。

在数据层面，特斯拉、谷歌等科技巨头在自动驾驶领域积累了多年，可以为模型提供足够的空间数据，解决复杂空间中人形机器人的学习问题，从而更好地迭代学习。在WAIC网站上，我们可以看到，国内大多数人形机器人制造商的业务仍然相对孤立，而百度、商业汤等数据积累范围广泛的人工智能公司更关注汽车形式的智能机器人。这意味着解决人形机器人的数据问题仍然取决于生态、工业化和多方共建的解决方案。

在算法层面，GPT-4o能力的国内多模式模型仍然相对稀缺，这极大地限制了人形机器人通过视觉、音频和其他多维数据识别地图和复杂场景的能力。目前，海外产学界已系统地在多模态大模型上下功夫。例如，OpenAI基于GPT-4o，Figure 01构建了具体智能AI模型，谷歌推出了多模态具体视觉语言模型Palm-E。加州大学伯克利分校推出了LM Nav，逐步整合硬件本体、运动小脑和决策大脑。目前国内基础大模型还有很长的路要追。

发展国内人形机器人产业，是一条艰难而正确的道路。在这条路上，我们既不希望“骗子又来了”，也不希望“人类被毁灭”。历史告诉我们，在技术发展的过程中，我们将经历五个阶段：上升、高峰、低谷、攀升和稳定。

为了避免跌入低谷并持续发展，人形机器人产业必须在理想和现实中不断纠正其坐标，并在每个发展阶段实现其实用价值。

【责任编辑：新华网】

LANGUAGE

新闻

财经

观点

文化

国情

承建网站

专业平台

外宣平台

人形机器人的理想与现实