为什么人形机器人️离不开大模型?
外形做得再像人,也只是“壳”。真正决定能否走出实验室、走进千家万户的,是脑子。传统工业机器人️像只会背口诀的学徒:动作精准,却死板;环境一变,立刻宕机。人形机器人️要当“通才”,必须在陌生场景里也能看明白、想清楚、动起来。要做到这一点🕐️,感知—推理—执行必须成环,而这条环目前只能靠多模态大模型来闭合。今天的模型勉强够到“L2 水平”,能应付常见套路,却远谈不上举一反三;接下来怎么让模型更通人性,仍是算法、数据、训练方式三道关。
两条腿走路:架构与数据一起使劲
最近一年,模型端和“饲料端”都在提速。
架构:最早 SayCan 只能“说一步做一步”;RT-1 把视觉和语言揉进同一网络;PaLM-E、RT-2 进一步让“看图说话”直接变成“看图动手”。2024 年的 π0 把动作当“专家”单独调教,控制频率冲到 50 Hz;2025 年的 Helix 干脆搞“双脑”——快脑管毫秒级动作,慢脑管任务规划,整体刷新率飙到 200 Hz,机器人️动作肉眼可见地顺滑。
数据:目前靠三条水管同时灌水——互联网图文给常识,仿真环境给试错空间,真机数据让机器人️别把厨房当游戏厅。光学动捕依旧是采集真机动作的主力手段。训练套路也从“先海量垃圾数据、再少量精品微调”改成“一边精修网络结构,一边让三类数据彼此补位”。
下一步往哪走?
感官再扩列:除了眼睛和耳朵,把触觉、温度甚至力反馈也接进来,让机器人️“手上有数”。
脑子再升级:像 Cosmos 这样的“世界模型”正在尝试先预测“下一秒世界长啥样”,再决定“我该干啥”,把感知、建模、决策串成一条更紧的链。
训练场再升级:仿真与真实场景无缝拼接的“混合训练场”会成为标配——既要有高保真度,也要像积木一样好扩展。谁先把这块地基打牢,谁就能在下一轮竞赛里抢跑。