智元机器人高管谈人形机器人商业化。继去年“十八金刚人形机器人”阵列震撼行业后,一年内人形机器人以多种技能推动具身智能技术迈向新高度。然而,这些机器人仍缺乏理解物理世界的核心能力——世界模型。在2025年世界人工智能大会上,智元机器人发布了首个面向真实世界的双臂机器人世界模型开源平台“Genie Envisioner”,再度成为焦点。
世界模型的灵感来自人类心智运作机制。智元机器人通用业务部总裁王闯指出,将人类认知转化为机器人执行闭环是当前最大挑战。智元将机器人的“大脑”定义为“一体三智能”架构:机械本体协同运动智能、交互智能和作业智能。在作业智能领域,泛化率、成功率与效率之间存在矛盾——提高泛化率往往导致成功率下降,追求高成功率则牺牲效率。全面泛化尚不现实,聚焦特定领域才是商业化务实选择。智元首席运营官邱恒认为,人形机器人需经历“拟人-类人-超人”三阶段,而世界模型是实现“超人”的必备要素。这需要打通多个“小世界”,例如在4S店场景中整合产品理解、话术技巧与情绪传递能力。交互智能同样面临瓶颈,当前语音转文字等初级处理方式难以实现端到端输入,对人类语义情感的深度理解仍是突破重点。
为攻克世界模型,智元在本届大会发布首个双臂机器人开源平台“Genie Envisioner”。该平台融合预测、控制、评测三大功能,提供从视觉感知到动作执行的端到端方案。其核心组件GE-Base通过超百万条数据训练,精准解析环境空间布局与动作意图;GE-Act动作解码器则实现“看懂”到“会做”的转化。与传统指令执行模式不同,GE平台赋予机器人自主规划能力——先构思方案、验证可行性再执行。演示中搭载GE的机器人成功完成做三明治、倒茶、用微波炉等复杂任务,成功率超过行业均值。
清华大学苏航研究员强调,推动AI从数字世界走向物理世界的关键在于解决泛化能力。物理世界受自然规律约束,AI应用难度更高。针对真实数据的安全性与真实性局限,仿真数据成为重要补充。商汤科技同期发布的“悟能”平台印证了这一趋势,其“开悟”世界模型基于10万3D资产构建多视角视频生成能力,可同时处理11个摄像头画面,创新融合第一与第三视角,使机器人在自主训练时同步学习人类示范动作,大幅提升跨场景泛化效率。
从技能展示到认知突破,智元机器人正引领具身智能进入新阶段。世界模型作为物理世界与机器智能的桥梁,其突破将真正赋予机器人“想象的翅膀”。随着智元GE平台与产学研力量的协同推进,具身智能的“iPhone时刻”加速临近。智元机器人通过持续创新定义行业高度,在通向“超人”的征途中,每一次认知闭环的完成都在为机器注入灵魂,加速绘制人类与机器共生的未来图景。