今日,微软正式推出首款源自Phi系列视觉语言模型的『机器人』️模型 ——Rho-alpha(ρα)。微软方面表示,诚邀有意向为自家『机器人』️及应用场景测试该模型的机构,申请加入 Rho-alpha 科研早期访问计划,后续该模型还将通过微软 Foundry 平台对外开放。
据介绍,Rho-alpha 可将自然语言指令转化为控制信号,驱动『机器人』️完成双臂协同操控任务,属于 VLA + 模型范畴。相较于传统 VLA 模型,它突破了感知与学习模态的限制,在感知层面新增了触觉感知功能,目前团队还在研发相关技术以融入力觉等更多感知模态;在学习层面,研发人员正致力于让该模型在实际部署过程中,通过接收人类反馈持续优化性能。
微软方面称,他们希望通过这些技术突破提升物理系统的自适应能力,毕竟自适应能力才是智能的核心标志,而能更好适应动态场景、贴合人类需求的『机器人』️,在生活和工作场景中会更具实用价值,也能赢得用户更多信任。
公开的演示画面显示,在自然语言指令的触发下,Rho-alpha 可操控『机器人』️完成 “用右侧机械爪按下绿色按钮”“拔出红色电线”“打开最上方的开关” 等一系列操作,相关测试基于微软研究院最新推出的物理交互测试基准 “百宝箱”,视频均为『机器人』️实时操作画面。
微软透露,目前团队正针对其及合作方重点关注的双臂操控任务,对 Rho-alpha 的训练流程和训练数据集开展端到端优化,以此提升模型的性能和运行效率。该模型现阶段正在双臂『机器人』️和人形『机器人』️平台上接受测试评估,相关技术细节报告将于未来数月内正式发布。
据悉,Rho-alpha 实现兼具触觉感知与视觉语言理解的操作,得益于一套复合型训练方式,其不仅学习了真实物理场景演示的动作轨迹数据,还融合了模拟任务数据与大规模网络视觉问答数据。微软方面表示,未来将沿用这一技术框架,继续拓展模型的感知模态,使其能够胜任更多现实场景下的任务。
微软方面表示,『机器人』️领域预训练级别的数据本就十分稀缺,尤其是包含触觉反馈等小众感知模态的数据,而仿真技术正是破解这一难题的关键抓手。其基于开源的『英伟达』 Isaac Sim 仿真框架,采用多阶段强化学习技术生成模拟数据,并将这些模拟动作轨迹与商用及开源的实体演示数据集相融合,构建出完整的训练数据体系。
『英伟达』『机器人』️与边缘人工智能副总裁迪普・塔拉评价称,研发具备推理和执行能力的基础模型,必须先解决现实场景下多样化数据稀缺的问题。微软研究院借助 Azure 平台上的『英伟达』 Isaac Sim,生成物理特性精准的模拟数据集,大幅加速了 Rho-alpha 这类全能型模型的研发进程,让复杂操控任务的落地成为可能。
尽管拓展感知能力能让 Rho-alpha 在运行过程中实时调整动作,但『机器人』️仍有可能出现难以自行修正的失误。对此,操作人员可借助 3D 鼠标这类简易遥操作设备,帮助『机器人』️重新回到正确的操作轨道。微软方面称,目前正聚焦相关工具开发与模型适配技术,让 Rho-alpha 在实际运行中能够通过接收人类的纠错反馈持续进化。
另一组演示视频显示,配备触觉传感器的双 UR5e 机械臂系统,在 Rho-alpha 的控制下完成了插头插拔与工具箱🧰收纳等操作。在插头插拔的演示中,右侧机械臂在插入插头时遇到困难,最终在人类的实时引导下完成任务,相关视频同样为『机器人』️实时操作画面。
微软方面表示,『机器人』️制造商、系统集成商以及终端用户,最清楚哪些应用场景能让前沿物理人工智能技术发挥出颠覆性价值。为赋能这些合作伙伴,微软正大力研发 Rho-alpha 这类基础技术及配套工具,帮助他们利用自有数据,在云端训练、部署并持续优化专属的物理人工智能模型,以适配自家的『机器人』️及应用场景。(鞭牛士编译)




