为什么说人形机器人能爬楼梯就是巨大的突破?
目前许多人形机器人还没办法流畅爬楼梯,这个事实跟人们的普遍认知显然不太符合,因为现在很多人形机器人已经可以跳舞或是表演杂技了,这些对于人类来说反倒是不容易学会的,怎么机器人能爬楼梯就成了巨大突破?
其实这就是莫拉维克悖论的典型例子:对人类而言轻而易举的事情,对机器人来说却十分困难,反之亦是如此。
那么爬楼梯对于人形机器人的难点是什么?
其中最重要的是,机器人需要视觉感知 和运动控制之间的精密协调,动态适应台阶高度和几何形状的变化。
而跳舞表演一般都是在空旷的环境中进行,而且通常不需要视觉输入就能执行,仅依靠本体感觉和内部运动感知即可。
Skild Brain:基于视觉的端到端运动模型
长期以来,关于人形机器人的行走,一般有两种路径。
一种是做地图,先把地面建模成一个高低起伏的地图,然后在图上选好每一步踩哪里,最后控制腿照着走。
另一种就是比较常见的 locomotion 策略,本质上是盲走(不靠视觉):机器人只靠本体感知走路,比如关节角度、腿的速度、是否碰到地面等。但这条路径容易出现的问题是:一旦遇到障碍物,就容易摔倒。所以我们才会看到很多机器人在爬楼梯的时候磕磕绊绊。
不过最近,Skild AI 推出的 Skild Brain(基于视觉的端到端运动模型),给出了一种新的路径。它更类似于人的走路方式,边走边看边适应,依靠机器人的视觉进行反馈。
这是一种具备超强适应能力的,通过视觉感知作为输入,最终到机器人动作执行,由一个神经网络端到端训练得到的 locomotion 策略。
Skild AI 在关于 Skild Brain 最新的发布细节中,主要展现了 Skild Brain 的低层控制能力,这一能力可实现完全由在线视觉和本体感觉驱动的端到端运动控制。
借助摄像头图像,Skild Brain 可以对机器人周围的环境做出动态反应,每一步动作都是即时决策的,这样的话模型能基于最新的观测信息,本能地适应新地形。这点就和人类相似,人类会在面对不同地形环境出现的变化时,会及时调整移动的策略。
不过严格意义上说,Skild AI 在 locomotion 上也并不是纯视觉,它会在一些视觉被遮挡的时候会使用本体感知。其实就类似于我们走路,不会时时刻刻都盯着路,但也不至于因为一小会儿看不到就摔倒。
为了检验 Skild Brain 适应环境的能力,Skild AI 做了一个测试,考验机器人如何自主规划穿越障碍物。
工作人员搭建了一个障碍赛道,包括站上去会晃动的小推车、摆放不齐的木板、高低不一的台阶等障碍物,这些障碍机器人事先并没有进行识别,而且动作也没有提前设计。所以很考验 Skild Brain 的及时决策能力。
而实验结果是机器人完美穿越了障碍物,在应对不同障碍时,会调整通过策略,包括足部落点和迈出步伐的时机等判断,整个视觉端到端系统实现了像人一样的动作本能。
之后,Skild Brain 又展现了其在上下楼梯时的能力,而这并不需要提前设置什么楼梯模式,Skild Brain 可以根据地形的变化来调整步态,不需要在特定环境下设置对应的通过模式,这点就和人类一样,没有复杂的各种切换。
上下楼梯时,楼梯每阶只比机器人的脚宽 3 cm,但 Skild Brain 还是可以做出正确的及时反应,确保机器人的脚落在了正确的位置上,在这个过程中,机器人并不会出现抬脚前的犹豫,整体通过速度也没有降低,这就是 Skild Brain 的精妙之处。
并且在负重的情况下,机器人上下楼梯也一样展现出了稳定的通过能力。
在实际部署的可靠性上,经过测试,Skild Brain 在往返上下长程楼梯时,能够连续正确运行而不会让机器人绊倒。
此外,Skild AI 还对 Skild Brain 遭遇外力时的调整能力进行了测试,机器人在楼梯上受到外部推拉力时,它也能够迅速调整立足点且保持平衡。
Skild AI :传统生成式 AI 训练方法行不通
Skild AI 的技术路径是试图构建一个不断改进的、适用不同场景的通用机器人大脑,可以控制任何硬件执行任何任务。
对此,Skild Brain 采用了分层架构:用低频率的高层动作策略为高频率的低层动作策略提供输入,而且适用于各种四足机器人、人形机器人、桌面机械臂、移动机械手等。
7月 Skild Brain 推出的时候,Skild AI 就号称可驱动从流水线机械臂到人形机器人的几乎所有类型的机器人。
在技术路径上,Skild AI 指出了目前行业内一个普遍但有些被忽视的关键问题。他们认为,现在很多所谓的机器人基础模型缺乏可落地的物理常识,在真实世界中,往往应对不了其中的复杂性。
许多研究团队,从已有的视觉-语言模型(VLM)出发,仅引入不到 1% 的真实机器人数据,就声称构建了所谓的机器人基础模型。
语言大模型虽然语义信息丰富,但它们只是表面光鲜,缺乏真正可操作的底层理解。所以,现在很多被称为机器人基础模型的系统,无法应对真实环境中的复杂操作,尽管他们有一定的语义泛化能力。
而 Skild AI 在训练和数据上则是先在仿真环境与人类操作视频中完成预训练,再借助每台联网机器人的真实运行数据进行微调,这可以为客户提供可直接落地的解决方案。
目前的 Skild AI 已累计进行了三轮融资。今年 6 月,Skild AI 刚刚完成第三轮融资,其中包括软银的 1 亿美元,英伟达的 2,500 万美元,三星的 1,000 万美元,总计 2.3 亿美元,这也使公司估值进一步提升至约 45 亿美元。
Skild AI 的核心团队由卡内基梅隆大学前教授 Deepak Pathak 和 Abhinav Gupta 联合创立,两人在机器人与人工智能领域深耕超 25 年。
核心团队的竞争力和技术路径,正是他们被软银、英伟达、三星等巨头集体投资的重要原因,这家成立于 2023 年、距今才两年的团队,俨然已经是具身智能行业的领头羊。
而在技术细节上,Skild AI 在未来几周内还会持续发布,这也将为行业的技术发展提供新的参考。打造机器人的通用大脑,让机器人能真正走入现实生活中,去应对复杂多变的物理环境,显然我们还需要做的还有很多。