赛道Hyper | 智元GE:重塑机器人智能执行逻辑(智元rg1000)

赛道Hyper | 智元GE:重塑机器人智能执行逻辑(智元rg1000)

作者:周源/华尔街见闻

在科技迭代过程中,具身智能领域的发展,在当面,面临着技术突破的紧迫需求。

7月27日,智元机器人在WAIC 2025“智启具身论坛”发布行业首个动作驱动世界模型开源平台“Genie Envisioner”(以下简称GE)。

GE的出现,为具身智能的实际应用提供了新的技术支撑,也让行业看到了机器人自主决策能力提升的更多可能。

迫切需求:突破传统

自1950年英国数学家、逻辑学家艾伦・图灵(Alan Turing)在《Computing Machinery and Intelligence》(计算机器与智能)论文中提出具身智能概念以来,该领域在漫长的发展过程中,始终存在着一些难以突破的技术瓶颈。

传统的人工智能技术主要依赖符号处理范式,这在处理虚拟环境中的逻辑问题时表现尚可,但在与真实物理世界做交互时,就显得力不从心。

比如在工业生产的装配环节,传统机器人只能按照预设的程序操作,一旦零件位置出现微小偏差,就可能导致整个装配过程中断。

随着工业生产的柔性化、个性化需求日益增长,商业服务场景对机器人的灵活性要求也不断提高,市场迫切需要一种能让机器人更好地适应复杂环境、自主做出决策并执行任务的技术,正是在这样的背景下,具身智能成为行业探索的重要方向。

具身智能强调智能体通过与环境的实时交互,实现感知、认知、决策与行动的一体化;但环境感知的精度、决策的灵活性以及动作执行的精准度等问题,仍然在很大程度上制约着具身智能技术的进一步发展。

智元机器人发布的GE平台,在技术层面,实现了三大核心能力——预测、控制和评测的协同运作,为具身机器人从“看见”到“行动”提供端到端、一体化的解决方案。

GE平台整合了这三项能力,形成一套从视觉感知到动作执行的端到端解决方案。

就预测来说,通过复杂算法,深入分析海量数据。以“做三明治”这个任务为例,GE平台的预测能力,可预判在拿起面包时可能出现的滑落风险,进而指导机械臂调整抓取的角度。

这一过程是基于对面包的质地、机械臂的抓取力度等多维度数据的综合分析,为后续的动作规划提供了有效参考。

控制能力能根据实际情况做出动态调整。比如在搬运不同重量的物体时,会依据物体重量改变机械臂的输出功率:搬运较轻物体时减少功率以避免造成损坏,反之则增加功率以保证搬运稳定性,遇到障碍物时也能及时改变运动轨迹,体现了对实时反馈的快速响应能力。

在任务执行过程中,评测能力就可实时监控效果。比如“倒茶”这个动作,搭载GE平台的智能终端(比如具身机器人),会持续监测茶水倒入的速度和量;当发现接近溢出的情况时,会向控制模块发送信号,调整茶壶的倾斜角度,这样的实时监测和反馈机制,能保障任务的完成效果。

平台技术差异及优势

GE核心组成部分包括多视角视频扩散模型GE-Base和GE-Act动作解码器。

依托AgiBot-World-Beta数据集(包含超100万条、近3000小时头部与双臂腕同步视频流),GE-Base对场景的理解不仅仅停留在表面的识别层面。

在厨房场景中,GE-Base不仅能识别鸡蛋的位置,还能通过鸡蛋的色泽、形状等特征,判断其新鲜度,进而影响机器人的抓取力度,这得益于GE-Base对视频流中空间布局、动作演化以及语义意图的多层解析,为机器人感知外部环境提供有力信息支持。

160M参数动作解码器GE-Act的主要功能,是将GE-Base获取的视觉信息,转化为机器人能执行的动作指令。

以“拧瓶盖”为例,GE-Act能从视觉信息中计算出机械臂需要旋转的角度、施加的扭矩等参数,确保既能拧开瓶盖又不会损坏瓶子,其转化准确性直接影响机器人动作的实际效果。

横向对比来看,GE平台的技术差异体现在哪里?

在技术架构上,多数同类平台的预测、控制、评测能力是相对独立的模块,数据在传输过程中存在一定延迟,协同性一般。

GE平台整合了这三大能力,数据流转延迟较低,故而机器人在面对突发情况时,从预测到控制再到评测的整个流程更快捷。

比如在遇到障碍物时,GE平台能较快完成“预测碰撞风险-控制转向-评测转向效果”系列操作,而同类平台可能会因为协同方面的问题,导致转向不及时或转向过度。

在数据利用方面,部分同类平台依赖单一视角的视频数据做训练,对场景感知存在一定局限,在复杂环境中容易误判。

GE平台的GE-Base采用多视角视频扩散模型,结合AgiBot-World-Beta数据集的多视角视频流,能从多个维度捕捉场景信息,对场景的理解更全面。

比如在仓库中,单一视角可能因为遮挡而无法看清货物的全貌,而多视角的GE-Base能综合不同角度的信息,精准地识别出货物的位置和状态。

AgiBot-World-Beta是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集AgiBot World的一个版本。

2024年12月30日,智元机器人联合上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,正式开源AgiBot World数据集。这个数据集源自智元机器人位于张江科学城的数据采集工厂,这里有上百台人形机器人,为数据集的生成提供硬件支持。

在真实测试时,搭载GE-Act的机器人完成了“做三明治”“倒茶”“擦桌面”等任务,其智能模式有明显变化。

当食材的摆放位置与训练数据中的场景不同时,比如火腿放在面包的侧面,传统机器人可能会因为没有预设该场景而陷入停滞,而搭载GE平台的机器人能自主规划抓取路径,依靠对当前场景的实时感知与决策完成操作。

在产业应用方面,比如工业领域,汽车制造的车型更新较快,传统机器人更换生产线时,重新编程调试往往需要数天时间,而搭载GE平台的机器人能通过视觉识别新零件结构,自主生成组装动作,将切换时间缩短至数小时,提升了生产柔性。

GE平台凭借其技术架构和实际应用效果,为具身智能的发展提供了可行的路径,其在各领域的应用正逐渐改变传统的生产与服务模式。

特别声明:[赛道Hyper | 智元GE:重塑机器人智能执行逻辑(智元rg1000)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

家花不如野花香?抛妻弃子的恶果,在67岁李幼斌身上完美展现(家花不如野花香是什么意思)

一开始张瑞琪是有些不愿意的,但是她最终还是被李幼斌的坚持给打动了,不惜反抗父母也要嫁给这个男人。 史兰芽要比李幼斌小上13岁,她骨子里追求的也是小资生活,但是李幼斌仍然是那个粗线条的汉子,两个人也是时不时的…

家花不如野花香?抛妻弃子的恶果,在67岁李幼斌身上完美展现(家花不如野花香是什么意思)

150V降压芯片H6266B 48V60V72V90V100V120V降3.3V5V12VBUCK仪表供电IC 高性能 外围少(15a降压芯片)

H6266B 作为内置 150V 耐压 MOS 的高压降压开关控制器,凭借其宽压输入、输出及保护功能,在汽车电子、仪表供电等领域展现出显著优势作为一款高性能降压芯片,H6266B 的输出电压精度控制在 ±3…

150V降压芯片H6266B 48V60V72V90V100V120V降3.3V5V12VBUCK仪表供电IC 高性能 外围少(15a降压芯片)

【未来虫教育】新 ideas 究竟有多重要?(未来的虫族雄子 作者:花滑)

他们花了一年左右的时间,以数百种不同的方式对架构进行了调整,最终成功开发出了一种不同类型的模型(这是一种状态空间模型"SSM"),在相同的数据上进行训练时,它的表现与原始的 transformer 大致

【未来虫教育】新 ideas 究竟有多重要?(未来的虫族雄子 作者:花滑)

首播来袭!《知识就是力量》官方直播间“蒲公英的科友会”明日开播!科学原来这么有趣!福利全开(电视剧知靑)

《知识就是力量》官方直播间】 科学家们的趣味日常大起底! 🎁 直播间专属福利大放送! 限时优惠券: 边看直播边领券,科普知识轻松抱回家!精品课赠送: 锁定直播间,优质科普微课免费送! 🎯 福利活动仅限…

首播来袭!《知识就是力量》官方直播间“蒲公英的科友会”明日开播!科学原来这么有趣!福利全开(电视剧知靑)

TF家族王烁然陈奕恒手发写道歉信 因“私联”引不小争议议

搜狐娱乐讯 8月6日深夜,TF家族官方公开了练习生王烁然和陈奕恒针对“社交平台内容”、“私联”争议的手写道歉信,公司表示“将加强对未签约试训生及练习生行为规范的管理和引导。”王烁然称此前注册账号被盗号,目前…

TF家族王烁然陈奕恒手发写道歉信 因“私联”引不小争议议