赛道Hyper | 智元GE:重塑『机器人』️智能执行逻辑(智元rg1000)

作者:周源/华尔街见闻

在科技迭代过程中,具身智能领域的发展,在当面,面临着技术突破的紧迫需求。

7月27日,智元『机器人』️在WAIC 2025“智启具身论坛”发布行业首个动作驱动世界模型开源平台“Genie Envisioner”(以下简称GE)。

GE的出现,为具身智能的实际应用提供了新的技术支撑,也让行业看到了『机器人』️自主决策能力提升的更多可能。

迫切需求:突破传统

自1950年英国数学家、逻辑学家艾伦・图灵(Alan Turing)在《Computing Machinery and Intelligence》(计算机器与智能)论文中提出具身智能概念以来,该领域在漫长的发展过程中,始终存在着一些难以突破的技术瓶颈。

传统的人工智能技术主要依赖符号处理范式,这在处理虚拟环境中的逻辑问题时表现尚可,但在与真实物理世界做交互时,就显得力不从心。

比如在工业生产的装配环节,传统『机器人』️只能按照预设的程序操作,一旦零件位置出现微小偏差,就可能导致整个装配过程中断。

随着工业生产的柔性化、个性化需求日益增长,商业服务场景对『机器人』️的灵活性要求也不断提高,市场迫切需要一种能让『机器人』️更好地适应复杂环境、自主做出决策并执行任务的技术,正是在这样的背景下,具身智能成为行业探索的重要方向。

具身智能强调智能体通过与环境的实时交互,实现感知、认知、决策与行动的一体化;但环境感知的精度、决策的灵活性以及动作执行的精准度等问题,仍然在很大程度上制约着具身智能技术的进一步发展。

智元『机器人』️发布的GE平台,在技术层面,实现了三大核心能力——预测、控制和评测的协同运作,为具身『机器人』️从“看见”到“行动”提供端到端、一体化的解决方案。

GE平台整合了这三项能力,形成一套从视觉感知到动作执行的端到端解决方案。

就预测来说,通过复杂算法,深入分析海量数据。以“做三明治”这个任务为例,GE平台的预测能力,可预判在拿起面包时可能出现的滑落风险,进而指导机械臂调整抓取的角度。

这一过程是基于对面包的质地、机械臂的抓取力度等多维度数据的综合分析,为后续的动作规划提供了有效参考。

控制能力能根据实际情况做出动态调整。比如在搬运不同重量的物体时,会依据物体重量改变机械臂的输出功率:搬运较轻物体时减少功率以避免造成损坏,反之则增加功率以保证搬运稳定性,遇到障碍物时也能及时改变运动轨迹,体现了对实时反馈的快速响应能力。

在任务执行过程中,评测能力就可实时监控效果。比如“倒茶”这个动作,搭载GE平台的智能终端(比如具身『机器人』️),会持续监测茶水倒入的速度和量;当发现接近溢出的情况时,会向控制模块发送信号,调整茶壶的倾斜角度,这样的实时监测和反馈机制,能保障任务的完成效果。

平台技术差异及优势

GE核心组成部分包括多视角视频扩散模型GE-Base和GE-Act动作解码器。

依托AgiBot-World-Beta数据集(包含超100万条、近3000小时头部与双臂腕同步视频流),GE-Base对场景的理解不仅仅停留在表面的识别层面。

在厨房场景中,GE-Base不仅能识别鸡蛋的位置,还能通过鸡蛋的色泽、形状等特征,判断其新鲜度,进而影响『机器人』️的抓取力度,这得益于GE-Base对视频流中空间布局、动作演化以及语义意图的多层解析,为『机器人』️感知外部环境提供有力信息支持。

160M参数动作解码器GE-Act的主要功能,是将GE-Base获取的视觉信息,转化为『机器人』️能执行的动作指令。

以“拧瓶盖”为例,GE-Act能从视觉信息中计算出机械臂需要旋转的角度、施加的扭矩等参数,确保既能拧开瓶盖又不会损坏瓶子,其转化准确性直接影响『机器人』️动作的实际效果。

横向对比来看,GE平台的技术差异体现在哪里?

在技术架构上,多数同类平台的预测、控制、评测能力是相对独立的模块,数据在传输过程中存在一定延迟,协同性一般。

GE平台整合了这三大能力,数据流转延迟较低,故而『机器人』️在面对突发情况时,从预测到控制再到评测的整个流程更快捷。

比如在遇到障碍物时,GE平台能较快完成“预测碰撞风险-控制转向-评测转向效果”系列操作,而同类平台可能会因为协同方面的问题,导致转向不及时或转向过度。

在数据利用方面,部分同类平台依赖单一视角的视频数据做训练,对场景感知存在一定局限,在复杂环境中容易误判。

GE平台的GE-Base采用多视角视频扩散模型,结合AgiBot-World-Beta数据集的多视角视频流,能从多个维度捕捉场景信息,对场景的理解更全面。

比如在仓库中,单一视角可能因为遮挡而无法看清货物的全貌,而多视角的GE-Base能综合不同角度的信息,精准地识别出货物的位置和状态。

AgiBot-World-Beta是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模『机器人』️数据集AgiBot World的一个版本。

2024年12月30日,智元『机器人』️联合上海人工智能实验室、国家地方共建人形『机器人』️创新中心以及上海库帕思,正式开源AgiBot World数据集。这个数据集源自智元『机器人』️位于张江科学城的数据采集工厂,这里有上百台人形『机器人』️,为数据集的生成提供硬件支持。

在真实测试时,搭载GE-Act的『机器人』️完成了“做三明治”“倒茶”“擦桌面”等任务,其智能模式有明显变化。

当食材的摆放位置与训练数据中的场景不同时,比如火腿放在面包的侧面,传统『机器人』️可能会因为没有预设该场景而陷入停滞,而搭载GE平台的『机器人』️能自主规划抓取路径,依靠对当前场景的实时感知与决策完成操作。

在产业应用方面,比如工业领域,汽车制造的车型更新较快,传统『机器人』️更换生产线时,重新编程调试往往需要数天时间,而搭载GE平台的『机器人』️能通过视觉识别新零件结构,自主生成组装动作,将切换时间缩短至数小时,提升了生产柔性。

GE平台凭借其技术架构和实际应用效果,为具身智能的发展提供了可行的路径,其在各领域的应用正逐渐改变传统的生产与服务模式。

特别声明:[赛道Hyper | 智元GE:重塑『机器人』️智能执行逻辑(智元rg1000)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

骆驼官方向『王俊凯』道歉,下架相关视频,严厉处罚涉事工作人员、相关负责人(骆驼高管)

自与『王俊凯』先生携手合作以来,骆驼品牌一直珍视这段深厚的友谊,我们完全理解此次事件给粉丝带来的失望与愤怒,也由衷感谢大家及时指出问题并督促我们改正。这份迅速的道歉与整改,既是对『王俊凯』和粉丝们的尊重,也传递出了…

骆驼官方向『王俊凯』道歉,下架相关视频,严厉处罚涉事工作人员、相关负责人(骆驼高管)

卖房买房省一笔!个税退税攻略请查收(卖房自己买房优惠多少)

为您推荐 · · · 编辑设计:湖南税务 来 源:中国税务报…

卖房买房省一笔!个税退税攻略请查收(卖房自己买房优惠多少)

把白色背景拍成纯白,是摄影棚布光拍摄的及格下线,否则一切免谈(白色背景拍出来不够白)

背景灯需要两个,分别对称地放置在背景布的两侧,灯头要贴紧背景,并且必须加上束光筒或者带遮光板的灯罩,这一步特别关键,因为它能确保背景的光线不会泄露到主体上去。如果主体的光圈是f8、快门1200秒,那么背景…

把白色背景拍成纯白,是摄影棚布光拍摄的及格下线,否则一切免谈(白色背景拍出来不够白)

演员许娣:和丈夫恩爱44年,拍戏片酬全上交,甘做夫管严!(许娣演技真棒)

他什么也没说,第二天便把所有的缴费设置成自动扣款。没有人抱怨过,哪怕在她拍《我的前半生》时,连轴转地拍摄,他也带着保温桶坐高铁去横店,只为了在片场外等上三个小时,好让她趁热吃上一口炖蛋。我演戏时是他,我生病时…

演员许娣:和丈夫恩爱44年,拍戏片酬全上交,甘做夫管严!(许娣演技真棒)

近视手术治疗大概要多少钱(近视手术治疗大概要花多少钱)

激光近视手术根据不同的类型,其费用存在显著差异。标准激光近视手术的价格大约在5000元左右,而全飞秒激光近视眼手术的费用则高达数万元。 具体来看,常规的激光近视手术,平均每只眼睛的费用在4000到6000元之间

近视手术治疗大概要多少钱(近视手术治疗大概要花多少钱)