独家丨星海图将发布首个开放世界真机数据集及VLA开源模型(星海图片唯美二次元)

独家丨星海图将发布首个开放世界真机数据集及VLA开源模型(星海图片唯美二次元)

作者 | Yoky

邮箱 | yokyliu@pingwest.com

尽管今天语言模型的开源生态已经十分蓬勃,但机器人领域,开源还是很小众的词汇,相比于模型的开源,数据的开源更为稀缺,甚至有公司直言“数据是不可能开源的”。

本来就不走寻常路的星海图,决定继续唱“反调”。

硅星人独家了解到,星海图即将开源全球首个开放场景高质量真机数据集Galaxea Open-World Dataset,及其G0-快慢双系统全身智能VLA模型。这一举动无疑在相对各自为战的机器人行业打开了一条新的路径。

成立不到两年,星海图已完成7轮融资、累计近15亿元人民币,最新1亿美元A4/A5轮由今日资本与美团系共同领投,公司估值正快速冲向10亿美元,是目前机器人独角兽中很有特点的一家公司。

在行业普遍保守的背景下,走开放路线,让这家公司不再是技术构想上独树一帜,而是真刀真枪地干起了的革命性实践。

据硅星人了解,星海图即将发布的全球首个开放场景高质量真机数据集Galaxea Open-World Dataset包含500小时真实世界移动操作数据,覆盖家庭、厨房、零售、办公等50个场景、150类任务、1600+物体、58种操作技能,全程使用星海图R1 Lite本体采集,保证动作空间一致性与语言标注的高精度对齐。这一数据集的突破性在于其真实性和完整性的完美结合。以往的机器人数据集要么规模有限,要么局限于实验室环境,要么因为多平台采集导致数据一致性问题。而星海图的数据集不仅规模庞大,更重要的是全部来自真实的生活和工作环境,同时通过统一硬件平台确保了数据的一致性和可靠性。

星海图G0-快慢双系统全身智能模型结合System-2(规划,VLM)+ System-1(执行,VLA),分别在2Hz与200Hz异步运行,实现从自然语言指令到23自由度全身控制的长程任务执行。这种架构设计灵感来源于人类认知的“双系统理论”,巧妙地将深度思考与快速反应结合起来。慢系统负责理解复杂指令、分析环境状况、制定执行计划,而快系统则专注于精确的动作执行和实时反馈控制。两个系统的异步协作不仅提高了执行效率,也增强了系统的鲁棒性和适应性。

星海图G0快慢双系统全身智能模型,结合System-2(规划,G0-VLM)+ System-1(执行,G0-VLA)异步运行,实现从视觉和语言指令到23自由度全身控制的长程任务执行。提出3阶段训练方法:跨本体预训练泛化感知与语言理解,再用单本体高质量数据精训动作控制,最后少样本后训练提升特定任务表现。

更令人印象深刻的是其三阶段训练策略的创新性。跨本体预训练泛化感知与语言理解,再用单本体高质量数据精训动作控制,最后少样本后训练提升特定任务表现。这种渐进式的训练方法解决了机器人学习中的一个核心问题:如何在保持通用性的同时实现精确控制。星海图团队通过大量实验发现,当预训练平台与目标机器人之间存在较大体现差距时,跨体现预训练的效果会显著减弱,甚至产生负面影响。这一发现颠覆了业界对于跨平台预训练必然有益的传统认知,突出了单体现预训练的重要性,特别是对于需要精确全身协调的复杂任务。

在实际性能表现上,G0突破了柔性物体操作、全身移动控制、长程任务与泛化性的瓶颈,在少样本迁移与本体特定技能上均显著优于现有最新的benchmark Pi0,特别在整理床铺等全身协调任务表现领先。这些任务的成功执行不仅验证了技术方案的有效性,更重要的是证明了真实世界数据训练的价值。整理床铺这样的任务涉及柔性物体操作、全身协调控制、长序列规划等多个技术难点,G0的优异表现表明其已经具备了在复杂真实环境中执行实用任务的能力。

站在行业全局的高度来看,如果能够引起数据共享的连锁反应,整个机器人行业或许将打开另外一种局面。

高质量机器人数据集的开源将显著降低中小企业和研究机构的研发门槛。过去,收集大规模真实世界机器人数据需要巨额投资和长期积累,许多有想法的团队因为缺乏数据基础而无法开展研究。现在,研究者可以直接基于Galaxea数据集进行算法创新,大大缩短了从研究到应用的周期,让更多的创新想法有机会得到验证和实现。

其次,统一的数据格式和标注标准有助于建立行业基准,推动机器人领域的规范化发展。不同团队的研究成果将具有可比性,避免了各自为政、重复建设的问题,促进了科学研究的系统性和累积性进步。这种标准化还为监管部门制定相关政策提供了重要参考,有助于建立机器人安全、伦理等方面的行业规范。

更重要的是,开源数据集为不同领域的专家提供了共同的研究平台,激发了跨学科创新的活力。计算机视觉、自然语言处理、控制理论等不同领域的研究者可以在同一个数据基础上验证各自的理论和算法,这种跨领域的交流与合作往往能够产生意想不到的创新突破。同时,硬件厂商、软件开发者、系统集成商等产业链各环节也能够基于统一的数据标准进行更好的协作,形成良性的生态循环。

正如开源软件推动了互联网的繁荣,开源机器人数据和模型也可能催生出一个更加开放、协作、创新的机器人生态系统。在这个生态中,技术创新的速度将大幅提升,应用场景将更加丰富,而机器人真正走入千家万户的愿景也将更快实现。

这家“不走寻常路”的公司,用实际行动证明了有时候“反叛”并不意味着对抗,而是为了推动整个行业向前发展,或许正在为机器人行业找到新的方向。

点个爱心,再走 吧

特别声明:[独家丨星海图将发布首个开放世界真机数据集及VLA开源模型(星海图片唯美二次元)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

聚四氟微粉涂料,涂层具有耐环境侵蚀。(聚四氟用途)

聚四氟微粉涂料产品我们细心,倡导“以人为本、科技 服务”的企业理念,坚持走 “科技联姻”之路,立足行业、做高质量。 聚四氟微粉涂料基本用途:可作为一种耐水或海水浸泡的,用于水池、游泳池等,起到防水防腐的用途…

聚四氟微粉涂料,涂层具有耐环境侵蚀。(聚四氟用途)

善睐物联:物联网卡使用限制,流量、地域与设备绑定规则(善睐物联下载)

为保障网络安全、优化资源配置以及合规运营,物联网卡的使用存在着多方面的限制,其中流量、地域与设备绑定规则尤为重要。以智能车载导航设备为例,其物联网卡的定向流量仅用于地图数据更新、实时路况信息获取等与导航相关的…

善睐物联:物联网卡使用限制,流量、地域与设备绑定规则(善睐物联下载)

滤芯P-16RF01 AIR-TEX-G-15 0950R010BN3HC替代川润黎明颇尔PALL(滤芯到期了TDS值为6)

DFFBHHC1500TL10B2X0EPRB3L24滤芯G:0400-DN010-BN4HC高压滤油器FMNDBNHC400LDF10B1.1 过滤器芯TEX2-400-20回油滤芯TEX2-40*…

滤芯P-16RF01 AIR-TEX-G-15 0950R010BN3HC替代川润黎明颇尔PALL(滤芯到期了TDS值为6)

禁止AI使用!《坏蛋联盟2》片尾声明,捍卫创作者权益(禁止ai建造居住站)

根据社交媒体平台X(前Twitter)用户Rendy Jones的消息,影片的片尾字幕中赫然印着一条引人注目的声明:“本作品在各个司法辖区内,依据包括但不限于《欧盟版权指令》第2019790号第4(3)条…

禁止AI使用!《坏蛋联盟2》片尾声明,捍卫创作者权益(禁止ai建造居住站)

中国移动董事长的“吐槽”:携号转网为何让巨头也头疼?(中国移动董事长杨杰个人简历)

这政策本来是给咱们用户带便利的,可话说回来,连移动这种拥有将近10亿用户、年营收接近一万亿的超级央企都开始犯愁了,究竟是怎么回事?他说要“推进行风纠风,维护行业生态”,大家可以理解为盼着制定更科学的游戏规则,…

中国移动董事长的“吐槽”:携号转网为何让巨头也头疼?(中国移动董事长杨杰个人简历)