9月28日,悠然无界大模型BLM-1.0完成迭代升级,并同步全面开源模型权重、训练代码与评测基准。
该模型在统一模型内实现跨空间迁移、跨任务学习与跨本体泛化能力,它能在保留原生指令跟随能力的前提下无缝迁移到跨本体『机器人』️控制,以单一模型覆盖多种本体,实现跨本体知识共享与一致性控制,并在空间理解、空间推理和空间执行三类评估基准上综合超过同体量SOTA方法。
一、背景与愿景:空间智能的“无界”探索
在工业制造、智慧城市、服务『机器人』️等场景中,AI面临着两大核心挑战:
数字与物理的断层:传统大模型擅长处理语言与视觉信息,但难以在真实物理世界中输出高频、精准的控制指令。
任务与设备的碎片化:不同『机器人』️、不同任务之间模型无法迁移,往往需要重复开发,效率低且成本高。
为解决上述问题,考拉悠然提出“空间智能”战略,并以悠然无界大模型BLM-1.0 为核心技术突破口,致力于打造统一的空间基础模型。这意味着:
数字世界中积累的知识能够迁移至真实物理世界;模型可跨场景、跨任务共享认知与策略;单一模型即可实现对多种『机器人』️平台的统一控制。
二、悠然无界大模型BLM-1.0:从多模态理解到空间智能
悠然无界大模型BLM-1.0是一种以多模态世界模型为核心的智能体系统,聚焦于“空间理解—空间推理—空间执行”三大任务目标,实现数字空间与物理世界的知识共享和能力促进。
该模型通过融合视觉、语言、动作等多模态信息,构建出统一的感知、推理与动作预测机制,打通从多模态输入理解到具身行为控制的完整链路。
在整体架构上,BLM-1.0围绕通用智能体的构建目标,推动从静态感知向动态交互、从任务专用向任务泛化的能力跃迁;同时,模型具备高度扩展性与跨场景适应性,能够稳定支持多类型任务与异构本体间的协同操作。
三、BLM-1.0 核心理念:三大“无界”能力
悠然无界大模型BLM-1.0的命名寓意着“Boundless”,体现其三大突破:“空间无界—任务无界—本体无界”。
空间无界:BLM-1.0将数字空间中获得的知识迁移至物理世界,进而驱动真实环境下的感知融合、空间推理与『机器人』️控制。这打通了语言与现实的表示鸿沟,实现『机器人』️感知与控制一体化,为模型在具身场景中的应用奠定了基础。
本体无界:BLM-1.0在面对不同类型的『机器人』️本体时,仍能保持一致的任务理解与动作生成能力。通过对不同本体的潜在行为模式进行对齐,模型实现了统一的策略表达,支持跨平台的泛化控制与协同操作。从而单一模型控制不同硬件,降低跨平台开发成本。
通过这三大能力,BLM-1.0实现了从“看懂世界”到“协作世界”的完整闭环。
四、技术架构:简洁而强大的双模块设计
BLM-1.0采用“多模态语言模型+扩散式控制头”的简洁结构,将感知与推理与动作控制解耦又紧密协作:
多模态语言模型(MLLM)
负责数字空间的任务,如视觉-语言问答、空间推理等。
输出对场景、任务与意图的高层语义表示。
扩散式控制头
处理物理空间对多种异构『机器人』️的高频控制任务。
将语言模型输出的意图表示,结合实时状态信息,生成连续、精细的『机器人』️动作序列。
整体系统由数据驱动、知识引导与物理约束三项机制共同支撑,覆盖从语言理解到动作生成的完整链路。该结构在保持泛化能力的同时,也确保了系统在多任务、多环境和多本体场景下的执行稳定性与策略一致性。
BLM-1.0采用双阶段训练新范式,使模型既能在数字世界中完成复杂的认知推理,又能在物理世界中精确操控真实『机器人』️。
阶段-1设计具身指令对齐策略,实现原生指令跟随与具身推理的深度融合;
阶段-2提出意图桥接机制,结构化提取多模态语义意图并精准映射至控制模块,打通从理解到执行的闭环路径。
五、数据体系:跨空间、跨本体的训练基石
BLM-1.0 提出了全新的跨本体数据合成管道,融合高层意图规划与闭环执行采集,合成大规模高质量『机器人』️数据,构建了覆盖数字与物理两个维度的大规模跨本体数据体系:
数字空间数据
约400万条常规多模态问答数据,确保模型具备良好的语言对齐与多模态指令遵循能力。
150万条空间推理数据,提升模型在三维环境中的理解与推理能力。
5万条空间问答数据。
物理空间数据
基于ManiSkill 平台构建的『机器人』️操作数据,用于支撑跨本体执行能力。
覆盖4种『机器人』️本体×6大任务(如抓取、推送、堆叠、放置、拉动、立柱等)。
通过高层意图规划与闭环执行采集,BLM-1.0 保证了数据的多样性与高质量,使其具备跨场景、跨平台的泛化能力。
六、性能表现:全面刷新行业基准
作为首个同时覆盖数字空间与物理空间的统一空间基础模型,悠然无界大模型BLM-1.0支持基础多模态问答、具身问答、空间推理和跨本体『机器人』️操作四类核心任务,在空间理解、空间推理、空间执行三大核心能力上实现突破:在数字空间刷新六项评测基准,在物理空间实现四本体统一控制并刷新了六项任务基准。
数字空间:理解与推理全面领先
在RoboVQA 任务中表现突出,具身任务推理能力显著提升。
在ShareRobot 中“正向功能判断”“规划步骤生成”“上下文规划”子任务得分达73.29、60.49、71.22,展现强任务规划能力。
亮点数据:
ShareRobot 任务中“上下文规划”得分85.73,较同类模型提升近30%。
HoloAssist 任务中,多步复杂操作推理准确率领先11%。
物理空间:四种『机器人』️统一控制
物理空间基准测试时,BLM-1.0在跨4种『机器人』️本体(Panda、xArm-6、xArm-7、WidowX AI)各6大不同难度的操作任务中,平均得分达75.83%,超越主流 VLA 模型,验证了 BLM-1.0 的跨本体泛化能力。
在Panda『机器人』️的“PushCube(推送立方体)”“PullCube(拉动立方体)”任务中,成功率达100%;在xArm-6『机器人』️的“StackCube(堆叠立方体)”任务中,成功率达86%,显著优于同类模型。
测试示例1 | 空间理解与动作推理
在『机器人』️操作场景任务中,BLM-1.0 展现出卓越的空间理解与任务规划能力。如图所示,模型需要判断『机器人』️熨烫衣物过程中下一步最合理的动作。
BLM-1.0:正确推理出应压平衣物右侧,选择了C选项,逻辑完整、推理链清晰。
其他模型:未能正确理解任务状态,输出错误答案。
这体现了BLM-1.0 在复杂任务分解与跨模态推理方面的领先优势。
测试示例2 | 自然语言指令理解
在自由问答任务中,模型需要根据第一视角图像生成准确的空间导航路径。
BLM-1.0:输出的路径规划与真实答案完全一致,评分1.0,能够精确描述“直行→ 右转→ 左侧出口”的完整步骤。
其他模型:回答偏离目标路径,或仅给出模糊指令,评分明显较低。
这表明BLM-1.0具备高水平的环境感知与自然语言理解能力,可广泛应用于服务『机器人』️、导航等场景。
七、应用落地:从工业到服务场景
目前,BLM-1.0已成功应用于多种『机器人』️场景。
智慧文旅:成都世运会期间,联合成都交投信息研发的智能导览机器狗,依托模型空间理解与交互能力,为世运村的运动员提供个性化导览服务。
零售场景:与长虹集团合作研发的展厅/卖场导购『机器人』️,通过模型的“空间感知+主动服务”能力,提升消费场景交互效率。
工业智造:在工业设备安装场景中,BLM-1.0结合UU Holo Glass O1 AR工业眼镜👓,可实时投射安装指引、生成操作指令,将复杂设备的安装返工成本与监督人工成本均下降80%,使作业新标准在24小时内快速同步,并能助力新手在当日掌握基础业务,实现快速上岗。
八、全面开源:共建空间智能生态
BLM-1.0现已面向全球开源,模型权重、训练代码与评测基准全部可用,推动全球开发者与科研机构共同创新:
BLM-1.0:
项目主页:boundless-large-model.github.io
GitHub 代码:github.com/boundless-large-model/BLM-Inference
HuggingFace 模型:huggingface.co/BLM-Lab/BLM-Inference
九、结语:迈向无界未来
悠然无界大模型BLM-1.0 的发布不仅是一项技术突破,更是空间智能发展的里程碑。从数字空间的理解与推理,到物理空间的精准执行,BLM-1.0 展示了 AI 驱动未来产业变革的无限可能。
悠然无界大模型,让AI从“看到世界”到“协作世界”,开启空间智能无界时代!
免责声明:此文内容为本网站转载企业资讯,仅代表作者个人观点,与本网无关。所涉内容不构成投资、消费建议,仅供读者参考,并请自行核实相关内容。
原文转自:周口网