本文一作:陈天行,TianxingChen.github.io,2025 级香港大学 MMLab 博士生,师从罗平教授。在学术顶会以一作 / 共一发表多篇论文,获得 ECCV 协同具身智能研讨会 Best Paper,CVPR Highlight 等。获得 CCF 优秀大学生等多项荣誉以及 20 余项国家级竞赛奖项。担任 CVPR 2025 RoboTwin 双臂协作竞赛组织者。发起《具身智能技术指南》项目,已破 6k Github Stars。Lumina 具身智能社区联合创始人。
最近,上海交通大学 ScaleLab 与香港大学 MMLab@HKU领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平台在 CVPR 上举办的双臂协作竞赛 Technical Report。RoboTwin 2.0 开源了大规模域随机化双臂操作数据合成器与 50 个操作任务的评测基准集,Technical Report 中分享了 RoboTwin 赛事的优胜方案以及总结见解。
两篇论文的第一作者为香港大学 MMLab@HKU 在读博士生陈天行,通讯作者为上海交大 ScaleLab 助理教授穆尧以及香港大学副教授罗平。共同第一作者包括陈攒鑫、陈柏均、蔡子健、刘艺彬等。
RoboTwin 2.0 介绍视频如下:
https://mp.weixin.qq.com/s/SwORezmol2Qd9YdrGYchEA
RoboTwin 系列工作曾中稿 CVPR 2025 Highlight、ECCV 2024 MAAS Workshop Best Paper,并作为第十九届“挑战杯人工智能 + 挑战赛”官方赛题、RoboTwin 双臂协作竞赛赛题@CVPR2025 MEIS Workshop、张江人形机器人创新创业大赛赛题,Github 上斩获 1.2k Stars。
- 论文标题:RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
- 项目主页:https://robotwin-platform.github.io/
- 论文链接:https://arxiv.org/abs/2506.18088
- 代码链接: https://github.com/RoboTwin-Platform/RoboTwin
- 用户文档:https://robotwin-platform.github.io/doc/
- Technical Report 标题:Benchmarking Generalizable Dual-Arm Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop
- Technical Report 链接:https://arxiv.org/abs/2506.23351
引言
双臂机器人在协同装配、工具使用和物体交接等复杂场景中具有重要作用,但要训练出通用的 VLA 等操作策略,现有数据收集和仿真管线面临多重瓶颈。一方面,真实示教数据规模化获取成本高、耗时长,难以覆盖足够多的任务、物体形态与硬件差异;另一方面,现有仿真缺乏针对新任务的高效、可扩展的专家数据生成方法;同时其域随机化设计过于表层,无法模拟真实环境中复杂性;更未考虑不同双臂平台在运动学与抓取策略上的行为差异,导致数据合成方案难以在新环境或新硬件上泛化。
因此我们提出了 RoboTwin 2.0,提供基于多模态大模型与仿真在环的自动化专家代码合成方案,开源了含 731 个,147 类带丰富标注物体的 RoboTwin 物体数据集(RoboTwin-OD),并基于两者构建了支持 5 款本体与 50 个任务的大规模域随机化仿真双臂操作数据合成器与评测基准集。实验结果表明 RoboTwin 2.0 的域随机化数据可以极大地增强模型面对未见环境的鲁棒性。我们开源了代码、预采集的操作数据以及用户友好的文档。
方法
1. 专家代码生成
在专家代码生成方面,RoboTwin 2.0 首先引入了一套比 1.0 更加精简易用的 API 库,显著降低了大型多模态模型生成代码的门槛;随后在仿真闭环中,结合关键帧视觉观测和实时环境反馈,以多模态大模型为核心不断迭代优化,持续提升任务专家代码的准确性与执行效率。
2.RoboTwin-OD(RoboTwin 物体数据集)
为了构建更多样的仿真操作数据,覆盖更多的操作技能与交互物体,我们构建了 RoboTwin-OD(RoboTwin Object Dataset),包含 147 类、731 个实例,其中 534 个实例由我们基于 AIGC 生成并经凸分解优化,其余来自 Objaverse 与 SAPIEN PartNet-Mobility。针对每个物体,我们精细标注了多种操作点、操作方向,以及物体级别和操作级别的语义信息,为大模型提供了全面而清晰的语义理解支持。RoboTwin-OD 不仅奠定了大规模仿真操作任务设计的基础,也为复杂杂乱场景的布置提供了坚实支撑。
3. 面向本体的自适应抓取
由于自由度和运动结构的差异,不同机械臂在同一任务中的可达空间和操作偏好各异。为此,RoboTwin 2.0 针对每个物体构建了涵盖多种抓取轴与接近方向的操作候选集。具体做法是:结合机械臂的优选接近方向、随机姿态扰动与并行运动规划,生成丰富的抓取候选;并在可达性更高的方向上施加角度扰动,以进一步扩展可行姿态空间。基于这种方法,RoboTwin 2.0 支持 5 种本体的操作数据合成与评测。
4. 域随机化
为了让 RoboTwin 2.0 在各种复杂且多变的真实场景下都能保持卓越的操作性能,我们在数据生成环节引入了一套系统化的 Domain Randomization 策略。通过对多维度的随机化处理,模型得以在训练阶段见识到充分多样化的样本,从而在实际部署中展现出更强的鲁棒性。下面将从五个关键维度依次说明我们所采用的随机化手段。
场景杂乱 (Scene Clutter)
随机在工作区中加入与任务无关的干扰物体,利用已构建的 RoboTwin-OD 对象库进行碰撞感知的放置。通过预先计算碰撞体积并在同类别或功能相似的对象之间做语义分组,避免放置过于相似的干扰物,从而既增强多样性又降低潜在的策略混淆。
多样化背景纹理 (Background Textures)
构建包含 12000 种高质量纹理的背景库:先用大模型自动生成 1000 条关于真实表面外观的 Prompt,再利用 Stable Diffusion v2 为每条 Prompt 合成 20 张候选纹理,经过人工过滤后保留最具代表性的样本,用以随机化桌面及周围背景。
光照变化 (Lighting Variation)
在物理合理范围内,随机化光源类型(点光源、面光源)、数量、颜色温度、强度及位置,以模拟真实世界中多样的灯光条件,增强策略对阴影、反射和色彩偏移的鲁棒性。
桌面高度 (Tabletop Heights)
将桌面高度在合理范围内均匀采样,改变相机视角和机械臂–物体间的空间关系,使策略适应不同工作台面高度带来的感知与运动学差异。
多样化语言指令 (Language Instructions)
基于多模态大语言模型,自动生成任务指令模板和对象描述,再结合随机采样的对象属性进行组合,以在轨迹级别引入丰富的语言变化,提升模型对未见指令的泛化能力。
5.RoboTwin 2.0 50 个任务的数据生成器以及评测基准集
基于以上几个方法,我们构建了支持 5 款本体、50 个双臂任务的数据生成器以及评测基准集。
实验结果
1. 闭环专家代码生成性能提升
与 RoboTwin 1.0 相比,在 10 项典型操作任务上不加入任何技巧,RoboTwin 2.0 的平均成功率(ASR)与 Top5-ASR 均从 47.4% 提升至 62.1%;加入结构化执行反馈后,ASR 进一步提升至 66.7%,结合多模态反馈时达到 71.3%,迭代次数从 2.46 次降低至 1.76 次,LLM token 消耗也显著降低。
2. 自适应抓取增强效果明显
在五种双臂机器人平台上自动采集 50 个任务的数据,对比 RoboTwin 1.0 的合成方案,RoboTwin 2.0 平均成功率提升 8.3%;其中低 DoF 平台增益更大:六自由度的 Aloha-AgileX 平台提升 13.7%,Piper 平台提升 22.7%,ARX-X5 平台提升 5.6%。
3. 域随机化对策略鲁棒性的贡献
在基于 VLA 框架的消融试验中,将预训练模型 RDT、Pi0 用于 32 项任务每任务 300 条数据(共 9600 条数据)的大规模域随机化数据中微调,然后在未见任务中使用少量无域随机化数据微调后进行评测。RoboTwin 2.0(R2.0,含域随机化数据)相比起未经过大规模域随机化数据微调的原策略,在新任务上为 RDT 带来绝对增益 10.6%(相对提升 71.6%),为 Pi0 带来绝对增益 8.8%(相对提升 41.9%),且均在仅用干净数据微调的情况下仍保持强泛化能力。
4. 真实世界零/少样本迁移效果
在四类真实双臂任务(Bowls Stack、Block Handover、Bottle Pick、Bell Click)的对照实验中,基于 10 条真实示例训练的基线模型,引入 1000 条 RoboTwin 2.0 合成轨迹后,四种测试配置的成功率分别平均提升 13.5%、27.5%、23.5% 和 33.0%;而在纯合成(zero-shot)设置下,即使完全不依赖真实数据,也能在未见背景场景中取得 21.0% 和 20.5% 的成功率提升。
以上结果充分展示了 RoboTwin 2.0 在代码生成、抓取拓展、环境鲁棒性以及 sim2real 迁移等多维度的综合优势,为后续大规模、场景丰富的双臂操作研究提供了坚实的数据与基准支撑。
开源
我们开源了 50 个任务的 RoboTwin 2.0 代码,预采集 100,000 + 条多本体域随机化操作数据,以及完整的 RoboTwin-OD 大规模丰富语义数字资产库,以及用户友好的使用文档。
RoboTwin CVPR Challenge Technical Report
参赛 64 支队伍,总人次超 400 人。决胜出来自清华 - 地平线团队的真机赛冠军,以及来自京东科技集团的仿真赛冠军。并由优胜团队共同合著 Technical Report。Report 中分享了各队伍取得优异成绩的关键算法,包括 SEM 以及 AnchorDP3 等,并挖掘了数据质量、数据预处理、语言鲁棒性、多模态融合以及模型架构等关于双臂操作的见解。
转自:机器之心Pro