作者:Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
单位:澳大利亚阿德莱德大学,印度海得拉巴国际信息技术学院,阿联酋穆罕默德·本·扎耶德人工智能大学
论文标题:ObjectReact: Learning Object-Relative Control for Visual Navigation
论文链接:https://arxiv.org/pdf/2509.09594v1
项目主页:https://object-react.github.io/
代码链接:https://github.com/oravus/object-rel-nav
主要贡献
提出了基于物体相对控制的视觉导航方法ObjectReact,能够在没有严格依赖先前经验的情况下穿越新路线,将控制预测问题与解决图像匹配问题解耦,在跨实体部署时,对于训练测试和映射执行设置中的变化具有很高的不变性。
提出了基于相对3D场景图(3DSG)的拓扑度量(topometric)地图表示方法,该方法基于物体之间的相对3D信息和拓扑连接性,能够获得更具信息量的物体级别全局路径规划成本。
设计了具有挑战性的导航任务,用于测试智能体从有限的先验经验中有效理解环境的能力,这些任务包括模仿(Imitate)、替代目标(Alt-Goal)、捷径(Shortcut)和反向(Reverse)等任务。
传统的视觉导航方法通常依赖于构建密集的3D地图,需要使用3D传感器(如激光雷达或深度相机📷️),但这些方法需要依赖丰富的视觉信息来有效理解自然语言表达的指令/目标。
另一种方法是仅使用单目相机📷️和拓扑地图进行视觉拓扑导航,这种方法受到人类导航能力的启发,早期的拓扑导航方法大多局限于teach-and-repeat,通常使用基于图像的视觉伺服来估计『机器人』️速度。
近期的方法提出了从当前视图和子目标图像中“学习”预测控制信号,子目标由全局规划器根据之前在该环境中捕获的图像的拓扑连通性生成。然而,这些基于图像相对的方法存在局限性,因为它们在使用基于图像级别的拓扑世界表示时,强烈依赖于『机器人』️的姿态和实体形态。
论文提出了基于物体相对控制的学习方法,用于视觉导航任务。该方法的核心在于将世界表示为物体之间的连接关系,而不是依赖于图像级别的表示。这种方法具有与实体和轨迹无关的世界表示,能够解决传统图像相对方法的局限性。
映射阶段:相对3D场景图
在映射阶段,论文构建了一个基于相对3D场景图(3DSG)的拓扑度量(topometric)地图表示。这个阶段主要包括以下几个关键步骤:
图像分割作为物体节点:
使用基础模型(如SAM2或FastSAM)从先验地图(以图像序列的形式给出)中提取开放集、语义上有意义的分割掩码。
对于每个图像分割,用其2D二值分割掩码数组 和一个3D坐标 表示一个物体节点,其中 是在局部参考框架中物体上最远点的坐标。
与同时估计相机📷️姿态和全局场景几何的3D制图技术不同,这里只关注图像中物体的相对3D布局。
图像内边:
对于图像中的物体节点,通过计算所有物体对之间的欧几里得距离 来创建图像内边,并将这些距离作为边的权重。
与仅基于物体像素中心的2D连接性相比,这种相对3D的图像内连接性在全局路径规划中更具信息量。
图像间边:
基于这些对应关系,建立段级对应关系,并为这些图像间边分配0的边权重(相当于合并节点),以便全局规划器在寻找最短路径时不会对穿越这些边产生额外成本。
在执行阶段,论文采用了RoboHop的物体定位和全局路径规划方法。具体步骤如下:
物体定位:
使用上述段匹配方法,将查询物体节点与地图物体节点进行匹配。
全局规划器使用Dijkstra算法计算从这些匹配的地图节点到长视距目标节点的路径长度。
如果查询节点有多个匹配项,则选择路径长度最短的地图节点。
全局路径规划:
全局规划器计算从匹配的地图节点到目标节点的路径长度,并选择路径长度最短的节点作为目标节点。
局部控制器:
使用这些路径长度和分割掩码,定义了一种新的表示方法来学习局部控制器,该控制器预测轨迹。
这种表示方法被称为“WayObject Costmap”,它将物体的分割掩码与其路径长度结合起来,形成一个多通道图像,其中像素值对应于该像素所属物体的路径长度。
通过这种方式,模型可以学习对吸引(去哪里)和排斥(不去哪里)的物体做出反应。
在训练阶段,论文训练了一个名为ObjectReact的局部控制器,该控制器直接基于“WayObject Costmap”表示进行训练,消除了对显式RGB输入的需求。
WayObject Costmap表示
为了表示子目标,论文考虑了以下方面:
局部成本分布:将规划器得到的路径长度进行归一化处理,以消除训练中的偏差,并使其能够泛化到不同类型的边权重。
物体的空间分布:结合物体的分割掩码和路径长度,形成多通道图像“WayObject Costmap”,其中像素值对应于该像素所属物体的路径长度。
使用D维编码E来表示成本,通过将成本重新缩放并转换为正弦-余弦嵌入来实现,类似于Transformer架构中的位置编码。
论文采用了现有的图像相对控制器的训练流程,并进行了两个关键修改:
使用HM3D的逼真环境生成训练数据。
使用自定义目标编码器来处理多通道输入的WayObject Costmap。
使用Habitat-Matterport 3D数据集(HM3Dv0.2)进行训练和评估,具体使用了InstanceImageNav挑战集(IIN-HM3D-v3)的训练和验证集。
对于IIN训练集中的145个独特场景,均匀采样20个Episodes,并使用模拟器的测地线距离估计器计算每个Episodes的最短路径。
将2D路径坐标转换为由纯平移0.2米和纯旋转 组成的插值3D轨迹。
进一步将IIN训练集划分为80/20的训练/验证集,并在训练期间使用模拟器的对象实例和深度创建拓扑度量地图。
即使在训练期间使用了基于模拟器的成本图,控制器也能够泛化到从推断的分割、匹配和深度获得的成本图。
对于未检测到、在定位期间不匹配(在执行阶段)或没有有效路径长度的图像段,将其标记为成本图中的异常值,并使用固定的高成本进行标记。
为了进一步提高从训练成本图到部署成本图的泛化能力,在训练期间进行了数据增强,随机将30%的段的成本替换为异常值成本。
数据集选择:使用Habitat-Matterport 3D数据集(HM3D)的InstanceImageNav挑战集(IIN-HM3D-v3)的验证集进行评估,包含36个独特场景,每个场景采样一个Episodes。
地图构建:对于每个Episodes,使用其起始和结束状态计算最短路径,将2D路径坐标转换为由纯平移0.2米和纯旋转 (15^\circ) 组成的插值3D轨迹,作为先验地图。
任务初始化:在离线映射阶段,使用RGB图像和相对单目深度计算相对3D场景图(3DSG)。在在线执行阶段,将智能体初始化在地图轨迹上,使其至少(测地线距离)5米远离目标,通常需要穿过多个房间和走廊。
成功标准:使用“oracle”停止条件,即如果『机器人』️在最多300步内到达距离目标位置1米以内的位置,则认为Episodes成功。
主要指标:
报告Success weighted by Path Length(SPL)和Soft-SPL(SSPL)。SSPL对于那些被认为失败(SPL=0)但朝着目标取得进展的Episodes特别有用(SSPL>0)。
这些指标平均报告72次运行的结果,因为每个36个Episodes都在执行阶段测试了两个不同的传感器高度:1.3米(代表如Stretch的移动操纵器)和0.4米(代表如Go1的四足『机器人』️)。
模仿:智能体模仿其先前的轨迹,类似于teach-and-repeat任务。
替代目标:智能体需要访问一个以前见过但未访问过的新的目标对象,因此需要穿越一条新路线。
捷径:先验映射轨迹在替代目标处有一个额外的停靠点,因此智能体必须走捷径到达最终目标。
反向:测试智能体沿着其先验轨迹的相反方向行驶的能力。
通过手动检查排除了某些Episodes,原因包括目标无效(例如,由于周围障碍物的错误渲染导致目标不可达,或者目标占据了图像的大部分区域),或者目标不符合任务标准(例如,所有可能的替代目标都位于通往原始目标的路径上),或者场景存在渲染问题(例如,大面积缺失几何结构,或者在模拟器中视觉上可穿越但实际上不可达的区域)。
实验结果:在Imitate任务中,图像相对和物体相对方法表现相似,但在其他更具挑战性的任务中,物体相对控制器的性能明显优于图像相对控制器。例如,在Alt Goal任务中,图像相对方法的SPL仅为2.17,而物体相对方法的SPL为21.74;在Shortcut任务中,图像相对方法的SPL为7.69,物体相对方法的SPL为23.08;在Reverse任务中,图像相对方法的SPL为11.60,物体相对方法的SPL为26.67。
原因分析:
图像相对方法依赖于从近距离拍摄目标对象的图像,这限制了其在新路线上的导航能力。
图像相对方法的子目标图像选择基于“时间”距离预测,可能无法准确捕捉几何或测地线距离,从而错过潜在的捷径。
实验结果:当地图高度为1.3米时,图像相对方法在执行高度为1.3米时表现良好,但在执行高度为0.4米时性能大幅下降(SPL下降了48%)。而物体相对方法几乎不受这种变化的影响,甚至在较低高度时表现略有提升。
原因分析:物体相对方法通过其基于物体的地图表示,实现了对『机器人』️实体和先验轨迹的高不变性,从而隔离了图像匹配问题与控制学习问题,消除了在不同『机器人』️之间关联轨迹的需求。
控制器类型:
比较了RoboHop(零样本控制器)和PixNav(离散动作控制器)与ObjectReact(物体相对控制器)的性能。结果显示,ObjectReact在所有任务中均优于其他两种方法。
拓扑与拓扑度量地图:
比较了基于3D距离的物体连接(ObjectReact)与基于2D Delaunay三角剖分的物体连接。结果表明,3D信息在路径规划中比2D信息更有信息量。
是否需要当前RGB图像:
消融实验表明,不依赖当前RGB图像的ObjectReact控制器在泛化能力上表现更好,推测是因为当前RGB图像可能使模型过度拟合训练数据集中的特定物体实例,而WayObject Costmap提供了一种对场景和物体的视觉外观更具不变性的表示。
结论:
物体相对导航方法能够解决图像相对方法的多种局限性,具有更好的泛化能力和对不同导航任务的适应性。该方法通过学习物体相对的控制,实现了跨实体和跨映射执行阶段的高不变性。
未来工作:
尽管取得了积极的结果,但论文也指出了当前方法的一些局限性,如对动态物体的处理、地图变化的适应性以及在真实世界部署中的挑战。
未来的工作可以进一步扩展该方法的能力,例如通过改进感知技术、探索新的地图表示方法或开发更鲁棒的控制器来解决这些局限性。
此外,还可以探索将该方法应用于更复杂的环境和任务,以及与其他导航策略的结合。