扩散模型还原被遮挡物体,几张稀疏照片也能“脑补”重建交互式场景

你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景?

在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等领域的应用前景。

近期,北京通用人工智能研究院联合清华大学、北京大学的研究团队提出了名为DP-Recon的创新方法。该方法通过在组合式3D场景重建中,引入生成式扩散模型作为先验,即便只有寥寥数张图像输入,也能智能“脑补”出隐藏在视野之外的场景细节,分别重建出场景中的每个物体和背景。

值得一提的是,该方法还创新性地提出了一套可见性建模技术,通过动态调节扩散先验和输入图片约束的损失权重,巧妙地解决了生成内容与真实场景不一致的难题。在应用层面,DP-Recon不仅支持从稀疏图像中恢复场景,还能实现基于文本的场景编辑,并导出带纹理的高质量模型,为具身智能、影视游戏制作、AR/VR内容创作等领域,带来了全新的可能性。

今日霍州(www.jrhz.info)©️

研究概述

今日霍州(www.jrhz.info)©️

jrhz.info

图1. 重建结果、基于文本编辑和影视特效展示

3D场景重建一直是计算机视觉和图形学领域的核心挑战,其目标是从多视角图像中恢复场景的完整几何和逼真纹理。近年来,NeRF和3DGS等神经隐式表示方法在多视角充足时表现出色,但在稀疏视角下却捉襟见肘。更重要的是,这些方法将整个场景作为一个整体重建,无法解耦独立物体,这严重制约了下游应用的发展。

现有的组合式场景重建方法同样面临稀疏视角带来的的严峻挑战。视角稀少会导致大面积区域缺乏观测数据,模型在这些区域容易崩塌;同时,物体间的相互遮挡使得某些部分在所有输入图像中都不可见,最终导致重建结果出现畸形或遗漏。

那么,如何为这些“看不见”的区域补充合理信息,让重建模型既忠实于输入图像,又能在空白处有所依据?DP-Recon给出了令人振奋的解决方案,该方法巧妙地将生成式扩散模型作为先验引入组合式场景重建,通过Score Distillation Sampling(SDS)技术,将扩散模型对物体概念的“理解”蒸馏到3D重建过程中。例如,当输入照片只拍到桌子的一面时,扩散模型可以基于对“桌子”这一概念的认知,智能推断出桌子背面的可能形状和纹理。这种方式为重建提供了宝贵的信息补充,极大提升了在稀疏视角和遮挡场景下的重建效果。

需要注意的是,直接将扩散先验硬套用到重建上并非易事。如果处理不当,生成模型可能会“过度想象”,产生与输入图像矛盾的内容,反而干扰基于真实照片的重建过程。为此,DP-Recon精心设计了一套基于可见性的平衡机制,巧妙协调重建信号(来自输入图像的监督)和生成引导(来自扩散模型的先验),通过动态调整扩散先验的作用范围,确保模型在已有照片信息处保持忠实,在空白区域合理发挥想象力。

下面将深入解析DP-Recon的核心技术细节。

关键技术

今日霍州(www.jrhz.info)©️

图2. DP-Recon的算法框架

DP-Recon的技术创新主要体现在以下三个关键方面:

1. 组合式场景重建:

与传统整体式重建不同,DP-Recon采用组合式重建策略。具体来说,模型会利用多种模态的重建损失(包括:RGB图像、深度图、法向量图和实例分割图),为每个对象分别建立隐式场(SDF),初步构建几何轮廓和外观表征,便于后续对每个物体加入基于文本的先验信息。

2. 几何和外观的分阶段优化:

DP-Recon将重建过程分为了几何和外观两个阶段,分别针对物体的形状和纹理进行优化。

在几何优化阶段,基于初步重建的基础,通过对法向量图引入Stable Diffusion的SDS损失,进一步优化物体在欠缺观察区域的细节,显著提升几何完整度。此阶段结束后,将输出每个物体和背景的Mesh结构。

在外观优化阶段,使用Nvdiffrast渲染生成的Mesh,巧妙融合输入图像的颜色信息和扩散先验,对物体表面纹理进行优化。为便于后续渲染和编辑,DP-Recon在此阶段还会为每个对象生成精细的UV贴图。

经过以上两个阶段的处理,最终,场景中每个对象的高质量网格模型及其纹理贴图,均具有精准几何和逼真外观。

3. 可见性引导的SDS权重机制:

针对扩散先验可能带来的不一致问题,DP-Recon提出了创新的可见性引导解决方案。该方法在计算SDS损失时引入可见性权重,根据每个像素在输入视角中的可见程度,动态调节扩散模型的引导强度。

具体而言,DP-Recon在重建过程中构建了一个可见性网格,通过输入视角体渲染过程中积累的透射率,来优化这个网格。当需要计算参与SDS视角的可见性图时,直接查询该网格即可。对于输入照片中高度可见的区域,系统会自动降低SDS损失权重,避免扩散模型“喧宾夺主”;而对于未被拍摄到或被遮挡的区域,则赋予更高的SDS权重,鼓励网络借助扩散先验补全细节。这种精细的可见性引导机制,完美平衡了重建的真实性与完整性。

特别声明:[扩散模型还原被遮挡物体,几张稀疏照片也能“脑补”重建交互式场景] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

兴业证券全球首席策略分析师张忆东离职,将转型海外业务(兴业证券最高价137.7元)

钛媒体App 1月1日消息,兴业证券全球首席策略分析师、研究院联席院长、海外研究中心总经理张忆东昨日发布声明:“已于日前正式向公司提出辞职申请,即将转型海外业务,专注于香港及海外资本市场的拓展。”公开信息显示…

兴业证券全球首席策略分析师张忆东离职,将转型海外业务(兴业证券最高价137.7元)

『郭德纲』相声风波,一句话回应,引全网好奇!(『郭德纲』相声风格)

12月6日,有人发布文章称:『德云社』刚刚被西城区文旅约谈,原因是《艺高人胆小》这一段相声。这种模棱两可的态度比直接承认更引发了讨论,因为这意味着事情的规模可能没有传得那么大,但也并非完全没有发生。但从郭德…

『郭德纲』相声风波,一句话回应,引全网好奇!(『郭德纲』相声风格)

LG预热Stage 501派对音箱:AI消除原唱人声打造K歌利器(lg super resolution+)

另一款主打户外的 Blast 音箱则将续航推至 35 小时,同样具备 220W功率及三个无源辐射☢️器,配合军工级防护设计与侧边绳索手柄,专为海滩、露营等长时户外活动打造。 针对日常与轻户外场景,LG 推出了…

LG预热Stage 501派对音箱:AI消除原唱人声打造K歌利器(lg super resolution+)

事实证明,吃完贾玲“红利”的张小斐,如今又被“打回了原型”(事实证明还可以怎么说)

张小斐现在一被提起,很多人语气都微妙起来——不是质疑她不行,而是隐约觉得,那个曾被《你好,李焕英》推上神坛的人,好像又悄悄退回了人群里。在北京漂了十几年,试镜、被拒、再试,连“没观众缘”这种话都当面听过,有人…

事实证明,吃完贾玲“红利”的张小斐,如今又被“打回了原型”(事实证明还可以怎么说)

『王一博』吞虫现场:从“怕虫怂包”到“王大胆”,这波操作太上头!(『王一博』吃虫子天天向上)

『王一博』在户外纪录片《探索新境2》里,当着全国观众的面,吞下了一只小飞虫!更有粉丝脑洞大开:“说不定虫子是节目组安排的‘隐藏任务’,『王一博』:为了攀岩,我忍了!”吞虫只是『王一博』这次攀岩特辑的“小插曲”。 『王一博』…

『王一博』吞虫现场:从“怕虫怂包”到“王大胆”,这波操作太上头!(『王一博』吃虫子天天向上)