西湖大学AGI实验室和南洋理工大学的研究人员联手,提出了一个名为WorldForge的全新框架。不需要训练模型,即插即用将现有视频扩散模型秒变3D世界模型。
视频扩散模型,近几年圈子里特别火。而且这些模型“看过”海量的视频数据,能学会很多关于空间、时间、运动的规律,潜力巨大。
怎么激发这个潜力呢?过去的研究者们主要走了两条路。
一是“回炉重造”。也就是重新训练或者微调模型的骨干网络,用带有运动轨迹信息的数据来喂它,甚至给它加装一些专门编码轨迹信息的模块。这法子理论上能提升控制精度,但代价巨大。而且模型可能只对特定场景管用,泛化能力变差了。
二是“扭曲-重绘”。先把输入的图像通过深度估计算法“升维”成一个简易的3D表示,然后根据你想要的相机📷️路径,把这个3D表示重新投影到一个新的视角,让生成模型再补全。
这个思路鲁棒性是硬伤。因为预训练好的模型,“脑补”出一些不存在的运动,破坏了多视角的一致性。
拆解WorldForge
WorldForge是一个在“推理时”工作的框架,也就是说,它在你需要生成视频的那一刻才出手,通过一系列精妙的引导策略,去“指挥”一个已经训练好的视频扩散模型。它既能利用大模型丰富的先验知识,又能实现精确的轨迹控制,还不会破坏原始模型的生成质量。
它主要由三个紧密耦合的模块组成。
“步内递归精炼”(Intra-Step Recursive Refinement, IRR)。
AI生成视频的过程,不是一蹴而就的,而是像画家画画一样,从一个全是噪声的画布开始,一步一步地去噪,逐渐变得清晰。IRR在AI的每一步“落笔”之间,都植入了一个微型的“预测-校正”循环。
通过在每一步都进行这种增量式的校正,轨迹控制的信号就被细粒度地、持续地注入到了整个生成过程中,确保最终的视频能丝滑地沿着预定轨道前进。
“流控潜在融合”(Flow-Gated Latent Fusion, FLF)。
这一招是为了解决一个更深层次的问题。IRR虽然能保证轨迹正确,但有点“暴力”。AI模型在内部理解图像时,会把它压缩成一串代码,这串代码就是它的“潜在表示”,不同的代码位(通道)编码着不同的信息。有些通道主要管物体的外观、颜色、纹理,而另一些通道则专门管运动和结构。
FLF的作用,就是引入了一种基于光流(Optical Flow)的评分方案。光流本质上是追踪视频中每个像素点的运动轨迹,是描述时间动态的经典工具。
FLF通过比较AI预测画面的光流和参考轨迹的光流,来判断每一个潜在通道到底和“运动”有多大关系。
FLF给每个通道打一个“运动相关性”分数。分数高的,说明这个通道主要负责编码运动信息;分数低的,则说明它更可能负责编码外观等非运动信息。
然后,它设定一个动态的门槛,只选择那些分数高于门槛的“运动通道”进行轨迹信息的注入和替换,而对“外观通道”则原封不动地保留。
通过这种方式,FLF既保证了运动轨迹的精确控制,又最大限度地保护了模型原有的生成质量和画面细节。
“双路自我校正引导”(Dual-Path Self-Corrective Guidance, DSG)。
前面提到,“扭曲-重绘”得到的参考图本身就可能因为深度估计不准、物体遮挡等原因,自带一些扭曲和噪声。如果直接注入到生成过程中,还是会产生伪影。
DSG的灵感来源于一个叫“分类器自由引导”(Classifier-Free Guidance, CFG)的技术。DSG在推理的每一步,都让AI同时走两条并行的去噪路径。
第一条,是“非引导路径”。这条路上,AI完全自由发挥,不受任何轨迹约束。它产出的结果画质很高,很符合模型学到的数据分布,但缺点是不听指挥。
第二条,是“引导路径”。这条路上,AI被IRR和FLF强制注入了轨迹信息。它产出的结果严格遵循指定的运动,但可能会因为参考图的噪声而产生一些伪影。
DSG在每一步都去比较这两条路径的去噪的方向。计算出一个动态的校正项,用两条路径之间的差异,来温和地把“引导路径”往“非引导路径”的感知质量上拉。
这个机制就像一个聪明的导航系统。它既有你的目的地(引导路径),又参考了实时路况和最佳路线(非引导路径)。当两条路偏差很大时,它会加大校正力度,确保你走在正确的方向上;当两条路基本一致时,它就减少干预,让模型自然地生成。
通过这种自我校正,DSG有效地减轻了由轨迹注入引起的图像退化,同时保持了与目标相机📷️路径的高度对齐,最终让生成视频的结构完整性和视觉质量都上了个新台阶。
实际效果到底怎么样?
研究团队主要在一个名为Wan2.1的图像到视频大模型上进行了测试,生成分辨率高达1280×720的视频。同时,为了证明框架的普适性,他们也在另一个更轻量级的SVD(Stable Video Diffusion)模型上进行了验证。
在单张图片生成3D场景这个任务上,WorldForge与当前最顶尖的一众方法进行了正面交锋。
无论是在LLFF、MipNeRF-360还是Tanks-and-Temples这些经典的公开数据集上,WorldForge都表现出了全面的优势。从下方的定量数据表也能看出,它的成绩相当好。
在衡量生成图像质量和多样性的FID(弗雷歇初始距离)指标上,数值越低越好,WorldForge的96.08远低于对手。在衡量图像与文本描述一致性的CLIPsim(图像文本相似度)指标上,数值越高越好,WorldForge的0.948同样是全场最佳。
WorldForge可以仅凭一张输入图片,就合成出高质量、高真实感、并且结构一致的360度全景视图,而且还不需要先生成全景图作为中介。
在更复杂的动态视频轨迹控制任务上,WorldForge的对手是ReCamMaster、TrajectoryCrafter等顶尖的视频到视频模型。
实验结果显示,这些需要大量训练的复杂模型,在处理一些有挑战性的运镜(如弧形、推拉变焦)时,经常会产生不合理的伪影,比如把人脸弄平、弄出悬浮的头部。这反映出它们在微调过程中可能丢失了部分对真实世界的先验知识。
而WorldForge这种免训练的方法,因为它充分利用了原始大模型中潜藏的3D先验,反而能够生成视觉保真度更高、轨迹对齐更准、场景补全更连贯的内容。
除了生成质量,轨迹控制的精准度是另一个核心战场。
在这张表中,ATE(绝对轨迹误差)、RPE-T(相对位姿误差-平移)和RPE-R(相对位姿误差-旋转)都是衡量轨迹准确性的指标,数值越低代表控制越精准。可以看到,无论是在静态场景还是动态场景,WorldForge的轨迹误差都是最低或接近最低的。
不仅强大,还很高效
最关键的一点,WorldForge实现了这一切,靠的是“零训练成本”。
从效率对比表可以看出,那些需要训练的方法,其训练成本没有被计算在内。而WorldForge直接省掉了这一步。它的推理时间虽然比基础模型增加了40-50%,换来的是前所未有的控制精度和质量。即便如此,在SVD模型上,它的推理时间(1.3分钟)甚至比许多同类方法都要快。
除了生成3D场景和控制4D轨迹,WorldForge还能玩出很多花样。
它可以稳定抖动的视频,可以控制相机📷️路径实现局部超分辨率,甚至可以进行创意性的视频内容编辑,比如添加或移除物体、替换视频主体、实现虚拟试穿效果等等。
WorldForge为可控视频合成提供了一种全新的、即插即用的范式。
参考资料:
https://arxiv.org/abs/2509.15130
https://worldforge-agi.github.io
END