SIGGRAPH Asia 2025｜30FPS普通相机📷️恢复200FPS细节，4D重建方案来了 #科技 #时间 #细节 #硬件 #Asia #模型

今日霍州(www.jrhz.info)©️

本文第一作者陈羽田，香港中文大学 MMLab 博士二年级在读，研究方向为三维重建与生成，导师为薛天帆教授。个人主页：https://yutian10.github.io

当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度，当 VR 玩家想伸手抓住对手 “空中定格” 的剑锋，当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机📹️，把瞬间即逝的高速世界 “冻结” 成可供反复拆解、传送与交互的『数字化』 4D 时空，成为 3D 视觉领域的一个难题。

然而，受限于硬件成本与数据传输带宽，目前绝大多数 4D 采集阵列的最高帧率仅约 30 FPS；相比之下，传统高速摄影通常需要 120 FPS 乃至更高。简单升级相机📷️硬件不仅价格高昂，还会带来指数级增长的数据通量，难以在大规模部署中落地。另一条改变的思路是在重建阶段 “补帧”。近期，例如 4D 高斯溅射（4D Gaussian Splatting）等动态场景重建方法能在简单运动中通过稀疏时序输入合成连续帧，变相提升帧率，但面对布料摆动、高速旋转等非线性复杂运动，中间帧仍会出现运动不连续、伪影明显的问题。

于是，一个自然且关键的问题被提出：能否仅利用低帧率相机📷️阵列，准确恢复出高质量的高速运动 4D 模型？正是在这一动机下，我们提出 “异步采集 + 视频扩散模型修复” 的软硬协同解决方案，为高速 4D 重建开辟了一条低成本、高质量的新路径，实现了仅利用 30 FPS 的普通相机📷️，恢复出相当于 100-200 FPS 的高质量动态细节。

今日霍州(www.jrhz.info)©️

jrhz.info

论文标题：4DSloMo: 4D Reconstruction for High Speed Scene
with Asynchronous Capture
项目主页：https://openimaginglab.github.io/4DSloMo
论文：https://arxiv.org/pdf/2507.05163
代码：https://github.com/OpenImagingLab/4DSloMo

硬件革新：异步捕捉，让相机📷️ “错峰拍摄”

核心思路，是突破单个相机📷️的速度瓶颈，通过让多个相机📷️协同工作，实现一种 “接力式” 的拍摄方案。传统的捕捉方案是让相机📷️阵列的所有相机📷️在同一时刻拍照。而本文的异步捕捉 (Asynchronous Capture) 方案，则是人为地给不同相机📷️或相机📷️组设置一个微小的启动延迟。

今日霍州(www.jrhz.info)©️

传统同步方案（左），所有相机📷️在同一时间点（如 t=0, t=0.04s）捕捉。我们的异步方案（右），通过错开相机📷️ 2 的启动时间，在 0s 和 0.04s 之间插入了一个新的捕捉点（t=0.02s），有效帧率直接翻倍。

想象一下，8 台 25 FPS 的相机📷️，如果我们将它们分成 4 组，每组交替启动，就能将时间切片切得更细，实现 100 FPS 的有效捕捉帧率；如果分成 8 组，甚至能达到 200 FPS！整个过程无需任何额外的硬件成本，却在时间维度上获得了前所未有的信息密度。

软件革新：视频扩散模型，为 4D 重建 “精装修”

异步捕捉虽然解决了时间分辨率的问题，但也带来了一个新的挑战：在任何一个特定的时间点，参与拍摄的相机📷️数量变少了，这会导致 “稀疏视角” 问题，从而在初步的 4D 重建结果中产生 “浮块” 等视觉伪影。为了解决这个问题，我们训练了一个专门用于修复 4D 重建伪影的视频扩散模型 (Artifact-fix Video Diffusion Model)。

今日霍州(www.jrhz.info)©️

该模型的核心功能是接收一个包含重建伪影的视频作为输入，并生成一个精修后的高质量视频作为输出。这里的关键思想是，作为输入的视频虽然在视觉上不完美，但它为扩散模型提供了修复所需的关键时空上下文 (Spatio-temporal Context)—— 即场景的正确空间结构和物体的核心运动信息。模型利用这些上下文作为引导，专注于去除伪影并补全细节。

为了实现这一功能，我们构建了一个针对性的训练数据集。我们通过在高质量的 4D 数据上模拟异步捕捉过程，生成包含典型伪影的降质视频。随后，我们将这些降质视频与原始的真值视频 (Ground Truth) 配对，通过对一个大规模预训练视频模型进行微调 (Fine-tuning)，使其学习从包含伪影的输入到清晰输出的映射关系。

与常见的图像扩散模型相比，我们使用视频模型的核心优势在于保证 “时间一致性 (Temporal Consistency)”。逐帧修复容易在连续帧之间引入纹理闪烁等不一致问题，而我们的视频模型能够利用时序先验，在去除伪影的同时，生成在时间维度上连贯、平滑的动态结果。

整体流程：一个 “重建 - 优化” 的迭代框架

我们的方法将硬件捕捉与 AI 算法相结合，构建了一个迭代式的优化框架：

1. 初步重建 (Initial Reconstruction)：首先，利用异步捕捉的视频数据，重建一个初步的 4D 高斯模型。该模型能捕捉高速动态，但存在视觉伪影。

2. 生成伪真值 (Pseudo Ground Truth Generation)：接着，使用初步模型渲染出包含伪影的视频。这些视频将作为我们视频扩散模型的条件输入。

3. 视频增强 (Video Enhancement)：将渲染视频送入视频扩散模型。模型负责去除伪影并提升视频质量，输出增强后的视频。

4. 模型优化 (Model Optimization)：最后，将增强后的高质量视频作为新的监督信号 (Supervision Signal)，用于进一步优化 4D 高斯模型，从而显著提升最终的重建质量。