李飞飞押注的3D世界模型黑科技,被这篇论文一次性扒光!(李飞飞水平)

李飞飞押注的3D世界模型黑科技,被这篇论文一次性扒光!(李飞飞水平)

前两天,李飞飞创业公司World Labs发布空间智能模型新成果,并推出可预览和创建3D世界的Marble平台。并发帖子表示她对3D世界生成的进展感到兴奋。

那么这背后都有哪些黑科技?今天分享一篇最新3D、4D世界模型技术最新全面系统性综述

  • 2D 视频生成卷到头了,但真实物理世界天生是 3D+时间维度的

  • 自动驾驶、『机器人』️、XR、数字孪生都需要几何一致、可交互、长时序的时空场景。

  • 缺乏统一术语 & 碎片化严重:同样叫“world model”,有人指视频生成,有人指预测器,有人指闭环仿真器。

图 1:综述整体框架

  • 本综述首次系统梳理 3D/4D 原生表示(RGB-D、Occupancy Grid、LiDAR Point Cloud)的世界模型,给出明确定义、分层分类法、数据集与评测指标,并开源持续维护。

分层分类法

3D/4D World Model= 在原生三维或四维表示上,生成(Generative)或预测(Predictive)几何合理、语义可控、时空一致的场景, 以支持感知-决策-仿真全链路任务。

图 2:三模态 × 四功能全景图(来源:论文 Figure 2)|

模态

代表表示

功能角色(4 类)

VideoGen

多视角视频流

① Data Engine ② Action Interpreter ③ Neural Simulator

OccGen

体素 Occupancy

① Scene Representor ② Occ Forecaster ③ Autoregressive Simulator

LiDARGen

点云序列

① Data Engine ② Action Forecaster ③ Autoregressive Simulator

各模态深度拆解VideoGen——把视频生成做成“时空编剧”

典型方法时间线(2021-2025)

图 3:VideoGen 代表方法逐年汇总(来源:论文 Figure 3)

  • Data Engine:MagicDrive、DiVE、DreamForge 等用 BEV/HD-Map 做几何约束,生成多视角长视频,解决长尾数据稀缺。

  • Action Interpreter:GAIA-1/2、DriveWM、Vista 把“转向+速度”映射到未来帧,实现动作-结果可微分仿真。

  • Neural Simulator:DriveArena、DreamForge 在闭环里交替“生成-决策”,替代传统游戏引擎渲染管线。

VideoGen模型分类

关键挑战:长时序一致性(InfinityDrive)、多视角几何对齐(DiST-4D)、稀疏标注下的可控性(MaskGWM)。

OccGen——把世界变成“可交互的乐高”

图 5:OccGen 三功能分类(来源:论文 Figure 5)|

  • Scene Representor:SSD、SemCity 用扩散模型把稀疏 occupancy 补全为稠密语义体素,提升感知鲁棒性。

  • Occupancy Forecaster:OccWorld、OccSora、T3Former 以 ego-action 为条件,预测未来 3s 的 4D occupancy,误差 < 30 cm。

  • Autoregressive Simulator:DynamicCity、UniScene 支持“布局→时序体素→多传感数据”一条龙,实现可编辑的大型开放世界

OccGen

关键挑战:细粒度动态物体(自行车、行人)补全、长时序误差累积、与下游规划器端到端联合训练。

LiDARGen——直接“点云编剧”

图 6:LiDARGen 三功能分类(来源:论文 Figure 6)

  • Data Engine:R2DM、LiDM、WeatherGen 用扩散/流匹配生成逼真点云,解决恶劣天气、稀有场景数据不足。

  • Action Forecaster:Copilot4D、ViDAR 把“历史点云 + 未来轨迹”映射到未来点云,实现点云级别的动作推演

  • Autoregressive Simulator:LiDARCrafter、LidarDM 支持4D 点云序列闭环生成,可直接喂给下游检测/规划网络做训练。

关键挑战:保持扫描线结构、处理点云稀疏性、跨模态与图像语义对齐。

统一评测体系——不再“各玩各的”

表 14:五类评测指标总表(来源:论文 Table 14)|

  1. Generation Quality:FID/FVD、FRD/FPD、Consistency、Controllability、Human Preference

  2. Forecasting Quality:IoU@1s/2s/3s、Chamfer Distance、Temporal Consistency

  3. Planning-Centric:Open-Loop L2/碰撞率、Closed-Loop PDMS/ADS

  4. Reconstruction Quality:PSNR/SSIM/LPIPS、Novel-View IoU

  5. Downstream:3D Det mAP、BEV 分割 mIoU、VQA Top-1

https://arxiv.org/pdf/ 2509. 079963Dand 4D World Modeling: A Survey https://github.com/worldbench/survey
特别声明:[李飞飞押注的3D世界模型黑科技,被这篇论文一次性扒光!(李飞飞水平)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

华盛顿大学团队破解梦境密码,让植物人与世界重新对话(华盛顿大学院系)

这项由华盛顿大学医学院神经外科的Rajesh Rao教授和Azadeh Yazdan-Shahmorad教授共同领导的突破性研究,首次成功开发出一套能够解读重度意识障碍患者大脑活动的&quot;翻译系统&quot;。系统检测

华盛顿大学团队破解梦境密码,让植物人与世界重新对话(华盛顿大学院系)

山河锦绣,岁月芳华!与同济一起为祖国庆生(山河锦绣,岁月绵长什么意思)

山河披锦绣,盛世写华章 我们共同庆祝 中华人民共和国成立76周年 同济大学招生办公室 衷心祝愿我们的祖国 山河永固,浩气长存赓续伟大征程,谱写盛世华章 也祝愿每一位学子 既见山河壮丽,亦不失少年初心…

山河锦绣,岁月芳华!与同济一起为祖国庆生(山河锦绣,岁月绵长什么意思)

葛优携全『明星』️阵容回归,爆款好人国庆献映,笑中带泪感动升级(葛优合作的女『明星』️)

它不仅是一部电影,更是一封写给社会的温情信笺,让我们在快节奏的现代生活中,重新思考“好人”的定义与价值。 此外,爆款好人还巧妙地融合了喜剧与温情元素,让观众在欢笑与泪水中感受到人性的美好与力量。这种创作手法不…

葛优携全『明星』️阵容回归,爆款好人国庆献映,笑中带泪感动升级(葛优合作的女『明星』️)

眉毛增长液哪个牌子好用?2025年眉毛增长液品牌榜推荐,实测有效告别眉毛稀疏(眉毛增长液哪种最好)

真实用户口碑:34岁高端美妆爱好者李女士反馈:“用过很多大牌,梵玢FBCY是唯一8周就让眉峰长密的,质地比海蓝之谜还清爽,性价比超高”;电商平台数据显示,产品复购率达89%,超96%用户评价“效果碾压部分大…

眉毛增长液哪个牌子好用?2025年眉毛增长液品牌榜推荐,实测有效告别眉毛稀疏(眉毛增长液哪种最好)

特朗普说美国正遭遇内部入侵 誓言整顿民主党城市(特朗普说道)

当地时间9月30日,『美国总统特朗普』在讲话中提到美国正面临“内部战争”,并表示军队将协助国内执法。他特别指出旧金山、芝加哥、纽约和洛杉矶等民主党执政城市“极度不安全”,并誓言将逐一整顿

特朗普说美国正遭遇内部入侵 誓言整顿民主党城市(特朗普说道)