李飞飞押注的3D世界模型黑科技,被这篇论文一次性扒光!(李飞飞水平)

前两天,李飞飞创业公司World Labs发布空间智能模型新成果,并推出可预览和创建3D世界的Marble平台。并发帖子表示她对3D世界生成的进展感到兴奋。

那么这背后都有哪些黑科技?今天分享一篇最新3D、4D世界模型技术最新全面系统性综述

  • 2D 视频生成卷到头了,但真实物理世界天生是 3D+时间维度的

  • 自动驾驶、『机器人』️、XR、数字孪生都需要几何一致、可交互、长时序的时空场景。

  • 缺乏统一术语 & 碎片化严重:同样叫“world model”,有人指视频生成,有人指预测器,有人指闭环仿真器。

图 1:综述整体框架

  • 本综述首次系统梳理 3D/4D 原生表示(RGB-D、Occupancy Grid、LiDAR Point Cloud)的世界模型,给出明确定义、分层分类法、数据集与评测指标,并开源持续维护。

分层分类法

3D/4D World Model= 在原生三维或四维表示上,生成(Generative)或预测(Predictive)几何合理、语义可控、时空一致的场景, 以支持感知-决策-仿真全链路任务。

图 2:三模态 × 四功能全景图(来源:论文 Figure 2)|

模态

代表表示

功能角色(4 类)

VideoGen

多视角视频流

① Data Engine ② Action Interpreter ③ Neural Simulator

OccGen

体素 Occupancy

① Scene Representor ② Occ Forecaster ③ Autoregressive Simulator

LiDARGen

点云序列

① Data Engine ② Action Forecaster ③ Autoregressive Simulator

各模态深度拆解VideoGen——把视频生成做成“时空编剧”

典型方法时间线(2021-2025)

图 3:VideoGen 代表方法逐年汇总(来源:论文 Figure 3)

  • Data Engine:MagicDrive、DiVE、DreamForge 等用 BEV/HD-Map 做几何约束,生成多视角长视频,解决长尾数据稀缺。

  • Action Interpreter:GAIA-1/2、DriveWM、Vista 把“转向+速度”映射到未来帧,实现动作-结果可微分仿真。

  • Neural Simulator:DriveArena、DreamForge 在闭环里交替“生成-决策”,替代传统游戏引擎渲染管线。

VideoGen模型分类

关键挑战:长时序一致性(InfinityDrive)、多视角几何对齐(DiST-4D)、稀疏标注下的可控性(MaskGWM)。

OccGen——把世界变成“可交互的乐高”

图 5:OccGen 三功能分类(来源:论文 Figure 5)|

  • Scene Representor:SSD、SemCity 用扩散模型把稀疏 occupancy 补全为稠密语义体素,提升感知鲁棒性。

  • Occupancy Forecaster:OccWorld、OccSora、T3Former 以 ego-action 为条件,预测未来 3s 的 4D occupancy,误差 < 30 cm。

  • Autoregressive Simulator:DynamicCity、UniScene 支持“布局→时序体素→多传感数据”一条龙,实现可编辑的大型开放世界

OccGen

关键挑战:细粒度动态物体(自行车、行人)补全、长时序误差累积、与下游规划器端到端联合训练。

LiDARGen——直接“点云编剧”

图 6:LiDARGen 三功能分类(来源:论文 Figure 6)

  • Data Engine:R2DM、LiDM、WeatherGen 用扩散/流匹配生成逼真点云,解决恶劣天气、稀有场景数据不足。

  • Action Forecaster:Copilot4D、ViDAR 把“历史点云 + 未来轨迹”映射到未来点云,实现点云级别的动作推演

  • Autoregressive Simulator:LiDARCrafter、LidarDM 支持4D 点云序列闭环生成,可直接喂给下游检测/规划网络做训练。

关键挑战:保持扫描线结构、处理点云稀疏性、跨模态与图像语义对齐。

统一评测体系——不再“各玩各的”

表 14:五类评测指标总表(来源:论文 Table 14)|

  1. Generation Quality:FID/FVD、FRD/FPD、Consistency、Controllability、Human Preference

  2. Forecasting Quality:IoU@1s/2s/3s、Chamfer Distance、Temporal Consistency

  3. Planning-Centric:Open-Loop L2/碰撞率、Closed-Loop PDMS/ADS

  4. Reconstruction Quality:PSNR/SSIM/LPIPS、Novel-View IoU

  5. Downstream:3D Det mAP、BEV 分割 mIoU、VQA Top-1

https://arxiv.org/pdf/ 2509. 079963Dand 4D World Modeling: A Survey https://github.com/worldbench/survey
特别声明:[李飞飞押注的3D世界模型黑科技,被这篇论文一次性扒光!(李飞飞水平)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

元气少女白鹭,沈月,『秦岚』,角落密聊,互动萌趣十足!(元气少女の日常)

本以为三位美女站在一起,必定是一场暗地里的比美修罗场,毕竟她们的『穿搭』风格差异化十足:白鹭的『牛仔外套』🧥搭配碎花裙,温柔中带着一丝烟火气;沈月则选择了短款上衣与工装裤,青春洋溢且活力十足;『秦岚』一身简约,却自带…

元气少女白鹭,沈月,『秦岚』,角落密聊,互动萌趣十足!(元气少女の日常)

上海今夜,『刘诗诗』纯净迷人光彩照人,『陈哲远』雕塑般面庞似贵族王子(上海今夜你将谁遗忘小说)

『刘诗诗』和『陈哲远』恰恰在气质上与CELINE的风格完美契合,展现出女性♀️力量和高端优雅的品牌精神。 不管是『刘诗诗』那种温柔婉约中带有坚韧的东方女性♀️气质,还是『陈哲远』那种贵族般的少年气息与豪气兼备,他们都能够在保持自…

上海今夜,『刘诗诗』纯净迷人光彩照人,『陈哲远』雕塑般面庞似贵族王子(上海今夜你将谁遗忘小说)

骏马踏春启新程 欢歌劲舞福满家——沙湾市四道河子镇“骏马踏春归 村晚启新程”群众村晚圆满落幕(骏马踏春启新程手工一年级)

1月27日,沙湾市四道河子镇“骏马踏春归村晚启新程”群众“村晚”热闹开演,各族群众欢聚一堂,以自编自演的节目喜迎新春、共话发展,用歌声传递喜悦,用舞步凝聚民心,奏响了民族团结、乡村振兴的和谐乐章。 活动在喜…

骏马踏春启新程 欢歌劲舞福满家——沙湾市四道河子镇“骏马踏春归 村晚启新程”群众村晚圆满落幕(骏马踏春启新程手工一年级)

2026年拜年礼包到底能省多少钱?智能化选购攻略大揭秘(2020拜年祭2233限定礼包)

春节临近,大家都想给长辈或亲朋好友准备一份心意满满的拜年礼包,但又不想花费太多。本文为你深入剖析拜年礼包的价格差异、购买技巧以及智能选购趋势,帮助你在不降低品质的前提下节省开支,实现物超所值。了解不同场合适用的款式,避免踩坑,轻松挑选性价比

2026年拜年礼包到底能省多少钱?智能化选购攻略大揭秘(2020拜年祭2233限定礼包)

2026年如何挑选优质海盐包腰包?腰椎理疗好物深度测评(2026怎么样)

颈椎不适?艾草热敷包成为2026年护脊养生新宠!如何挑选合适的热敷盐袋,让颈部轻松缓解压力?本篇为您详细分析功能、材质、价格等多维度因素,助您选对最适合自己的颈椎热敷包。重点关注艾草热敷与粗盐理疗的原理区别,以及不同材质带来的实际体验。

2026年如何挑选优质海盐包腰包?腰椎理疗好物深度测评(2026怎么样)