在生成式 AI 重塑 3D 内容创作流程的浪潮中,一场场技术革新正悄然改变游戏、美术、影视等产业的生产底座。
作为最受欢迎的 3D 开源模型之一,混元 3D 模型在 Hugging Face 平台下载量已超过 230 万,广受全球开发者认可。
在2025年7月27日的世界人工智能大会(WAIC)上,腾讯正式发布并开源了混元3D世界模型1.0,这是业界首个支持沉浸漫游、交互与仿真的开源世界生成模型。该模型隶属于腾讯混元大模型家族,旨在彻底改变3D内容创作模式。
传统3D场景构建需要专业团队耗费数周时间,而混元3D世界模型通过输入单句文字描述或一张图片,仅需几分钟即可生成可360度漫游、可编辑的完整3D虚拟场景。其核心目标是解决数字内容创作的高门槛和低效率问题,覆盖游戏开发、VR体验、数字孪生等领域的刚性需求。
腾讯首次将“1+3+N”AI应用全景图引入公众视野,该体系以混元大模型为核心引擎,而3D世界模型正是其多模态能力矩阵的关键组成部分。
腾讯公司副总裁蔡光忠在会上强调:“当前AI仍处于发展初级阶段,我们需要推动技术突破走向场景实践,让好用的AI出现在离用户和产业更近的地方。”
在今年 4 月的 2025 全球机器学习技术大会上,腾讯混元 3D 项目负责人郭春超接受 CSDN 专访时就提到:
腾讯混元 3D 系列模型正从“重建一个物体”到“生成一个场景”,再到“理解一个世界” 迈进,他们希望生成的不只是一个‘看起来像’的模型,而是一个创作者可以直接使用的可交付资产。
在短短几个月的时间,混元 3D 模型就实现了从单物体生成迈向完整场景的生成。
近日,郭春超老师在接受 CSDN 线上采访时表示:当前的核心目标是生成稳定、可信的三维场景,这是虚拟游戏与具身智能仿真等应用的基础。混元 3D 世界模型 1.0 的发布,标志着我们在“从物体到场景”这一阶段实现了初步突破。
下一步,他们将引入更多交互能力,如融合 VR、AR 等技术,进一步推动世界模型从“场景生成”迈向“世界理解”。
打开 3D 世界生成新维度:一句话创造可漫游的 3D 世界
作为业界首个开源、兼容 CG 工业生产管线的 3D 世界生成模型,混元 3D 世界模型 1.0 不仅面向科研圈、开发者和 AI 爱好者,更真正对接了游戏开发、物理仿真等高标准场景需求。
自研的层次化 3D 场景表征及生成算法,支持 3D Mesh 导出,在保证生成场景的逼真度和沉浸感的同时,兼容已有 CG 管线进行二次开发,如游戏开发、物理仿真、场景编辑等。
其核心能力亮点如下:
- 全景生成,一步成“世界”:相比以往模型只能生成“一个角落”的局部视角,混元支持直接构建完整的 360° 世界场景,四周内容连续、空间感强,具有更强沉浸感与拓展性。
- 结果可导出、可编辑,真正“能用”:模型输出的内容不仅是“看图”,而是结构化的 3D mesh 网格数据,可一键导出并无缝对接到 Blender、Unity、Unreal Engine 等主流工具中,真正走向 CG 生产环节。
- 此外,模型采用自研的“层次化 3D 场景生成算法”,将前景物体、背景地形、天空层等自动区分,使后续二次编辑更加灵活。
- 可交互,可漫游:与传统的 2D 全景图不同,混元生成的是“可探索”的 3D 世界。用户不仅可以原地观察,还可以在其中自由移动、视角切换,实现“人在场景中”的沉浸式体验。
- 多模态输入支持:支持“文字生成场景”“图像生成场景”等多种输入方式,适配创作者不同工作流程。
此外,腾讯混元团队也从定量角度评估混元世界模型 1.0 性能,针对 360° 全景与 3D 场景生成能力,与开源或者开放接口工作进行了对比,包括纹理细节、美学质量、指令遵循等评价维度,结果显示,混元世界模型 1.0 在生成质量上全面超过了 SOTA 开源模型。
文生 360° 全景指标
图生 360° 全景指标
文生 3D 场景指标
图生 3D 场景指标
混元3D世界模型的开源标志着3D内容生产从专业工作室走向大众化。当一句口语描述就能生成可交互的虚拟世界,数字创作的边界被彻底打破。
腾讯此举不仅为开发者提供强力工具,更在构建AI时代的3D内容基础设施——就像当年安卓系统重塑移动生态,如今3D生成技术正成为元宇宙发展的关键基石。
随着月底0.5B-7B端侧小模型的开源,这项技术将进入手机、XR眼镜等更轻量设备。当创作门槛消失,每个人都能成为虚拟世界的筑梦师,全新的数字生产力革命已然拉开序幕。