混元3D模型有什么不同
2018年电影《头号玩家》横空出世,一个完全虚拟但又有较为真实体验的世界,拉开了元宇宙世界的序幕,依靠VR设备就能创造一个崭新的世界过去被视作科幻想象。但在今天这一切也许有了可能。
腾讯混元世界3D模型,让我们看到了探索这种未来可能性,低成本人人可以参与创造,虚拟且真实的世界正在到来。
在2025 世界人工智能大会腾讯论坛上,腾讯正式发布并开源其全新「混元3D 世界模型1.0」,该模型不仅支持通过文本或图像生成完整3D 场景,还具备360° 沉浸式漫游、资产导出为标准mesh 格式、支持主流建模软件编辑等功能,真正实现从“AI 能画”到“人能用”的跃迁。
在生成式AI 重塑3D 内容创作流程的浪潮中,一场场技术革新正悄然改变游戏、美术、影视等产业的生产底座。作为最受欢迎的3D 开源模型之一,混元3D 模型在Hugging Face 平台下载量已超过230 万,广受全球开发者认可。
年初的时候腾讯就已经发布过了自己的3D模型,但彼时模型还不够成熟,只能生成单一物体互动性较弱。在今年4 月的2025 全球机器学习技术大会上,腾讯混元3D 项目负责人郭春超接受CSDN 专访时就提到:腾讯混元3D 系列模型正从“重建一个物体”到“生成一个场景”,再到“理解一个世界” 迈进,他们希望生成的不只是一个‘看起来像’的模型,而是一个创作者可以直接使用的可交付资产。
这次更新的空间模型能力堪称炸裂。腾讯混元团队也从定量角度评估混元世界模型1.0 性能,针对360° 全景与3D 场景生成能力,与开源或者开放接口工作进行了对比,包括纹理细节、美学质量、指令遵循等评价维度,结果显示,混元世界模型1.0 在生成质量上全面超过了SOTA 开源模型。
与此同时,腾讯混元还宣布了一系列后续开源计划,包括多模态理解模型、游戏视觉模型,以及适用于边缘设备的端侧大语言模型(0.5B、1.8B、4B、7B),覆盖从3D 世界生成到小模型部署的完整生态链条。这一次,腾讯不仅把3D 内容生成从「生成一个物体」升级到「生成一个世界」,还希望以开源的方式,撬动整个3D AIGC 创作生态。
那么从普通用户可感知的角度这事有什么可聊的呢?
混元模型可基于一句文本描述或一张图像输入,生成一个360 度沉浸式的三维场景。例如,你只需输入「一个破旧的加油站,夜晚下着雨,远处有霓虹灯」,它就能构建出加油站主体、环境、天空光照、闪电等元素构成的完整空间。
除了能看,还能动。混元世界模型支持构建“可行走”的场景地图。生成的世界不仅是封闭空间和固定视角,也支持在场景中自由漫游,体验类似游戏或虚拟现实的交互感。“可行走”过去很多空间模型也展示过,但是多数存在视角丢失,缺少空间感连续性,更不要说拿来做连续项目开发了。
为此腾讯选择了大胆创新,不完全采用3D方式来构建。纯3D 生成:优点是空间结构稳定,但受限于高质量3D 数据的稀缺,生成的多样性和创造力不足。
纯2D 视频生成(如Google 基础世界模型Genie):优点是交互和动态效果丰富,但缺乏三维空间的稳定性约束。你往前走再回头,场景可能已经「面目全非」,无法构建一个逻辑自洽的世界。腾讯混元团队选择了一条更聪明、也更复杂的「2D+3D 结合」的混合路线,取长补短。
对于游戏开发者而言,这是前所未有的生产力革命。 传统的游戏场景搭建,需要建模师耗费数周甚至数月的时间手动完成。现在,只需一句指令,就能快速生成一个高质量的场景原型,用于前期的玩法验证。这能极大地缩短开发周期,降低试错成本。同时,模型生成的各种道具、建筑也能作为基础素材,大大提升资产生产效率。对于普通3D 爱好者和内容创作者,它则彻底拉低了创作的门槛。 你不需要懂复杂的三维建模软件,也能创造属于自己的虚拟世界,并将其导入到Vision Pro 等设备中沉浸式体验。
那么是不是一个全新的空间智能时代就此来临?倒也不必这么乐观。目前的空间模型还处在相对初级的阶段,约束条件较多,仿真数据只能解决部分问题,在当前的大模型框架下,想要真正创造复杂动态多变的“世界”,还是有些科幻的。
空间智能战争打响
谈到空间智能就不能不谈世界模型,模型对空间的准确理解和构建是基础,但世界模型相对更复杂一些,会加入一些物理推理、因果推理等更维的约束,具备预测生成能力可以参与复杂决策系统。所以看上去空间智能模型更像是世界模型的前一阶段,具有一定子集性质。
但从实践上,空间智能模型,也会具有一些物理推理,比如腾讯的混元3D模型,也具备生成一个世界的能力,也可以说是一个基础世界模型。
“世界模型”被业内吹捧为是AI领域的下一个关键突破,那么“世界模型”到底指的是什么?它的重要之处在于哪里?
过去AI视频经常被人吐槽的是空间错乱不懂物理规则,比如大象跟老鼠一样重,三只手的人,悬浮的公路,汽车可以像幽灵一样穿过另一辆车等等。
因此传统AI模型集中于语言和数值数据,难以理解杂乱无章、结构不定且不断变化的真实物理世界,所以空间智能的发展存在重重挑战。直到最近两年生成式AI爆发,让机器来理解三维物理世界的技术越发成熟,AI生成可交互3D场景作为一种新兴的多模态任务,也被称为“空间智能”的领域,甚至被称为下一个AI创新重要节点,而不是Agent那样的智能体工具。
AI大神李飞飞曾提到:“空间智能让机器脱离数据中心,进入现实世界,理解丰富的三维、四维世界”,并总结为“I see,I move,I think,so I am”(我看、我动、我思,故我在),突出视觉、运动与认知的融合。
怎么理解呢?比如十年前AlphaZero学会围棋不是靠对弈,而是靠在内部模拟数十亿次对局。机器人也是一样,有了世界模型,它就能在“脑中模拟”无数种走路、抓取、跳跃的方式,从而学会最优策略。
当然,AlphaZero成本高昂不具备复杂多目标的预测和模拟,变成了“好玩的工具”。但到了大模型时代,世界模型的软硬件理论都在成熟。从过去一个点的模拟到现在整个场景的模拟不再是幻想。
想象一下,个人AI助手提前帮你规划一天日程并预测可能麻烦; 智能穿戴设备预测你的健康风险并主动干预;无人车不仅能开得安全,还能主动规避情绪激动的人。
一旦有了世界模型,AI就不只是“看到什么做什么”,而是可以在内部模拟不同路径的后果(比如机器人该走楼梯还是乘电梯?);可以进行计划和策略调整(比如机器人先拿抹布再去打扫);可以进行跨模态融合推理(声音+图像+历史数据建模);这就类似于人类的“想象力+规划能力”,真正体现了具身智能的高级阶段。
来自谷歌DeepMind的顶尖研究团队25年6月发表了一篇具有里程碑意义的论文,题为《通用智能体需要世界模型》。该研究通过严谨的数学证明,首次从理论上确立了一个核心论断:任何能够灵活适应并完成多步、复杂任务的通用人工智能(AI)体,其内部必然已经学习并编码了一个关于其环境的预测模型——即“世界模型”(World Model)。
这意味着,学习一个精确的世界模型,不是一个可选项,而是成为通用智能体的“必要条件”。AI的能力上限,被其内部世界模型的保真度牢牢锁定。
所以AI竞争的下一个大方向,就是世界模型或者空间智能,真正懂AI其实已经早有布局了。
今年1月7日,黄仁勋在2025年拉斯维加斯消费电子展(CES)上宣布,推出Cosmos世界模型(Cosmos World Foundation Models,简称Cosmos WFMs),该模型专为理解物理世界打造,可预测和生成“物理感知”的视频。
实际上,除了英伟达,谷歌以及不少初创企业也在追逐世界模型,谷歌旗下DeepMind组建世界模型研究团队,聘请Sora核心人员Tim Brooks掌舵。此外,“AI教母”李飞飞的World Labs、初创公司Decart、Odyssey也都涉足其中。
8月5日Google DeepMind发布的Genie 3带来了新的技术想象力,而是直接生成一个可交互的3D世界。
对比Genie 1 和Genie 2,这次Google DeepMind 团队实现了一次关键的升级,从「生成可互动视频」变成了「实时生成可互动世界」。
Genie 3 的升级除了「可漫游」这一方面,它的强大之处主要体现在以下几点。实时交互性:Genie 3 生成的世界不是预先渲染好的视频。它能以720p 分辨率和24fps 的帧率实时运行,让我们像玩游戏一样在其中自由移动。更长的持续性和一致性:这是最令人惊艳的升级。相比前代模型十几秒的互动时间,Genie 3 将这个时长提升到了「几分钟」。更重要的是,它拥有长达一分钟的视觉记忆。
Genie 3虽然还不够长,用于生产力工作稍显不足,但以及证明了生产互动性世界是可以的,实现了1的开始还怕后面没有0吗?
其实不管是对互联网企业来说,还是个人用户,都可以通过空间智能3D模型,来用于游戏、视频制作、3D动画等,将会创造完全不同于以往的体验,对于影音娱乐的革命或许就在眼下。
腾讯AI在下什么大棋
过去大家对腾讯的印象是喜欢“后发制人”在科技创新上略显保守,但今年以来这个评价或许不那么合适了。
今年3月19日,腾讯发布新一季财报。2024年,腾讯在AI战略推动下,全年资本开支达到767亿元,同比增长221%,创下历史新高。财报电话会上,腾讯总裁刘炽平表示:“我们计划在2025年进一步加大资本支出,预计资本支出将占收入的十几个百分点。”
卷基础技术腾讯也是认真的。基础模型方面,腾讯的混元大模型体系已形成完整梯队。最新开源的0.5B-7B小模型 与之前52B的Hunyuan large、MoE架构的Hunyuan-A13B共同构成从端侧到云端的覆盖。
今年上半年混元TurboS理科推理提升超10%,代码能力提升24%,竞赛数学成绩大幅提升了39%。在全球公认的权威大语言模型评测平台Chatbot Arena上,混元TurboS排名已攀升至全球前八,与OpenAI GPT、谷歌Gemini、xAI 的Grok 等最领先大模型共同上榜,国内仅次于DeepSeek。
除了力推自家元宝之外,腾讯还是展现了以往以来的开放合作的胸怀,愿意成为行业基础设施,为中小开发者创业者搭建基础平台。
在智能体开发层面,将大模型知识引擎全面升级为“腾讯云智能体开发平台”,升级后的平台,整合了腾讯云行业领先的RAG(检索增强生成)技术、全面的Agent(智能体)能力以及实战打磨出来的贴合用户需求的功能,帮助企业快速激活私域知识、构建专属智能体。
从企业角度来看,眼下,企业知识库落地痛点很大,大量的内部文档、数据、经验等知识散落各处,亟待整合利用,而AI 技术恰好能对这些知识进行高效收集、精准分类与智能检索。基于这一判断,今年上半年,腾讯内部的知识库产品升级速度大大加快,腾讯乐享全面升级为乐享知识库,提供企业级的知识管理方案。
后来科沃斯将产品手册、故障代码库、用户常见问题等导入腾讯乐享知识库,利用AI 分类技术自动打标签、关联相似问题,员工和客服可通过搜索快速定位答案。科沃斯整体营销效率大大提升,人效两位数提升,每年可以省下百万的运营成本。只有这样真实的帮助企业“降本增效”,才能吸引更多企业参与生态建设,而不是挟持企业加入自家生态。
可以说腾讯已经找到了自己的节奏,基础模型研发和产品应用,两手都要硬。在C端,发挥优势打造AI原生的产品,力争跑出爆款,在B端,延续健康可持续的策略,不盲目跟风,贴合场景做落地。
写在最后
AI的下一个竞争焦点,正在转向世界模型或者空间模型,这没有问题,但距离真正的预测和自主生成决策感知空间的能力,还非常遥远。所以眼下要做或许不是各种激进落地,而是统一行业3D数据收集标准打好基础,以及模型架构创新把算力成本降下来才有大规模商业化可能。