腾讯加码空间智能大模型，这一赛道正在成为下一个风口 #科技 #混元 #空间 #模型 #风口 #赛道

混元3D模型有什么不同

2018年电影《头号玩家》横空出世，一个完全虚拟但又有较为真实体验的世界，拉开了元宇宙世界的序幕，依靠『VR设备』就能创造一个崭新的世界过去被视作科幻想象。但在今天这一切也许有了可能。

腾讯混元世界3D模型，让我们看到了探索这种未来可能性，低成本人人可以参与创造，虚拟且真实的世界正在到来。

在2025 世界人工智能大会腾讯论坛上，腾讯正式发布并开源其全新「混元3D 世界模型1.0」，该模型不仅支持通过文本或图像生成完整3D 场景，还具备360° 沉浸式漫游、资产导出为标准mesh 格式、支持主流建模软件编辑等功能，真正实现从“AI 能画”到“人能用”的跃迁。

在生成式AI 重塑3D 内容创作流程的浪潮中，一场场技术革新正悄然改变游戏、美术、影视等产业的生产底座。作为最受欢迎的3D 开源模型之一，混元3D 模型在Hugging Face 平台下载量已超过230 万，广受全球开发者认可。

年初的时候腾讯就已经发布过了自己的3D模型，但彼时模型还不够成熟，只能生成单一物体互动性较弱。在今年4 月的2025 全球机器学习技术大会上，腾讯混元3D 项目负责人郭春超接受CSDN 专访时就提到：腾讯混元3D 系列模型正从“重建一个物体”到“生成一个场景”，再到“理解一个世界” 迈进，他们希望生成的不只是一个‘看起来像’的模型，而是一个创作者可以直接使用的可交付资产。

这次更新的空间模型能力堪称炸裂。腾讯混元团队也从定量角度评估混元世界模型1.0 性能，针对360° 全景与3D 场景生成能力，与开源或者开放接口工作进行了对比，包括纹理细节、美学质量、指令遵循等评价维度，结果显示，混元世界模型1.0 在生成质量上全面超过了SOTA 开源模型。

与此同时，腾讯混元还宣布了一系列后续开源计划，包括多模态理解模型、游戏视觉模型，以及适用于边缘设备的端侧『大语言模型』（0.5B、1.8B、4B、7B），覆盖从3D 世界生成到小模型部署的完整生态链条。这一次，腾讯不仅把3D 内容生成从「生成一个物体」升级到「生成一个世界」，还希望以开源的方式，撬动整个3D AIGC 创作生态。

那么从普通用户可感知的角度这事有什么可聊的呢？

混元模型可基于一句文本描述或一张图像输入，生成一个360 度沉浸式的三维场景。例如，你只需输入「一个破旧的加油站，夜晚下着雨，远处有霓虹灯」，它就能构建出加油站主体、环境、天空光照、闪电等元素构成的完整空间。

除了能看，还能动。混元世界模型支持构建“可行走”的场景地图。生成的世界不仅是封闭空间和固定视角，也支持在场景中自由漫游，体验类似游戏或虚拟现实的交互感。“可行走”过去很多空间模型也展示过，但是多数存在视角丢失，缺少空间感连续性，更不要说拿来做连续项目开发了。

为此腾讯选择了大胆创新，不完全采用3D方式来构建。纯3D 生成：优点是空间结构稳定，但受限于高质量3D 数据的稀缺，生成的多样性和创造力不足。

纯2D 视频生成（如Google 基础世界模型Genie）：优点是交互和动态效果丰富，但缺乏三维空间的稳定性约束。你往前走再回头，场景可能已经「面目全非」，无法构建一个逻辑自洽的世界。腾讯混元团队选择了一条更聪明、也更复杂的「2D+3D 结合」的混合路线，取长补短。

对于游戏开发者而言，这是前所未有的生产力革命。传统的游戏场景搭建，需要建模师耗费数周甚至数月的时间手动完成。现在，只需一句指令，就能快速生成一个高质量的场景原型，用于前期的玩法验证。这能极大地缩短开发周期，降低试错成本。同时，模型生成的各种道具、建筑也能作为基础素材，大大提升资产生产效率。对于普通3D 爱好者和内容创作者，它则彻底拉低了创作的门槛。你不需要懂复杂的三维建模软件，也能创造属于自己的虚拟世界，并将其导入到Vision Pro 等设备中沉浸式体验。

那么是不是一个全新的空间智能时代就此来临？倒也不必这么乐观。目前的空间模型还处在相对初级的阶段，约束条件较多，仿真数据只能解决部分问题，在当前的大模型框架下，想要真正创造复杂动态多变的“世界”，还是有些科幻的。

空间智能战争打响

谈到空间智能就不能不谈世界模型，模型对空间的准确理解和构建是基础，但世界模型相对更复杂一些，会加入一些物理推理、因果推理等更维的约束，具备预测生成能力可以参与复杂决策系统。所以看上去空间智能模型更像是世界模型的前一阶段，具有一定子集性质。

但从实践上，空间智能模型，也会具有一些物理推理，比如腾讯的混元3D模型，也具备生成一个世界的能力，也可以说是一个基础世界模型。

“世界模型”被业内吹捧为是AI领域的下一个关键突破，那么“世界模型”到底指的是什么？它的重要之处在于哪里？

过去AI视频经常被人吐槽的是空间错乱不懂物理规则，比如大象跟老鼠一样重，三只手的人，悬浮的公路，汽车可以像幽灵一样穿过另一辆车等等。

因此传统AI模型集中于语言和数值数据，难以理解杂乱无章、结构不定且不断变化的真实物理世界，所以空间智能的发展存在重重挑战。直到最近两年生成式AI爆发，让机器来理解三维物理世界的技术越发成熟，AI生成可交互3D场景作为一种新兴的多模态任务，也被称为“空间智能”的领域，甚至被称为下一个AI创新重要节点，而不是Agent那样的智能体工具。

AI大神李飞飞曾提到：“空间智能让机器脱离『数据中心』，进入现实世界，理解丰富的三维、四维世界”，并总结为“I see，I move，I think，so I am”（我看、我动、我思，故我在），突出视觉、运动与认知的融合。

怎么理解呢？比如十年前AlphaZero学会围棋不是靠对弈，而是靠在内部模拟数十亿次对局。『机器人』️也是一样，有了世界模型，它就能在“脑中模拟”无数种走路、抓取、跳跃的方式，从而学会最优策略。

当然，AlphaZero成本高昂不具备复杂多目标的预测和模拟，变成了“好玩的工具”。但到了大模型时代，世界模型的软硬件理论都在成熟。从过去一个点的模拟到现在整个场景的模拟不再是幻想。

想象一下，个人AI助手提前帮你规划一天日程并预测可能麻烦；智能穿戴设备预测你的健康风险并主动干预；无人车不仅能开得安全，还能主动规避情绪激动的人。

一旦有了世界模型，AI就不只是“看到什么做什么”，而是可以在内部模拟不同路径的后果（比如『机器人』️该走楼梯还是乘电梯？）；可以进行计划和策略调整（比如『机器人』️先拿抹布再去打扫）；可以进行跨模态融合推理（声音+图像+历史数据建模）；这就类似于人类的“想象力+规划能力”，真正体现了具身智能的高级阶段。

来自谷歌DeepMind的顶尖研究团队25年6月发表了一篇具有里程碑意义的论文，题为《通用智能体需要世界模型》。该研究通过严谨的数学证明，首次从理论上确立了一个核心论断：任何能够灵活适应并完成多步、复杂任务的通用人工智能（AI）体，其内部必然已经学习并编码了一个关于其环境的预测模型——即“世界模型”（World Model）。

这意味着，学习一个精确的世界模型，不是一个可选项，而是成为通用智能体的“必要条件”。AI的能力上限，被其内部世界模型的保真度牢牢锁定。

所以AI竞争的下一个大方向，就是世界模型或者空间智能，真正懂AI其实已经早有布局了。

今年1月7日，黄仁勋在2025年拉斯维加斯消费电子展（CES）上宣布，推出Cosmos世界模型（Cosmos World Foundation Models，简称Cosmos WFMs），该模型专为理解物理世界打造，可预测和生成“物理感知”的视频。

实际上，除了『英伟达』，谷歌以及不少初创企业也在追逐世界模型，谷歌旗下DeepMind组建世界模型研究团队，聘请Sora核心人员Tim Brooks掌舵。此外，“AI教母”李飞飞的World Labs、初创公司Decart、Odyssey也都涉足其中。

8月5日Google DeepMind发布的Genie 3带来了新的技术想象力，而是直接生成一个可交互的3D世界。

对比Genie 1 和Genie 2，这次Google DeepMind 团队实现了一次关键的升级，从「生成可互动视频」变成了「实时生成可互动世界」。

Genie 3 的升级除了「可漫游」这一方面，它的强大之处主要体现在以下几点。实时交互性：Genie 3 生成的世界不是预先渲染好的视频。它能以720p 分辨率和24fps 的帧率实时运行，让我们像玩游戏一样在其中自由移动。更长的持续性和一致性：这是最令人惊艳的升级。相比前代模型十几秒的互动时间，Genie 3 将这个时长提升到了「几分钟」。更重要的是，它拥有长达一分钟的视觉记忆。

Genie 3虽然还不够长，用于生产力工作稍显不足，但以及证明了生产互动性世界是可以的，实现了1的开始还怕后面没有0吗？

其实不管是对『互联网』企业来说，还是个人用户，都可以通过空间智能3D模型，来用于游戏、视频制作、3D动画等，将会创造完全不同于以往的体验，对于影音娱乐的革命或许就在眼下。

腾讯AI在下什么大棋

过去大家对腾讯的印象是喜欢“后发制人”在科技创新上略显保守，但今年以来这个评价或许不那么合适了。

今年3月19日，腾讯发布新一季财报。2024年，腾讯在AI战略推动下，全年资本开支达到767亿元，同比增长221%，创下历史新高。财报电话会上，腾讯总裁刘炽平表示：“我们计划在2025年进一步加大资本支出，预计资本支出将占收入的十几个百分点。”

卷基础技术腾讯也是认真的。基础模型方面，腾讯的混元大模型体系已形成完整梯队。最新开源的0.5B-7B小模型与之前52B的Hunyuan large、MoE架构的Hunyuan-A13B共同构成从端侧到云端的覆盖。

今年上半年混元TurboS理科推理提升超10%，代码能力提升24%，竞赛数学成绩大幅提升了39%。在全球公认的权威『大语言模型』评测平台Chatbot Arena上，混元TurboS排名已攀升至全球前八，与OpenAI GPT、谷歌Gemini、xAI 的Grok 等最领先大模型共同上榜，国内仅次于『DeepSeek』。

除了力推自家元宝之外，腾讯还是展现了以往以来的开放合作的胸怀，愿意成为行业基础设施，为中小开发者创业者搭建基础平台。

在智能体开发层面，将大模型知识引擎全面升级为“腾讯云智能体开发平台”，升级后的平台，整合了腾讯云行业领先的RAG（检索增强生成）技术、全面的Agent（智能体）能力以及实战打磨出来的贴合用户需求的功能，帮助企业快速激活私域知识、构建专属智能体。

从企业角度来看，眼下，企业知识库落地痛点很大，大量的内部文档、数据、经验等知识散落各处，亟待整合利用，而AI 技术恰好能对这些知识进行高效收集、精准分类与智能检索。基于这一判断，今年上半年，腾讯内部的知识库产品升级速度大大加快，腾讯乐享全面升级为乐享知识库，提供企业级的知识管理方案。

后来科沃斯将产品手册、故障代码库、用户常见问题等导入腾讯乐享知识库，利用AI 分类技术自动打标签、关联相似问题，员工和客服可通过搜索快速定位答案。科沃斯整体营销效率大大提升，人效两位数提升，每年可以省下百万的运营成本。只有这样真实的帮助企业“降本增效”，才能吸引更多企业参与生态建设，而不是挟持企业加入自家生态。

可以说腾讯已经找到了自己的节奏，基础模型研发和产品应用，两手都要硬。在C端，发挥优势打造AI原生的产品，力争跑出爆款，在B端，延续健康可持续的策略，不盲目跟风，贴合场景做落地。

写在最后

AI的下一个竞争焦点，正在转向世界模型或者空间模型，这没有问题，但距离真正的预测和自主生成决策感知空间的能力，还非常遥远。所以眼下要做或许不是各种激进落地，而是统一行业3D数据收集标准打好基础，以及模型架构创新把算力成本降下来才有大规模商业化可能。