一句话生成完整3D大世界？腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片) #科技 #混元 #业内 #原神 #模型 #文字

在最近的2025世界人工智能大会（WAIC）上，腾讯突然放了个“王炸”，正式发布并开源了旗下「混元3D 世界模型 1.0」。

据了解，相较于以往，此次发布的「混元3D世界模型」最大的不同在于，这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型。按照腾讯的说法，用户只需输入一句话或一张图，就能在几分钟内生成一个完整、可360度沉浸式漫游的3D世界。

在混元大模型官网，官方展示了几个例子。

比如通过上传一张画着一棵树、一艘船以及几栋建筑的原始图片，就能够快速生成一个包含小树、大海、蓝天白云、城镇等丰富要素的海滨小镇。

今日霍州(www.jrhz.info)©️

又比如，通过一段简短的文字描述，生成了一个布满珊瑚、鱼群以及海底城市的水下世界。整体来看，无论是作为主体的海底城市，还是周围的生态环境分布、光照等元素，构筑得都较为完整，算是较好地还原了文字描述的内容。

今日霍州(www.jrhz.info)©️

除了以上两个例子，官网还展示了许多其它的3D世界模型，包括小镇、雪山、火山等等，且这些模型的美术风格也较为多样，涵盖了油画、卡通、写实、水墨等等风格。

今日霍州(www.jrhz.info)©️

值得一提的是，这些生成的3D世界，均允许用户自由拖动视角进行360度观察，并导出为全景贴图以便在游戏、仿真或视觉引擎中使用。

回顾3D生成大模型的发展，从生成单个3D资产，到如今一句话构筑完整的3D世界，3D创作的门槛正在以肉眼可见的速度在下降。

实际用起来怎样？

随着混元3D世界模型正式发布，腾讯也面向所有人开放了试用体验。

在实际体验后，我发现该模型的「3D生成」能力主要有两个特点：

一是对文字或图像的理解能力较强。

在试用的过程中，我主要采用的是「文生全景」的方式。我发现即便我故意以一种非常不直白的方式来阐述自己想要的3D世界，混元模型还是能够较为准确地理解文字的含义，并生成一个大体符合我要求的全景。

比如在我要求混元模型生成一个类似武侠小说中肃杀凄凉的场景时，我给出了如下一段长文字，其中加入了大量对场景细节的艺术化表达，用于干扰模型的理解，包括“枯草低伏”、“残阳如血”、“无声的锋芒”等等。

「朔风卷过死寂的荒原，枯草低伏，呜咽作响。残阳如血，将锈蚀断剑与焦黑枯树的影子拖长，斜插在龟裂的硬土上。几具森森白骨半掩于风化的黄沙中，散落的破碎甲片闪着冷光。一只秃鹫盘旋于铅灰色的低垂天幕，发出断续嘶鸣。空气里弥漫着铁锈的腥甜与尘土干燥的呛人气息。一面残破的战旗挂在光秃的旗杆顶端，被风撕扯出裂帛般的声响。远处，风沙漫过嶙峋的乱石岗，发出沙沙的低吼。天地间唯余一片枯槁、冰冷与无声的锋芒。」

然而，从实际情况来看，混元模型算是较好地理解并抓住了以上文字的要点，一些关键性的要素，比如残阳、秃鹫、枯树、白骨、战旗等，都在生成的全景图里有所体现。同时，整个场景的氛围虽说刻画得不算完美，但也大体符合我原本“肃杀、凄凉”的要求。