一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)

一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)

在最近的2025世界人工智能大会(WAIC)上,腾讯突然放了个“王炸”,正式发布并开源了旗下「混元3D 世界模型 1.0」。

据了解,相较于以往,此次发布的「混元3D世界模型」最大的不同在于,这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型。按照腾讯的说法,用户只需输入一句话或一张图,就能在几分钟内生成一个完整、可360度沉浸式漫游的3D世界。

在混元大模型官网,官方展示了几个例子。

比如通过上传一张画着一棵树、一艘船以及几栋建筑的原始图片,就能够快速生成一个包含小树、大海、蓝天白云、城镇等丰富要素的海滨小镇。

又比如,通过一段简短的文字描述,生成了一个布满珊瑚、鱼群以及海底城市的水下世界。整体来看,无论是作为主体的海底城市,还是周围的生态环境分布、光照等元素,构筑得都较为完整,算是较好地还原了文字描述的内容。

除了以上两个例子,官网还展示了许多其它的3D世界模型,包括小镇、雪山、火山等等,且这些模型的美术风格也较为多样,涵盖了油画、卡通、写实、水墨等等风格。

值得一提的是,这些生成的3D世界,均允许用户自由拖动视角进行360度观察,并导出为全景贴图以便在游戏、仿真或视觉引擎中使用。

回顾3D生成大模型的发展,从生成单个3D资产,到如今一句话构筑完整的3D世界,3D创作的门槛正在以肉眼可见的速度在下降。

实际用起来怎样?

随着混元3D世界模型正式发布,腾讯也面向所有人开放了试用体验。

在实际体验后,我发现该模型的「3D生成」能力主要有两个特点:

一是对文字或图像的理解能力较强。

在试用的过程中,我主要采用的是「文生全景」的方式。我发现即便我故意以一种非常不直白的方式来阐述自己想要的3D世界,混元模型还是能够较为准确地理解文字的含义,并生成一个大体符合我要求的全景。

比如在我要求混元模型生成一个类似武侠小说中肃杀凄凉的场景时,我给出了如下一段长文字,其中加入了大量对场景细节的艺术化表达,用于干扰模型的理解,包括“枯草低伏”、“残阳如血”、“无声的锋芒”等等。

朔风卷过死寂的荒原,枯草低伏,呜咽作响。残阳如血,将锈蚀断剑与焦黑枯树的影子拖长,斜插在龟裂的硬土上。几具森森白骨半掩于风化的黄沙中,散落的破碎甲片闪着冷光。一只秃鹫盘旋于铅灰色的低垂天幕,发出断续嘶鸣。空气里弥漫着铁锈的腥甜与尘土干燥的呛人气息。一面残破的战旗挂在光秃的旗杆顶端,被风撕扯出裂帛般的声响。远处,风沙漫过嶙峋的乱石岗,发出沙沙的低吼。天地间唯余一片枯槁、冰冷与无声的锋芒。

然而,从实际情况来看,混元模型算是较好地理解并抓住了以上文字的要点,一些关键性的要素,比如残阳、秃鹫、枯树、白骨、战旗等,都在生成的全景图里有所体现。同时,整个场景的氛围虽说刻画得不算完美,但也大体符合我原本“肃杀、凄凉”的要求。

当然,或许是模型吞噬的数据还不够多,我发现在要是向它描述一些现实中没有明文规定,但大家都约定俗成的定义时,混元模型的理解就容易走偏。

比如大多数人都能理解的「原神美术风格」,在我要求它以《原神》的美术风格,生成一个带有植被生态、中世纪教堂建筑以及以及遗迹残骸的城镇时,混元模型就给出了一个离我预期相差较远的全景图。

且不说细节能不能构筑出来,单单是美术风格就没能过关。能看得出来,混元模型其实并不理解所谓的「原神美术风格」。

虽然对一些定义的理解还有待加强,但混元模型的第二个特点弥补了这些劣势: 那就是它生成全景图或者模型的速度是真的快。

实际上,以上两次尝试从我输入完文字开始算起,每一个全景图的生成时间即便算上排队,也没有超过1分钟。

至于「图生全景」,同样也很快速。比如我在某次试用时,扔给了模型一张塞尔达传说风格的图片,混元模型同样用了不到一分钟,就生成了一个可360度观看的塞尔达风格全景世界。虽然细节上还有些粗糙,也没有太多的要素填充,但起码美术风格对上了。

需要指出的是,上述的试用生成的都是不可交互的全景图,想要生成可交互的漫游场景需要额外申请资格。两者的区别在于,漫游场景能够允许用户用WASD自由移动,是真正的虚拟3D世界。但从上述演示中不难看出,混元模型在3D世界模型生成方面的实际表现。

怎么实现的?

按照腾讯官方的说法,混元3D世界模型能实现上述效果,核心在于其创新的「语意层次化3D场景表征及生成算法」。该算法能够将复杂的3D世界解构为不同语意层级,实现前景、中景、远景分层生成。

不仅如此,在生成的场景中,用户还能对生成的每一部分,即场景内的元素进行独立编辑或物理仿真,比如前景物体可单独选中、绑定骨骼或添加行为逻辑;天空与地形支持替换或个性化渲染。

特别声明:[一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

荣耀400竟成华为“完美平替”,2000多档配置直接“王炸”!(荣耀400元手机)

以热门大型游戏《原神》为例,在开启高画质和高帧率模式下,荣耀400能够稳定保持较高的帧率,画面清晰流畅,技能释放和场景切换迅速,让玩家沉浸在精彩的游戏世界中,尽情享受战斗的乐趣。它采用了1920Hz高频PWM…

荣耀400竟成华为“完美平替”,2000多档配置直接“王炸”!(荣耀400元手机)

冷冻预制菜反复解冻,会不会产生致癌物?(冷冻预制菜厂家)

冷冻预制菜反复解冻,会不会产生致癌物?这几年,预制菜越来越火了,从超市冷柜、外卖平台,到中小学校午餐、家庭晚饭桌,似乎“一加热就能吃”的生活方式成了新的刚需。有些人说它方便、省事,是“厨房小白”的救星;也有人担心,预制菜是不是不健康?吃多了

冷冻预制菜反复解冻,会不会产生致癌物?(冷冻预制菜厂家)

天呐!8次惨戴绿帽,3次当场捉奸,这就是所谓玉女坚守的爱?

三次被捉奸在床,舆论哗然,纷纷嘲讽她为“原谅教教主”,而她却始终以一句“我选择原谅”回应。令人意想不到的是,她最终情定“风流才子”倪震,这一“沦陷”,便是十数年的光阴。即便被媒体拍到倪震与其他女子在床上翻云覆…

天呐!8次惨戴绿帽,3次当场捉奸,这就是所谓玉女坚守的爱?

我于正从出生到现在都是爆剧!求我捧红的人多的是,于妈也升咖了(于正 穿越剧)

而且,也有人担心,于正靠『明星』️驱动的作品虽收视高,但实际内核是否严谨深刻、是否过于片面化了,&34剧作有里子还是无里子&34,这才是最终检验于正水平的试金 &34看吧,我又捧红了一批新人!&am

我于正从出生到现在都是爆剧!求我捧红的人多的是,于妈也升咖了(于正 穿越剧)

304不锈钢免打孔圆形底座纸巾架,卫生间🚻卷纸架怎么选?(免打孔不锈钢胶 还能拆下来么)

想要卫生间🚻既整洁又高级?304不锈钢免打孔圆形底座立式纸巾架,是现代家居的颜值担当!无需钻孔、安装简单,防锈耐腐蚀,适合瓷砖玻璃墙面多种场景。本文带你搞懂它的材质优势、使用原理、选购要点与真实体验,还附上高性价比推荐方案,轻松避坑,让家

304不锈钢免打孔圆形底座纸巾架,卫生间🚻卷纸架怎么选?(免打孔不锈钢胶 还能拆下来么)