一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)

一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)

在最近的2025世界人工智能大会(WAIC)上,腾讯突然放了个“王炸”,正式发布并开源了旗下「混元3D 世界模型 1.0」。

据了解,相较于以往,此次发布的「混元3D世界模型」最大的不同在于,这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型。按照腾讯的说法,用户只需输入一句话或一张图,就能在几分钟内生成一个完整、可360度沉浸式漫游的3D世界。

在混元大模型官网,官方展示了几个例子。

比如通过上传一张画着一棵树、一艘船以及几栋建筑的原始图片,就能够快速生成一个包含小树、大海、蓝天白云、城镇等丰富要素的海滨小镇。

又比如,通过一段简短的文字描述,生成了一个布满珊瑚、鱼群以及海底城市的水下世界。整体来看,无论是作为主体的海底城市,还是周围的生态环境分布、光照等元素,构筑得都较为完整,算是较好地还原了文字描述的内容。

除了以上两个例子,官网还展示了许多其它的3D世界模型,包括小镇、雪山、火山等等,且这些模型的美术风格也较为多样,涵盖了油画、卡通、写实、水墨等等风格。

值得一提的是,这些生成的3D世界,均允许用户自由拖动视角进行360度观察,并导出为全景贴图以便在游戏、仿真或视觉引擎中使用。

回顾3D生成大模型的发展,从生成单个3D资产,到如今一句话构筑完整的3D世界,3D创作的门槛正在以肉眼可见的速度在下降。

实际用起来怎样?

随着混元3D世界模型正式发布,腾讯也面向所有人开放了试用体验。

在实际体验后,我发现该模型的「3D生成」能力主要有两个特点:

一是对文字或图像的理解能力较强。

在试用的过程中,我主要采用的是「文生全景」的方式。我发现即便我故意以一种非常不直白的方式来阐述自己想要的3D世界,混元模型还是能够较为准确地理解文字的含义,并生成一个大体符合我要求的全景。

比如在我要求混元模型生成一个类似武侠小说中肃杀凄凉的场景时,我给出了如下一段长文字,其中加入了大量对场景细节的艺术化表达,用于干扰模型的理解,包括“枯草低伏”、“残阳如血”、“无声的锋芒”等等。

朔风卷过死寂的荒原,枯草低伏,呜咽作响。残阳如血,将锈蚀断剑与焦黑枯树的影子拖长,斜插在龟裂的硬土上。几具森森白骨半掩于风化的黄沙中,散落的破碎甲片闪着冷光。一只秃鹫盘旋于铅灰色的低垂天幕,发出断续嘶鸣。空气里弥漫着铁锈的腥甜与尘土干燥的呛人气息。一面残破的战旗挂在光秃的旗杆顶端,被风撕扯出裂帛般的声响。远处,风沙漫过嶙峋的乱石岗,发出沙沙的低吼。天地间唯余一片枯槁、冰冷与无声的锋芒。

然而,从实际情况来看,混元模型算是较好地理解并抓住了以上文字的要点,一些关键性的要素,比如残阳、秃鹫、枯树、白骨、战旗等,都在生成的全景图里有所体现。同时,整个场景的氛围虽说刻画得不算完美,但也大体符合我原本“肃杀、凄凉”的要求。

当然,或许是模型吞噬的数据还不够多,我发现在要是向它描述一些现实中没有明文规定,但大家都约定俗成的定义时,混元模型的理解就容易走偏。

比如大多数人都能理解的「原神美术风格」,在我要求它以《原神》的美术风格,生成一个带有植被生态、中世纪教堂建筑以及以及遗迹残骸的城镇时,混元模型就给出了一个离我预期相差较远的全景图。

且不说细节能不能构筑出来,单单是美术风格就没能过关。能看得出来,混元模型其实并不理解所谓的「原神美术风格」。

虽然对一些定义的理解还有待加强,但混元模型的第二个特点弥补了这些劣势: 那就是它生成全景图或者模型的速度是真的快。

实际上,以上两次尝试从我输入完文字开始算起,每一个全景图的生成时间即便算上排队,也没有超过1分钟。

至于「图生全景」,同样也很快速。比如我在某次试用时,扔给了模型一张塞尔达传说风格的图片,混元模型同样用了不到一分钟,就生成了一个可360度观看的塞尔达风格全景世界。虽然细节上还有些粗糙,也没有太多的要素填充,但起码美术风格对上了。

需要指出的是,上述的试用生成的都是不可交互的全景图,想要生成可交互的漫游场景需要额外申请资格。两者的区别在于,漫游场景能够允许用户用WASD自由移动,是真正的虚拟3D世界。但从上述演示中不难看出,混元模型在3D世界模型生成方面的实际表现。

怎么实现的?

按照腾讯官方的说法,混元3D世界模型能实现上述效果,核心在于其创新的「语意层次化3D场景表征及生成算法」。该算法能够将复杂的3D世界解构为不同语意层级,实现前景、中景、远景分层生成。

不仅如此,在生成的场景中,用户还能对生成的每一部分,即场景内的元素进行独立编辑或物理仿真,比如前景物体可单独选中、绑定骨骼或添加行为逻辑;天空与地形支持替换或个性化渲染。

特别声明:[一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

认爱泰版道明寺一年多备受争议!郑乃馨见面会下台抱Bright大哭(泰版道明寺)

哇塞,简直如同剧集翻转一般! 见面会的当天,她的男友Bright在INS上发布了一朵黑色玫瑰,完美呼应了这一主题!大家都预期Bright会出席见面会,然而没想到这一幕居然让人看到了偶像剧的情节!就在郑乃馨吟唱…

认爱泰版道明寺一年多备受争议!郑乃馨见面会下台抱Bright大哭(泰版道明寺)

PFA管耐压数据(管路耐压标准)

136-8172-4809(V同号)目前PFA价格处于低位,我司有各种品牌、型号、规格的PFA材料出售,原厂原包,物美价廉,欢迎选购!PFA管的耐压数据因多种因素而异,常见的耐压情况如下: - 标准管:在…

PFA管耐压数据(管路耐压标准)

麦角硫因霜好用吗?(麦角硫因霜好用吗)

别急着为此忧心,颜之初虫草抗皱面霜是肌肤的贴心呵护者。面霜质地轻盈,易于吸收,长期使用,能有效改善面颈部肌肤松弛、暗沉、皱纹等问题,让肌肤重焕青春光彩。推荐给所有干皮肤质的宝宝们,让你的肌肤在寒冷的冬季里依然…

麦角硫因霜好用吗?(麦角硫因霜好用吗)

寺庙 IPO:当“私生娃”撞上“商业娃”

群众手里的瓜还没捂热,就被第二条消息砸中——少林寺文化 IP 估值据说飙到 100 亿。爆料贴写得活色生香:时间、地点、聊天记录、DNA 报告,就差把“亲子鉴定”贴在方丈的光头上。若娃能继承,他岂不是出生即巅…

寺庙 IPO:当“私生娃”撞上“商业娃”

“金牌媒人”首次主持恋综林盛斌:像爸爸为女儿选男友

最近他主持的恋爱真人秀《女神配对计划》真的是超火,不仅观众喜爱,就连节目中的女艺人们也纷纷来找他“牵线”。 说到他个人的频道“Bobtivation”,这几年他也收获了不少回报,不仅吸引了超过10万订阅者,还…

“金牌媒人”首次主持恋综林盛斌:像爸爸为女儿选男友