DeepMind 世界模型再升级:一句话「创造」多样化交互世界!(deep and wide模型)

DeepMind 世界模型再升级:一句话「创造」多样化交互世界!(deep and wide模型)

继去年发布 、 之后,Google DeepMind 昨日深夜推出了他们的新一代世界模型 Genie 3。据介绍,这一通用世界模型能够生成前所未有的多样化交互式环境。

基于文本提示,Genie 3 可以生成动态世界,在 24 帧每秒的实时速度下进行探索,并在 720p 分辨率下保持几分钟的一致性。

官方介绍片如下:

Genie 3 能力如何?

以下是 Genie 3 的实时交互录屏。

模拟物理世界属性

体验水流、光照等自然现象,以及复杂的环境交互。

prompt: Jetski during the festival of lights.

模拟自然世界

生成生机勃勃的生态系统,从动物行为到复杂的植物生命。

prompt: Real world tracking shot swimming through deep dimly lit ocean between deep ocean canyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.

动画与虚构作品的建模

激发想象力,打造奇幻场景并塑造生动逼真的动画角色。

prompt: A vibrant 3D style, an adorable, fluffy creature bounding across a vibrant rainbow bridge in a fantastical landscape. The creature is small and compact, with fur that mimics the warm hues of a sunrise - oranges, yellows, and pinks blending seamlessly together. Its most striking feature is a pair of large, perked ears, shaped like those of a German Shepherd, adding a touch of playful contrast to its otherwise rounded form. As it runs on four short legs across the rainbow, its fur appears to ripple and flow, adding to its sense of dynamism and energy. The rainbow bridge arches gracefully through a whimsical landscape, perhaps filled with floating islands, glowing flora, and swirling clouds. The lighting is bright and cheerful, casting a warm glow on the creature and its surroundings. The overall impression is one of joy, wonder, and boundless energy, capturing the creature's playful spirit and the magical nature of the world it inhabits. This image evokes a sense of childlike whimsy and invites the viewer to imagine the adventures that await this charming creature in its fantastical realm.

探索地点与历史背景

突破地理与时间的界限,探索各地与往昔时代。

prompt: A real world mountainous environment in the Alps. The landscape features steep, rocky cliffs and narrow gorges filled with loose scree and debris. The rock is predominantly grey and white, with patches of green vegetation clinging to the cliff faces. The top of the gorge opens up to a vista of dense evergreen forests and meadows. The overall theme is one of rugged, natural beauty and extreme terrain.

突破即时处理能力的边界

要在 Genie 3 中实现高度可控性和实时交互性,需要取得重大的技术突破。在每个帧的自回归生成过程中,模型必须考虑随时间增长的先前生成的轨迹。例如,如果用户在一分钟后重新访问某个位置,模型必须参考一分钟前的相关信息。为了实现实时交互性,这一计算必须以每秒多次的频率响应新用户输入。

环境一致性

为了使 AI 生成的世界具有沉浸感,它们必须保持长程物理一致性。然而,自回归式生成环境通常比生成整个视频更具技术挑战性,因为不准确性会随时间累积。尽管存在挑战,Genie 3 环境在几分钟内仍保持高度一致,视觉记忆可追溯至一分钟前。

prompt: This is a fantastical, whimsical forest environment. The lighting is bright and cheerful, suggesting a sunny day with dappled light filtering through a dense canopy of lush, oversized leaves. The air is clear and still. The ground is a soft, verdant carpet of moss and unusually large, brightly coloured mushrooms in shades of red and blue, their caps dotted with white. Winding dirt paths, well-trodden and narrow, weave between towering, ancient trees with smooth, grey bark. Interspersed throughout the forest are charming, mushroom-shaped houses, with intricate wooden doors and tiny, circular windows, each one unique in its design and colour palette, ranging from vibrant reds to gentle blues and greens. Various small, friendly forest creatures, such as colourful butterflies and tiny singing birds, flit amongst the foliage, adding to the lively atmosphere. There is an abundance of peculiar, oversized flowers blooming in an array of pastel and bright hues, releasing a gentle glow.

研究团队表示,Genie 3 的一致性是一种涌现能力。其他方法,如 NeRF 和高斯溅射,也能够生成一致的可导航 3D 环境,但依赖于显式 3D 表示的提供。相比之下,Genie 3 生成的世界更具动态性,且更丰富,因为它们是基于世界描述和用户操作,逐帧生成的。

可提示的世界事件

除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互方式,研究团队称之为可提示的世界事件。

可提示的世界事件使生成世界能够发生变化,例如改变天气条件或引入新物体和角色,从而提升导航控制带来的体验。

这一能力还扩大了反事实(即“如果……会怎样”)场景的范围,这些场景可被通过经验学习的 agent 用于处理意外情况。

如下,选择一个世界设置。然后,选择一个事件,Genie 3 就可以创建一个交互世界。

推动具身 agent 研究

为了测试 Genie 3 生成的世界与未来 agent 训练的兼容性,研究团队为 SIMA agent 的最新版本生成了世界,该 agent 是用于 3D 虚拟环境的通用 agent。在每个世界中,他们会指示 agent 追求一组不同的目标,它通过向 Genie 3 发送导航动作来实现这些目标。与其他环境一样,Genie 3 并不知道 agent 的目标,而是根据 agent 的动作模拟未来。

由于 Genie 3 能够保持一致性,现在可以执行更长的操作序列,从而实现更复杂的目标。研究团队预计,这项技术将在向通用人工智能(AGI)迈进的过程中发挥关键作用,而 agent 在现实世界中也将扮演更重要的角色。

局限性

尽管 Genie 3 在世界模型能力上突破了现有界限,但研究团队称 Genie 3 已然存在诸多局限性,如下:

有限的动作空间。尽管可提示的世界事件允许对环境进行广泛干预,但这些操作并不一定由 agent 自身执行。agent 直接执行的动作范围目前仍受限。

与其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互,仍是一项持续的研究挑战。

真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。

文本渲染。清晰可读的文本通常仅在输入世界描述中提供时才会生成。

交互持续时间受限。该模型目前仅能支持几分钟的连续交互,而非数小时的持续交互。

下一步是什么?

研究团队认为,Genie 3 是世界模型发展的重要里程碑,它将开始对人工智能研究和生成式媒体的多个领域产生影响。为此,他们正在探索如何在未来向更多测试者开放 Genie 3。

Genie 3 可能为教育和培训创造新机遇,帮助学生学习和专家积累经验。它不仅能为训练机器人和自主系统等 agent 提供广阔空间,还能评估 agent 的性能并探索其弱点。

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

整理:小瑜

特别声明:[DeepMind 世界模型再升级:一句话「创造」多样化交互世界!(deep and wide模型)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

别等头发“所剩无几”才着急!波斯坦防脱,现在还不晚

今天,波斯坦就来拆解脱发难题,奉上一份实打实的防脱育发攻略——愿每个为发量烦恼的人,都能守住发际线,让浓密秀发重新成为自信的铠甲。植萃配方既能巩固控油效果,让头皮持续清爽,又能给发丝裹上一层隐形保护膜:梳头…

别等头发“所剩无几”才着急!波斯坦防脱,现在还不晚

招商证券:全固态电池2030年量产,硫化物成主流(招商证券7.94)

【招商证券:全固态电池产业化加速,硫化物路线成主流】招商证券发布研报表明,全固态电池产业化进程明显提速,预计从2026年起会陆续在车端实现装车,2030年前后步入大规模量产阶段。硫化物电解质路线已成为行业的主…

招商证券:全固态电池2030年量产,硫化物成主流(招商证券7.94)

智慧食堂精细化运营:三招攻克成本管控难关(打造智慧食堂)

智慧食堂管理系统借助数据驱动的精细化运营模式,围绕食材损耗、人力成本、能源消耗这三大成本“重灾区”,打造全流程管控方案,达成降本增效与服务升级的双重目标。在备餐环节,智慧食堂管理系统实现订餐数据与库存管理的实…

智慧食堂精细化运营:三招攻克成本管控难关(打造智慧食堂)

别人婚后变憔悴,她却越活越惊艳,张馨予这七年藏着什么保鲜剂?(别人婚后变憔悴怎么办)

七年前,张馨予在婚礼上那句 “往后余生,请多指教” 还萦绕在耳边,转眼间,她已在婚姻的滋养中走过了七个春秋。 在事业上,张馨予也从未停下脚步,她不迎合流量,只专注于打磨作品,从《武媚娘传奇》里的美艳杨淑妃,到…

别人婚后变憔悴,她却越活越惊艳,张馨予这七年藏着什么保鲜剂?(别人婚后变憔悴怎么办)

六小龙503AI咖啡馆藏着机器人天团!“大白”已就位,还有一群高手等您赐名(六小龙服装织造公司怎么样)

点亮 和 让更多小伙伴知道…

六小龙503AI咖啡馆藏着机器人天团!“大白”已就位,还有一群高手等您赐名(六小龙服装织造公司怎么样)