继去年发布 、 之后,Google DeepMind 昨日深夜推出了他们的新一代世界模型 Genie 3。据介绍,这一通用世界模型能够生成前所未有的多样化交互式环境。
基于文本提示,Genie 3 可以生成动态世界,在 24 帧每秒的实时速度下进行探索,并在 720p 分辨率下保持几分钟的一致性。
官方介绍片如下:
Genie 3 能力如何?
以下是 Genie 3 的实时交互录屏。
模拟物理世界属性
体验水流、光照等自然现象,以及复杂的环境交互。
prompt: Jetski during the festival of lights.
模拟自然世界
生成生机勃勃的生态系统,从动物行为到复杂的植物生命。
prompt: Real world tracking shot swimming through deep dimly lit ocean between deep ocean canyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.
动画与虚构作品的建模
激发想象力,打造奇幻场景并塑造生动逼真的动画角色。
prompt: A vibrant 3D style, an adorable, fluffy creature bounding across a vibrant rainbow bridge in a fantastical landscape. The creature is small and compact, with fur that mimics the warm hues of a sunrise - oranges, yellows, and pinks blending seamlessly together. Its most striking feature is a pair of large, perked ears, shaped like those of a German Shepherd, adding a touch of playful contrast to its otherwise rounded form. As it runs on four short legs across the rainbow, its fur appears to ripple and flow, adding to its sense of dynamism and energy. The rainbow bridge arches gracefully through a whimsical landscape, perhaps filled with floating islands, glowing flora, and swirling clouds. The lighting is bright and cheerful, casting a warm glow on the creature and its surroundings. The overall impression is one of joy, wonder, and boundless energy, capturing the creature's playful spirit and the magical nature of the world it inhabits. This image evokes a sense of childlike whimsy and invites the viewer to imagine the adventures that await this charming creature in its fantastical realm.
探索地点与历史背景
突破地理与时间的界限,探索各地与往昔时代。
prompt: A real world mountainous environment in the Alps. The landscape features steep, rocky cliffs and narrow gorges filled with loose scree and debris. The rock is predominantly grey and white, with patches of green vegetation clinging to the cliff faces. The top of the gorge opens up to a vista of dense evergreen forests and meadows. The overall theme is one of rugged, natural beauty and extreme terrain.
突破即时处理能力的边界
要在 Genie 3 中实现高度可控性和实时交互性,需要取得重大的技术突破。在每个帧的自回归生成过程中,模型必须考虑随时间增长的先前生成的轨迹。例如,如果用户在一分钟后重新访问某个位置,模型必须参考一分钟前的相关信息。为了实现实时交互性,这一计算必须以每秒多次的频率响应新用户输入。
长程环境一致性
为了使 AI 生成的世界具有沉浸感,它们必须保持长程物理一致性。然而,自回归式生成环境通常比生成整个视频更具技术挑战性,因为不准确性会随时间累积。尽管存在挑战,Genie 3 环境在几分钟内仍保持高度一致,视觉记忆可追溯至一分钟前。
prompt: This is a fantastical, whimsical forest environment. The lighting is bright and cheerful, suggesting a sunny day with dappled light filtering through a dense canopy of lush, oversized leaves. The air is clear and still. The ground is a soft, verdant carpet of moss and unusually large, brightly coloured mushrooms in shades of red and blue, their caps dotted with white. Winding dirt paths, well-trodden and narrow, weave between towering, ancient trees with smooth, grey bark. Interspersed throughout the forest are charming, mushroom-shaped houses, with intricate wooden doors and tiny, circular windows, each one unique in its design and colour palette, ranging from vibrant reds to gentle blues and greens. Various small, friendly forest creatures, such as colourful butterflies and tiny singing birds, flit amongst the foliage, adding to the lively atmosphere. There is an abundance of peculiar, oversized flowers blooming in an array of pastel and bright hues, releasing a gentle glow.
研究团队表示,Genie 3 的一致性是一种涌现能力。其他方法,如 NeRF 和高斯溅射,也能够生成一致的可导航 3D 环境,但依赖于显式 3D 表示的提供。相比之下,Genie 3 生成的世界更具动态性,且更丰富,因为它们是基于世界描述和用户操作,逐帧生成的。
可提示的世界事件
除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互方式,研究团队称之为可提示的世界事件。
可提示的世界事件使生成世界能够发生变化,例如改变天气条件或引入新物体和角色,从而提升导航控制带来的体验。
这一能力还扩大了反事实(即“如果……会怎样”)场景的范围,这些场景可被通过经验学习的 agent 用于处理意外情况。
如下,选择一个世界设置。然后,选择一个事件,Genie 3 就可以创建一个交互世界。
推动具身 agent 研究
为了测试 Genie 3 生成的世界与未来 agent 训练的兼容性,研究团队为 SIMA agent 的最新版本生成了世界,该 agent 是用于 3D 虚拟环境的通用 agent。在每个世界中,他们会指示 agent 追求一组不同的目标,它通过向 Genie 3 发送导航动作来实现这些目标。与其他环境一样,Genie 3 并不知道 agent 的目标,而是根据 agent 的动作模拟未来。
由于 Genie 3 能够保持一致性,现在可以执行更长的操作序列,从而实现更复杂的目标。研究团队预计,这项技术将在向通用人工智能(AGI)迈进的过程中发挥关键作用,而 agent 在现实世界中也将扮演更重要的角色。
局限性
尽管 Genie 3 在世界模型能力上突破了现有界限,但研究团队称 Genie 3 已然存在诸多局限性,如下:
有限的动作空间。尽管可提示的世界事件允许对环境进行广泛干预,但这些操作并不一定由 agent 自身执行。agent 直接执行的动作范围目前仍受限。
与其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互,仍是一项持续的研究挑战。
真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。
文本渲染。清晰可读的文本通常仅在输入世界描述中提供时才会生成。
交互持续时间受限。该模型目前仅能支持几分钟的连续交互,而非数小时的持续交互。
下一步是什么?
研究团队认为,Genie 3 是世界模型发展的重要里程碑,它将开始对人工智能研究和生成式媒体的多个领域产生影响。为此,他们正在探索如何在未来向更多测试者开放 Genie 3。
Genie 3 可能为教育和培训创造新机遇,帮助学生学习和专家积累经验。它不仅能为训练机器人和自主系统等 agent 提供广阔空间,还能评估 agent 的性能并探索其弱点。
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
整理:小瑜