谷歌 DeepMind 的新生成模型从头开始制作类似超级马里奥的游戏

发布时间:2024/2/29 来源:MIT Technology Review
精灵通过观看数小时的视频来学习如何控制游戏。它也可以帮助训练下一代机器人。

OpenAI 最近展示了其令人惊叹的生成模型 Sora,突破了文本转视频的可能性。现在,Google DeepMind 为我们带来了文本转视频游戏

新模型名为 Genie,可以拍摄简短的描述、手绘草图或照片,然后将其变成可玩的视频游戏,采用经典 2D 平台游戏(如《超级马里奥兄弟》)的风格。但不要指望一切会很快——步调。这些游戏以每秒 1 帧的速度运行,而大多数现代游戏的典型速度为每秒 30 至 60 帧。

“这是很酷的工作,”阿尔伯塔大学的人工智能研究员 Matthew Guzdial 说,他几年前 开发了一个类似的游戏生成器。

Genie 接受了从互联网上获取的数百个 2D 平台游戏的 30,000 小时视频的训练。古兹戴尔说,其他人以前也采取过这种方法。他自己的游戏生成器从视频中学习来创建抽象的平台游戏Nvidia 使用视频数据来训练一个名为GameGAN的模型,该模型可以生成 Pac-Man 等游戏的克隆版本。

但所有这些示例都使用输入动作(例如按下控制器上的按钮)以及视频片段来训练模型:显示马里奥跳跃的视频帧与跳跃动作配对,等等。用输入动作标记视频片段需要大量工作,这限制了可用的训练数据量。 

相比之下,吉尼仅接受视频片段的训练。然后,它了解八种可能的操作中哪一种会导致视频中的游戏角色改变其位置。这将无数小时的现有在线视频转化为潜在的训练数据。 

从蜡笔草图生成的游戏示例
Genie 可以根据手绘草图生成简单的游戏
谷歌深度思维

Genie 根据玩家采取的行动动态生成游戏的每个新帧。按“跳跃”,Genie 更新当前图像以显示游戏角色跳跃;按向左,图像将发生变化,显示字符移至左侧。游戏沿着一个动作一个动作地进行,当玩家玩游戏时,每个新帧都会从头开始生成。 

Genie 的未来版本可以运行得更快。“没有任何根本限制可以阻止我们达到每秒 30 帧,”领导这项工作的 Google DeepMind 研究科学家 Tim Rocktäschel 说道。“Genie 使用了许多与当代大型语言模型相同的技术,在提高推理速度方面取得了重大进展。” 

精灵了解了一些平台游戏中常见的视觉怪癖。许多此类游戏都使用视差,即前景横向移动的速度比背景快。Genie 经常将这种效果添加到它生成的游戏中。  

虽然 Genie 是一个内部研究项目,不会发布,但 Guzdial 指出,Google DeepMind 团队表示,有一天它可能会变成一种游戏制作工具——他也在开发这一工具。“我绝对有兴趣看看他们建造了什么,”他说。

虚拟游乐场

但谷歌 DeepMind 研究人员感兴趣的不仅仅是游戏生成。Genie 背后的团队致力于开放式学习,其中人工智能控制的机器人被放入虚拟环境中,并通过反复试验来解决各种任务(一种称为强化学习的技术)。 

2021 年,另一个 DeepMind 团队开发了一个名为 XLand 的虚拟游乐场,机器人在其中学习如何在移动障碍物等简单任务上进行合作。像 XLand 这样的沙箱对于训练未来的机器人应对一系列不同的挑战至关重要,然后再将它们与现实世界的场景进行比较。视频游戏示例证明 Genie 可以用来生成这样的虚拟游乐场。

其他人也开发了类似的世界构建工具。例如,Google Brain 的 David Ha 和瑞士 AI 实验室 IDSIA 的 Jürgen Schmidhuber 于 2018 年开发了一种工具,可以在称为世界模型的基于游戏的虚拟环境中训练机器人。但与 Genie 不同的是,这些需要训练数据包含输入操作。 

该团队展示了这种能力在机器人技术中的用途。当吉尼看到真实的机器人手臂操纵各种家用物品的视频时,模型学会了手臂可以做什么以及如何控制它。未来的机器人可以通过观看视频教程来学习新任务。  

“很难预测将启用哪些用例,”Rocktäschel 说。“我们希望像 Genie 这样的项目最终能为人们提供新的工具来表达他们的创造力。”

更正:本文已更新,以澄清 Genie 和 XLand 是由不同团队开发的。