OpenAI 推出了一个令人惊叹的新型生成视频模型,名为 Sora

发布时间:2024/2/15 来源:MIT Technology Review
该公司正在与一小群安全测试人员共享 Sora,但我们其他人将不得不等待了解更多信息。

OpenAI 构建了一个名为 Sora 的引人注目的新型生成视频模型,它可以将简短的文本描述转化为长达一分钟的详细高清电影剪辑。

根据OpenAI在今天发布之前与《麻省理工科技评论》分享的四个示例视频,这家总部位于旧金山的公司突破了文本到视频生成的可能性(这是一个热门的新研究方向,我们将其标记为趋势) 2024 年观看)。

OpenAI 科学家蒂姆·布鲁克斯 (Tim Brooks) 表示:“我们认为,构建能够理解视频并理解我们世界中所有这些非常复杂的交互的模型,是所有未来人工智能系统的重要一步。”

但有一个免责声明。OpenAI 在严格保密的条件下让我们预览了 Sora(日语中的天空)。不同寻常的是,如果我们同意等到该模型的消息公开后征求外部专家的意见,该公司才会分享有关 Sora 的信息。[编者注:我们已在下面更新了这个故事,并添加了外部评论。] OpenAI 尚未发布技术报告或演示该模型的实际工作情况。并且表示不会很快发布 Sora。[更新:OpenAI 现已在其网站上分享了更多技术细节。]

提示:动画场景的特写是一个毛茸茸的小怪物跪在融化的红色蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的基调是惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。(来源:OpenAI)
提示:渲染华丽的珊瑚礁纸艺世界,充满了色彩缤纷的鱼类和海洋生物(图片来源:OpenAI)

第一个可以从文本片段生成视频的生成模型出现在 2022 年底。但来自 Meta、Google 和一家名为Runway的初创公司的早期示例存在故障且颗粒状。从那时起,这项技术一直在快速进步。去年发布的 Runway gen-2 模型可以制作质量接近大型工作室动画的短片。但这些例子大多数仍然只有几秒钟长。  

OpenAI 的 Sora 的示例视频高清且细节丰富。OpenAI 还表示,它可以生成长达一分钟的视频。东京街景的一段视频显示,Sora 已经学会了如何以 3D 方式将物体组合在一起:摄像机猛扑到场景中,跟踪一对夫妇走过一排商店。

OpenAI 还声称 Sora 能够很好地处理遮挡问题。现有模型的一个问题是,当物体离开视野时,它们可能无法跟踪它们。例如,如果一辆卡车经过路标前,该路标之后可能不会再出现。  

在一段纸艺水下场景的视频中,Sora 在不同的片段之间添加了看起来像是剪切的内容,而模型在它们之间保持了一致的风格。

它并不完美。在东京的视频中,左边的汽车看起来比走在它们旁边的人小。它们也会在树枝之间进进出出。“在长期一致性方面肯定还有一些工作要做,”布鲁克斯说。“例如,如果某人离开视线很长时间,他们就不会回来。模型有点忘记了他们应该在那里。”

科技戏弄

尽管令人印象深刻,这里展示的示例视频无疑是经过精心挑选的,以展示 Sora 的最佳状态。如果没有更多信息,很难知道它们对模型典型输出的代表性。   

我们可能需要一段时间才能知道。OpenAI 今天宣布的 Sora 是一个技术玩笑,该公司表示目前没有计划向公众发布它。相反,OpenAI 今天将首次开始与第三方安全测试人员共享该模型。

该公司尤其担心虚假但逼真的视频可能被滥用OpenAI 的科学家、该公司的文本到图像模型的创建者 Aditya Ramesh 表示:“我们对这里的部署非常谨慎,并确保在将其交付给公众之前,我们已经覆盖了所有基础。”达尔-E

但 OpenAI 计划在未来某个时候推出产品。除了安全测试人员之外,该公司还与一组精选的视频制作者和艺术家共享该模型,以获得有关如何使 Sora 对创意专业人士尽可能有用的反馈。“另一个目标是向所有人展示即将发生的事情,预览这些模型的能力,”拉梅什说。

为了构建 Sora,该团队采用了 DALL-E 3 背后的技术,DALL-E 3 是 OpenAI 旗舰文本到图像模型的最新版本。与大多数文本到图像模型一样,DALL-E 3 使用所谓的扩散模型。这些被训练来将随机像素的模糊变成图片。

Sora 采用了这种方法并将其应用于视频而不是静态图像。但研究人员还添加了另一种技术。与 DALL-E 或大多数其他生成视频模型不同,Sora 将其扩散模型与一种称为 Transformer 的神经网络相结合。

Transformer 非常擅长处理长数据序列,例如单词。这使得它们成为 OpenAI 的GPT-4和 Google DeepMind 的Gemini等大型语言模型中的特殊调味品。但视频不是由文字组成的。相反,研究人员必须找到一种方法将视频切成可以像视频一样对待的块。他们想出的方法是将视频在空间和时间上切分。“这就像你有一堆所有视频帧,然后从中切出小立方体,”布鲁克斯说。

然后,Sora 内部的转换器可以处理这些视频数据块,就像大型语言模型内部的转换器处理文本块中的单词一样。研究人员表示,与其他文本到视频模型相比,这使他们能够在更多类型的视频上训练 Sora,这些视频在分辨率、持续时间、宽高比和方向方面各不相同。“这确实对模型有帮助,”布鲁克斯说。“这是我们不知道的任何现有工作。”

提示:几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处是白雪覆盖的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中。距离产生温暖的光芒,低相机视角令人惊叹地捕捉到了大型毛茸茸的哺乳动物,具有美丽的摄影效果和景深(图片来源:OpenAI)
提示:美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。(来源:OpenAI)

“从技术角度来看,这似乎是一次非常重大的飞跃,”专门研究视频技术使用和滥用问题的人权组织 Witness 的执行董事萨姆·格雷戈里 (Sam Gregory) 说。“但是硬币有两个方面,”他说。“表达能力为更多人提供了使用视频讲故事的潜力。而且也确实存在潜在的滥用途径。” 

OpenAI 非常清楚生成视频模型带来的风险。我们已经看到深度伪造图像的大规模滥用逼真的视频将其提升到了另一个水平。

格雷戈里指出,你可以使用这样的技术来误导人们有关冲突地区或抗议活动的信息。他说,风格的范围也很有趣。如果你能生成看起来像用手机拍摄的抖动镜头,那么它会显得更真实。

虽然技术尚未成熟,但生成视频在短短 18 个月内就从零发展到了 Sora。“我们将进入一个宇宙,其中将有完全合成的内容、人类生成的内容以及两者的混合,”格雷戈里说。

OpenAI 团队计划借鉴去年对 DALL-E 3 进行的安全测试。Sora 已经包含一个过滤器,该过滤器会在发送到模型的所有提示上运行,该过滤器将阻止对暴力、性或仇恨图像的请求,以及已知人物的图像。另一个过滤器将查看生成的视频帧并阻止违反 OpenAI 安全政策的材料。

OpenAI 表示,它还在改编为 DALL-E 3 开发的假图像检测器,以便与 Sora 一起使用。该公司还将把行业标准的 C2PA 标签(说明图像生成方式的元数据)嵌入到 Sora 的所有输出中。但这些步骤远非万无一失。假图像探测器是偶然的。元数据很容易删除,大多数社交媒体网站默认将其从上传的图像中删除。  

“我们肯定需要获得更多反馈,并更多地了解需要通过视频解决的风险类型,然后我们才有意义发布此内容,”拉梅什说。

布鲁克斯同意。他说:“我们现在讨论这项研究的部分原因是,我们可以开始获得所需的信息,以开展必要的工作,找出如何安全部署它。”

2/15 更新:添加了 Sam Gregory 的评论

AI吧交流-微信