OpenAI 致力于 开发安全且广泛受益的人工智能 。今天,我们将分享一个名为“语音引擎”的模型的小规模预览的初步见解和结果,该模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音。值得注意的是,具有单个 15 秒样本的小模型可以创建情感丰富且逼真的声音。
我们于 2022 年底首次开发了语音引擎,并用它来支持
文本转语音 API
以及
ChatGPT 语音和朗读
中可用的预设语音。与此同时,由于合成语音滥用的可能性,我们正在采取谨慎和知情的方式来进行更广泛的发布。我们希望就合成声音的负责任部署以及社会如何适应这些新功能展开对话。根据这些对话和小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决定。
为了更好地了解这项技术的潜在用途,去年年底,我们开始与一小群值得信赖的合作伙伴私下测试它。该小组开发的应用程序给我们留下了深刻的印象。这些小规模部署有助于为我们提供方法、保障措施和思考如何将语音引擎用于各个行业的良好效果。一些早期的例子包括:
我们认识到,生成类似于人们声音的言论存在严重风险,这在选举年尤其值得关注。我们正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作,以确保我们在建设过程中吸收他们的反馈。
今天测试语音引擎的合作伙伴已同意我们的 使用政策 ,该政策禁止在未经同意或合法权利的情况下冒充其他个人或组织。此外,我们与这些合作伙伴的条款需要原始发言者的明确和知情同意,并且我们不允许开发人员为个人用户创建自己的声音的方式。合作伙伴还必须清楚地向观众透露,他们听到的声音是人工智能生成的。最后,我们实施了一套安全措施,包括添加水印以追踪语音引擎生成的任何音频的来源,以及主动监控其使用方式。
我们认为,任何合成语音技术的广泛部署都应该伴随着语音认证体验,以验证原始说话者是否有意将其语音添加到服务中,以及禁止语音列表,以检测并防止创建过于相似的语音到杰出人物。
语音引擎是我们致力于了解技术前沿并公开分享人工智能的承诺的延续。根据我们 对人工智能安全的态度 和我们的 自愿承诺 ,我们选择预览但目前不广泛发布这项技术。我们希望语音引擎的这次预览既能强调其潜力,又能激发增强社会抵御力的需求,以应对越来越令人信服的生成模型带来的挑战。具体来说,我们鼓励采取以下措施:
重要的是,世界各地的人们都了解这项技术的发展方向,无论我们最终是否广泛部署它。我们期待继续与政策制定者、研究人员、开发人员和创意人员围绕合成声音的挑战和机遇进行对话。