//cdn.fe1024.com/webstatic/aibar/logos/ai-bar.cn.dark.png

应对合成声音的挑战和机遇

发布时间：2024/3/29 来源：OpenAi Blog

我们正在分享语音引擎小规模预览的经验教训，语音引擎是一种用于创建自定义语音的模型。

OpenAI 致力于开发安全且广泛受益的人工智能。今天，我们将分享一个名为“语音引擎”的模型的小规模预览的初步见解和结果，该模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音。值得注意的是，具有单个 15 秒样本的小模型可以创建情感丰富且逼真的声音。

我们于 2022 年底首次开发了语音引擎，并用它来支持文本转语音 API 以及 ChatGPT 语音和朗读中可用的预设语音。与此同时，由于合成语音滥用的可能性，我们正在采取谨慎和知情的方式来进行更广泛的发布。我们希望就合成声音的负责任部署以及社会如何适应这些新功能展开对话。根据这些对话和小规模测试的结果，我们将就是否以及如何大规模部署这项技术做出更明智的决定。

语音引擎的早期应用

为了更好地了解这项技术的潜在用途，去年年底，我们开始与一小群值得信赖的合作伙伴私下测试它。该小组开发的应用程序给我们留下了深刻的印象。这些小规模部署有助于为我们提供方法、保障措施和思考如何将语音引擎用于各个行业的良好效果。一些早期的例子包括：

通过自然、富有感情的声音为非读者和儿童提供阅读帮助 ，这些声音代表比预设声音更广泛的发言者。 Age of Learning 是一家致力于儿童学业成功的教育技术公司，一直在使用它来生成预先编写的画外音内容。他们还使用语音引擎和 GPT-4 创建实时、个性化的响应来与学生互动。借助这项技术，Age of Learning 能够为更广泛的受众创造更多内容。

1. 参考音频

2. 生成音频

地球上一些最令人惊叹的栖息地就在雨林中。雨林是降水量较多的地方，有多种动物、树木和其他植物。热带雨林通常距离赤道不太远，全年温暖。

翻译视频和播客等内容，以便创作者和企业可以用自己的声音流利地接触世界各地的更多人。 HeyGen 是这一技术的早期采用者，这是一个人工智能视觉讲故事平台，与企业客户合作，为从产品营销到销售演示的各种内容创建定制的类人化身。他们使用语音引擎进行视频翻译，因此可以将演讲者的声音翻译成多种语言并覆盖全球观众。当用于翻译时，语音引擎会保留原始说话者的母语口音：例如，使用法语说话者的音频样本生成英语将产生带有法国口音的语音。

1. 参考音频

2. 生成音频

家庭是普遍的阿波约和里萨斯（ nuestras vidas sin importar donde estemos en el mundo ）。 Los verdaderos amigos están with nosotros en las buenas y en las malas compartiendo nuestras alegrías y aliviando nuestras penas. Celebremos los lazos de amistad que nos conectan a todos a través de cada idioma y cultura。

通过改善偏远地区的基本服务交付， 覆盖全球社区。 Dimagi 正在为社区卫生工作者构建工具，以提供各种基本服务，例如为母乳喂养母亲提供咨询。为了帮助这些工人发展技能，Dimagi 使用语音引擎和 GPT-4 以每个工人的主要语言（包括斯瓦希里语）或更非正式的语言（例如在肯尼亚流行的代码混合语言）提供交互式反馈。

1. 参考音频

2. 生成音频

良好的营养对于确保儿童身心健康成长非常重要。水果、蔬菜、蛋白质、钙和各种维生素等食物对骨骼生长和大脑发育非常重要。吃得好意味着孩子拥有强大的免疫系统，能够抵抗疾病。这意味着，即使有流感在街上蔓延，孩子也会有很强的应对能力。这样一来，就不用经常带他去医院了。通过这样做，我们正在培养一代坚强的人。如您所知，我们社会的未来掌握在这些年轻人的手中。很高兴我们为他们提供了人生最好的开始。

支持非语言人群 ，例如为患有影响言语的人士提供治疗应用，以及为有学习需求的人士提供教育增强服务。 Livox 是一款人工智能替代通信应用程序，为增强和替代通信 (AAC) 设备提供支持，使残疾人能够进行通信。通过使用语音引擎，他们能够为人们提供跨多种语言的非语言独特且非机器人的声音。他们的用户可以选择最能代表他们的语音，对于多语言用户，可以在每种口语中保持一致的声音。

1. 参考音频

2. 生成音频

打扰一下，我可以引起你的注意吗？感谢您的帮助。今晚我们可以看电影吗？你能帮我找到我的眼镜吗？感谢您的理解，这对我来说意义重大。

帮助患有突发性或退化性言语病症的患者 恢复声音。 Lifespan 的诺曼·普林斯神经科学研究所是一个非营利性卫生系统，是布朗大学医学院的主要教学附属机构，正在探索人工智能在临床环境中的应用。他们一直在试点一个项目，为患有语言障碍的肿瘤或神经病因的个人提供语音引擎。由于语音引擎需要如此短的音频样本，法蒂玛·米尔扎 (Fatima Mirza)、罗海德·阿里 (Rohaid Ali) 和康斯坦蒂娜·斯沃科斯 (Konstantina Svokos) 医生利用为学校录制的视频中的音频，恢复了一名因血管性脑肿瘤而失去流利言语的年轻患者的声音项目。

1.当前语音

2. 参考音频

3. 生成音频

说
订购

大家好，这是我使用 OpenAI 的新文本转语音模型（称为语音引擎）时发出的声音。我能够使用我为课堂项目制作的仅 15 秒的视频作为您现在听到的声音的参考音频源。你怎么认为？

安全构建语音引擎

我们认识到，生成类似于人们声音的言论存在严重风险，这在选举年尤其值得关注。我们正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作，以确保我们在建设过程中吸收他们的反馈。

今天测试语音引擎的合作伙伴已同意我们的使用政策，该政策禁止在未经同意或合法权利的情况下冒充其他个人或组织。此外，我们与这些合作伙伴的条款需要原始发言者的明确和知情同意，并且我们不允许开发人员为个人用户创建自己的声音的方式。合作伙伴还必须清楚地向观众透露，他们听到的声音是人工智能生成的。最后，我们实施了一套安全措施，包括添加水印以追踪语音引擎生成的任何音频的来源，以及主动监控其使用方式。

我们认为，任何合成语音技术的广泛部署都应该伴随着语音认证体验，以验证原始说话者是否有意将其语音添加到服务中，以及禁止语音列表，以检测并防止创建过于相似的语音到杰出人物。

展望未来

语音引擎是我们致力于了解技术前沿并公开分享人工智能的承诺的延续。根据我们对人工智能安全的态度和我们的自愿承诺，我们选择预览但目前不广泛发布这项技术。我们希望语音引擎的这次预览既能强调其潜力，又能激发增强社会抵御力的需求，以应对越来越令人信服的生成模型带来的挑战。具体来说，我们鼓励采取以下措施：

逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施
探索保护人工智能中个人声音使用的政策
教育公众了解人工智能技术的能力和局限性，包括欺骗性人工智能内容的可能性
加速开发和采用追踪视听内容来源的技术，让您在与真人或人工智能互动时始终清晰可见

重要的是，世界各地的人们都了解这项技术的发展方向，无论我们最终是否广泛部署它。我们期待继续与政策制定者、研究人员、开发人员和创意人员围绕合成声音的挑战和机遇进行对话。

AI吧&竹记交流群