AI合成语音翻开了硬币的哪一面？

关键词：人工智能

2023-09-22 13:49:40

近年来，生成式人工智能技术快速发展，为人们带来惊喜的同时，也带来了传播虚假信息等问题。近日正式施行的《生成式人工智能服务管理暂行办法》（以下简称《办法》），既是促进生成式人工智能健康发展的重要要求，也是防范生成式人工智能服务风险的现实需要。除图像、视频内容外，合成语音作为生成式人工智能服务的重要组成部分亦被列入《办法》管理内容。

人工智能合成语音是指利用人工智能技术模拟人类声音的过程，可以用于语音合成、语音转换、语音克隆等应用场景。随着人工智能技术的进步，合成语音的质量和自然度越来越高，甚至可以达到与真人声音难以区分的程度，为音频作品的创作和人工智能语音客服等应用带来全新可能。例如，OpenAI推出了一个名为Jukebox的系统，可以根据给定的歌手、风格和歌词生成原创歌曲。腾讯也发布了一个名为Real-Time-Voice-Cloning（RTVC）的系统，可以根据少量样本快速克隆任意人物的声音。这些系统不仅可以生成高质量和高自然度的语音，还可以模拟出不同的情感、口音、节奏等特征。

然而，“硬币的另一面”是一些潜在的风险和挑战。例如，有人利用深度伪造（Deepfake）技术模仿社会名人的声音，发布了一些具有误导性或攻击性的录音音频，对公众舆论和社会稳定造成不良影响。如何鉴别和防范由深度伪造技术制造的虚假语音成为一个亟待解决的问题。

如何分辨AI合成语音呢？这并不是一件容易的事情。一方面，AI合成语音的技术水平越来越高，可以模拟出各种口音、情感、背景噪声等细节，使得听者难以察觉出异常。另一方面，听者往往缺乏对AI合成语音的认知和警惕性，容易被虚假内容迷惑。即使听者怀疑自己听到的声音是AI合成的，也没有简单有效的方法去验证。

有些研究者尝试通过实验测试人们分辨AI合成语音的能力。例如，伦敦大学学院的Kimberly Mai研究团队向500多人发起挑战，要求参与者在多段音频中识别出AI合成语音。这些音频包括由女性用英语或普通话朗读句子的真实声音和AI训练生成的女声“朗读”音频。研究参与者被随机分配到两个实验组中。其中一组参与者听了20个其母语的声音样本，并判断音频是真实声音还是由Deepfake制作而成，参与者分辨的正确率约为70％。这表明，人们在现实生活中鉴别合成语音的准确率可能更低，因为多数情况下，人们不会意识到自己可能在听AI制作的音频。

另一组则是聆听20组随机选择的音频。每组音频的文字内容一致，分别由真人朗读和AI训练生成，参与者需要标记出AI音频。这组参与者分辨的准确率超过85％。尽管如此，研究人员称，这种实验设置给听者带来了现实生活中不存在的优势。实验情况和实际生活中的情景并不一样，Mai说，因为听者不会事先知道他们所听的内容可能是AI伪造的。此外，朗读者的性别、年龄等因素也会影响参与者的鉴别准确率。

这项实验并不涉及辨别AI生成的声音和被模仿者声音的相似程度，美国加利福尼亚大学伯克利分校的Hany Farid说，在现实生活中，识别特定声音的真实性很重要，因为骗子可能会通过模仿上级的声音诱骗员工转账，或者将造假的知名政客语音在社交媒体上传播。但是，Farid认为，该研究为构建Deepfake生成语音的自动检测系统提供了有益参考。

目前并没有什么好办法来提升人们分辨合成语音的准确率，这表明开发AI驱动的Deepfake检测系统至关重要。Mai说，她的研究团队正在测试能够处理语音数据的大模型是否可以胜任此项任务。这些大模型是指利用海量数据和强大计算能力训练出来的人工智能模型，可以在多个领域和任务上表现出超越人类水平的能力。

然而，这些大模型也可能被用于制造更加逼真和难以检测的Deepfake语音。如果这些语音被用于恶意目的，可能会对个人、组织或社会造成严重危害。因此，需要建立相应的规范和监管机制，防止滥用或误用AI合成语音技术。同时，需要提高公众对AI合成语音的认知和教育水平，增强其辨别和应对虚假内容的能力。此外，需要加强对AI合成语音技术的研究和创新，探索更有效和可靠的检测方法和工具。

由此可见，AI合成语音固然有其便利性，但我们也应该充分意识到其负面可能，防范翻到“硬币的另一面”。只有这样，我们才能享受到AI合成语音技术带来的便利和乐趣，而不是被其困扰和欺骗。

来源：人民邮电报