语音夸美女(实时中文语音克隆)

2023年11月30日靓嘟嘟

合成非特定目标语音的应用有很多，但是要精准模仿（克隆）某人的声音的技术源头似乎都来自谷歌2017年发布的论文Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS),大概说的意思就是把克隆工作分成三个模块（Encoder、Synthesizer、Vocoder），先提取说话者的声音提取音色向量（Speaker Encoder部分），然后用这部分内容加上Synthesizer和Vocoder一起完成语音合成。整个技术细节又涉及Tacotron、WaveNet.

基于SV2TTS的项目Real Time Voice Cloning已在Github上开源，号称只需要你的5秒种音频就能克隆你的声音，Python开发，提取、录制、调试、训练一体化GUI操作，这种“talk is cheap，show me the code”的方式得到大家一致好评。

看起来算法和语音是不分语种的，但是Real Time Voice Cloning的模型是用英语训练的，对中文支持不好。现在支持中文的分支也有了，叫MockingBird

Deepfakes（“深度学习”和“假”的混合体）是合成媒体，其中真人的图片、视频或语音被转换成其他人（通常是名人）的人工智能生成的人工肖像。您之前可能在互联网上遇到过一些，例如Tik Tok 上的Tom Cruise deepfakes或Joe Rogan 语音克隆。

虽然图像和视频种类更具说服力，但给人的印象是音频深度伪造已经落后了——至少不是没有大量的训练音频。但一项新研究敲响了警钟，表明在互联网上很容易找到的语音复制算法已经很不错了。事实上，研究人员发现，通过最少的训练，这些算法可以欺骗语音识别设备，例如亚马逊的 Alexa。

芝加哥大学安全、算法、网络和数据 (SAND) 实验室的研究人员测试了两种最流行的 Deepfake 语音合成算法——SV2TTS 和 AutoVC——这两种算法都是开源的，可在 Github 上免费获得。

这两个程序被称为“实时语音克隆工具箱”。SV2TTS 的开发者夸口说，只要 5 秒的训练录音就足以产生一个合格的模仿。

研究人员通过向两个系统提供相同的 90 个不同人谈话的 5 分钟录音，对这两个系统进行了测试。他们还记录了 14 名志愿者的样本，这些志愿者被要求查看计算机生成的声音是否可以解锁他们的语音识别设备，例如 Microsoft Azure、微信和亚马逊 Alexa。

SV2TTS 能够在大约 30% 的时间里欺骗 Microsoft Azure，但在近三分之二或 63% 的时间里都成功地利用了微信和亚马逊 Alexa。可以使用它通过模仿真实用户的合成语音消息登录微信，或者访问一个人的 Alexa 以向第三方应用程序付款。

AutoVC 的表现相当糟糕，只能在 15% 的时间内欺骗 Microsoft Azure。由于它没有达到预期，研究人员并没有费心对微信和 Alexa 语音识别安全性进行测试。

在另一项实验中，研究人员招募了 200 名志愿者，他们被要求听成对的录音，并确定他们认为哪两个是假的。志愿者有将近一半的时间都被骗了，这使得他们的判断无异于抛硬币。

最有说服力的 deepfake 音频是模仿女性和非英语母语者的声音。这是研究人员目前正在研究的问题。

上一篇：柯南里美女(《名侦探柯南》十大美女排行第一名当之无愧)
下一篇：礼义镇美女(管冲与田倩)