语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

AI启蒙研究院

2018-07-25

选自百度，作者：Wei Ping、Kainan Peng、Jitong Chen，机器之心编辑。

语音合成（Text-to-Speech，TTS）是将自然语言文本转换成语音音频输出的技术，在 AI 时代的人机交互中扮演至关重要的角色。百度硅谷人工智能实验室最近提出了一种全新的基于 WaveNet 的并行音频波形（raw audio waveform）生成模型ClariNet，合成速度提升了数千倍，可以达到实时的十倍以上。此外，这也是语音合成领域第一个真正的端到端模型：单个神经网络，直接从文本到原始音频波形。

最近，百度硅谷人工智能实验室的研究员提出了 ClariNet，一种全新的基于 WaveNet 的并行音频波形（raw audio waveform）生成模型。WaveNet 是能够完美模仿人类声音的最前沿语音合成技术（Google I/O 大会所展示的超逼真合成语音的背后技术）。自从其被提出，就得到了广泛的离线应用。但由于其自回归（autoregressive）的特点，只能按时间顺序逐个生成波形采样点，导致合成速度极慢，无法在 online 应用场合使用。ClariNet 中所提出的并行波形生成模型基于高斯逆自回归流（Gaussian inverse autoregressive flow），可以完全并行地生成一段语音所对应的原始音频波形。比起自回归的 WaveNet 模型，其合成速度提升了数千倍，可以达到实时的十倍以上。

语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

对比 DeepMind 稍早提出的 Parallel WaveNet，ClariNet 中的概率分布蒸馏（probability density distillation）过程更加简单优美，直接闭式地（closed-form）来计算训练目标函数 KL 散度（KL divergence），大大简化了训练算法，并且使得蒸馏过程效率极高——通常 5 万次迭代后，就可以得到很好的结果。同时作者还提出了正则化 KL 散度的办法，大大提高了训练过程的数值稳定性，使得结果简单易训练（注：Clari 在拉丁语中是 clear, bright 的意思）。而 Parallel WaveNet 由于需要蒙特卡洛采样来近似 KL 散度，使得梯度估计的噪音很大，训练过程很不稳定，外界极难重现 DeepMind 的实验结果。

更值得注意的是，ClariNet 还是语音合成领域第一个完全端到端的系统，可以通过单个神经网络，直接将文本转换为原始的音频波形。先前为业界所熟知的「端到端」语音合成系统（比如 Google 提出的 Tacotron，百度之前提出的 Deep Voice 3），实际是先将文本转换为频谱（spectrogram），然后通过波形生成模型 WaveNet 或者 Griffin-Lim 算法，将频谱转换成原始波形输出。这种方法由于文本到频谱的模型和 WaveNet 是分别训练优化的，往往导致次优的结果。而百度研究员提出的 ClariNet，则是完全打通了从文本到原始音频波形的端到端训练，实现了对整个 TTS 系统的联合优化，比起分别训练的模型，在语音合成的自然度上有大幅提升（参见合成语音示例）。另外，ClariNet 是全卷积模型，训练速度比起基于循环神经网络（RNN）的模型要快 10 倍以上。

ClariNet 的网络结构如下图所示。它使用基于注意力机制（Attention）的编码器-解码器（Encoder-Decoder）模块来学习文本字符与频谱帧之间的对齐关系。解码器的隐状态（hidden states）被送给 Bridge-net 来进行时序信息处理和升采样（upsample）。最终 Bridge-net 的隐状态被送给音频波形生成模块（Vocoder），用来最终合成原始音频波形。

语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

论文：ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

论文地址：https://arxiv.org/pdf/1807.07281.pdf
合成语音示例：https://clarinet-demo.github.io/

语音合成端到端百度语音合成

安科网

语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

AI启蒙研究院

AI启蒙研究院

相关推荐

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

百度语音合成在python中的使用

极大提升合成速度，百度提出首个全并行语音合成模型ParaNet

新研究起底人类和机器注意力机制的区别｜一周AI最火论文

百度大脑5.0发布，宣布与华为重要合作，全新AI芯片「鸿鹄」面世

「微信同声传译」小程序插件：快速实现语音转文字、文本翻译、语音合成等能力

基于深度前馈序列记忆网络，如何将语音合成速度提升四倍？

在Python中使用科大讯飞Web API进行语音合成

基于深度前馈序列记忆网络，如何将语音合成速度提升四倍？

阿里巴巴语音交互智能团队：基于线性网络的语音合成说话人自适应

智能语音交互：阿里的研究和实践

语音合成到了跳变点？深度神经网络变革TTS最新研究汇总

人工智能已经掌握人类语言了吗？外表有时会骗人

无需蝴蝶结变声器也能一秒变柯南——语音合成+深度学习

为了合成让人类听懂的语音，机器做了哪些“深度学习”？

从技术到产品，苹果Siri深度学习语音合成技术揭秘

用于语音合成的深度前馈序列记忆网络

讯飞语音JavaWeb语音合成解决方案

XML在语音合成中的应用

AI启蒙研究院