无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

语音合成的三个部分

简单来说,语音合成分为文本分析、韵律分析和声学分析三个部分。通过文本分析提取出文本特征,在此基础上预测基频、时长、节奏等多种韵律特征,然后通过声学模型实现从前端参数到语音参数的映射。

无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

语音合成的两种方式

语音合成主要采用波形拼接合成和统计参数合成两种方式。

无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

波形拼接语音合成的过程很容易理解,即在语料库中抽取合适的拼接单元,拼接成为句子。而参数语音合成则需要对音库进行参数化建模,根据训练得到的模型预测出韵律参数和声学参数。

通常情况下,波形拼接语音合成需要对录音人进行长达几十个小时以上的录音采集,而参数语音合成则只需要十个小时的录音采集,即可完成一套定制化语音包的制作 。

综合对比来看,拼接合成的语音更加贴近真实发音,但波形拼接语音合成需要有足够的高质量发音人录音才能够合成高质量的语音;统计参数语音合成虽然整体合成质量略低,但是在发音人语料规模有限的条件下,优势更为明显。

深度学习下的语音合成

近年来,深度学习已成为AI领域的当红辣子鸡,不单发展势头迅猛,所涉及领域也越发宽泛,无论是学术研究还是企业应用均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习对智能语音领域也产生巨大的冲击,极大的超越了传统的语音合成技术。

1.传统的基于DNN/LSTM的合成

无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

传统的基于HMM统计参数的语音合成是在训练过程中建立文本参数与声学参数之间的映射模型,通过高斯混合模型描述每个建模单元。在建模过程中有三个环节会导致语音音质下降,第一是决策树的聚类,第二是声码器,第三是参数生成算法。针对决策树聚类问题,可以通过深层神经网络建立文本特征和声学特征之间的映射关系,替代传统的浅层模型,提高模型精度;比较典型的深层神经网络模型结构包括深层置信神经网络和长短时记忆递归神经网络;后者具有更强的序列学习能力,采用BLSTM-RNN建模时,还可以跳过参数生成算法直接预测语音参数,最后通过声码器就可以合成语音;总的来说,利用深层神经网络强大的非线性建模能力,在一定程度上提升了语音合成系统的性能,但是并没有跳出原有的语音合成系统框架。

2. 基于WaveNet的合成

在已有的研究中,很少有人会直接在时域上对已有音频建模。从直觉上分析,构建一个自回归模型,能够预测每一个samples是如何被前面所有的samples所影响的,是一个相当艰巨的任务。谷歌提出的基于WaveNets的语音合成方法,跳出了传统语音合成框架,绕开声码器模块,直接对采样点进行预测,面对这个充满挑战的问题,取得了突破。

无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

WaveNet语音合成系统的输入包括文本特征以及先前时段的音频采样点。其中文本特征的有效表述起到非常重要的作用。如果在没有文本序列的情况下来训练网络,仍然可以生成语音,但是无法听懂输出音频的内容。WaveNet语音合成系统存在的问题是模型每次输出单个采样点,计算效率难以满足实用要求。可以引入一些自适应的方法对已有模型进行优化,使其能够适用于不同发音人。也可以在模型的输入端提供更多的信息,例如情感或口音,这样使得生成的语音可以更多样化,更具表现力。

3.基于DeepVoice的合成

2017 年 2 月,百度研究部门提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量文本转语音系统。

无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

它将里面的很多模块用深度神经网络去实现,通过类似于WaveNet的合成器来合成,效果也是比较理想的。已有的语音合成系统会在某些环节上采用深度学习,但在Deep Voice之前,没有团队采用全深度学习的框架。传统语音合成需要进行大量的特征处理和特征构建,但百度通过使用深度学习避免了这些问题。这使得 Deep Voice 的应用范围更加广泛,使用起来也更加方便。如果需要应用于新的数据集,传统的语音合成系统完成重新训练需数天到数周的时间进行调节,而对Deep Voice进行手动操作和训练模型所需的时间只要几个小时就足够。相比于WaveNet语音合成系统,现在这个系统的有效速度提升了400倍。

4.两个端对端的语音合成

第一个是Char2Wav,这个模型是直接对输入的文本进行编码,采用encoder-decoder模型。对输入特征进行编码,然后生成的中间编码信息放到解码器里进行最后的合成,合成采用SimpleRNN的合成器来合成语音,效果也是比较理想的,而且是典型的End-To-End的语音合成模型。

再一个是谷歌提出的端对端的语音合成系统Tacotron,它跟Char2Wav比较类似,该模型可接收Embeddings的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。合成的效果也比较理性。

无需蝴蝶结变声器 也能一秒变柯南——语音合成+深度学习

测试结果上,合成效果也比较理想:Tacotron 在美式英语测试里的平均主观意见评分达到了 3.82 分(总分是 5 分),在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。

相关推荐