

上图展示了 WaveNet 的结构。它由卷积神经网络构建,在训练阶段,网络确定了语音的底层结构,比如哪些音调相互依存,什么样的波形是真实的以及哪些波形是不自然的。训练好的网络每次合成一个样本,每个生成的样本都考虑前一个样本的属性,所产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音,而且可以从混合数据集中创建任何独特声音。与TTS系统一样,WaveNet使用文本输入来告诉它应该产生哪些字以响应查询。另外,为了使用 WaveNet 将文本转化为语音,需要识别文本中是什么。
Tacotron由 Google Brain 团队的 Yuxuan Wang (王雨轩)等人提出。在第一代 Tacotron 的相关论文中指出,WaveNet 对 TTS 效果良好,但由于样本集的自回归属性(sample-level autoregressive nature),其生成语音的处理速度较慢;同时,由于 WaveNet 还需要对现有 TTS 前端语言特征进行调节,因此也不是端到端的。

(上图为Tacotron最初论文中的模型架构)
在今年3月提出的模型中,Tacotron 模型取得了 3.82 的平均意见得分(满分5) 。而在最近的评估中,Tacotron 2 模型平均意见得分为 4.53,录音平均意见得分为 4.58。
雷锋网发现,WaveNet 大幅提高了效率后,此前的“处理速度慢”的问题已经得到解决,但仍然不是端到端。而在新的 Tacotron 模型架构中也看到,主要改进在于输出端增加了 WaveNet MoL,这样可以将 WaveNet 和 Tacotron 的优点各自结合起来,二者的“强强联合”有望促进类似语音识别一样的进步,实现语音合成的新台阶。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-54727-2.html
不过这的确是美国给中国施压