
Tacotron由 Google Brain 团队的 Yuxuan Wang (王雨轩)等人提出。在第一代 Tacotron 的相关论文中指出,WaveNet 对 TTS 效果良好,但由于样本集的自回归属性(sample-level autoregressive nature),其生成语音的处理速度较慢;同时,由于 WaveNet 还需要对现有 TTS 前端语言特征进行调节,因此也不是端到端的。

(上图为Tacotron最初论文中的模型架构)
在今年3月提出的模型中,Tacotron 模型取得了 3.82 的平均意见得分(满分5) 。而在最近的评估中,Tacotron 2 模型平均意见得分为 4.53,录音平均意见得分为 4.58。
雷锋网发现,WaveNet 大幅提高了效率后,此前的“处理速度慢”的问题已经得到解决,但仍然不是端到端。而在新的 Tacotron 模型架构中也看到,主要改进在于输出端增加了 WaveNet MoL,这样可以将 WaveNet 和 Tacotron 的优点各自结合起来,二者的“强强联合”有望促进类似语音识别一样的进步,实现语音合成的新台阶。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-54726-2.html
打到康师傅金龙鱼
这公关