首页 > 操作系统 >

神经网络预测大量数据 Google推出Tacotron 2：结合WaveNet，(2)

电脑杂谈　发布时间：2017-12-20 15:02:29　来源：网络整理

神经网络预测是什么_神经网络预测大量数据_深度神经网络数据预测

上图展示了 WaveNet 的结构。它由卷积神经网络构建，在训练阶段，网络确定了语音的底层结构，比如哪些音调相互依存，什么样的波形是真实的以及哪些波形是不自然的。训练好的网络每次合成一个样本，每个生成的样本都考虑前一个样本的属性，所产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音，而且可以从混合数据集中创建任何独特声音。与TTS系统一样，WaveNet使用文本输入来告诉它应该产生哪些字以响应查询。另外，为了使用 WaveNet 将文本转化为语音，需要识别文本中是什么。

Tacotron由 Google Brain 团队的 Yuxuan Wang （王雨轩）等人提出。在第一代 Tacotron 的相关论文中指出，WaveNet 对 TTS 效果良好，但由于样本集的自回归属性（sample-level autoregressive nature），其生成语音的处理速度较慢；同时，由于 WaveNet 还需要对现有 TTS 前端语言特征进行调节，因此也不是端到端的。

（上图为Tacotron最初论文中的模型架构）

在今年3月提出的模型中，Tacotron 模型取得了 3.82 的平均意见得分（满分5）。而在最近的评估中，Tacotron 2 模型平均意见得分为 4.53，录音平均意见得分为 4.58。

雷锋网发现，WaveNet 大幅提高了效率后，此前的“处理速度慢”的问题已经得到解决，但仍然不是端到端。而在新的 Tacotron 模型架构中也看到，主要改进在于输出端增加了 WaveNet MoL，这样可以将 WaveNet 和 Tacotron 的优点各自结合起来，二者的“强强联合”有望促进类似语音识别一样的进步，实现语音合成的新台阶。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-54727-2.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

潘本元

如此作为

2026年06月11日回复顶转发
王晴晴

既然“这两个涉及到美国自身的安全

2026年06月11日回复顶转发

每日福利

onekey ghost 64位下载中文版

解读:如何调整桌面颜色如何在win10 [插图]中设置桌面墙纸和主题颜色

解决方案：是否需要更新图形卡的驱动程序？请保留老玩家的建议

Python源代码: 如何获取微信公众号历史记录文章

热点图片

热点排行