b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

神经网络预测大量数据 Google推出Tacotron 2:结合WaveNet,

电脑杂谈  发布时间:2017-12-20 15:02:29  来源:网络整理

神经网络预测是什么_神经网络预测大量数据_深度神经网络 数据预测

摘要:雷锋网按:今年3月,Google提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给Griffin-Lim重建算法直接生成语音。该论文认为

雷锋网按:今年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文认为这一新思路相比去年 DeepMind 的 WaveNet 具有架构上的优势。10 月,Deepmind发布博客称,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(参见雷锋网文章:《Deepmind语音生成模型WaveNet正式商用:效率提高1000倍》),而就在今天,Google Brain 团队发布博客,宣布推出 Tacotron 2,Google Brain 与 DeepMind 的暗中较劲仍在继续。

以下是 Google 博客的相关内容,让我们来看看此次 Tacotron 2 的更新情况:

从文本(文本到语音,TTS)生成非常自然的探测语音已经成为过去数十年的研究目标。在近几年中,TTS研究取得了很大的进展,TTS系统有许多独立的模块都有了很大的改进。结合在 Tacotron 和 WaveNet 等过去研究思路,我们增加了更多改进,最终实现了我们的新系统 Tacotron 2 。我们的方法不使用复杂的语言和声学特性作为输入,相反,我们仅使用语音示例和相应的文本记录进行训练的神经网络,来从文本生成类似人类的语音。

对于这一新系统的完整描述可以在我们的论文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”(通过调节 WaveNet 对 Mel 谱图预测的自然 TTS 合成)中找到。简而言之,其工作原理是这样的:我们使用针对 TTS 优化的序列到序列模型来映射序列字母到编码音频的一系列功能。这些功能是一个 80 维音频频谱图,每 12.5 毫秒计算一次帧,不仅可以捕捉单词的发音,还可以捕捉人类语音的各种微妙之处,包括音量,速度和语调。最后,这些功能使用类似 WaveNet 的架构转换为 24 kHz 波形。

神经网络预测是什么_神经网络预测大量数据_深度神经网络 数据预测

(图为 Tacotron 2 的详细模型架构。神经网络预测大量数据图像的下半部分描述了将字母序列映射到光谱图的序列到序列模型。更多技术细节请参阅相关论文。)

您可以点击这里听一些 Tacotron 2 生成的音频样本。在一个评估中,我们要求听众对生成的语音的自然度进行评分,并获得了与录音相媲美的评分。

虽然我们的样本听起来不错,但仍然有一些棘手的问题需要解决。例如,我们的系统在复杂的单词(例如“decorum”和“merlot”)的发音上有困难,在极端的情况下甚至会随机产生奇怪的噪音。另外,我们的系统还不能实时生成音频。而且,我们还不能控制生成的语音,比如引导它听起来高兴或悲伤。这些都是一个有趣的研究问题。

Tacotron VS WaveNet

WaveNet 是一种一种用于生成原始音频波形的深层神经网络模型,由 Deepmind 于2016年提出。在 TTS 语音合成系统中,主流的做法是拼接 TTS (由单个配音演员的高质量录音大,通常有数个小时的数据。这些录音被分割成小块,然后可以将其进行组合以形成完整的话语) ,而WaveNet采取完全不同的方法。神经网络预测大量数据在原始论文中,我们描述了一个深层的生成模型,可以以每秒处理16000个样本、每次处理一个样本党的方式构建单个波形,实现各个声音之间的无缝转换。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-54727-1.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    • 齐太公吕尚
      齐太公吕尚

      向世界宣布已进12海里

    热点图片
    拼命载入中...