「由Hinton的深度神经网络课堂之一所激发,Mohamed开始将它们应用于语音——但是深度神经网络需要巨大的计算能力,传统计算机显然达不到——因此Hinton与Mohamed招募了Dahl。Dahl是Hinton实验室的学生,他发现了如何利用相同的高端显卡(让栩栩如生的计算机游戏能够显示在私人计算机上)有效训练并模拟神经网络。」
「他们用相同的方法去解决时长过短的语音中片段的音素识别问题,」Hinton说道,「对比于之前标准化三小时基准的方法,他们有了更好的成果。」
在这个案例中利用GPU而不是CPU到底能变得有多快很难说清楚,但是同年《Large-scale Deep Unsupervised Learning using Graphics Processors》这篇论文给出了一个数字:70倍。是的,70倍,这使得数以周记的工作可以被压缩到几天就完成,甚至是一天。之前研发了分散式代码的作者中包括高产的机器学习研究者吴恩达,他逐渐意识到利用大量训练数据与快速计算的能力在之前被赞同学习算法演变愈烈的研究员们低估了。这个想法在2010年的《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》(作者之一J. Schimidhuber正是递归LTSM网络(recurrent LTSM networks)的投资者)中也得到了大力支持,展示了MNIST能够达到令人惊叹的0.35%错误率,并且除去大型神经网络、输入的多个变量、以及有效的反向传播GPU实现以外没有任何特殊的地方。这些想法已经存在了数十年,因此尽管可以说算法的改进并不那么重要,但是结果确实强烈表明大型训练数据集与快速腭化计算的蛮力方法是一个关键。
Dahl与Mohamed利用GPU打破记录是一个早期且相对有限的成功,但是它足以激励人们,并且对这两人来说也为他们带来了在微软研究室实习的机会。在这里,他们可以享受到那时已经出现的计算领域内另一个趋势所带来的益处:大数据。这个词语定义宽松,在机器学习的环境下则很容易理解——大量训练数据。大量的训练数据非常重要,因为没有它神经网络仍然不能做到很好——它们有些过拟合了(完美适用于训练数据,但无法推广到新的测试数据)。这说得通——大型神经网络能够计算的复杂度需要许多数据来使它们避免学习训练集中那些不重要的方面——这也是过去研究者面对的主要难题。因此现在,大型公司的计算与数据集合能力证明了其不可替代性。这两个学生在三个月的实习期中轻易地证明了深度学习的能力,微软研究室也自此成为了深度学习语音识别研究的前沿地带。
微软不是唯一一个意识到深度学习力量的大公司(尽管起初它很灵巧)。Navdeep Jaitly是Hinton的另一个学生,2011年曾在谷歌当过暑假实习生。他致力于谷歌的语音识别项目,通过结合深度学习能够让他们现存的设备大大提高。修正后的方法不久就加强了安卓的语音识别技术,替代了许多之前的解决方案。
除了博士实习生给大公司的产品带来的深刻影响之外,这里最著名的是两家公司都在用相同的方法——这方法对所有使用它的人都是开放的。实际上,微软和谷歌的工作成果,以及IBM和Hinton实验室的工作成果,在2012 年发布了令人印象深刻的名为「深层神经网络语音识别的声学建模:分享四个研究小组的观点」的文章。分布式存储网络
这四个研究小组——有三个是来自企业,确定能从伤脑筋的深度学习这一新兴技术专利中获益,而大学研究小组推广了技术——共同努力并将他们的成果发布给更广泛的研究社区。如果有什么理想的场景让行业接受研究中的观念,似乎就是这一刻了。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-72116-15.html
⊙_⊙)