首页 > 操作系统 >

分布式存储网络神经网络和深度学习简史（全）(17)

电脑杂谈　发布时间：2018-02-11 16:43:15　来源：网络整理

相比指数函数或者三角函数，简单的函数及其导数，使它能非常快地工作。当使用GPU时，这就不仅仅是一个很小的改善，而是十分重要，因为这能规模化神经网络以很好地完成极具挑战的问题。

后来吴恩达联合发表的「修正的非线性改善神经网络的语音模型」（Rectifier Nonlinearities Improve Neural Network Acoustic Models）一文，也证明了ReLU导数为常数0或1对学习并无害处。实际上，它有助于避免梯度消失的问题，而这正是反向传播的祸根。此外，除了生成更稀疏的表征，它还能生成更发散的表征——这样就可以结合多个神经元的多重值，而不局限于从单个神经元中获取有意义的结论。

目前，结合2006年以来的这些发现，很清楚的是非监督预训练对深度学习来说不是必要的。虽然，它的确有帮助，但是在某些情况下也表明，纯粹的监督学习（有正确的初始权重规模和激活函数）能超越含非监督训练的学习方式。那么，到底为什么基于反向传播的纯监督学习在过去表现不佳？Geoffrey Hinton总结了目前发现的四个方面问题：

1.带标签的数据集很小，只有现在的千分之一.

2.计算性能很慢，只有现在的百万分之一.

3.权重的初始化方式笨拙.

4.使用了错误的非线性模型。

好了，就到这里了。深度学习。数十年研究的积累，总结成一个公式就是：

深度学习=许多训练数据+并行计算+规模化、灵巧的的算法

我希望我是第一个提出这个赏心悦目的方程的，但是看起来有人走在我前面了。

更不要说这里就是希望弄清楚这点。差远了！被想通的东西刚好是相反的：人们的直觉经常出错，尤其是一些看似没有问题的决定及假设通常都是没有根据的。问简单的问题，尝试简单的东西——这些对于改善最新的技术有很大的帮助。其实这一直都在发生，我们看到更多的想法及方法在深度学习领域中被发掘、被分享。例如 G. E. Hinton等的「透过预防特征检测器的互相适应改善神经网络」（ Improving neural networks by preventing co-adaptation of feature detectors）。

其构思很简单：为了避免过度拟合，我们可以随机假装在训练当中有些神经元并不在那儿。想法虽然非常简单——被称为丢弃法（dropout）——但对于实施非常强大的集成学习方法又非常有效，这意味着我们可以在训练数据中实行多种不同的学习方法。随机森林——一种在当今机器学习领域中占主导地位的方法——主要就是得益于集成学习而非常有效。训练多个不同的神经网络是可能的，但它在计算上过于昂贵，而这个简单的想法在本质上也可取得相同的结果，而且性能也可有显著提高。

然而，自2006年以来的所有这些研究发现都不是促使计算机视觉及其他研究机构再次尊重神经网络的原因。这个原因远没有看来的高尚：在现代竞争的基准上完全摧毁其他非深度学习的方法。Geoffrey Hinton召集与他共同写丢弃法的两位作家，Alex Krizhevsky 与 Ilya Sutskever，将他们所发现的想法在ILSVRC-2012计算机视觉比赛中创建了一个条目。

对于我来说，了解他们的工作是非常惊人的，他们的「使用深度卷积神经网络在ImageNet上分类」（ImageNet Classification with deep convolutional neural networks）一文其实就是将一些很旧的概念（例如卷积神经网络的池化及卷积层，输入数据的变化）与一些新的关键观点（例如十分高性能的GPU、ReLU神经元、丢弃法等）重新组合，而这点，正是这一点，就是现代深度网络的所有深意了。但他们如何做到的呢？

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-72116-17.html