首页 > 操作系统 >

分布式存储网络神经网络和深度学习简史（全）(8)

电脑杂谈　发布时间：2018-02-11 16:43:15　来源：网络整理

玻尔兹曼机器实例。每一行都有相关的权重，就像神经网络一样。注意，这里没有分层——所有事都可能跟所有事相关联。我们会在后文讨论这样一种变异的神经网络

因此，对于分类任务，现在有一种计算每种类别概率的好方法了。这非常类似正常分类神经网络实际计算输出的过程，但这些网络有另一个小花招：它们能够得出看似合理的输入数据。这是从相关的概率等式中得来的——网络不只是会学习计算已知可见变量值时的隐藏变量值概率，还能够由已知隐藏变量值反推可见变量值概率。所以，如果我们想得出一幅「1」数字图像，这些跟像素变量相关的单元就知道需要输出概率1，而图像就能够根据概率得出——这些网络会再创建图像模型。虽然可能能够实现目标非常类似普通神经网络的监督式学习，但学习一个好的生成模型的非监督式学习任务——概率性地学习某些数据的隐藏结构——是这些网络普遍所需要的。这些大部分都不是小说，学习算法确实存在，而使其成为可能的特殊公式，正如其论文本身所描述的：

或许，玻尔兹曼机器公式最有趣的方面在于它能够引导出一种（与领域无关的）一般性学习算法，这种算法会以整个网络发展出的一种内部模型（这个模型能够捕获其周围环境的基础结构）的方式修改单元之间的联系强度。在寻找这样一个算法的路上，有一段长时间失败的历史（Newell，1982），而很（特别是人工智能领域的人）现在相信不存在这样的算法。

我们就不展开算法的全部细节了，就列出一些亮点：这是最大似然算法的变体，这简单意味着它追求与已知正确值匹配的网络可见单元值（visible unit values）概率的最大化。同时计算每个单元的实际最有可能值，计算要求太高，因此，训练吉布斯采样（training Gibbs Sampling）——以随机的单元值网络作为开始，在给定单元连接值的情况下，不断迭代重新给单元赋值——被用来给出一些实际已知值。当使用训练集学习时，设置可见单位值（ visible units）从而能够得到当前训练样本的值，这样就通过抽样得到了隐藏单位值。一旦抽取到了一些真实值，我们就可以采取类似反向传播的办法——针对每个权重值求偏导数，然后估算出如何调整权重来增加整个网络做出正确预测的概率。

和神经网络一样，算法既可以在监督（知道隐藏单元值）也可以在无监督方式下完成。尽管这一算法被证明有效（尤其是在面对自编码神经网络解决的「编码」问题时），但很快就看出不是特别有效。Redford M. Neal1992年的论文《Connectionist learning of belief networks》论证了需要一种更快的方法，他说：「这些能力使得玻耳兹曼机在许多应用中都非常有吸引力——要不是学习过程通常被认为是慢的要命。」因此，Neal引入了类似信念网络的想法，本质上就像玻耳兹曼机控制、发送连接（所以又有了层次，就像我们之前看过的神经网络一样，而不像上面的玻耳兹曼机控制机概念）。跳出了讨厌的概率数学，这一变化使得网络能以一种更快的学习算法得到训练。洒水器和雨水那一层上面可以视为有一个信念网络——这一术语非常严谨，因为这种基于概率的模型，除了和机器学习领域有着联系，和数学中的概率领域也有着密切的关联。

尽管这种方法比玻尔兹曼机进步，但还是太慢了，正确计算变量间的概率关系的数学需求计算量太大了，而且还没啥简化技巧。Hinton、Neal和其他两位合作者很快在1995年的论文《 The wake-sleep algorithm for unsupervised neural networks》中提出了一些新技巧。这次他们又搞出一个和上个信念网络有些不一样的网络，现在被叫做「亥姆霍兹机」。再次抛开细节不谈，核心的想法就是对隐含变量的估算和对已知变量的逆转生成计算采取两套不同的权重，前者叫做recognition weights，后者叫做generative weights，保留了Neal's信念网络的有方向的特性。这样一来，当用于玻尔兹曼机的那些监督和无监督学习问题时，训练就快得多。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-72116-8.html