同样源于梯度降落原理,在权系数调整分析中的唯一不同是涉及到t(p,n)与y(p,n)的差分。通常来说Wi的改变在于:
alpha * s'(a(p,n)) * d(n) *X(p,i,n)
其中d(n)是隐藏节点n的函数,让我们来看:
n 对任何给出的输出节点有多大影响;
输出节点本身对网络整体的误差有多少影响。
一方面,n 影响一个输出节点越多,n 造成网络整体的误差也越多。另一方面,如果输出节点影响网络整体的误差越少,n 对输出节点的影响也相应减少。这里d(j)是对网络的整体误差的基值,W(n,j) 是 n 对 j 造成的影响,d(j) * W(n,j) 是这两种影响的总和。但是 n 几乎总是影响多个输出节点,也许会影响每一个输出结点,这样,d(n) 可以表示为:SUM(d(j)*W(n,j))
这里j是一个从n获得输入的输出节点,联系起来,我们就得到了一个培训规则。
第1部分:在隐藏节点n和输出节点j之间权系数改变,如下所示:
alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)
第 2 部分:在输入节点i和输出节点n之间权系数改变,如下所示:
alpha *s'(a(p,n)) * sum(d(j) * W(n,j)) * X(p,i,n)
这里每个从n接收输入的输出节点j都不同。关于反向传播算法的基本情况大致如此。
通常把第 1部分称为正向传播,把第2部分称为反向传播。反向传播的名字由此而来。
4、最速下降法与其改进
最速下降法的基本思想是:要找到某函数的最小值,最好的办法是沿函数的梯度方向探寻,如果梯度记为d,那么迭代公式可写为w=w-alpha*d,其中alpha可理解为我们前面提到的学习速率。
最速下降法有着收敛速度慢(因为每次搜索与前一次均正交,收敛是锯齿形的),容易陷入局部最小值等缺点,所以他的改进办法也有不少,最常见的是增加动量项与学习率可变。
增加冲量项(Momentum)
修改权值更新法则,使第n次迭代时的权值的更新部分地依赖于发生在第n‐1次迭代时的更新
Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n) mc*Delta(w)(n-1)
右侧第一项就是权值更新法则,第二项被称为冲量项
梯度下降的搜索轨迹就像一个球沿误差曲面滚下,冲量使球从一次迭代到下一次迭代时以同样的方向滚动
冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域
冲量也具有在梯度不变的区域逐渐增大搜索步长的效果,从而加快收敛。
改变学习率
当误差减小趋近目标时,说明修正方向是正确的,可以增加学习率;当误差增加超过一个范围时,说明修改不正确,需要降低学习率。
5、BP神经网络的实现
(1)数据读入,这里我们还是使用R的内置数据——鸢尾花数据,由于神经网络本质是2分类的,所以我们将鸢尾花数据也分为两类(将前两类均看做第2类),按照特征:花瓣长度与宽度做分类。
(2)划分训练数据与测试数据
(3)初始化BP网络,采用包含一个隐含层的神经网络,训练方法使用包含动量的最速下降法,传递函数使用sigmoid函数。r语言 支持向量机分类
(4)输入样本,对样本进行归一化,计算误差,求解误差平方和
(5)判断是否收敛
(6)根据误差调整权值。权值根据以下公式进行调整:
Delta(w)= alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)
其中,alpha为学习率,s'(a(p,n))*(t(p,n)- y(p,n))为局部梯度。此外,由于使用了有动量因子的最速下降法,除第一次外,后续改变量应为:
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-32507-4.html
既然“这两个涉及到美国自身的安全