首页 > 操作系统 >

r语言支持向量机分类_支持向量机原理_envi支持向量机分类(4)

电脑杂谈　发布时间：2017-02-15 05:02:50　来源：网络整理

同样源于梯度降落原理，在权系数调整分析中的唯一不同是涉及到t(p,n)与y(p,n)的差分。通常来说Wi的改变在于：

alpha * s'(a(p,n)) * d(n) *X(p,i,n)

其中d(n)是隐藏节点n的函数，让我们来看：

n 对任何给出的输出节点有多大影响；

输出节点本身对网络整体的误差有多少影响。

一方面，n 影响一个输出节点越多，n 造成网络整体的误差也越多。另一方面，如果输出节点影响网络整体的误差越少，n 对输出节点的影响也相应减少。这里d(j)是对网络的整体误差的基值，W(n,j) 是 n 对 j 造成的影响，d(j) * W(n,j) 是这两种影响的总和。但是 n 几乎总是影响多个输出节点，也许会影响每一个输出结点，这样，d(n) 可以表示为：SUM(d(j)*W(n,j))

这里j是一个从n获得输入的输出节点，联系起来，我们就得到了一个培训规则。

第1部分：在隐藏节点n和输出节点j之间权系数改变，如下所示：

alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)

第 2 部分：在输入节点i和输出节点n之间权系数改变，如下所示：

alpha *s'(a(p,n)) * sum(d(j) * W(n,j)) * X(p,i,n)

这里每个从n接收输入的输出节点j都不同。关于反向传播算法的基本情况大致如此。

通常把第 1部分称为正向传播，把第2部分称为反向传播。反向传播的名字由此而来。

4、最速下降法与其改进

最速下降法的基本思想是：要找到某函数的最小值，最好的办法是沿函数的梯度方向探寻，如果梯度记为d,那么迭代公式可写为w=w-alpha*d，其中alpha可理解为我们前面提到的学习速率。

最速下降法有着收敛速度慢（因为每次搜索与前一次均正交，收敛是锯齿形的），容易陷入局部最小值等缺点，所以他的改进办法也有不少，最常见的是增加动量项与学习率可变。

增加冲量项（Momentum）

修改权值更新法则，使第n次迭代时的权值的更新部分地依赖于发生在第n‐1次迭代时的更新