b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

分布式计算python_经典分布式计算模型_并行分布式计算

电脑杂谈  发布时间:2017-02-27 14:09:18  来源:网络整理

经典分布式计算模型_并行分布式计算_分布式计算python

imal)等价于最大化对偶函数(dual),两者会同时达到optimal。这种转化可以将原来很多的参数约束条件变得少了很多,以利于做优化。具体表述如下:

mins.t.f(x)Ax=b⟹L(x,y)=f(x)+yT(Ax−b)⟹对偶函数(下界)g(y)=infxL(x,y)

在强对偶性的假设下,primal和dual问题同时达到最优。

x⋆=argminxL(x,y⋆)

因此,若对偶函数g(y)可导,便可以利用梯度上升法,交替更新参数,使得同时收敛到最优。迭代如下:

xk+1:yk+1:=argminxL(x,yk)(x-最小化步)=yk+αk∇g(y)=yk+αk(Axk+1−b)(对偶变量更新,αk是步长)

当g不可微的时候也可以将其转化下,成为一个所谓的subgradient的方法,虽然看起来不错,简单证明下即可知道xk和yk同时可达到optimal,但是上述条件要求很苛刻:f(x)要求严格凸,并且要求α选择有比较合适。一般应用中都不会满足(比如f(x)是一个非零的仿射函数),因此dualascent不会直接应用。

1.2 Dual Decomposition 虽然dualascent方法有缺陷,要求有些严格,但是他有一个非常好的性质,当目标函数f是可分的(separable)时候(参数抑或feature可分),整个问题可以拆解成多个子参数问题,分块优化后汇集起来整体更新。这样非常有利于并行化处理。形式化阐述如下:

mins.t.f(x)=∑i=1Nfi(xi),xi∈Rni,x∈RnAx=∑i=1NAixi=b,(对A矩阵按列切分开)⟹L(x,y)=∑i=1NLi(xi,y)=∑i=1N(fi(xi)+yTAixi−1NyTb)

因此可以看到其实下面在迭代优化时,x-minimization步即可以拆分为多个子问题的并行优化,对偶变量更新不变这对于feature特别多时还是很有用的。

xk+1i:yk+1:=argminxLi(xi,yk)(多个xi并行最小化步)=yk+αk∇g(y)=yk+αk(Axk+1−b)(汇集整体的x,然后对偶变量更新)

对偶分解是非常经典的优化方法,可追溯到1960年代。但是这种想法对后面的分布式优化方法影响较大,比如近期的graph-structure优化问题。

1.3 Augmented Lagrangians and the Method of Multipliers 从上面可以看到dualascent方法对于目标函数要求比较苛刻,为了放松假设条件,同时比较好优化,于是就有了AugmentedLagrangians方法,目的就是放松对于f(x)严格凸的假设和其他一些条件,同时还能使得算法更加稳健。

Lρ(x,y)=f(x)+yT(Ax−b)+ρ2∥Ax−b∥22⟹mins.t.f(x)+ρ2∥Ax−b∥22Ax=b

从上面可以看到该问题等价于最初的问题,因为只要是可行解对目标函数就没有影响。但是加了后面的(ρ/2)∥Ax−b∥22惩罚项的好处是使得对偶函数gρ(y)=infxLρ(x,y)在更一般的条件下可导。计算过程与之前的dualascent基本一样,除了最小化x时候加了扩增项。

xk+1yk+1=argminxLρ(x,yk)=yk+ρ(Axk+1−b)

上述也称作method ofmultipliers,可能也是因为更新对偶变量y时步长由原来变化的αk转为固定的ρ了吧。该算法在即使f(x)不是严格凸或者取值为+∞情况都可以成立,适用面更广。同样可以简单证明primal变量x和对偶变量y可以同时达到最优。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-34812-1.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    • 施小美
      施小美

      连伊拉克现政府都不再信任你美爹

    • 朱友贞
      朱友贞

      全系统的可靠性

    热点图片
    拼命载入中...