优化中的subgradient步骤

优化中的subgradient方法

哎，刚刚submit上paper比较心虚啊，无心学习，还是好好码码文字吧。
subgradient中文名叫次梯度，和梯度一样，完全可以多放梯度使用，至于为什么叫子梯度，是因为有一些凸函数是不可导的，没法用梯度，所以subgradient就在这里使用了。注意到，子梯度也是求解凸函数的，只是凸函数不是处处可导。

$f: \mathcal{X}\rightarrow \mathbb{R}$ 是一个凸函数， $\mathcal{X}\in \mathbb{R}^n$ 是一个凸集。
若是f在 $x'$ 处 $\nabla f(x')$ 可导，考虑一阶泰勒展开式：

f (x) \geq f (x') + \nabla (f (x') T (x - x'), \forall x \in X

$f(x)\geq f(x')+\nabla (f(x')^T(x-x'),\forall x\in \mathcal{X}$
能够得到

f(x) $f(x)$ 的一个下届（f(x)是一个凸函数）
若是

f(x) $f(x)$ 在

x′ $x'$ 处不可导，仍然，可以得到一个

f(x) $f(x)$ 的下届

f (x) \geq f (x') + g T (x - x'), \forall x \in X

$f(x)\geq f(x')+g^T(x-x'),\forall x\in \mathcal{X}$
这个

g $g$ 就叫做

f(x) $f(x)$ 的子梯度，

g∈Rn $g\in \mathbb{R}^n$
很明显，在一个店会有不止一个次梯度，在点

x $\mathcal{x}$ 所有

f(x) $f(x)$ 的次梯度集合叫做此微分

∂f(x) $\partial f(x)$
优化中的subgradient步骤

我们可以看出，当

f(x) $f(x)$ 是凸集并且在

x $x$ 附近有界时，

∂f(x) $\partial f(x)$ 是非空的，并且

∂f(x) $\partial f(x)$ 是一个闭凸集。

\partial f (x) = {g} \Leftrightarrow f (x) 可 微 并 且 g = \nabla f (x)

$\partial f(x)=\{g\} \Leftrightarrow f(x)可微并且g=\nabla f(x)$
满足：
1）scaling：

\partial (α f (x)) = α \partial f (x), i f α > 0

$\partial ( \alpha f(x))=\alpha \partial f(x),if\ \alpha >0$
2）addition：

\partial (f 1 (x) + f 2 (x)) = \partial f z (x) + \partial f 2 (x)

$\partial (f_1(x)+f_2(x))=\partial f_z(x)+\partial f_2(x)$
3）point-wise maximum:

f(x)=maxi=1,...,mfi(x) $f(x)=max_{i=1,...,m} f_i(x)$ 并且

fi(x) $f_i(x)$ 是可微的，那么：

\partial f (x) = C o {\nabla f i (x) ∣ f i (x) = f (x)}

$\partial f(x)=Co\{\nabla f_i(x)\mid f_i(x)=f(x)\}$
即所有该点函数值等于最大值的函数的梯度的凸包。
在非约束最优化问题中，要求解一个凸函数

f:Rn→R $f:\mathbb{R}^n\rightarrow \mathbb{R}$ 的最小值

x * \in a r g m i n x \in R n f (x)

$x^{*}\in argmin_{x\in \mathcal{R}^n} f(x)$
很显然，若是f可导，那么我们只需要求解导数为0的点

f (x * = m i n x \in R n \Leftrightarrow 0 = \nabla f (x *)

$f(x^{*}=min_{x\in \mathbb{R}^n}\Leftrightarrow 0=\nabla f(x^{*})$
当f不可导的时候，上述条件就可以一般化成

f (x *) = m i n x \in R n \Leftrightarrow 0 \in \nabla f (x *)

$f(x^{*})=min_{x\in \mathbb{R}^n}\Leftrightarrow \mathbf{0} \in \nabla f(x^{*})$
也即

0 $\mathbf{0}$ 满足次梯度的定义

f (x) \geq f (x') + 0 T (x - x'), \forall x \in R n

$f(x)\geq f(x')+\mathbf{0}^T(x-x'),\forall x\in \mathcal{R}^n$
下面是次梯度法的一般方法：
1.

t=1 $t=1$ 选择有限的正的迭代步长

{αt}∞t=1 $\{\alpha_t\}_{t=1}^{\infty}$
2.计算一个次梯度

g∈∂f(xt) $\mathbf{g}\in \partial f(\mathbf x^t)$
3.更新

xt+1=xt−αtgt $\mathbf x^{t+1}=\mathbf x^t-\alpha_t \mathbf{g}^t$
4.若是算法没有收敛，则

t=t+1 $t=t+1$ 返回第二步继续计算
性质：
1.简单通用性：就是说第二步中，

∂f(xt) $\partial f(x^t)$ 任何一个次梯度都是可以的.
2.收敛性：只要选择的步长合适，总会收敛的
3.收敛慢：需要大量的迭代才能收敛
4.非单调收敛：

−gt $-\mathbf{g}^t$ 不需要是下降方向，在这种情况下，不能使用线性搜索选择合适的

αt $\alpha_t$
5.没有很好的停止准则

对于不同步长的序列的收敛结果
不妨设 $f_{best}^t=min\{f(x^1),..,f(x^t) \}$ 是t次迭代中的最优结果
1.步长和不可消时（Non-summable diminishing step size）： $\lim_{t\rightarrow \infty \alpha_t=0}$ 并且 $\sum_{t=1}^{\infty}\alpha_t==\infty$
这种情况能够收敛到最优解：
$\lim_{t\rightarrow \infty}f_{best}^t-f(x^{*})=0$
2.Constant step size: $\alpha_t=\gamma,where\ \gamma>0$
收敛到次优解： $\lim_{t\rightarrow \infty}f_{best}^t-f(x^{*})\leq \alpha G^2/2$
3.Constant step length:
$\alpha_t=\frac{ \gamma }{||g^t||}$ (i.e. $||x^{t+1}-x^{t}||=\gamma$ )， $||g||\leq G,\forall g\in\partial f$
能够收敛到次优解 $\lim_{t\rightarrow \infty}f_{best}^t-f(x^{*})\leq \gamma G/2$
4.Polyak’s rule: $\alpha_t=\frac{f(x^t)-f(x^{*})}{||g^t||^2}$
若是最优值 $f(x^*)$ 可知则可以用这种方法。

优化中的subgradient步骤

相关推荐