一、基本术语和模型
考虑以下优化模型:
1、最小化点的定义
- 局部极小点(local minimiser):
,若存在 ,使得对所有 ,有 - 严格局部极小点(strict local minimiser):
,若存在 ,使得对所有 ,有 - 全局极小点(global minimiser):
,对所有 ,有
二、凸函数与强凸函数
1、凸函数定义
凸函数的图像在任意两点之间,连线上的所有点的函数值都不高于这两点之间的线性插值。换句话说,连接函数图像上任意两点的直线,始终位于函数图像之上或与之重合。直观理解:如果你在函数图像上选取任意两点
2、凸函数的梯度性质
设
推导:
由凸性定义,
令
取极限,左边为方向导数,即得证。
3、凸优化问题定义
若
是凸优化问题。
4、强凸函数定义
强凸函数的几何意义在于,相比普通凸函数,强凸函数的图像不仅在任意两点之间都在连线下方,还“向上弯曲”得更厉害。具体来说,定义中的额外项
三、光滑函数(L-smooth)
L-光滑函数的梯度满足
越小,梯度变化越平缓,函数曲线越“光滑”; 越大,梯度变化可能更剧烈,函数曲线可能更“陡峭”。 几何直观: 在任意两点之间,函数的切线方向不会突然跳变,而是以受限的速度变化。这保证了优化算法(如梯度下降)在搜索最优解时,每一步的梯度信息都不会“失控”,从而有助于算法收敛。
可以把
四、凸优化性质
1、极小点的性质
设
是局部极小点 是全局极小点 - 极小点集合
是凸集 - 若
可微,则在极小点 有
2、光滑与强凸的进一步性质
- 若
-强凸且可微,则有 - 若
-光滑,则有
推导:
设
- 强凸下的下界:
即
由强凸定义,对任意
令
带入强凸定义,忽略高阶项,得
化简并令
- 光滑下的上界:
由梯度Lipschitz性质,积分路径上的梯度变化:
用均值不等式和Lipschitz条件,有
即
结论:
- 强凸给出下界,保证函数“弯曲”至少为
; - 光滑给出上界,限制函数“弯曲”至多为
。
3、参数关系
若
证明:
由上述性质,对任意
故
4、强凸函数的极小点唯一性
若
五、收敛速度与收敛率
1、收敛方式的判据
迭代算法收敛通常可通过以下量:
当 或
2、收敛率定义
设
- 线性收敛(linear):存在
,使得 - Q-超线性收敛(Q-superlinear):
- Q-二次收敛(Q-quadratic):存在
使得
3、次线性收敛(sublinear)
若
以下序列均次线性收敛: