一、最速下降法
最速下降法(Steepest Descent)用于求解无约束优化问题:
其中
是步长(step length),在机器学习领域也常称为学习率(learning rate)。步长/学习率决定每次迭代沿搜索方向前进的距离,步长太小收敛慢,太大可能导致发散或振荡。两者本质相同,只是术语在不同领域有所区别。 是搜索方向(search direction)
1、最速下降法的选择
- 搜索方向:
- 步长:
(常数步长)
因此,迭代公式:
主要关心步长的选择:太小收敛慢,太大可能振荡。
二、学习率推导
由光滑性质(见 Part II):
令
令
令
三、基本不等式(收敛分析的核心工具)
引理(最速下降法的基本不等式):
对于任意起点
- 推导:将
和 代入上述光滑性上界。 - 注意:该结果不依赖凸性!
四、收敛理论
1、一般情形(无凸性假设)
定理(一般收敛性):
- 表明
以 的速率收敛到零(次线性)。
证明:
由基本不等式(见上文):
两边同时累加
左边是望远镜求和,化简为:
移项并乘以
由于
因此,至少有一个
两边开方,得:
证毕。
2、凸函数情形
定理(凸且L-光滑):
- 次线性收敛,
。
证明:
令
由凸性,任意
由上一步递推
由凸性
由L-光滑和凸性,有
或用
(但此处仅用凸性,不用强凸)
将基本不等式递推
由凸性和梯度下降方向,结合Jensen不等式,最终可推出
3、强凸函数情形
定理(强凸且L-光滑):
- 线性收敛,收敛速率为
。
证明:
证明方法:
令
移项得
另一方面,强凸函数满足
此外,强凸与光滑性结合可推出梯度下界:
这是通过 Cauchy-Schwarz 和强凸性质推导的,具体如下:
由强凸性,
而极小点
结合以上两式,利用 Cauchy-Schwarz 不等式,
由强凸性下界
该不等式在收敛分析中用于将函数值下降与梯度范数联系起来,是强凸问题线性收敛的关键。
且
对
用强凸性质下界
即
五、长步长最速下降法(Long-Step SD)
实际应用中,步长
仍要求 -光滑,有下界。 可为近似 ,只要与梯度夹角不太大。 - 步长
不宜太小或太大,需满足若干技术条件。
条件举例(Assumptions on SDM with line search):
存在常数
- 充分下降方向:
- 步长不太长:
- 步长不太短:
这些条件实际可通过简单的线搜索方法满足。
若满足以上条件,则(收敛性定理)
与常步长法相比,右侧仅差常数。
六、梯度下降法的局限性
- 依赖尺度(scale-dependent):若问题变量或目标函数缩放差异大,梯度方向效果差。
- 收敛慢:尤其是变量尺度差异大时,梯度下降会在解空间“锯齿状”前进,进展很慢。
举例:二次型函数
时,问题病态,收敛极慢。 - 若对变量做线性变换
,则变成标准二次型,收敛快。
七、局部收敛速率(理论与实际)
对于
最速下降法收敛因子:
条件数大时,
- Rosenbrock函数,
, ,迭代 1000 次,目标函数下降有限
理论上收敛线性,但实际非常慢,尤其是病态问题。