2025年07月22日
程设计科 / 人工智能
2100字
阅读量:Loading

一、最速下降法

最速下降法(Steepest Descent)用于求解无约束优化问题:

其中 -光滑函数。算法通过迭代更新:

  • 是步长(step length),在机器学习领域也常称为学习率(learning rate)。步长/学习率决定每次迭代沿搜索方向前进的距离,步长太小收敛慢,太大可能导致发散或振荡。两者本质相同,只是术语在不同领域有所区别。
  • 是搜索方向(search direction)

1、最速下降法的选择

  • 搜索方向:
  • 步长:(常数步长)

因此,迭代公式:

主要关心步长的选择:太小收敛慢,太大可能振荡。

二、学习率推导

由光滑性质(见 Part II):

,且 ,得:

,则

,对 求极小值:

三、基本不等式(收敛分析的核心工具)

引理(最速下降法的基本不等式)

对于任意起点 ,最速下降法迭代有:

  • 推导:将 代入上述光滑性上界。
  • 注意:该结果不依赖凸性

四、收敛理论

1、一般情形(无凸性假设)

定理(一般收敛性)

-光滑且有下界 ,用 ,则

  • 表明 的速率收敛到零(次线性)。

证明

由基本不等式(见上文):

两边同时累加 ,得:

左边是望远镜求和,化简为:

移项并乘以 ,得:

由于 为下界),进一步有:

因此,至少有一个 使得 不大于平均值:

两边开方,得:

证毕。

2、凸函数情形

定理(凸且L-光滑)

-光滑且凸,极小点 ,则

  • 次线性收敛,

证明

-光滑性,任意

,得

由凸性,任意 ,极小点

由上一步递推

由凸性

由L-光滑和凸性,有

或用

(但此处仅用凸性,不用强凸)

将基本不等式递推 步,得

由凸性和梯度下降方向,结合Jensen不等式,最终可推出

3、强凸函数情形

定理(强凸且L-光滑)

-光滑且 -强凸,则极小点唯一 ,且

  • 线性收敛,收敛速率为

证明

证明方法

-强凸,定义为对任意

为极小点,,则

移项得

另一方面,强凸函数满足

此外,强凸与光滑性结合可推出梯度下界:

这是通过 Cauchy-Schwarz 和强凸性质推导的,具体如下:

由强凸性,

而极小点 满足 ,由一阶最优性条件,

结合以上两式,利用 Cauchy-Schwarz 不等式,

由强凸性下界 ,代入得

该不等式在收敛分析中用于将函数值下降与梯度范数联系起来,是强凸问题线性收敛的关键。 -强凸,任意 ,极小点

-光滑,任意 ,有

迭代:

用强凸性质下界

五、长步长最速下降法(Long-Step SD)

实际应用中,步长 和方向 可更灵活选择:

  • 仍要求 -光滑,有下界。
  • 可为近似 ,只要与梯度夹角不太大。
  • 步长 不宜太小或太大,需满足若干技术条件。

条件举例(Assumptions on SDM with line search):

存在常数 ,对所有

  1. 充分下降方向:
  2. 步长不太长:
  3. 步长不太短:

这些条件实际可通过简单的线搜索方法满足。

若满足以上条件,则(收敛性定理)

与常步长法相比,右侧仅差常数。

六、梯度下降法的局限性

  • 依赖尺度(scale-dependent):若问题变量或目标函数缩放差异大,梯度方向效果差。
  • 收敛慢:尤其是变量尺度差异大时,梯度下降会在解空间“锯齿状”前进,进展很慢。

举例:二次型函数

  • 时,问题病态,收敛极慢。
  • 若对变量做线性变换 ,则变成标准二次型,收敛快。

七、局部收敛速率(理论与实际)

对于 局部极小点, 正定,最大/最小特征值分别为 ,条件数

最速下降法收敛因子:

条件数大时, 靠近 1,收敛极慢。例如:

  • Rosenbrock函数,
  • ,迭代 1000 次,目标函数下降有限

理论上收敛线性,但实际非常慢,尤其是病态问题。

作者信息:老官童鞋gogoho
发表于:2025年07月22日