一、随机梯度下降法(SGD)背景
许多机器学习与数据科学中的目标函数都具有求和结构:
例如,
标准梯度下降法每步需计算:
计算复杂度高达
二、随机梯度与SGD算法
1、小批量梯度与期望
定义:对任意索引集
若
即小批量梯度是全梯度的无偏估计。
2、SGD算法流程
- 给定初始点
(可随机)。 - 对
重复: - 随机采样
,每个 独立采自
- 随机采样
- 步长
可固定或动态调整, 常常取1(单样本),也可取小批量。
由于
三、条件期望与马尔可夫性质
- 记
为对 的期望。 仅依赖于 和 ,是马尔可夫过程。 - 有
。
四、数值举例
1、二分类问题(MNIST 4 vs 9)
目标函数:
其中
SGD设置:
2、一般化SGD
更一般形式为:
每步采样
五、L-光滑情形下的SGD收敛性
1、假设
-
每个
都是 -光滑函数 也是 -光滑。 -
存在
,使得 即条件方差有界。
证明:
由于
是对样本集 的梯度均值,且每个 独立均匀采样自 ,我们有 计算条件方差:
对于单样本(
), 若每个
在所有 上有界,即存在 使得 ,则 因此,若每个分量梯度有界,则条件方差有界,满足假设2。
2、关键引理:期望过估计(Overestimation in expectation)
引理:
在上述假设下,
若进一步有条件方差界
- 当
足够小,右侧为严格下降。
证明:
由
对
对
由于
3、收敛性定理(L-光滑情况下)
定理:
设
即噪声存在,
证明:
由关键引理,
取
因此,
对
移项并累加
由于
两边同时除以
证毕。
六、强凸情形下的SGD收敛性
1、假设
-光滑, -光滑。 是 -强凸函数,即 极小点 唯一。 - 步长
- 有界方差:
2、收敛性定理
定理(SGD 强凸情形):
SGD 以 Q-线性速率收敛到残差:
设条件数
时,极限误差为 ,依赖噪声和步长。
证明:
由基础引理(L-光滑且
取
记
递归展开(不等式迭代
等比数列求和,
代入得
化简右侧第二项:
最终得
证毕。