一、课程概述
本课程主要讨论数据科学中的优化问题,包含以下内容:
- 优化模型的基本形式与实际例子
- 一阶迭代方法
- 数据分析中的典型问题与优化方法
二、为什么要用优化?
在数据科学与机器学习中,很多问题都可以归结为优化问题。例如:
- 回归问题
- 数据补全问题
- 数据结构检测
- 降维问题
- 数据分类问题
这些问题通常涉及到参数的选择,使得模型对真实数据拟合得更好或者揭示数据的某种结构。
三、优化模型的基本形式
1、无约束优化模型
$$ \min_{x \in \mathbb{R}^n} f(x) $$
其中 $f$ 是光滑函数(本课程中指 $C^1$ (连续函数)且梯度 Lipschitz 连续)。
2、正则化模型
正则化模型是一种在机器学习和统计建模中常用的方法,目的是防止模型过拟合(即模型在训练数据上表现很好,但在新数据上表现很差)。它通过在损失函数中加入一个“惩罚项”来约束模型参数,使模型不会变得过于复杂。
$$ \min_{x \in \mathbb{R}^n} f(x) + \lambda \Psi(x) $$
- $\Psi:\mathbb{R}^n \to \mathbb{R}$ 是凸函数,可以是非光滑的,用于控制解的复杂度和结构。
- $\lambda$ 是正则化参数。
3、有约束优化模型
$$ \min_{x \in \mathbb{R}^n} f(x) \quad \text{s.t.} \quad x \in F $$
例如:
$$ F = \{x \in \mathbb{R}^n : g(x) \leq 0, x \geq 0\} $$
其中 $g: \mathbb{R}^n \to \mathbb{R}^q$,所有向量不等式分量逐个解释。
4、稀疏目标函数(函数和形式)
数据分析中目标函数常为分项和:
$$ f(x) = \sum_{j=1}^{m} f_j(x) $$
每个 $f_j$ 只依赖于 $x$ 的部分分量,且 $n,m \gg 1$,通常只可得梯度,无高阶信息。
四、一阶迭代方法
一阶方法是一类迭代算法,产生解序列:
$$ (x_k)_{k \in \mathbb{N}} \rightarrow x^* $$
每步更新:
$$ x_{k+1} = x_k + \alpha_k d_k $$
- $d_k$ 由 $\nabla f(x)$ 或 $\nabla f_j(x)$ 计算
- 步长 $\alpha_k > 0$ 可固定或自适应
五、数据分析问题的优化建模
1、数据集与模型
- 数据集 $D = \{(a_j, y_j): j=1,\dots,m\}$,$a_j$ 是特征,$y_j$ 是观测
- 参数模型 $\Phi(\cdot; x): V \to W$,参数 $x \in \mathbb{R}^n$
2、数据拟合问题
目标:找到 $x$ 使得对所有 $j$ 有 $\Phi(a_j; x) \approx y_j$,即
$$ \min_{x \in \mathbb{R}^n} f(x) $$
其中
$$ f(x) = L_D(x) := \frac{1}{m} \sum_{j=1}^{m} \ell(a_j, y_j; x) $$
典型损失:
$$ \ell(a_j, y_j; x) = \|\Phi(a_j; x) - y_j\|^2 $$
六、回归问题
1、无截距线性回归
$$ \min_{x \in \mathbb{R}^n} \frac{1}{2m} \sum_{j=1}^{m} (a_j^T x - y_j)^2 = \frac{1}{2m} \|A x - y\|^2 $$
其中 $A = [a_1^T; \dots; a_m^T]$。
2、有截距线性回归
定义
$$ \tilde{x} = \begin{pmatrix} x \\ \beta \end{pmatrix}, \quad \tilde{a}_j = \begin{pmatrix} a_j \\ 1 \end{pmatrix} $$
则模型为 $\Phi(\tilde{a}; \tilde{x}) = a^T x + \beta$。
3、Ridge回归 (Tikhonov正则化)
$$ \min_{x \in \mathbb{R}^n} \frac{1}{2m} \|A x - y\|^2 + \lambda \|x\|^2 $$
减少对噪声的敏感性。
4、Lasso回归
$$ \min_{x \in \mathbb{R}^n} \frac{1}{2m} \|A x - y\|^2 + \lambda \|x\|_1 $$
倾向于稀疏解(特征选择)。
七、字典学习(Dictionary Learning)
数据 $Y \in \mathbb{R}^{m \times p}$,学习字典 $A \in \mathbb{R}^{m \times n}$ 和稀疏编码 $X \in \mathbb{R}^{n \times p}$,使得
$$ A X \approx Y $$
优化模型:
$$ \min_{A, X \in F_k(m, p)} \frac{1}{2 m p} \|A X - Y\|_F^2 $$
其中 $F_k(m, p)$ 表示每列至多 $k$ 个非零分量。
八、矩阵补全(Matrix Completion)
定义迹内积:
$$ \langle X, Y \rangle = \mathrm{tr}(X^T Y) $$
数据拟合模型:
$$ \min_{X \in V} \frac{1}{2m} \sum_{j=1}^m (\langle A_j, X \rangle - y_j)^2 + \lambda \|X\|_* $$
其中 $\|X\|_*$ 是核范数(奇异值之和),有助于获得低秩解。
九、稀疏逆协方差估计
样本估计:
$$ S = \frac{1}{m} \sum_{j=1}^m a_j a_j^T $$
优化模型:
$$ \min_{X \in \mathrm{SR}_{n \times n}, X \succcurlyeq 0} \langle S, X \rangle - \log \det X + \lambda \|X\|_1 $$
- $X \succcurlyeq 0$ 表示 $X$ 半正定
- $-\log \det X$ 保证可逆,$\lambda \|X\|_1$ 使得 $X$ 稀疏
对数似然形式推导如下:
$$ \begin{aligned} L_D(X) &= \langle S, X \rangle - \log \det X + \lambda \|X\|_1 \\ &= \frac{1}{m} \sum_{j=1}^m a_j^T X a_j - \log \det X + \lambda \|X\|_1 \\ &= -\frac{2}{m} \log \left( \prod_{j=1}^m (2\pi)^{-n/2} \det(X^{-1})^{-1/2} \exp\left\{-\frac{1}{2} a_j^T X a_j \right\} \right) - n\log(2\pi) + \lambda \|X\|_1 \end{aligned} $$
十、主成分分析(PCA)
1、鲁棒PCA
数据矩阵 $Y \in \mathbb{R}^{m \times n}$ 拟合为低秩部分 $L$ 和稀疏部分 $S$:
$$ \min_{L, S \in \mathbb{R}^{m \times n}} \|Y - (L+S)\|_F^2 + \lambda \|L\|_* + \gamma \|S\|_1 $$
核范数鼓励 $L$ 低秩,$S$ 稀疏视为异常值。
2、稀疏主成分分析
传统PCA:
$$ \max_{v \in \mathbb{R}^n} v^T S v \quad \text{subject to} \quad \|v\|_2 = 1 $$
稀疏化约束:
$$ \max_{v} v^T S v \quad \text{subject to} \quad \|v\|_2 = 1, \|v\|_0 \leq k $$
NP-难,可用凸松弛:
$$ \max_{M \in \mathrm{SR}_n} \langle S, M \rangle \quad \text{subject to} \quad M \succcurlyeq 0, \langle I, M \rangle = 1, \|M\|_1 \leq \rho $$
十一、数据分离(支持向量机 SVM)
数据 $(a_j, y_j)$,$y_j \in \{+1, -1\}$,寻找分离超平面 $a^T x - \beta = 0$。
原始约束:
$$ y_j(a_j^T x - \beta) \geq 1, \forall j $$
优化目标:
$$ \min_{x, \beta} \|x\|_2^2 $$
如果不可行,则使用软间隔:
$$ \min_{(x, \beta)} \frac{1}{m} \sum_{j=1}^m \max(1 - y_j(a_j^T x - \beta), 0) + \frac{\lambda}{2} \|x\|_2^2 $$
等价于:
$$ \min_{x \in \mathbb{R}^n, \beta \in \mathbb{R}, s \in \mathbb{R}^m} \frac{1}{m} \sum_{j=1}^m s_j + \frac{\lambda}{2}\|x\|_2^2 \\ \text{s.t.} \quad s_j \geq 1 - y_j(a_j^T x - \beta), \quad s_j \geq 0, \forall j $$
引入非线性变换 $\zeta: \mathbb{R}^n \to \tilde{V}$,约束:
$$ y_j (\langle \zeta(a_j), x \rangle - \beta) \geq 1 $$
优化目标:
$$ \min_{x \in \tilde{V}, \beta \in \mathbb{R}} \frac{1}{m} \sum_{j=1}^m \max(1 - y_j(\langle \zeta(a_j), x \rangle - \beta), 0) + \frac{\lambda}{2} \langle x, x \rangle $$
可等价为对偶问题:
$$ \min_{\alpha \in \mathbb{R}^m} \frac{1}{2} \alpha^T Q \alpha - \sum_{j=1}^m \alpha_j \\ \text{s.t.} \quad 0 \leq \alpha_j \leq \frac{1}{\lambda}, \forall j, \quad y^T \alpha = 0 $$
其中
$$ Q = (q_{k, l}) \in \mathrm{SR}_{m \times m}, \ q_{k, l} = y_k y_l \langle \zeta(a_k), \zeta(a_l) \rangle $$
仅需核函数 $K(a_k, a_l) = \langle \zeta(a_k), \zeta(a_l) \rangle$,如高斯核:
$$ K(a_j, a_l) = \exp \left( -\frac{\|a_j - a_l\|^2}{2\sigma^2} \right) $$
十二、多分类问题与逻辑回归
数据 $(a_j, y_j)$,$y_j \in \{e_1, \dots, e_M\}$,$e_i$ 是 $R^M$ 的标准基。
参数 $X = \{x^{[i]}: i = 1, \dots, M\}$,多项式回归概率模型:
$$ p_i(a; X) = \frac{\exp(a^T x^{[i]})}{\sum_{k=1}^M \exp(a^T x^{[k]})}, \quad i = 1, \dots, M $$
最大化对数似然:
$$ \max_X \frac{1}{m} \sum_{j=1}^m \left[ y_j^T \begin{pmatrix} x^{[1]} \\ \vdots \\ x^{[M]} \end{pmatrix} a_j - \log \left( \sum_{k=1}^M \exp(x^{[k]T} a_j) \right) \right] $$
如果 $y_j = e_i$,则 $y_j^T (x^{[1]}, \dots, x^{[M]})^T = x^{[i]}$。
十三、深度学习中的多分类逻辑回归
神经网络参数 $w = ((W_1, g_1), ..., (W_D, g_D))$,输入 $a$,$D$ 层:
$$ a^0 = a \\ a^{\ell} = \sigma(W_{\ell} a^{\ell-1} + g_{\ell}), \quad (\ell = 1, ..., D-1) \\ a^D = W_D a^{D-1} + g_D $$
激活函数举例:
- $\sigma(t) = \frac{1}{1 + \exp(-t)}$(Sigmoid)
- $\sigma(t) = \max(t, 0)$(ReLU)
- $\sigma(t) = \tanh(t)$
最终优化目标:
$$ \max_{X, w} \frac{1}{m} \sum_{j=1}^m \left[ y_j^T \begin{pmatrix} x^{[1]} \\ \vdots \\ x^{[M]} \end{pmatrix} a^D_j(w) - \log \left( \sum_{k=1}^M \exp(x^{[k]T} a^D_j(w)) \right) \right] $$
目标函数为分项和,但由于网络非线性,整体为非凸优化。
网站地址:https://blog.6uu.us/
头像图片url:https://images.6uu.us/20250511114301488.JPG
描述:科技激荡人文,洞见智慧本真。
站点截图:https://img.z4a.net/images/2025/02/16/2025-02-16-14.08.18.png
我的博客换域名了,刚备案下来,请将墨冢这个改一下,感谢。
名称:异数
链接:https://www.yishu.pro/
描述:笔落惊风雨,诗成泣鬼神。
头像:https://www.yishu.pro/img/logo.jpg链接已加好:https://www.yishu.pro/index.php/links.html
对了,博客之前的友链,现已更名。
原名:春花秋月
新名:我的飛鳥集
麻烦有空更改呢~