一、依概率收敛(Convergence in Probability)

严谨定义:

设 $\{X_n\}$ 是一列随机变量,$X$ 是某个随机变量。如果对任意的 $\varepsilon > 0$,都有

$$ \lim_{n \to \infty} P(|X_n - X| > \varepsilon) = 0, $$

则称 $X_n$ 依概率收敛于 $X$,记作 $X_n \xrightarrow{P} X$。

通俗解释:

依概率收敛意味着:当 $n$ 越来越大时,$X_n$ 跟 $X$ 越来越“接近”的概率越来越大。虽然每个 $X_n$ 本身是随机的,但从整体趋势来看,它们大概率会靠近 $X$。就像我们多次掷骰子取平均值,这个平均值虽然还是会变动,但最终会很接近一个固定数(比如骰子点数期望为 $3.5$)的概率越来越高。


二、马尔科夫不等式(Markov's Inequality)

严谨定义:

设 $X$ 是一个非负随机变量,且 $\mathbb{E}[X] < \infty$,则对于任意 $a > 0$,有

$$ P(X \ge a) \le \frac{\mathbb{E}[X]}{a}. $$

通俗解释:

马尔科夫不等式告诉我们:一个非负随机变量“远离0”的概率不会太大,这个概率最多不超过其期望与该距离的比值。它是分析随机变量极端偏离均值的最基础工具,比如它可以用来估计一个人年收入超过100万的概率,只需要知道平均收入。


三、切比雪夫不等式(Chebyshev's Inequality)

严谨定义:

设随机变量 $X$ 的数学期望存在,且方差 $\mathrm{Var}(X) < \infty$,则对任意 $\varepsilon > 0$,有

$$ P(|X - \mathbb{E}[X]| \ge \varepsilon) \le \frac{\mathrm{Var}(X)}{\varepsilon^2}. $$

通俗解释:

切比雪夫不等式进一步告诉我们:一个随机变量偏离其平均值的概率和它的方差有关。方差越小,这个偏离的概率就越小。它比马尔科夫不等式更强,因为它利用了更多的信息(期望+方差),是大数定律等定理的重要基础。


四、弱大数定律(Weak Law of Large Numbers, WLLN)

严谨定义:

设 $X_1, X_2, \dots$ 是独立同分布的随机变量,$\mathbb{E}[X_i] = \mu$,定义样本平均为

$$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, $$

$$ \overline{X}_n \xrightarrow{P} \mu. $$

通俗解释:

弱大数定律告诉我们:当我们不断增加样本数时,样本平均值在概率意义下会越来越接近真实期望值。这为统计学提供了理论基础——只要数据足够多,我们就可以用样本平均估计真实参数。


五、强大数定律(Strong Law of Large Numbers, SLLN)

严谨定义:

设 $X_1, X_2, \dots$ 是独立同分布的随机变量,$\mathbb{E}[X_i] = \mu$,则有

$$ P\left( \lim_{n \to \infty} \overline{X}_n = \mu \right) = 1. $$

通俗解释:

强大数定律比弱大数定律更“强”:它不仅要求平均值趋近于期望,而且几乎必然地趋近。也就是说,在无限次实验中,样本平均最终一定会等于期望。几乎所有的样本路径都会收敛,不只是“高概率”收敛。

强 vs 弱大数定律的区别:

  • 收敛方式不同:弱大数定律是“依概率收敛”,而强大数定律是“几乎处处收敛”。
  • 强度不同:强大数定律提供了更强的保证,弱大数定律只说“概率越来越大”,但仍有微小可能远离。
  • 应用场景:弱大数定律常用于理论推导;强大数定律用于强调个体序列长时间平均的收敛性。

六、伯努利大数定律(Bernoulli's Law of Large Numbers)

严谨定义:

设 $X_1, X_2, \dots$ 是独立的伯努利随机变量,$P(X_i = 1) = p$, $P(X_i = 0) = 1 - p$,令

$$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, $$

则有

$$ \overline{X}_n \xrightarrow{P} p. $$

通俗解释:

伯努利大数定律是大数定律的最早版本,描述的是成功率的收敛:如果你反复进行某个成功率为 $p$ 的独立试验,比如投硬币,记录“正面”的比例,那么随着次数增加,这个比例将趋近于 $p$。


七、辛钦大数定律(Khinchin's Law of Large Numbers)

严谨定义:

设 $X_1, X_2, \dots$ 是独立同分布的随机变量,只要求其数学期望存在(不要求方差有限),则样本平均

$$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i $$

依概率收敛于 $\mathbb{E}[X_i]$,即

$$ \overline{X}_n \xrightarrow{P} \mathbb{E}[X_1]. $$

通俗解释:

辛钦定理说得更宽松一些——只要期望存在,就能保证样本平均依概率收敛。这是一个非常一般的弱大数定律形式,放宽了对方差等条件的要求。


八、切比雪夫大数定律(Chebyshev's Law of Large Numbers)

严谨定义:

设 $\{X_n\}$ 是一列两两不相关的随机变量,且 $\mathbb{E}[X_n] = \mu$,$\mathrm{Var}(X_n) \le C < \infty$,定义

$$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, $$

则有

$$ \overline{X}_n \xrightarrow{P} \mu. $$

通俗解释:

切比雪夫大数定律是弱大数定律的一种扩展形式,它不要求严格的独立性,只要不相关性和有界方差即可。这使得它适用于更广泛的情况,比如金融时间序列等。


伯努利 vs 辛钦 vs 切比雪夫大数定律的区别:

定律条件收敛方式适用范围
伯努利独立伯努利变量(0或1)概率收敛最简单的情形,概率模型入门
辛钦独立同分布,期望存在概率收敛广泛适用,只需期望存在
切比雪夫两两不相关,方差有界概率收敛对独立性要求更弱,适用更广

打赏
评论区
头像
文章目录