一、依概率收敛(Convergence in Probability)
严谨定义:
设
则称
通俗解释:
依概率收敛意味着:当
二、马尔科夫不等式(Markov’s Inequality)
严谨定义:
设
通俗解释:
马尔科夫不等式告诉我们:一个非负随机变量“远离0”的概率不会太大,这个概率最多不超过其期望与该距离的比值。它是分析随机变量极端偏离均值的最基础工具,比如它可以用来估计一个人年收入超过100万的概率,只需要知道平均收入。
三、切比雪夫不等式(Chebyshev’s Inequality)
严谨定义:
设随机变量
通俗解释:
切比雪夫不等式进一步告诉我们:一个随机变量偏离其平均值的概率和它的方差有关。方差越小,这个偏离的概率就越小。它比马尔科夫不等式更强,因为它利用了更多的信息(期望+方差),是大数定律等定理的重要基础。
四、弱大数定律(Weak Law of Large Numbers, WLLN)
严谨定义:
设
则
通俗解释:
弱大数定律告诉我们:当我们不断增加样本数时,样本平均值在概率意义下会越来越接近真实期望值。这为统计学提供了理论基础——只要数据足够多,我们就可以用样本平均估计真实参数。
五、强大数定律(Strong Law of Large Numbers, SLLN)
严谨定义:
设
通俗解释:
强大数定律比弱大数定律更“强”:它不仅要求平均值趋近于期望,而且几乎必然地趋近。也就是说,在无限次实验中,样本平均最终一定会等于期望。几乎所有的样本路径都会收敛,不只是“高概率”收敛。
强 vs 弱大数定律的区别:
- 收敛方式不同:弱大数定律是“依概率收敛”,而强大数定律是“几乎处处收敛”。
- 强度不同:强大数定律提供了更强的保证,弱大数定律只说“概率越来越大”,但仍有微小可能远离。
- 应用场景:弱大数定律常用于理论推导;强大数定律用于强调个体序列长时间平均的收敛性。
六、伯努利大数定律(Bernoulli’s Law of Large Numbers)
严谨定义:
设
则有
通俗解释:
伯努利大数定律是大数定律的最早版本,描述的是成功率的收敛:如果你反复进行某个成功率为
七、辛钦大数定律(Khinchin’s Law of Large Numbers)
严谨定义:
设
依概率收敛于
通俗解释:
辛钦定理说得更宽松一些——只要期望存在,就能保证样本平均依概率收敛。这是一个非常一般的弱大数定律形式,放宽了对方差等条件的要求。
八、切比雪夫大数定律(Chebyshev’s Law of Large Numbers)
严谨定义:
设
则有
通俗解释:
切比雪夫大数定律是弱大数定律的一种扩展形式,它不要求严格的独立性,只要不相关性和有界方差即可。这使得它适用于更广泛的情况,比如金融时间序列等。
伯努利 vs 辛钦 vs 切比雪夫大数定律的区别:
定律 条件 收敛方式 适用范围 伯努利 独立伯努利变量(0或1) 概率收敛 最简单的情形,概率模型入门 辛钦 独立同分布,期望存在 概率收敛 广泛适用,只需期望存在 切比雪夫 两两不相关,方差有界 概率收敛 对独立性要求更弱,适用更广