一、协方差
1、协方差的定义
回想数学期望的性质之一,对于相互独立的随机变量和,当其数学期望都存在时,有,而此式等价于:
那么当时,和一定不独立,也就是它们之间存在某种相依关系。因此我们认为可以在一定程度上反映出和的某种关系,由此给出下面的定义:
对于数学期望都存在的随机变量和,当的数学期望存在时,称:
为与的协方差。
2、协方差的计算方法
(1)若二维离散型随机变量 的联合分布律为:
则 与 的协方差为:
(2)若二维连续型随机变量 的联合密度函数为 ,则 与 的协方差为:
(3)直接按上述定义计算协方差往往比较麻烦, 在实际应用中常常用下面给出的计算公式来得到协方差:
3、协方差的性质
(1)对任意的正整数,设为方差存在的随机变量,则的方差也存在,且:
(2)
(3)
(4), 其中 为两个实数
(5)若 存在, 则:
(6)若 和 相互独立, 则 , 但反之不然
(7)当 时, 有 :
其中等号成立当且仅当 与 之间有严格的线性关系(即存在常数 使得 成立)。
下面证明性质(7):
考虑一个实数 ,构造随机变量 。计算 的方差:
展开平方项:
用协方差和方差的定义表示:
由于方差始终非负,即 对所有实数 成立,因此二次式:
这是一个关于 的二次不等式,其判别式必须非正:
化简判别式:
两边除以 4:
这就是需要证明的不等式。
等号成立当且仅当判别式等于零,即:
此时,二次方程 有唯一实数解 (假设 )。这意味着:
即:
这表明 和 之间存在严格的线性关系:
其中 ,。
类似地,如果 ,可以表示为 。因此,等号成立当且仅当 和 之间存在严格的线性关系。
而这个性质,也为后面的相关系数的引出奠定基础。
(8)对任意的,有
二、相关系数
协方差也是有量纲的,而且其取值也依赖于它们的单位,为了克服这一缺点, 我们可以用上一节中所提到的,将随机变量标准化后,再来求它们的协方差, 于是就有了下面“相关系数”的定义。
1、相关系数的定义
对于随机变量和,当与均存在且,均为非零实数时,称:
为与的相关系数,有时也简记为。
注意上述定义中,“与均存在”的假设也意味着的数
学期望与方差及的数学期望均存在。事实上
从而保证了 的存在。
根据标准化变量的定义 (定义 4.2.2), 可知
其中,由此可见,相关系数也是刻画两变量间相依关系的一种数字特征,其作用与协方差一样。与之不同的是,相关系数是无量纲的指标,可以避免由度量单位等非本质因素所带来的影响,可视之为“标准尺度下的协方差”。
2、相关系数的性质
对于随机变量 和 , 当相关系数 存在时, 有
- 若 和 相互独立, 则 , 但反之不然;
- , 其中等号成立当且仅当 与 之间有严格的线性关系 (即存在常数 , 使得 成立)。
相关系数和协方差反映的不是 与 之间 “一般” 关系的程度,而只是反映两者 “线性” 关系的密切程度,因此相关系数有时也称为 “线性相关系数”。
上面的 “线性相关” 可从最小二乘法的角度再来加深理解。对随机变量 和 ,考虑用 的线性函数 来逼近 。该选择怎样的常数 ,使得逼近的程度最好?这种逼近程度,常用 “最小二乘” 的观点来衡量,即使得
达到最小。通过求解,可知:
时, 达到最小,且最小值为:
若 , 则上式等于,从而 ,这一点在协方差性质(7)中也已指出。而且 越接近,用 来逼近 的偏差就越小,那么 与 之间线性关系的程度就越强;反之,就表明两者的线性关系程度越弱。
当,即时,线性表示中的系数也大于,那么 的最佳线性逼近 随 增加而增加,故称 与 正相关;反之, 当时,称与负相关。
当随机变量 X 和 Y 的相关系数
时,称 和 不相关或零相关。
由相关系数及协方差定义, 可知“不相关”还可以用下面的任意一条来定义:
网站地址:https://blog.6uu.us/
头像图片 url:https://images.6uu.us/20250511114301488.JPG
描述:科技激荡人文,洞见智慧本真。
站点截图:https://img.z4a.net/images/2025/02/16/2025-02-16-14.08.18.png
我的博客换域名了,刚备案下来,请将墨冢这个改一下,感谢。
名称:异数
链接:https://www.yishu.pro/
描述:笔落惊风雨,诗成泣鬼神。
头像:https://www.yishu.pro/img/logo.jpg 链接已加好:https://www.yishu.pro/index.php/links.html