协方差和相关系数

一、协方差

1、协方差的定义

回想数学期望的性质之一,对于相互独立的随机变量XY,当其数学期望都存在时,有E(XY)=E(X)E(Y),而此式等价于:

E[(XE(X))(YE(Y))]=0 

那么当E[(XE(X))(YE(Y))]0时,XY一定不独立,也就是它们之间存在某种相依关系。因此我们认为E[(XE(X))(YE(Y))]可以在一定程度上反映出XY的某种关系,由此给出下面的定义:

对于数学期望都存在的随机变量XY,当(XE(X))(YE(Y))的数学期望存在时,称:

Cov(X,Y)=E[(XE(X))(YE(Y))]

XY的协方差。

2、协方差的计算方法

(1)若二维离散型随机变量 (X,Y) 的联合分布律为:

P{X=xi,Y=yj}=pij,i=1,2,,j=1,2,

XY 的协方差为:

Cov(X,Y)=i=1+j=1+(xiE(X))(yjE(Y))pij

(2)若二维连续型随机变量 (X,Y) 的联合密度函数为 f(x,y),则 XY 的协方差为:

Cov(X,Y)=++(xE(X))(yE(Y))f(x,y)dxdy

(3)直接按上述定义计算协方差往往比较麻烦, 在实际应用中常常用下面给出的计算公式来得到协方差:

Cov(X,Y)=E(XY)E(X)E(Y)

3、协方差的性质

(1)对任意的正整数n(n2),设X1,X2,,Xn为方差存在的随机变量,则X1+X2++Xn的方差也存在,且:

Var(i=1nXi)=i=1nVar(Xi)+21i<jnCov(Xi,Xj)

(2)Cov(X,Y)=Cov(Y,X)

(3)Cov(X,X)=Var(X)

(4)Cov(aX,bY)=abCov(X,Y), 其中 a,b 为两个实数

(5)若 Cov(Xi,Y)(i=1,2) 存在, 则:

Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

(6)若 XY 相互独立, 则 Cov(X,Y)=0, 但反之不然

(7)当 Var(X)Var(Y)0 时, 有 :

(Cov(X,Y))2Var(X)Var(Y)

其中等号成立当且仅当 XY 之间有严格的线性关系(即存在常数 c1,c2 使得 P{Y=c1+c2X}=1 成立)。

下面证明性质(7):

考虑一个实数 t,构造随机变量 Z=(XE[X])+t(YE[Y])。计算 Z 的方差:

Var(Z)=E[Z2]=E[((XE[X])+t(YE[Y]))2]

展开平方项:

Var(Z)=E[(XE[X])2]+2tE[(XE[X])(YE[Y])]+t2E[(YE[Y])2]

用协方差和方差的定义表示:

Var(Z)=Var(X)+2tCov(X,Y)+t2Var(Y)

由于方差始终非负,即 Var(Z)0 对所有实数 t 成立,因此二次式:

Var(X)+2tCov(X,Y)+t2Var(Y)0

这是一个关于 t 的二次不等式,其判别式必须非正:

(2Cov(X,Y))24Var(X)Var(Y)0

化简判别式:

4(Cov(X,Y))24Var(X)Var(Y)0

两边除以 4:

(Cov(X,Y))2Var(X)Var(Y)

这就是需要证明的不等式。

等号成立当且仅当判别式等于零,即:

(Cov(X,Y))2=Var(X)Var(Y)

此时,二次方程 Var(Z)=0 有唯一实数解 t=Cov(X,Y)Var(Y)(假设 Var(Y)0)。这意味着:

Z=(XE[X])+t(YE[Y])=0几乎处处成立

即:

XE[X]=Cov(X,Y)Var(Y)(YE[Y])

这表明 XY 之间存在严格的线性关系:

X=c1+c2Y

其中 c1=E[X]Cov(X,Y)Var(Y)E[Y]c2=Cov(X,Y)Var(Y)

类似地,如果 Var(X)0,可以表示为 Y=c1+c2X。因此,等号成立当且仅当 XY 之间存在严格的线性关系。

而这个性质,也为后面的相关系数的引出奠定基础。

(8)对任意的k=1,2,,n,有

Cov(X¯,Xk)=Cov(1ni=1nXi,Xk)=1ni=1nCov(Xi,Xk)

二、相关系数

协方差也是有量纲的,而且其取值也依赖于它们的单位,为了克服这一缺点, 我们可以用上一节中所提到的,将随机变量标准化后,再来求它们的协方差, 于是就有了下面“相关系数”的定义。

1、相关系数的定义

对于随机变量X和,当E(X2)E(Y2)均存在且Var(X)Var(Y)均为非零实数时,称:

ρXY=Cov(X,Y)Var(X)Var(Y)

XY的相关系数,有时也简记为ρ

注意上述定义中,“E(X2)E(Y2)均存在”的假设也意味着X,Y的数
学期望与方差及XY的数学期望均存在。事实上

0|X|X2+1,0|Y|Y2+1,0|XY|X2+Y22

从而保证了Cov(X,Y) 的存在。

根据标准化变量的定义 (定义 4.2.2), 可知

ρXY=Cov(X,Y)

其中X=XE(X)Var(X),Y=YE(Y)Var(Y),由此可见,相关系数也是刻画两变量间相依关系的一种数字特征,其作用与协方差一样。与之不同的是,相关系数是无量纲的指标,可以避免由度量单位等非本质因素所带来的影响,可视之为“标准尺度下的协方差”。

2、相关系数的性质

对于随机变量 XY, 当相关系数 ρXY 存在时, 有

  1. XY 相互独立, 则 ρXY=0, 但反之不然;
  2. |ρXY|1, 其中等号成立当且仅当 XY 之间有严格的线性关系 (即存在常数 c1,c2, 使得 P{Y=c1+c2X}=1 成立)。

相关系数和协方差反映的不是 XY 之间 “一般” 关系的程度,而只是反映两者 “线性” 关系的密切程度,因此相关系数有时也称为 “线性相关系数”。

上面的 “线性相关” 可从最小二乘法的角度再来加深理解。对随机变量 XY,考虑用 X 的线性函数 c1+c2X 来逼近 Y。该选择怎样的常数 c1,c2,使得逼近的程度最好?这种逼近程度,常用 “最小二乘” 的观点来衡量,即使得

ρ(c1,c2)=E{[Y(c1+c2X)]2}=E{[(YE(Y))c2(XE(X))(c1E(Y)+c2E(X))]2}=Var(Y)+c22Var(X)2c2Cov(X,Y)+(c1E(Y)+c2E(X))2

达到最小。通过求解,可知:

c1=E(Y)c2E(X),c2=Cov(X,Y)Var(X)

时,ρ(c1,c2) 达到最小,且最小值为:

minc1,c2E{[Y(c1+c2X)]2}=Var(Y)(1ρXY2)

ρXY=±1, 则上式等于0,从而 P{Y=c1+c2X}=1,这一点在协方差性质(7)中也已指出。而且|ρXY| 越接近1,用 c1+c2X 来逼近 Y 的偏差就越小,那么 XY 之间线性关系的程度就越强;反之,就表明两者的线性关系程度越弱。

ρXY>0,即Cov(X,Y)>0时,线性表示中X的系数c2也大于0,那么Y 的最佳线性逼近 c1+c2XX 增加而增加,故称 XY 正相关;反之, 当ρXY<0时,称XY负相关。

当随机变量 X 和 Y 的相关系数
ρXY=0

时,称 XY 不相关或零相关。

由相关系数及协方差定义, 可知“不相关”还可以用下面的任意一条来定义:

  1. Cov(X,Y)=0
  2. E(XY)=E(X)E(Y)
  3. Var(X+Y)=Var(X)+Var(Y)
打赏
评论区
头像
  • 高兴
  • 小怒
  • 脸红
  • 内伤
  • 装大款
  • 赞一个
  • 害羞
  • 汗
  • 吐血倒地
  • 深思
  • 不高兴
  • 无语
  • 亲亲
  • 口水
  • 尴尬
  • 中指
  • 想一想
  • 哭泣
  • 便便
  • 献花
  • 皱眉
  • 傻笑
  • 狂汗
  • 吐
  • 喷水
  • 看不见
  • 鼓掌
  • 阴暗
  • 长草
  • 献黄瓜
  • 邪恶
  • 期待
  • 得意
  • 吐舌
  • 喷血
  • 无所谓
  • 观察
  • 暗地观察
  • 肿包
  • 中枪
  • 大囧
  • 呲牙
  • 抠鼻
  • 不说话
  • 咽气
  • 欢呼
  • 锁眉
  • 蜡烛
  • 坐等
  • 击掌
  • 惊喜
  • 喜极而泣
  • 抽烟
  • 不出所料
  • 愤怒
  • 无奈
  • 黑线
  • 投降
  • 看热闹
  • 扇耳光
  • 小眼睛
  • 中刀
  • 呵呵
  • 哈哈
  • 吐舌
  • 太开心
  • 笑眼
  • 花心
  • 小乖
  • 乖
  • 捂嘴笑
  • 滑稽
  • 你懂的
  • 不高兴
  • 怒
  • 汗
  • 黑线
  • 泪
  • 真棒
  • 喷
  • 惊哭
  • 阴险
  • 鄙视
  • 酷
  • 啊
  • 狂汗
  • what
  • 疑问
  • 酸爽
  • 呀咩爹
  • 委屈
  • 惊讶
  • 睡觉
  • 笑尿
  • 挖鼻
  • 吐
  • 犀利
  • 小红脸
  • 懒得理
  • 勉强
  • 爱心
  • 心碎
  • 玫瑰
  • 礼物
  • 彩虹
  • 太阳
  • 星星月亮
  • 钱币
  • 茶杯
  • 蛋糕
  • 大拇指
  • 胜利
  • haha
  • OK
  • 沙发
  • 手纸
  • 香蕉
  • 便便
  • 药丸
  • 红领巾
  • 蜡烛
  • 音乐
  • 灯泡
  • 开心
  • 钱
  • 咦
  • 呼
  • 冷
  • 生气
  • 弱
  • 阿鲁
  • 泡泡
文章目录