前言
??在許多算法中需要求出兩個(gè)分量間相互關(guān)系的信息。協(xié)方差就是描述這種相互關(guān)聯(lián)程度的一個(gè)特征數(shù)。
一、協(xié)方差是什么?
??設(shè)
(
X
,
Y
)
(X,Y)
(X,Y)是一個(gè)二維隨機(jī)變量,若
E
[
(
X
?
E
(
X
)
)
(
Y
?
E
(
Y
)
)
]
E[(X-E(X))(Y-E(Y))]
E[(X?E(X))(Y?E(Y))]存在,則稱此數(shù)學(xué)期望為
X
X
X與
Y
Y
Y的協(xié)方差,或稱為
X
X
X與
Y
Y
Y的相關(guān)(中心)矩,并記為
c
o
v
(
X
,
Y
)
=
E
[
(
X
?
E
(
X
)
)
(
Y
?
E
(
Y
)
)
]
cov(X,Y)=E[(X-E(X))(Y-E(Y))]
cov(X,Y)=E[(X?E(X))(Y?E(Y))]特別有
C
o
v
(
X
,
X
)
=
V
a
r
(
X
)
Cov(X,X)=Var(X)
Cov(X,X)=Var(X).
- 當(dāng)cov(X,Y)>0時(shí),稱X與Y正相關(guān),這時(shí)兩個(gè)偏差(X-E(X))與有同時(shí)增加或同時(shí)減少的傾向.由于E(X)與E(Y)都是常數(shù),故等價(jià)于X與Y同時(shí)增加或同時(shí)減少的傾向,這就是正相關(guān)的含義。
- 當(dāng)cov(X,Y)>0時(shí),稱X與Y負(fù)相關(guān).
- 當(dāng)cov(X,Y)=0時(shí),稱X與Y不相關(guān).
C o v ( a X , b X ) = a b C o v ( X , Y ) Cov(aX,bX)=abCov(X,Y) Cov(aX,bX)=abCov(X,Y)
由上述性質(zhì)可得,未預(yù)處理的數(shù)據(jù)的協(xié)方差僅有正負(fù)號(hào)為有用信息,即表示變量間呈現(xiàn)正負(fù)相關(guān)。
二、協(xié)方差矩陣是什么?
??記n維隨機(jī)變量為
X
=
(
X
1
,
X
2
,
.
.
.
,
X
n
)
′
X= (X_1,X_2,...,X_n)^{'}
X=(X1?,X2?,...,Xn?)′,若其每個(gè)分量的數(shù)字期望都存在,則稱
E
(
X
)
=
(
E
(
X
1
)
,
E
(
X
2
)
,
.
.
.
,
E
(
X
n
)
)
′
E(X)=(E(X_1),E(X_2),...,E(X_n))^{'}
E(X)=(E(X1?),E(X2?),...,E(Xn?))′
為n維隨機(jī)向量X的數(shù)學(xué)期望向量,簡(jiǎn)稱為X的數(shù)學(xué)期望,而稱
E
[
(
X
?
E
(
X
)
)
(
X
?
E
(
X
)
)
′
]
=
[
V
a
r
(
X
1
)
C
o
v
(
X
1
,
X
2
)
?
C
o
v
(
X
1
,
X
n
)
C
o
v
(
X
2
,
X
1
)
V
a
r
(
X
2
)
?
C
o
v
(
X
2
,
X
p
)
?
?
?
?
C
o
v
(
X
n
,
X
1
)
C
o
v
(
X
n
,
X
2
)
?
V
a
r
(
X
n
)
]
E[(X-E(X))(X-E(X))^{'}]=\begin{bmatrix} Var(X_1) &Cov(X_1,X_2) &\cdots&Cov(X_1,X_n) \\ Cov(X_2,X_1)&Var(X_2) &\cdots &Cov(X_2,X_p) \\ \vdots& \vdots& \ddots& \vdots\\ Cov(X_n,X_1)&Cov(X_n,X_2) &\cdots &Var(X_n) \\\end{bmatrix}
E[(X?E(X))(X?E(X))′]=??????Var(X1?)Cov(X2?,X1?)?Cov(Xn?,X1?)?Cov(X1?,X2?)Var(X2?)?Cov(Xn?,X2?)??????Cov(X1?,Xn?)Cov(X2?,Xp?)?Var(Xn?)???????
為該隨機(jī)向量的 方差協(xié)方差矩陣,簡(jiǎn)稱協(xié)方差陣,記為Cov(X).協(xié)方差矩陣的一般求法:
# 求矩陣X_train的協(xié)方差矩陣cov_X;
# 只有去均值后才可以直接X(jué)與X的逆相乘取均值得協(xié)方差矩陣
import numpy as np
# 通過(guò)推導(dǎo)公式求協(xié)方差 (XX.T,因?yàn)槭菍傩耘c屬性的相關(guān)關(guān)系,所以公式中矩陣X為每一行表示一個(gè)feature)
def get_cov(X):
"""
注意:分母為樣本數(shù)減1
"""
X_ = X-np.vstack(X.mean(axis= 1))
cov_X = np.dot(X_, X_.T)/(X_.shape[1]-1)
return cov_X
#get_cov(X.T)等價(jià)于
cov_X = np.cov(X,rowvar=0) # 計(jì)算協(xié)方差矩陣,rowvar=0表示數(shù)據(jù)的每一列代表一個(gè)feature
#可直接求出相關(guān)系數(shù)矩陣
coef_X = no.coffcoef(X_train)
三、協(xié)方差矩陣與相關(guān)系數(shù)矩陣
??協(xié)方差矩陣與相關(guān)系數(shù)矩陣區(qū)別為,相關(guān)系數(shù)矩陣是標(biāo)準(zhǔn)后的協(xié)方差矩陣,即在PCA中,當(dāng)量綱相同時(shí)用 協(xié)方差矩陣&相關(guān)系數(shù)矩陣,但是當(dāng)量綱不同時(shí)為了消除不同量綱間的影響(出現(xiàn)大數(shù)吃小數(shù)現(xiàn)象),要使用相關(guān)系數(shù)矩陣,相關(guān)系數(shù)矩陣除了描述正負(fù)相關(guān)外還描述關(guān)聯(lián)的程度大小。
Pearson相關(guān)系數(shù)的公式:
ρ
X
,
Y
=
c
o
v
(
X
,
Y
)
σ
X
σ
Y
=
E
[
(
X
?
E
(
X
)
)
(
Y
?
E
(
Y
)
]
σ
X
σ
Y
\rho_{X,Y}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}=\frac{E[(X-E(X))(Y-E(Y)]}{\sigma_X\sigma_Y}
ρX,Y?=σX?σY?cov(X,Y)?=σX?σY?E[(X?E(X))(Y?E(Y)]?
注意:在求相關(guān)系數(shù)矩陣是,當(dāng)兩個(gè)變量之間的有一個(gè)的標(biāo)準(zhǔn)差為0,那么求得的相關(guān)系數(shù)矩陣會(huì)出現(xiàn)nan。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-630662.html
參考資料:概率論與數(shù)理統(tǒng)計(jì)教程(第三版)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-630662.html
到了這里,關(guān)于【概率論理論】協(xié)方差,協(xié)方差矩陣?yán)碚?機(jī)器學(xué)習(xí))的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!