前言
為了說明兩組數(shù)據(jù)之間的相關(guān)性,例如身高與50米跑步的成績,我們引入相關(guān)系數(shù),本文先介紹person相關(guān)系數(shù)以及在特定情況下的使用方法。
一、pearson相關(guān)系數(shù)(Covariance)
Person相關(guān)系數(shù)在 滿足特定條件下 用來衡量兩個(gè)變量之間的相關(guān)性。
1. 協(xié)方差
在正式介紹person相關(guān)系數(shù)之前,我們先引入?yún)f(xié)方差的概念
協(xié)方差是一個(gè)反映兩個(gè)隨機(jī)變量相關(guān)程度的指標(biāo),比如,一個(gè)人的身高和體重是否存在一些聯(lián)系。公式如下:
其中 n為樣本數(shù)量,
x
 ̄
\overline{x}
x 為樣本均值。
如果x、y變化方向相同,即當(dāng) x > x  ̄ x>\overline{x} x>x其均值是, y > y  ̄ y>\overline{y} y>y?其均值,在這種情況下,乘積為正。如果x、y的變化方向一直保持相同,則協(xié)方差為正;同理,如果x、y的變化方向一直保持相反,則協(xié)方差為負(fù);如果x、y的變化方向之間相互無規(guī)律,即分子中有的項(xiàng)為正、有的項(xiàng)為負(fù),那么累加后正負(fù)抵消。
協(xié)方差越大,那么二者之間變化的趨勢就越接近。
2.皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)
Pearson相關(guān)系數(shù)是用協(xié)方差除以兩個(gè)變量的標(biāo)準(zhǔn)差得到的,公式如下:
除以標(biāo)準(zhǔn)差的目的是消除量綱的影響,Pearson相關(guān)系數(shù)取[-1,1之間。皮爾遜相關(guān)系數(shù)其實(shí)就是標(biāo)準(zhǔn)化后的協(xié)方差
3. 相關(guān)系數(shù)的評價(jià)
相關(guān)性 | 負(fù) | 正 |
---|---|---|
無相關(guān) | -0.09~0 | 0~0.09 |
弱相關(guān) | -0.3~-0.1 | 0.1~0.3 |
中相關(guān) | -0.5~-0.3 | 0.3~0.5 |
強(qiáng)相關(guān) | -1~-0.5 | 0.5~1.0 |
事實(shí)上,比起相關(guān)系數(shù)的大小,我們往往更關(guān)注的是顯著性(假設(shè)檢驗(yàn))。
二、使用條件
必須得確定兩個(gè)變量之間是線性相關(guān)的,否則非線性相關(guān)也會(huì)導(dǎo)致pearson相關(guān)系數(shù)很大。存在異常點(diǎn)的影響也可能導(dǎo)致兩個(gè)變量之間的相關(guān)系數(shù)變大。我們常用散點(diǎn)圖的方法確定兩個(gè)變量之間的是否線性相關(guān),然后再描述線性相關(guān)程度。
因此在進(jìn)行相關(guān)性的分析時(shí)一定要配合散點(diǎn)圖,否則是無效的。
三、使用步驟
1.對數(shù)據(jù)進(jìn)行描述性分析
推薦spsspro工具,簡單高效。
或者python的pandas庫,使用 Dataframe.describe()函數(shù)
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.describe())
答題之前先對數(shù)據(jù)進(jìn)行描述性分析是個(gè)好習(xí)慣,不管以上分析有用沒用,都是一種學(xué)術(shù)嚴(yán)謹(jǐn)?shù)谋憩F(xiàn)。
2. 繪制散點(diǎn)圖
前面提到 繪制散點(diǎn)圖是檢查數(shù)據(jù)是否可用pearson相關(guān)性分析的必要條件,這里我們用python matpolit,對以上六個(gè)特征列取兩兩繪制散點(diǎn)圖。
plt.figure(figsize=(60,50))
num = 1
for i in range(6):
for j in range(6):
plt.subplot(6,6,num)
plt.scatter(df.iloc[:,i],df.iloc[:,j],s=2)
plt.title(df.iloc[:,i].name+"--"+df.iloc[:,j].name)
num = num+1
# plt.tight_layout()
plt.show()
繪制結(jié)果如下:
由于我這里數(shù)據(jù)是假的,因此散點(diǎn)圖的顯示基本上沒有相關(guān)性可言,不要在意這些細(xì)節(jié),方法就是這么個(gè)方法,讓我們繼續(xù)。
3. pearson檢驗(yàn)
推薦spasspro工具,簡單高效還免費(fèi)
相關(guān)性分析結(jié)果
顯著性水平 ()中為假設(shè)檢驗(yàn)的P值,我們假設(shè)
H
0
:
r
=
0
,
H_0:r=0,
H0?:r=0,即該兩列數(shù)據(jù)相關(guān)性為0
而
H
1
:
r
≠
0
H_1:r\neq0
H1?:r=0即該兩列數(shù)據(jù)相關(guān)性不為0。
當(dāng) P<0.01時(shí),說明
H
0
H_0
H0?顯著不成立,即該兩列相關(guān)程度很高,0.01<P<0.05時(shí),該兩列中度相關(guān)。
下文詳細(xì)介紹假設(shè)檢驗(yàn)
相關(guān)性分析熱力圖
四、假設(shè)檢驗(yàn)
前面提到直接通過相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn)是非常武斷的,這里引入假設(shè)性檢驗(yàn)對相關(guān)性系數(shù)的顯著性進(jìn)行分析。
假設(shè)性檢驗(yàn)這里只講如何應(yīng)用,首先得滿足一個(gè)條件:該數(shù)據(jù)必須符合正態(tài)分布。
正態(tài)分布檢驗(yàn)
spsspro檢驗(yàn)結(jié)果
PS:通常現(xiàn)實(shí)研究情況下很難滿足檢驗(yàn),若其樣本峰度絕對值小于10并且偏度絕對值小于3,結(jié)合正態(tài)分布直方圖、PP圖或者QQ圖可以描述為基本符合正態(tài)分布。
直方圖
Q-Q圖
Q-Q圖,全稱“Quantile Quantile Plot”。用圖形的方式比較觀測值與預(yù)測值(假定正態(tài)下的分布)不同分位數(shù)的概率分布,從而檢驗(yàn)是否吻合正態(tài)分布規(guī)律。并且將實(shí)際數(shù)據(jù)作為X軸,將假定正態(tài)時(shí)的數(shù)據(jù)分位數(shù)作為Y軸,作散點(diǎn)圖,散點(diǎn)與直線重合度越高越服從正態(tài)分布,散點(diǎn)差異愈大越不服從正態(tài)分布,請視實(shí)際情況而定。
假設(shè)檢驗(yàn)
- 提出原假設(shè) H 0 H_0 H0? 和備擇假設(shè) H 1 H_1 H1?,假設(shè)我們計(jì)算出來一個(gè)pearson相關(guān)系數(shù)r,我們項(xiàng)檢驗(yàn)它是否顯著的異于0,那么我們可以這樣設(shè)定原假設(shè)和備擇假設(shè): H 0 : r = 0 H_0:r = 0 H0?:r=0 , H 1 : r ≠ 0 H_1:r \neq0 H1?:r=0
- 在原假設(shè)成立的條件下,利用我們要檢驗(yàn)的量構(gòu)造出一個(gè)符合某一分布的統(tǒng)計(jì)量。這里pearson有特定的t分布:
t = r n ? 2 1 ? r 2 t=r\sqrt{\frac{n-2}{1-r^2}} t=r1?r2n?2??
可以證明t是服從自由度為n-2的 t-distribution - 將我們要檢驗(yàn)的這個(gè)值帶入這個(gè)統(tǒng)計(jì)量中,可以得到一個(gè)特定的值(檢驗(yàn)值)。
假設(shè)我們現(xiàn)在計(jì)算出來的相關(guān)系數(shù)為0.5,樣本為30,那么我們可以得到 t ? = 0.5 30 ? 2 1 ? 0. 5 2 = 3.05505 t^*=0.5\sqrt{\frac{30-2}{1-0.5^2}}=3.05505 t?=0.51?0.5230?2??=3.05505 - 由于我們知道統(tǒng)計(jì)量的分布情況,因此我們可以畫出該分布的概率密度函數(shù)pdf,并給定一個(gè)置信水平,根據(jù)這個(gè)置信水平找到臨界值,并畫出檢驗(yàn)統(tǒng)計(jì)量的接受域和拒絕域。常見的置信水平有三個(gè):90%,95%,99%,其中95%是三者中最為常用。
- 看我們計(jì)算出來的檢驗(yàn)值是落在了拒絕域還是接受域,并下結(jié)論。
總結(jié)
pearson相關(guān)系數(shù)其實(shí)就是兩組數(shù)據(jù)的協(xié)方差的去量綱,只有在兩組數(shù)據(jù)有線性相關(guān)性時(shí)才適用。對pearson相關(guān)系數(shù)的分析要用到假設(shè)檢驗(yàn),進(jìn)行假設(shè)檢驗(yàn)需要滿足數(shù)據(jù)符合正態(tài)分布。
補(bǔ)充 spearman相關(guān)系數(shù)
假如數(shù)據(jù)實(shí)在不能看,沒有任何線性關(guān)系、正態(tài)分布關(guān)系,那就放棄pearson相關(guān)系數(shù)吧,白搭。
當(dāng)然,天無絕人之路,備用方案:spearman相關(guān)系數(shù)
先看公式:
r s = 1 ? 6 ∑ i = 1 n d i 2 n ( n 2 ? 1 ) r_s=1-\frac{6\sum_{i=1}^n{d_i^2}}{n(n^2-1)} rs?=1?n(n2?1)6∑i=1n?di2??
這里 n就是樣本數(shù),
d
i
d_i
di?是X Y 的等級差
等級:將一組數(shù)從小到大排列后,每個(gè)數(shù)所在的位置就是等級。
也就是說這個(gè)spearman相關(guān)性跟數(shù)據(jù)值無關(guān),跟它在的位置有關(guān),雖然聽起來不太靠譜,但總歸是能在非線性數(shù)據(jù)上看相關(guān)性了。文章來源:http://www.zghlxwxcb.cn/news/detail-704116.html
spsspro
這里依舊是通過假設(shè)檢驗(yàn)評價(jià)相關(guān)程度,()中為假設(shè)檢驗(yàn)的P值,*表示相關(guān)程度。文章來源地址http://www.zghlxwxcb.cn/news/detail-704116.html
到了這里,關(guān)于【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!