?相關(guān)系數(shù)
相關(guān)性分析的關(guān)鍵是計(jì)算相關(guān)系數(shù),在本節(jié)課中將會(huì)介紹兩種常用的相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)(Pearson)和斯皮爾曼相關(guān)系數(shù)(Spearman)。
它們可以用來衡量?jī)蓚€(gè)變量間相關(guān)性的大小,對(duì)于不同類型的數(shù)據(jù),我們要用不同的相關(guān)系數(shù)進(jìn)行計(jì)算分析。
統(tǒng)計(jì)學(xué)概念
在學(xué)習(xí)這兩個(gè)系數(shù)之前,我們需要了解一些必要的概率統(tǒng)計(jì)中的概念,以便于公式的理解和推導(dǎo)。
總體 | 所要考察對(duì)象的全部個(gè)體 |
樣本 | 從總體中抽取的一部分個(gè)體 |
為了對(duì)考察對(duì)象進(jìn)行分析,我們總是希望得到總體數(shù)據(jù)的一些特征,例如均值、方差、標(biāo)準(zhǔn)差等;
但總體數(shù)據(jù)往往過多,以致于難以進(jìn)行計(jì)算,因此我們可以計(jì)算從從總體中抽取的樣本的統(tǒng)計(jì)量,以此來估計(jì)總體的統(tǒng)計(jì)量。
皮爾遜相關(guān)系數(shù)
總體皮爾遜相關(guān)系數(shù)
X和Y的變化方向相同:當(dāng)X大于其均值時(shí),Y也大于其均值,當(dāng)X小于其均值時(shí),Y也小于其均值
協(xié)方差的本質(zhì):若X和Y的變化方向相同,則協(xié)方差為正;若X和Y的變化方向相反,則協(xié)方差為負(fù);若X和Y的變化方向無關(guān)聯(lián),則協(xié)方差正負(fù)抵消為零。
注意:協(xié)方差的大小和兩個(gè)變量的量綱有關(guān),因此不適合做比較。
皮爾遜相關(guān)系數(shù)的本質(zhì):可以看作剔除了兩個(gè)變量量綱影響、將X和Y標(biāo)準(zhǔn)化后的協(xié)方差。
樣本皮爾遜相關(guān)系數(shù)
?相關(guān)系數(shù)可視化
在計(jì)算相關(guān)系數(shù)之前,需要通過繪制散點(diǎn)圖來判斷X和Y之間的相關(guān)性,如果散點(diǎn)圖顯示二者不相關(guān),那么計(jì)算出的相關(guān)系數(shù)也就沒有意義了。
只有先確定兩個(gè)變量是線性相關(guān)的,相關(guān)系數(shù)才能告訴我們這兩個(gè)變量的相關(guān)程度如何。
? 事實(shí)上,比起相關(guān)系數(shù)的大小,我們往往更關(guān)注的是其顯著性,這就需要進(jìn)行假設(shè)檢驗(yàn)。
對(duì)皮爾遜相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn)
進(jìn)行假設(shè)檢驗(yàn)可以判斷我們所求得的皮爾遜相關(guān)系數(shù)是否準(zhǔn)確,若檢驗(yàn)結(jié)果越顯著,就表示我們求得的相關(guān)系數(shù)越不準(zhǔn)確。
第一步:提出原假設(shè)和備擇假設(shè),兩者是截然相反的;如果我們已經(jīng)計(jì)算得到了一個(gè)皮爾遜相關(guān)系數(shù),我們要檢驗(yàn)它是否顯著異于0,則可以設(shè)定原假設(shè)和備擇假設(shè)為:H0:r=0? ? H1:r≠0
第二步:在原假設(shè)成立的條件下,利用我們要檢驗(yàn)的量構(gòu)造出一個(gè)符合某一分布的統(tǒng)計(jì)量
第三步:將我們要檢驗(yàn)的值帶入統(tǒng)計(jì)量中,可以得到一個(gè)特定的檢驗(yàn)值
第四步:我們可以根據(jù)統(tǒng)計(jì)量的分布繪制一個(gè)概率密度函數(shù)圖像,并給定一個(gè)置信水平,一般為95%,根據(jù)這個(gè)置信水平查找到臨界值,并畫出檢驗(yàn)統(tǒng)計(jì)量的接受域和拒絕域
第五步:看我們計(jì)算出來的檢驗(yàn)值是落在了接受域還是拒絕域,并下結(jié)論。
皮爾遜相關(guān)系數(shù)假設(shè)檢驗(yàn)的條件
第一,實(shí)驗(yàn)數(shù)據(jù)通常是成對(duì)地來自于正態(tài)分布的總體;
第二,實(shí)驗(yàn)數(shù)據(jù)之間的差距不能太大,皮爾遜相關(guān)系數(shù)受異常值的影響比較大;
第三,每組樣本之間是獨(dú)立抽樣的。
從上面可以知道,我們需要正態(tài)分布的數(shù)據(jù),才可以進(jìn)行假設(shè)檢驗(yàn),所以我們還需要進(jìn)行正態(tài)分布檢驗(yàn)。
正態(tài)分布檢驗(yàn)使用的方法是JB檢驗(yàn),JB檢驗(yàn)也是一個(gè)假設(shè)檢驗(yàn)的過程。
若實(shí)驗(yàn)數(shù)據(jù)足夠多,那我們就可以使用Q-Q圖來檢驗(yàn),只要圖上的點(diǎn)近似地在一條直線附近,我們就可以說樣本數(shù)據(jù)近似于正態(tài)分布。
斯皮爾曼相關(guān)系數(shù)
對(duì)斯皮爾曼相關(guān)系數(shù)也要進(jìn)行假設(shè)檢驗(yàn)。
兩個(gè)相關(guān)系數(shù)的比較
?文章來源地址http://www.zghlxwxcb.cn/news/detail-682151.html文章來源:http://www.zghlxwxcb.cn/news/detail-682151.html
?
到了這里,關(guān)于【數(shù)學(xué)建?!壳屣L(fēng)數(shù)模正課5 相關(guān)性分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!