數(shù)學(xué)建模中,相關(guān)性分析往往是建模的前提。但是,相關(guān)系數(shù)是數(shù)學(xué)建模中最容易出錯(cuò)濫用的點(diǎn),需要注意不同相關(guān)系數(shù)的使用條件。
一.Pearson相關(guān)系數(shù)及其假設(shè)性檢驗(yàn)
1.1 Pearson相關(guān)系數(shù)的定義及計(jì)算
(1)總體的Pearson相關(guān)系數(shù)
?(2)樣本的Pearson相關(guān)系數(shù)
?(3)Pearson相關(guān)系數(shù)的誤區(qū):
- 理解誤區(qū)1——散點(diǎn)圖和皮爾遜相關(guān)系數(shù)的聯(lián)系(垂直x軸或者垂直y軸時(shí),Person相關(guān)系數(shù)計(jì)算為零)<—— Person相關(guān)系數(shù)只是用來衡量線性相關(guān)程度的指標(biāo),只有確定了兩個(gè)變量是線性相關(guān)的,這個(gè)相關(guān)系數(shù)才能用來衡量相關(guān)程度
- 易錯(cuò)點(diǎn)1——非線性相關(guān)也會(huì)導(dǎo)致線性相關(guān)系數(shù)很大—>Person相關(guān)系數(shù)高不能證明具有線性相關(guān)性
- 易錯(cuò)點(diǎn)2——離群點(diǎn)對(duì)相關(guān)系數(shù)的影響很大->用Person相關(guān)系數(shù)進(jìn)行分析時(shí),考慮去除異常值
- 易錯(cuò)點(diǎn)3——如果兩個(gè)變量的相關(guān)系數(shù)高也不能說明兩者相關(guān)->Person相關(guān)系數(shù)高不能證明線性函數(shù)具有很大相關(guān)性,也有可能是受到異常值影響
- 易錯(cuò)點(diǎn)4——Person相關(guān)系數(shù)計(jì)算結(jié)果為零,不能認(rèn)為沒有相關(guān)性,也許有比線性相關(guān)更復(fù)雜的相關(guān)性
總而言之,Pearson相關(guān)系數(shù)能夠有力使用的前提是
- 該相關(guān)系數(shù)只能識(shí)別簡(jiǎn)單的線性相關(guān)關(guān)系,無法處理非線性相關(guān)關(guān)系;
- 對(duì)異常值(或離群點(diǎn))和樣本容量較為敏感;
- 要求研究的變量是數(shù)值變量,且變量符合或較為接近正態(tài)分布。
- 每組樣本之間是獨(dú)立抽樣的(需要加在論文假設(shè)前提里)
相關(guān)系數(shù)的大小能夠說明兩者的相關(guān)程度,但我們往往更關(guān)注相關(guān)系數(shù)的顯著性。
1.2 Pearson相關(guān)系數(shù)的假設(shè)性檢驗(yàn)
(1)假設(shè)檢驗(yàn)的步驟
- 確定原假設(shè):相關(guān)系數(shù)為0(即兩個(gè)變量不相關(guān))和備擇假設(shè):相關(guān)系數(shù)不為0(即兩個(gè)變量可能相關(guān))
- 在原假設(shè)成立的條件下,構(gòu)造一個(gè)統(tǒng)計(jì)量,該統(tǒng)計(jì)量有一個(gè)分布
- 畫出概率密度函數(shù)圖
- 給一個(gè)置信水平β,求出接受域
- 用已知的樣本數(shù)據(jù)代入計(jì)算統(tǒng)計(jì)量,得到檢測(cè)值,若檢測(cè)值落在接受域內(nèi),則無法拒絕原假設(shè),否則拒絕原假設(shè)
(2)pearson相關(guān)系數(shù)的假設(shè)性檢驗(yàn)
對(duì)pearson相關(guān)系數(shù)而言,我們構(gòu)造統(tǒng)計(jì)量,是服從自由度為的分布
查表:t分布表T分布表 - 百度文庫
但我們一般不用查表法,而用p值判斷法:利用檢測(cè)值t,計(jì)算出對(duì)應(yīng)的概率
單邊檢驗(yàn)
雙邊檢驗(yàn)
用計(jì)算出的概率值p與0.01,0.05,0.10比較:
顯著性越小,在更大的概率上,兩者可能存在相關(guān)關(guān)系。即***越多,顯著性越強(qiáng),這個(gè)相關(guān)系數(shù)的置信程度越大。
1.3 正態(tài)分布的假設(shè)檢驗(yàn)
(1)JB檢驗(yàn)(Jarque-Bera test)
條件:
大樣本 n>30
matlab實(shí)現(xiàn):
[h,p]=jbtest(x,alpha)% x是向量,alpha是顯著性水平
jb檢驗(yàn)只能一組一組進(jìn)行檢驗(yàn)
h=1時(shí)拒絕原假設(shè),即不滿足正態(tài)分布
h=0時(shí)接受原假設(shè),即滿足正態(tài)分布
(2)Shapiro-wilk檢驗(yàn)
條件:
小樣本 3<=n<=50
SPSS實(shí)現(xiàn):
分析->描述統(tǒng)計(jì)->探索->圖,含檢驗(yàn)的數(shù)據(jù)圖
(3)QQ圖
條件:
數(shù)據(jù)量非常大
matlab實(shí)現(xiàn):
qqplot(Test(:,1))
只能一列一列進(jìn)行檢驗(yàn)
1.4?matlab及spss實(shí)現(xiàn)
(1)描述性分析
1.matlab
?例如,min(Test)計(jì)算每一列的最小值。注意,基本統(tǒng)計(jì)量的自變量可以是矩陣。
2.SPSS
分析->描述統(tǒng)計(jì)->描述
(2)矩陣的散點(diǎn)圖
散點(diǎn)圖可以初步確定變量是否有線性相關(guān)性,我們需要畫出個(gè)變量的散點(diǎn)圖。
用SPSS比較方便:
圖形->舊對(duì)話框->散點(diǎn)圖/點(diǎn)圖->矩陣散點(diǎn)圖
(3)Pearson相關(guān)系數(shù)的計(jì)算
matlab實(shí)現(xiàn)
R = corrcoef(Test)
Test可以是個(gè)矩陣
R = corrcoe(A,B)
A,B在這里必須是兩個(gè)向量
(4)Pearson相關(guān)系數(shù)假設(shè)性檢驗(yàn)的t統(tǒng)計(jì)量的計(jì)算
matlab實(shí)現(xiàn)
[R,P]=corrcoef(Test)
也就是說corr()可以同時(shí)給出相關(guān)系數(shù)和p值
畫出t分布的圖
x=-4:0.1:4
y=tpdf(x,28)
plot(x,y,'-')
grid on % 加上網(wǎng)格線
(5)美化相關(guān)系數(shù)表,美化p值表
1.相關(guān)系數(shù)表
a.EXCEL行列調(diào)成適合的大小,字號(hào),對(duì)齊方式文章來源:http://www.zghlxwxcb.cn/news/detail-774251.html
b.選中相關(guān)系數(shù)表,開始-條件格式-色階
c.選中相關(guān)系數(shù)表,條件格式-管理規(guī)則-編輯規(guī)則
2.顯著性表
a.EXCEL行列調(diào)成適合的大小,字號(hào),對(duì)齊方式
b.matlab篩選出矩陣,excel手動(dòng)給表格加*文章來源地址http://www.zghlxwxcb.cn/news/detail-774251.html
matlab命令
P<0.01
(P<0.05).*(P>0.01)
(P<0.1).*(P>0.05)
二.Spearman等級(jí)相關(guān)系數(shù)及其假設(shè)檢驗(yàn)
2.1 Spearman相關(guān)系數(shù)的定義及計(jì)算
也可以定義成等價(jià)之間的pearson相關(guān)系數(shù)。?
2.2 Spearman相關(guān)系數(shù)的假設(shè)性檢驗(yàn)
(1)小樣本
直接查臨界值表(即系數(shù)本身就服從某種分布)
?(2)大樣本
2.3 matlab及spss實(shí)現(xiàn)
(1)描述性分析
1.matlab
?例如,min(Test)計(jì)算每一列的最小值。注意,基本統(tǒng)計(jì)量的自變量可以是矩陣。
2.SPSS
分析->描述統(tǒng)計(jì)->描述
(2)SPearsman相關(guān)系數(shù)的計(jì)算
matlab實(shí)現(xiàn):
定義一
corr(X,Y,'type','Spearman')I
X,Y必須是列向量
corr(X,'type','Spearman')
計(jì)算X矩陣之間的spearman相關(guān)系數(shù)
定義二
RX=[2 5 3 4 1]
RY=[1 4.5 3 4.5 2]
R = corrcoef[RX,RY]
(3)計(jì)算Spearman相關(guān)系數(shù)的p值
matlab實(shí)現(xiàn)
[R,P]=corr(Test,'type','Spearman')
也就是說corr()可以同時(shí)給出相關(guān)系數(shù)和p值
(4)美化相關(guān)系數(shù)表,美化p值表
1.相關(guān)系數(shù)表
a.EXCEL行列調(diào)成適合的大小,字號(hào),對(duì)齊方式
b.選中相關(guān)系數(shù)表,開始-條件格式-色階
c.選中相關(guān)系數(shù)表,條件格式-管理規(guī)則-編輯規(guī)則
2.顯著性表
a.EXCEL行列調(diào)成適合的大小,字號(hào),對(duì)齊方式
b.matlab篩選出矩陣,excel手動(dòng)給表格加*
P<0.01
(P<0.05).*(P>0.01)
(P<0.1).*(P>0.05)
三.總結(jié)
- 連續(xù)數(shù)據(jù),正態(tài)分布,線性關(guān)系,用pearson相關(guān)系數(shù)是最恰當(dāng)?shù)?/li>
- 上述任一條件不滿足,就用spearman相關(guān)系數(shù),不能用pearson相關(guān)系數(shù)
- 兩個(gè)定序數(shù)據(jù)也用spearman相關(guān)系數(shù),不能用pearson相關(guān)系數(shù)
- 90%都用spearman相關(guān)系數(shù)
到了這里,關(guān)于相關(guān)系數(shù)及其假設(shè)檢驗(yàn)——matlab及spss實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!