国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn)

這篇具有很好參考價(jià)值的文章主要介紹了【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。



前言

為了說明兩組數(shù)據(jù)之間的相關(guān)性,例如身高與50米跑步的成績,我們引入相關(guān)系數(shù),本文先介紹person相關(guān)系數(shù)以及在特定情況下的使用方法。


一、pearson相關(guān)系數(shù)(Covariance)

Person相關(guān)系數(shù)在 滿足特定條件下 用來衡量兩個(gè)變量之間的相關(guān)性。

1. 協(xié)方差

在正式介紹person相關(guān)系數(shù)之前,我們先引入?yún)f(xié)方差的概念
協(xié)方差是一個(gè)反映兩個(gè)隨機(jī)變量相關(guān)程度的指標(biāo),比如,一個(gè)人的身高和體重是否存在一些聯(lián)系。公式如下:
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
其中 n為樣本數(shù)量, x  ̄ \overline{x} x 為樣本均值。

如果x、y變化方向相同,即當(dāng) x > x  ̄ x>\overline{x} x>x其均值是, y > y  ̄ y>\overline{y} y>y?其均值,在這種情況下,乘積為正。如果x、y的變化方向一直保持相同,則協(xié)方差為正;同理,如果x、y的變化方向一直保持相反,則協(xié)方差為負(fù);如果x、y的變化方向之間相互無規(guī)律,即分子中有的項(xiàng)為正、有的項(xiàng)為負(fù),那么累加后正負(fù)抵消。

協(xié)方差越大,那么二者之間變化的趨勢就越接近。

2.皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)

Pearson相關(guān)系數(shù)是用協(xié)方差除以兩個(gè)變量的標(biāo)準(zhǔn)差得到的,公式如下:
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
除以標(biāo)準(zhǔn)差的目的是消除量綱的影響,Pearson相關(guān)系數(shù)取[-1,1之間。皮爾遜相關(guān)系數(shù)其實(shí)就是標(biāo)準(zhǔn)化后的協(xié)方差

3. 相關(guān)系數(shù)的評價(jià)

相關(guān)性 負(fù)
無相關(guān) -0.09~0 0~0.09
弱相關(guān) -0.3~-0.1 0.1~0.3
中相關(guān) -0.5~-0.3 0.3~0.5
強(qiáng)相關(guān) -1~-0.5 0.5~1.0

事實(shí)上,比起相關(guān)系數(shù)的大小,我們往往更關(guān)注的是顯著性(假設(shè)檢驗(yàn))。

二、使用條件

必須得確定兩個(gè)變量之間是線性相關(guān)的,否則非線性相關(guān)也會(huì)導(dǎo)致pearson相關(guān)系數(shù)很大。存在異常點(diǎn)的影響也可能導(dǎo)致兩個(gè)變量之間的相關(guān)系數(shù)變大。我們常用散點(diǎn)圖的方法確定兩個(gè)變量之間的是否線性相關(guān),然后再描述線性相關(guān)程度。
【數(shù)學(xué)建模】皮爾遜相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
因此在進(jìn)行相關(guān)性的分析時(shí)一定要配合散點(diǎn)圖,否則是無效的。

三、使用步驟

1.對數(shù)據(jù)進(jìn)行描述性分析

推薦spsspro工具,簡單高效。
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
或者python的pandas庫,使用 Dataframe.describe()函數(shù)

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.describe())

【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
答題之前先對數(shù)據(jù)進(jìn)行描述性分析是個(gè)好習(xí)慣,不管以上分析有用沒用,都是一種學(xué)術(shù)嚴(yán)謹(jǐn)?shù)谋憩F(xiàn)。

2. 繪制散點(diǎn)圖

前面提到 繪制散點(diǎn)圖是檢查數(shù)據(jù)是否可用pearson相關(guān)性分析的必要條件,這里我們用python matpolit,對以上六個(gè)特征列取兩兩繪制散點(diǎn)圖。

plt.figure(figsize=(60,50))
num = 1

for i in range(6):
    for j in range(6):
      plt.subplot(6,6,num)
      plt.scatter(df.iloc[:,i],df.iloc[:,j],s=2)
      plt.title(df.iloc[:,i].name+"--"+df.iloc[:,j].name)
      num = num+1
# plt.tight_layout()
plt.show()

繪制結(jié)果如下:
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
由于我這里數(shù)據(jù)是的,因此散點(diǎn)圖的顯示基本上沒有相關(guān)性可言,不要在意這些細(xì)節(jié),方法就是這么個(gè)方法,讓我們繼續(xù)。

3. pearson檢驗(yàn)

推薦spasspro工具,簡單高效還免費(fèi)
【數(shù)學(xué)建模】皮爾遜相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
相關(guān)性分析結(jié)果
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
顯著性水平 ()中為假設(shè)檢驗(yàn)的P值,我們假設(shè) H 0 : r = 0 , H_0:r=0, H0?:r=0,即該兩列數(shù)據(jù)相關(guān)性為0
H 1 : r ≠ 0 H_1:r\neq0 H1?:r=0即該兩列數(shù)據(jù)相關(guān)性不為0。

當(dāng) P<0.01時(shí),說明 H 0 H_0 H0?顯著不成立,即該兩列相關(guān)程度很高,0.01<P<0.05時(shí),該兩列中度相關(guān)。
下文詳細(xì)介紹假設(shè)檢驗(yàn)
相關(guān)性分析熱力圖
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模

四、假設(shè)檢驗(yàn)

前面提到直接通過相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn)是非常武斷的,這里引入假設(shè)性檢驗(yàn)對相關(guān)性系數(shù)的顯著性進(jìn)行分析。

假設(shè)性檢驗(yàn)這里只講如何應(yīng)用,首先得滿足一個(gè)條件:該數(shù)據(jù)必須符合正態(tài)分布

正態(tài)分布檢驗(yàn)

spsspro檢驗(yàn)結(jié)果【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模

PS:通常現(xiàn)實(shí)研究情況下很難滿足檢驗(yàn),若其樣本峰度絕對值小于10并且偏度絕對值小于3,結(jié)合正態(tài)分布直方圖、PP圖或者QQ圖可以描述為基本符合正態(tài)分布。

直方圖
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
Q-Q圖
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
Q-Q圖,全稱“Quantile Quantile Plot”。用圖形的方式比較觀測值與預(yù)測值(假定正態(tài)下的分布)不同分位數(shù)的概率分布,從而檢驗(yàn)是否吻合正態(tài)分布規(guī)律。并且將實(shí)際數(shù)據(jù)作為X軸,將假定正態(tài)時(shí)的數(shù)據(jù)分位數(shù)作為Y軸,作散點(diǎn)圖,散點(diǎn)與直線重合度越高越服從正態(tài)分布,散點(diǎn)差異愈大越不服從正態(tài)分布,請視實(shí)際情況而定。

假設(shè)檢驗(yàn)

  1. 提出原假設(shè) H 0 H_0 H0? 和備擇假設(shè) H 1 H_1 H1?,假設(shè)我們計(jì)算出來一個(gè)pearson相關(guān)系數(shù)r,我們項(xiàng)檢驗(yàn)它是否顯著的異于0,那么我們可以這樣設(shè)定原假設(shè)和備擇假設(shè): H 0 : r = 0 H_0:r = 0 H0?:r=0 , H 1 : r ≠ 0 H_1:r \neq0 H1?:r=0
  2. 在原假設(shè)成立的條件下,利用我們要檢驗(yàn)的量構(gòu)造出一個(gè)符合某一分布的統(tǒng)計(jì)量。這里pearson有特定的t分布:
    t = r n ? 2 1 ? r 2 t=r\sqrt{\frac{n-2}{1-r^2}} t=r1?r2n?2? ?
    可以證明t是服從自由度為n-2的 t-distribution
  3. 將我們要檢驗(yàn)的這個(gè)值帶入這個(gè)統(tǒng)計(jì)量中,可以得到一個(gè)特定的值(檢驗(yàn)值)。
    假設(shè)我們現(xiàn)在計(jì)算出來的相關(guān)系數(shù)為0.5,樣本為30,那么我們可以得到 t ? = 0.5 30 ? 2 1 ? 0. 5 2 = 3.05505 t^*=0.5\sqrt{\frac{30-2}{1-0.5^2}}=3.05505 t?=0.51?0.5230?2? ?=3.05505
  4. 由于我們知道統(tǒng)計(jì)量的分布情況,因此我們可以畫出該分布的概率密度函數(shù)pdf,并給定一個(gè)置信水平,根據(jù)這個(gè)置信水平找到臨界值,并畫出檢驗(yàn)統(tǒng)計(jì)量的接受域和拒絕域。常見的置信水平有三個(gè):90%,95%,99%,其中95%是三者中最為常用。
  5. 看我們計(jì)算出來的檢驗(yàn)值是落在了拒絕域還是接受域,并下結(jié)論。

總結(jié)

pearson相關(guān)系數(shù)其實(shí)就是兩組數(shù)據(jù)的協(xié)方差的去量綱,只有在兩組數(shù)據(jù)有線性相關(guān)性時(shí)才適用。對pearson相關(guān)系數(shù)的分析要用到假設(shè)檢驗(yàn),進(jìn)行假設(shè)檢驗(yàn)需要滿足數(shù)據(jù)符合正態(tài)分布。

補(bǔ)充 spearman相關(guān)系數(shù)

假如數(shù)據(jù)實(shí)在不能看,沒有任何線性關(guān)系、正態(tài)分布關(guān)系,那就放棄pearson相關(guān)系數(shù)吧,白搭。

當(dāng)然,天無絕人之路,備用方案:spearman相關(guān)系數(shù)
先看公式:

r s = 1 ? 6 ∑ i = 1 n d i 2 n ( n 2 ? 1 ) r_s=1-\frac{6\sum_{i=1}^n{d_i^2}}{n(n^2-1)} rs?=1?n(n2?1)6i=1n?di2??

這里 n就是樣本數(shù), d i d_i di?是X Y 的等級差
等級:將一組數(shù)從小到大排列后,每個(gè)數(shù)所在的位置就是等級。
也就是說這個(gè)spearman相關(guān)性跟數(shù)據(jù)值無關(guān),跟它在的位置有關(guān),雖然聽起來不太靠譜,但總歸是能在非線性數(shù)據(jù)上看相關(guān)性了。

spsspro
【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn),數(shù)學(xué)建模,數(shù)學(xué)建模
這里依舊是通過假設(shè)檢驗(yàn)評價(jià)相關(guān)程度,()中為假設(shè)檢驗(yàn)的P值,*表示相關(guān)程度。文章來源地址http://www.zghlxwxcb.cn/news/detail-704116.html

到了這里,關(guān)于【數(shù)學(xué)建?!科栠d相關(guān)系數(shù)和假設(shè)檢驗(yàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 數(shù)學(xué)建模預(yù)測模型MATLAB代碼大合集及皮爾遜相關(guān)性分析(無需調(diào)試、開源)

    數(shù)學(xué)建模預(yù)測模型MATLAB代碼大合集及皮爾遜相關(guān)性分析(無需調(diào)試、開源)

    ? ? ? ?選取2000-2017年x省碳排放量為訓(xùn)練集,2018-2022x省碳排放量作為測試集,以此來預(yù)測2023-2026年x省碳排放量。設(shè)置訓(xùn)練次數(shù)為 1000次,學(xué)習(xí)速率為0.2;對該訓(xùn)練集BP神經(jīng)網(wǎng)絡(luò)模型擬合后模型的訓(xùn)練樣本、驗(yàn) 證樣本和測試樣本的均方誤差分別是0.000012、0.0023、0.0042,整體的誤

    2024年02月08日
    瀏覽(25)
  • 相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù))

    相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù))

    ?本文借鑒了數(shù)學(xué)建模清風(fēng)老師的課件與思路,可以點(diǎn)擊查看鏈接查看清風(fēng)老師視頻講解:5.1 對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)以及皮爾遜相關(guān)系數(shù)的計(jì)算方法_嗶哩嗶哩_bilibili 注:直接先看 ( 三、兩個(gè)相關(guān)系數(shù)系數(shù)的比較 ) 部分?。?! 目錄 ?編輯 一、數(shù)據(jù)的描述性統(tǒng)計(jì)分析? 二、

    2024年01月21日
    瀏覽(20)
  • 皮爾遜相關(guān)系數(shù)及假設(shè)檢驗(yàn)

    皮爾遜相關(guān)系數(shù)及假設(shè)檢驗(yàn)

    一、看兩者是否算相關(guān)要看兩方面:顯著水平以及相關(guān)系數(shù) (1)顯著水平,就是P值,這是首要的,因?yàn)槿绻伙@著,相關(guān)系數(shù)再高也沒用,可能只是因?yàn)榕既灰蛩匾鸬?那么多少才算顯著,一般p值小于0.05就是顯著了;如果小于0.01就更顯著;例如p值=0.001,就是很高的顯著水平了,只要

    2024年02月08日
    瀏覽(75)
  • js計(jì)算皮爾遜相關(guān)系數(shù)

    js計(jì)算皮爾遜相關(guān)系數(shù)

    代碼如下; 調(diào)用: ?效果:

    2024年01月25日
    瀏覽(24)
  • [皮爾遜相關(guān)系數(shù)corrwith]使用案例:電影推薦系統(tǒng)

    [皮爾遜相關(guān)系數(shù)corrwith]使用案例:電影推薦系統(tǒng)

    協(xié)同過濾算法用于發(fā)現(xiàn)用戶與物品之間的相關(guān)性,主要有兩種:基于用戶的和基于物品的。 基于用戶: 用戶1購買了物品A、B、C、D,并給了好評;而用戶2也買了A、B、C,那么認(rèn)為用戶1和用戶2是同類型用戶,也可以把D推薦給用戶2。 基于物品: 物品A和物品B都被用戶1、2、

    2024年02月10日
    瀏覽(19)
  • 皮爾遜相關(guān)系數(shù)及代碼實(shí)現(xiàn)(C語言+MATLAB)

    皮爾遜相關(guān)系數(shù)及代碼實(shí)現(xiàn)(C語言+MATLAB)

    皮爾遜相關(guān)系數(shù),常用于度量兩個(gè)變量X和Y之間的相關(guān)性(線性相關(guān))。本文通過介紹其 概念定義、數(shù)學(xué)公式 ,進(jìn)而引出其 適用場合 ,并基于 MATLAB和C語言 對皮爾遜相關(guān)系數(shù)分別進(jìn)行了 代碼實(shí)現(xiàn) 。 在統(tǒng)計(jì)學(xué)中, 皮爾遜相關(guān)系數(shù)( Pearson correlation coefficient) ,又稱皮爾遜積

    2024年02月06日
    瀏覽(36)
  • 使用Python計(jì)算皮爾遜相關(guān)系數(shù),并用熱力圖展示

    使用Python計(jì)算皮爾遜相關(guān)系數(shù),并用熱力圖展示

    ? ? ? ?由于是自我練習(xí)的筆記,所以這里先通過Pandas隨機(jī)生成一部分時(shí)序數(shù)據(jù),然后再調(diào)用corr()函數(shù)來計(jì)算皮爾遜相關(guān)系數(shù),并把計(jì)算結(jié)果先展示輸出出來,最后通過熱力圖的方式把計(jì)算結(jié)果展現(xiàn)出來。 ? ?下面是開發(fā)的具體過程: 1、首先導(dǎo)入需要的算法包 2、生成數(shù)據(jù)(

    2024年02月09日
    瀏覽(21)
  • 相關(guān)分析——皮爾遜相關(guān)系數(shù)、t顯著性檢驗(yàn)及Python實(shí)現(xiàn)

    相關(guān)分析——皮爾遜相關(guān)系數(shù)、t顯著性檢驗(yàn)及Python實(shí)現(xiàn)

    (1)衡量事物之間或稱變量之間線性相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來的過程。 (2)比如家庭收入和支出、一個(gè)人所受教育程度與其收入、子女身高和父母身高的相關(guān)性。 (1)衡量變量之間相關(guān)程度的一個(gè)量值。 (2)相關(guān)系數(shù)r的數(shù)值范圍是在-1到+1之間。 (

    2024年02月03日
    瀏覽(33)
  • 概率論:方差、標(biāo)準(zhǔn)差、協(xié)方差、皮爾遜相關(guān)系數(shù)、線性相關(guān)

    概率論:方差、標(biāo)準(zhǔn)差、協(xié)方差、皮爾遜相關(guān)系數(shù)、線性相關(guān)

    一個(gè)隨機(jī)變量,的值的變化程度可以用方差計(jì)算: ?;其中?是期望。 另外一種等價(jià)表達(dá)式: ? ? ?其中為均值,N為總體例數(shù) 我們舉個(gè)例子: 服從均一分布,取值為0.1,0.2,0.3,0.4,0.5 ,每種值的概率是20%,可算出期望是0.3,那么方差就是: 標(biāo)準(zhǔn)差是方差的平方根,隨機(jī)

    2024年02月09日
    瀏覽(20)
  • 【生物信息學(xué)】單細(xì)胞RNA測序數(shù)據(jù)分析:計(jì)算親和力矩陣(基于距離、皮爾遜相關(guān)系數(shù))及繪制熱圖(Heatmap)

    【生物信息學(xué)】單細(xì)胞RNA測序數(shù)據(jù)分析:計(jì)算親和力矩陣(基于距離、皮爾遜相關(guān)系數(shù))及繪制熱圖(Heatmap)

    ??計(jì)算親和力矩陣,一般按照以下步驟進(jìn)行: 導(dǎo)入數(shù)據(jù):加載單細(xì)胞RNA測序數(shù)據(jù)集。 數(shù)據(jù)預(yù)處理:根據(jù)需要對數(shù)據(jù)進(jìn)行預(yù)處理,例如 基因過濾 、 歸一化 等。 計(jì)算親和力:使用合適的算法(例如, 歐幾里德距離 、 Pearson相關(guān)系數(shù) 或其他距離/相似度度量)計(jì)算樣本之間的

    2024年02月06日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包