国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<form id="zan0w"></form>

數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】

2年前作者：SeafyLiang分類：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

簡(jiǎn)介

? 有這么一句話在業(yè)界廣泛流傳：數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個(gè)上限而已。

? 因此，數(shù)據(jù)挖掘在人工智能和大數(shù)據(jù)的時(shí)代下顯得尤為重要。本人在工作中也會(huì)經(jīng)常為數(shù)據(jù)挖掘方面的任務(wù)頭疼，所以想將所見、所學(xué)、所整理的數(shù)據(jù)挖掘?qū)W習(xí)資料進(jìn)行總結(jié)。

? 首先，就來說一下數(shù)據(jù)挖掘最常見的手段：相關(guān)性分析。

一、什么是相關(guān)性分析

? 相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析，從而衡量兩個(gè)變量因素的相關(guān)密切程度。相關(guān)性的元素之間需要存在一定的聯(lián)系或者概率才可以進(jìn)行相關(guān)性分析。相關(guān)性不等于因果性，也不是簡(jiǎn)單的個(gè)性化，相關(guān)性所涵蓋的范圍和領(lǐng)域幾乎覆蓋了我們所見到的方方面面，相關(guān)性在不同的學(xué)科里面的定義也有很大的差異。

二、常見的相關(guān)性分析方法

? 常見的相關(guān)性分析方法有三種：Pearson相關(guān)系數(shù)、Spearman等級(jí)相關(guān)系數(shù)和Kendall相關(guān)系數(shù)?，F(xiàn)實(shí)場(chǎng)景中使用Pearson相關(guān)系數(shù)的情況比較多。

相關(guān)分析系數(shù)	適用場(chǎng)景	備注
Pearson	定量數(shù)據(jù)，數(shù)據(jù)滿足正態(tài)分布	正態(tài)圖可查看正態(tài)性，散點(diǎn)圖展示數(shù)據(jù)關(guān)系
Spearman	定量數(shù)據(jù)，數(shù)據(jù)不滿足正態(tài)分布	正態(tài)圖可查看正態(tài)性，散點(diǎn)圖展示數(shù)據(jù)關(guān)系
Kendall	定量數(shù)據(jù)一致性判斷	通常用于評(píng)分?jǐn)?shù)據(jù)一致性水平研究【非關(guān)系研究】如評(píng)委打分，數(shù)據(jù)排名等

數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】

三、Pearson相關(guān)系數(shù)

? Pearson相關(guān)性系數(shù)可以看做是升級(jí)版的歐式距離平方，因?yàn)樗峁┝藢?duì)于變量取值范圍不同的處理步驟。因此對(duì)不同變量間的取值范圍沒有要求，最后得到的相關(guān)性所衡量的是趨勢(shì)，而不同變量量綱上的差別在計(jì)算過程中去掉了，等價(jià)于z-score標(biāo)準(zhǔn)化。【源自：如何理解皮爾遜相關(guān)系數(shù)（Pearson Correlation Coefficient）？】

使用pandas對(duì)數(shù)據(jù)做Pearson相關(guān)性分析

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1.造數(shù)據(jù)
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]

# 2.相關(guān)分析熱力圖可視化, df.corr()默認(rèn)參數(shù)為pearson
plt.figure(figsize=[10, 6])
sns.heatmap(df.corr(), vmin=0, vmax=1, cmap="Reds", linewidths=0.5, annot=True)
plt.show()

數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】

四、Spearman等級(jí)相關(guān)系數(shù)

4.1 什么是等級(jí)相關(guān)

等級(jí)相關(guān)，也稱為秩相關(guān)，屬于非參數(shù)統(tǒng)計(jì)方法，但對(duì)原變量的分布不作要求。適用于那些不服從正態(tài)分布的數(shù)據(jù)，還有總體分布未知和原始數(shù)據(jù)用等級(jí)表示的數(shù)據(jù)。

4.2 為什么要運(yùn)用等級(jí)相關(guān)？

實(shí)際中，如果遇到定類變量或者定序變量的“相關(guān)系數(shù)”，就需要用到Spearman（斯皮爾曼）等級(jí)相關(guān)系數(shù)和Kendall（肯德爾）的tau相關(guān)系數(shù)。

4.3 使用pandas對(duì)數(shù)據(jù)做Spearman相關(guān)性分析

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1.造數(shù)據(jù)
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]

# 2.相關(guān)分析熱力圖可視化, df.corr() method=spearman指定系數(shù)
plt.figure(figsize=[10, 6])
sns.heatmap(df.corr(method='spearman'), vmin=0, vmax=1, cmap="Reds", linewidths=0.5, annot=True)
plt.show()

數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】

五、Kendall相關(guān)系數(shù)

Kendall協(xié)調(diào)系數(shù)，也稱作Kendall和諧系數(shù)，或Kendall一致性系數(shù)。通常用于比較多組數(shù)據(jù)的一致性程度。

kendall 相關(guān)是反映順序變量之間的相關(guān)程度的量，使用該相關(guān)分析方法時(shí)不需要變量所在的總體一定要呈正態(tài)分布，也不需要樣本容量大于30，可見，Kendall相關(guān)歸屬于非參數(shù)檢驗(yàn)。

使用pandas對(duì)數(shù)據(jù)做Kendall相關(guān)性分析

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1.造數(shù)據(jù)
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]

# 2.相關(guān)分析熱力圖可視化, df.corr() method=kendall指定系數(shù)
plt.figure(figsize=[10, 6])
sns.heatmap(df.corr(method='kendall'), vmin=0, vmax=1, cmap="Reds", linewidths=0.5, annot=True)
plt.show()

數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】

六、下三角相關(guān)性矩陣

相關(guān)性矩陣?yán)L制的是兩兩變量之間的相關(guān)性，所以是一個(gè)對(duì)稱的矩陣，所以只需保留上三角矩陣或者下三角矩陣的內(nèi)容即可。

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1.造數(shù)據(jù)
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]

# 2.下三角相關(guān)矩陣熱力圖
plt.figure(figsize=[10, 6])
matrix = df.corr()
cmap = sns.diverging_palette(250, 15, s=75, l=40, n=9, center="light", as_cmap=True)
# mask掉上三角部分
mask = np.triu(np.ones_like(matrix, dtype=bool))
plt.figure(figsize=(12, 8))
sns.heatmap(matrix,  mask=mask, center=0, annot=True, fmt='.2f', square=True, cmap=cmap) 
plt.show()

數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】

七、重點(diǎn)相關(guān)性矩陣

在相關(guān)矩陣熱力圖中，我們可以依據(jù)顏色的深淺來判別特征之間的強(qiáng)弱相關(guān)性，但是在實(shí)際場(chǎng)景中我們只想關(guān)注相關(guān)性較高的那塊，可以通過過濾來實(shí)現(xiàn)。

import pandas  as pd
import numpy   as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1.造數(shù)據(jù)
df = pd.DataFrame()
df["x"] = np.random.uniform(-2, 2, 1_000_000)
df["error"] = np.random.uniform(-0.5, 0.5, 1_000_000)
df["y"] = df["x"] * df["x"] + df["error"]
df["y_perfect"] = df["x"] * df["x"]

# 2.重點(diǎn)相關(guān)性矩陣熱力圖
plt.figure(figsize=[10, 6])
matrix = df.corr()
cmap = sns.diverging_palette(250, 15, s=75, l=40, n=9, center="light", as_cmap=True)
# mask掉上三角 & 小于某個(gè)閾值的值
mask1 = np.triu(np.ones_like(matrix, dtype=bool))
mask2 = np.abs(matrix) <= 0.1
mask = mask1 | mask2

plt.figure(figsize=(12, 8))
sns.heatmap(matrix, mask=mask, center=0, annot=True, fmt='.2f', square=True, cmap=cmap)
plt.show()

數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】

八、參考資料：

【知乎】皮爾遜相關(guān)性分析怎么看？

【知乎】斯皮爾曼等級(jí)相關(guān)（Spearman’s correlation coefficient for ranked data）

【知乎】Spearman等級(jí)相關(guān)

【微信公眾號(hào)-kaggle競(jìng)賽寶典】特征相關(guān)性挖掘神器-線性非線性關(guān)系一鍵挖掘！文章來源地址http://www.zghlxwxcb.cn/news/detail-432056.html

到了這里，關(guān)于數(shù)據(jù)挖掘01-相關(guān)性分析及可視化【Pearson, Spearman, Kendall】的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【hive】相關(guān)性函數(shù)進(jìn)行相關(guān)性分析
在Hive SQL中，使用類似的相關(guān)性函數(shù)進(jìn)行相關(guān)性分析。常見的相關(guān)性函數(shù)包括CORR、COVAR_POP、COVAR_SAMP、STDDEV_POP、STDDEV_SAMP等。舉個(gè)例子，假設(shè)有一個(gè)表格sales，其中包含兩列數(shù)據(jù) sales_amt 和 advertising_amt ，我們可以使用CORR函數(shù)來計(jì)算這兩列數(shù)據(jù)的相關(guān)性：這將返回一個(gè)值，表示
2024年02月21日
瀏覽(23)
表達(dá)矩陣任意兩個(gè)基因相關(guān)性分析批量相關(guān)性分析 tcga geo 矩陣中相關(guān)性強(qiáng)的基因?qū)?基因相關(guān)性 ecm matrisome與gpx3
使用場(chǎng)景 1.已經(jīng)確定研究的基因，但是想探索他潛在的功能，可以通過跟這個(gè)基因表達(dá)最相關(guān)的基因來反推他的功能，這種方法在英語(yǔ)中稱為 guilt of association，協(xié)同犯罪。 2.我們的注釋方法依賴于TCGA大樣本，既然他可以注釋基因，那么任何跟腫瘤相關(guān)的基因都可以被注釋，
2024年02月01日
瀏覽(23)
常見的相關(guān)性分析
方差分析和相關(guān)性分析都是描述特征之間的關(guān)系的統(tǒng)計(jì)方法，但它們關(guān)注的方面略有不同。方差分析主要用于研究一個(gè)或多個(gè)自變量對(duì)因變量的影響，即研究因素之間的差異性。通過比較不同組之間的方差，可以確定哪些因素對(duì)結(jié)果變量的影響比較重要，以及不同組之間的顯
2024年02月11日
瀏覽(21)
【100天精通Python】Day57：Python 數(shù)據(jù)分析_Pandas數(shù)據(jù)描述性統(tǒng)計(jì)，分組聚合，數(shù)據(jù)透視表和相關(guān)性分析
目錄 1 描述性統(tǒng)計(jì)（Descriptive Statistics） 2 數(shù)據(jù)分組和聚合 3 數(shù)據(jù)透視表 4 相關(guān)性分析
2024年02月07日
瀏覽(44)
相關(guān)性分析和熱圖繪制
一、什么是相關(guān)性分析？相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析，從而衡量?jī)蓚€(gè)變量因素的相關(guān)密切程度。相關(guān)性的元素之間需要存在一定的聯(lián)系或者概率才可以進(jìn)行相關(guān)性分析。在組學(xué)測(cè)序（如轉(zhuǎn)錄組）中需設(shè)置多個(gè)生物學(xué)重復(fù)，而對(duì)多個(gè)生物學(xué)重復(fù)
2024年02月10日
瀏覽(23)
數(shù)學(xué)建模：相關(guān)性分析
?? 文章首發(fā)于我的個(gè)人博客：歡迎大佬們來逛逛 Pearson Spearman Kendall tua-b t檢驗(yàn)(t-test)臨界值表-t檢驗(yàn)表.xls T檢驗(yàn)代碼： myTtest005.m 相關(guān)性分析及SPSS軟件操作.pdf
2024年02月09日
瀏覽(25)
機(jī)器學(xué)習(xí)案例：運(yùn)營(yíng)商客戶流失的數(shù)據(jù)分析 #數(shù)據(jù)去重#數(shù)據(jù)分組整合#缺失值處理#相關(guān)性分析#樣本平衡#決策樹、隨機(jī)森林、邏輯回歸
前提：隨著業(yè)務(wù)快速發(fā)展、電信市場(chǎng)的競(jìng)爭(zhēng)愈演愈烈。如何最大程度地挽留在網(wǎng)用戶、吸取新客戶，是電信企業(yè)最關(guān)注的問題之一。客戶流失會(huì)給企業(yè)帶來一系列損失，故在發(fā)展用戶每月增加的同時(shí)，如何挽留和爭(zhēng)取更多的用戶，也是一項(xiàng)非常重要的工作。能否利用大數(shù)
2024年02月08日
瀏覽(34)
Pearson相關(guān)性分析& plot繪圖（相關(guān)性系數(shù)柱狀圖、繪制非空值數(shù)量柱狀圖）
Pearson相關(guān)性分析是一種用于檢測(cè)兩個(gè)變量之間線性關(guān)系強(qiáng)度的統(tǒng)計(jì)方法，其結(jié)果介于-1和1之間。一個(gè)相關(guān)系數(shù)為1表示完全正相關(guān)，-1表示完全負(fù)相關(guān)，0則表示沒有線性關(guān)系。 Pearson相關(guān)性分析假設(shè)數(shù)據(jù)來自正態(tài)分布，并且對(duì)異常值敏感。
2024年02月09日
瀏覽(24)
數(shù)據(jù)的特征分析及房?jī)r(jià)增幅與M2增幅的相關(guān)性案例（axis=1為橫向，axis=0為縱向）
.sort_index()方法在指定軸上根據(jù) 索引進(jìn)行排序，默認(rèn)升序 .sort_index(axis=0, ascending=True） axis=0 表示的是縱軸 ascending表示是否為遞增排序，默認(rèn)為true ?axis為1 ?這個(gè)by是根據(jù)你哪個(gè)軸的索引進(jìn)行排序? ?NaN統(tǒng)一放到排序末尾我在學(xué)習(xí)時(shí)經(jīng)常用到axis=0或1，那么axis=0或者1到底是什么
2023年04月08日
瀏覽(26)
數(shù)學(xué)建模-相關(guān)性分析（Matlab）
?注意：代碼文件僅供參考，一定不要直接用于自己的數(shù)模論文中國(guó)賽對(duì)于論文的查重要求非常嚴(yán)格，代碼雷同也算作抄襲如何修改代碼避免查重的方法：https://www.bilibili.com/video/av59423231? ?//清風(fēng)數(shù)學(xué)建模連續(xù)數(shù)據(jù)、正態(tài)分布、線性關(guān)系三者同時(shí)滿足優(yōu)先用。一般處理這種
2024年02月07日
瀏覽(22)

<option id="iw2vy"><rt id="iw2vy"></rt></option>