期末三天賽高考我真的會(huì)謝,三天學(xué)完數(shù)據(jù)挖掘……真的很極限了的。
課本是那本綠色的Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版),作者張良均…
圖片來自老師給的ppt,以下內(nèi)容是我自己總結(jié)的,自己復(fù)習(xí)用,覆蓋了老師給畫的重點(diǎn)考點(diǎn),八九不離十,期末考抱佛腳的可以看看。禁止轉(zhuǎn)載哦。
再強(qiáng)調(diào)一下,只涵蓋我們的考試重點(diǎn),不是整本書的完整內(nèi)容。
目錄
一、數(shù)據(jù)質(zhì)量分析
1-1數(shù)據(jù)分析常用的第三方庫
1-2異常值分析
二、數(shù)據(jù)特征分析
2-1.常見數(shù)據(jù)特征分析方法
2-2基本統(tǒng)計(jì)特征函數(shù)
三、數(shù)據(jù)預(yù)處理
3-1數(shù)據(jù)清洗——缺失值處理
3-2數(shù)據(jù)變換——規(guī)范化
3-3數(shù)據(jù)規(guī)約——屬性規(guī)約
3-4主要數(shù)據(jù)預(yù)處理函數(shù)
四、挖掘建模
4-1分類與預(yù)測(cè)
4-2聚類分析
4-3關(guān)聯(lián)分析
4-4時(shí)序模式
?文章來源地址http://www.zghlxwxcb.cn/news/detail-475616.html
一、數(shù)據(jù)質(zhì)量分析
1-1數(shù)據(jù)分析常用的第三方庫
要知道它們各自的用處
擴(kuò)展庫 | 簡(jiǎn)介 |
---|---|
Numpy | 提供數(shù)組支持,以及相應(yīng)的高效的處理函數(shù) |
Pandas | 強(qiáng)大、靈活的數(shù)據(jù)分析和探索工具 |
Matplotlib | 強(qiáng)大的數(shù)據(jù)可視化工具、作圖庫 |
Scipy | 提供矩陣支持,以及矩陣相關(guān)的數(shù)值計(jì)算模塊 |
StatsModels | 統(tǒng)計(jì)建模和計(jì)量經(jīng)濟(jì)學(xué) |
Scikit-Learn | 支持回歸、分類、聚類等強(qiáng)大的機(jī)器學(xué)習(xí)庫 |
1-2異常值分析
1.臟數(shù)據(jù)通常包括:
- 缺失值
- 異常值
- 不一致的值
- 重復(fù)數(shù)據(jù)及含有特殊符號(hào)的數(shù)據(jù)
2.異常值分析:又稱離群點(diǎn)分析。主要方法有:簡(jiǎn)單統(tǒng)計(jì)量分析、3?原則、箱形圖分析。
3.箱形圖分析:
二、數(shù)據(jù)特征分析
2-1.常見數(shù)據(jù)特征分析方法
生氣了,這一大部分碼了一個(gè)小時(shí),一個(gè)不小心全沒了,又要重新打一遍tmd
1.方法:
- 分布分析
- 對(duì)比分析
- 統(tǒng)計(jì)量分析
- 周期性分析
- 貢獻(xiàn)度分析
- 相關(guān)性分析
2.分布分析:分布分析能揭示數(shù)據(jù)的分布特征和分布類型,便于發(fā)現(xiàn)某些特大或特小的可疑值。對(duì)于定量數(shù)據(jù):欲了解數(shù)據(jù)的分布形式是對(duì)稱的、還是非對(duì)稱的,可做出頻率分布表、繪制頻率分布直方圖等進(jìn)行直觀地分析。 對(duì)于定性數(shù)據(jù):可用餅圖和條形圖直觀地顯示分布情況。
3.對(duì)比分析:指把兩個(gè)相互聯(lián)系的指標(biāo)數(shù)據(jù)進(jìn)行比較,從數(shù)量上展示和說明研究對(duì)象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào)。特別適用于指標(biāo)間的橫縱向比較、時(shí)間序列的比較分析。在對(duì)比分析中,選擇合適的對(duì)比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟。主要有兩種方式:絕對(duì)數(shù)比較和相對(duì)數(shù)比較。
4.統(tǒng)計(jì)量分析:用統(tǒng)計(jì)指標(biāo)對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述,常從集中趨勢(shì)和離中趨勢(shì)兩個(gè)方面進(jìn)行分析。
(1)集中趨勢(shì):一組數(shù)據(jù)向某一中心值靠攏的程度,度量主要有:均值、中位數(shù)、眾數(shù)。
均值、中位數(shù)、眾數(shù)怎么求的要會(huì),小學(xué)生都會(huì)。注意偶數(shù)位的數(shù)求中位數(shù)的話就是取中間兩個(gè)數(shù)和的一半。
(2)離中趨勢(shì):數(shù)據(jù)之間的差距和離散程度。度量主要有:極差、標(biāo)準(zhǔn)差、變異系數(shù)、四分位數(shù)間距(箱形圖分析用到了)。
- 極差:極大值-極小值
- 標(biāo)準(zhǔn)差:
- 變異系數(shù):
- ?四分位數(shù)間距IQR:IQR的值越大,說明數(shù)據(jù)的變異程度越大,反之則越小。
5.相關(guān)性分析:分析連續(xù)變量之間線性的相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來的過程。主要方法有:
- 直接繪制散點(diǎn)圖
- 繪制散點(diǎn)圖矩陣:如圖所示,對(duì)角線是單個(gè)變量的分布,上下三角是變量?jī)蓛芍g的關(guān)系。
- 計(jì)算相關(guān)系數(shù):主要掌握Pearson相關(guān)系數(shù)。
Pearson相關(guān)系數(shù)適用條件:
- 兩個(gè)變量都是連續(xù)變量。
- 兩個(gè)連續(xù)變量應(yīng)當(dāng)是成對(duì)的數(shù)據(jù)。
- 兩個(gè)連續(xù)變量之間存在線性關(guān)系。通常做散點(diǎn)圖檢驗(yàn)該假設(shè)。
- 兩個(gè)變量均沒有明顯的異常值。Pearson相關(guān)系數(shù)易受異常值影響。
- ?兩個(gè)變量符合雙變量正態(tài)分布。
2-2基本統(tǒng)計(jì)特征函數(shù)
方法名 | 函數(shù)功能 | 所屬庫 |
---|---|---|
sum() | 求和 | Pandas |
mean() | 求算術(shù)平均數(shù) | |
var() | 求方差 | |
std() | 求標(biāo)準(zhǔn)差 | |
corr() | 求Spearman(Pearson)相關(guān)系數(shù)矩陣 | |
describe() | 給出樣本的基本描述 |
三、數(shù)據(jù)預(yù)處理
3-1數(shù)據(jù)清洗——缺失值處理
1.缺失值處理方法有三類:刪除記錄、數(shù)據(jù)插補(bǔ)和不處理
2.數(shù)據(jù)插補(bǔ)——拉格朗日插值法
(1)思路:
(2)優(yōu)缺點(diǎn):
優(yōu)點(diǎn):插值公式結(jié)構(gòu)緊湊,在理論分析中使用方便。
缺點(diǎn):當(dāng)插值節(jié)點(diǎn)增減時(shí),插值多項(xiàng)式就會(huì)隨之發(fā)生變化,每個(gè)插值基函數(shù)就需要重新計(jì)算;當(dāng)多項(xiàng)式的n值取太高插值次數(shù)越高,會(huì)引起較大震蕩,產(chǎn)生的插值結(jié)果就會(huì)越偏離原來函數(shù)的現(xiàn)象,即所謂的龍格現(xiàn)象。
3-2數(shù)據(jù)變換——規(guī)范化
1.規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化
2.為什么要進(jìn)行規(guī)范化;為了消除指標(biāo)之間的量綱和大小不一的影響。
3.三種規(guī)范化方法的公式:(考代碼)
?文章來源:http://www.zghlxwxcb.cn/news/detail-475616.html
3-3數(shù)據(jù)規(guī)約——屬性規(guī)約
1.屬性規(guī)約:通過合并或刪除不相關(guān)屬性來減少屬性維數(shù)可將數(shù)據(jù)進(jìn)行規(guī)約
2.屬性規(guī)約常用方法:
合并屬性;
刪除不相關(guān)屬性:逐步向前選擇、逐步向后刪除、決策樹歸納;
數(shù)據(jù)降維:主成分分析(PCA)。
3.主成分分析(PCA):(知道步驟、代碼實(shí)現(xiàn))
(1)得到觀測(cè)矩陣X
(2)將X標(biāo)準(zhǔn)化
(3)求相關(guān)系數(shù)矩陣R
(4)求R的特征方程的特征根
(5)確定主成分個(gè)數(shù)m
(6)計(jì)算m個(gè)相應(yīng)的單位特征向量
(7)計(jì)算主成分
3-4主要數(shù)據(jù)預(yù)處理函數(shù)
函數(shù)名 | 函數(shù)功能 | 所屬擴(kuò)展庫 |
drop_duplicates | 去重 | Numpy、Pandas |
isnull | 判斷是否為空 | Pandas |
notnull | 判斷是否非空 | Pandas |
dropna | 刪除空值 | Pandas |
fillna | 填補(bǔ)空值 | Pandas |
PCA | 對(duì)指標(biāo)變量矩陣進(jìn)行主成分分析 | Scikit-learn |
四、挖掘建模
4-1分類與預(yù)測(cè)
1.分類:構(gòu)造分類器或分類模型來預(yù)測(cè)離散屬性。
預(yù)測(cè):構(gòu)造預(yù)測(cè)器預(yù)測(cè)連續(xù)屬性。
2.分類的兩步過程:
學(xué)習(xí)步:通過歸納分析訓(xùn)練樣本集來建立分類模型得到分類規(guī)則。
分類步:先用已知的檢驗(yàn)測(cè)試集評(píng)估分類規(guī)則的準(zhǔn)確率,如果準(zhǔn)確率可接受,則使用該模型對(duì)問未知類標(biāo)號(hào)的待測(cè)樣本集進(jìn)行預(yù)測(cè)
預(yù)測(cè)模型的實(shí)現(xiàn)也有兩步,同上,先得到模型,然后模型通過檢驗(yàn)后再進(jìn)行預(yù)測(cè)。
3.主要分類與預(yù)測(cè)算法
(1)回歸分析:
回歸模型 | 適用條件 | 算法描述 |
線性回歸 | x與y是線性關(guān)系 | 用最小二乘法求解 |
非線性回歸 | x與y是非線性關(guān)系 | 用非線性最小二乘法求解 |
Logistic回歸 | y一般有1-0兩種取值 | 利用Logistics函數(shù)將因變量的取值范圍控制在0和1之間,表示取值為1的概率 |
(2)決策樹:ID3算法,例題:
?
?4.分類與預(yù)測(cè)算法評(píng)價(jià):模型預(yù)測(cè)效果評(píng)價(jià),通常用相對(duì)絕對(duì)誤差、平均絕對(duì)誤差、根均方差、相對(duì)平方根誤差、Kappa系數(shù)、準(zhǔn)確率、精確率、召回率、ROC曲線等評(píng)估指標(biāo)來衡量。
(1)混淆矩陣:描繪樣本數(shù)據(jù)的實(shí)際結(jié)果與預(yù)測(cè)結(jié)果之間的關(guān)系。
如二分類混淆矩陣:
實(shí)際類\預(yù)測(cè)類 | C1 | - C1 |
---|---|---|
C1 | TP | FN |
-C1 | FP | TN |
(2)Kappa統(tǒng)計(jì):統(tǒng)計(jì)分析中Kappa系數(shù)可用來衡量?jī)蓚€(gè)變量一致性的指標(biāo)。對(duì)于分類問題,所謂一致性就是模型預(yù)測(cè)結(jié)果和實(shí)際分類結(jié)果是否一致。
kappa系數(shù)的計(jì)算是基于混淆矩陣的,系數(shù) k 為:
?po 是每一類正確分類的樣本數(shù)量之和除以總樣本數(shù),也就是總體分類精度,
?看概念難懂,直接看例題吧:
這是一個(gè)三分類混淆矩陣:
?
(3)識(shí)別準(zhǔn)確度Accuracy、精確度Precision、召回率Recall、F-度量、靈敏度、特異性:
?
?
?例子:
?5.評(píng)測(cè)分類器準(zhǔn)確率常用技術(shù):
4-2聚類分析
1.K-Means算法
(1)算法實(shí)現(xiàn):直接看例子:
?
(2)優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
- 算法實(shí)現(xiàn)快速、簡(jiǎn)單
- 對(duì)于處理大數(shù)據(jù)集,該算法是可伸縮的、有效的
- 當(dāng)結(jié)果簇是密集的,它的效果較好
缺點(diǎn):
- 只有當(dāng)簇均值有定義的時(shí)候才能用
- 必須事先確定簇的個(gè)數(shù)
- 對(duì)初始值敏感,初始值不同可能產(chǎn)生不同結(jié)果
- 對(duì)“噪聲”和孤立點(diǎn)數(shù)據(jù)敏感
2.算法評(píng)價(jià):組內(nèi)相似性越大,組間差異越大,聚類效果越好
評(píng)價(jià)方法:內(nèi)部評(píng)價(jià) + 外部評(píng)價(jià)
內(nèi)部評(píng)價(jià):無監(jiān)督的方法,無需基準(zhǔn)數(shù)據(jù)(Ground Truth),側(cè)重類內(nèi)聚集程度和類間
離散程度。
例如:輪廓系數(shù)(Silhouette Coefficient)、Calinski-Harabasz指數(shù)、鄧恩指數(shù)等。
外部評(píng)價(jià):有監(jiān)督的方法,用一定的度量評(píng)判聚類結(jié)果與基準(zhǔn)數(shù)據(jù)的符合程度。
例如: Purity評(píng)價(jià)法、RI評(píng)價(jià)法、F值評(píng)價(jià)法等。
3.Purity 評(píng)價(jià)法是一種簡(jiǎn)單的聚類評(píng)價(jià)方法。為了計(jì)算Purity,把每個(gè)簇中最多的類作為這個(gè)簇所代表的類,然后計(jì)算正確分類的聚類數(shù)占總數(shù)的比例。
eg:
4.RI評(píng)價(jià)法法是一種用排列組合原理來對(duì)聚類進(jìn)行評(píng)價(jià)的手段,該方法將聚類看成是一系列的決策過程,RI就是計(jì)算“正確決策”的比率(即精確率,Accuracy),公式如下:
4-3關(guān)聯(lián)分析
1.頻繁模式:頻繁出現(xiàn)在數(shù)據(jù)集中的模式(如項(xiàng)集)
項(xiàng)集:是項(xiàng)的集合。如{牛奶、麥片、糖果}是一個(gè)3項(xiàng)集。
項(xiàng)集的出現(xiàn)頻率/頻度是包含項(xiàng)集的事物計(jì)數(shù),又稱為絕對(duì)支持度或支持度計(jì)數(shù)。
2.關(guān)聯(lián)規(guī)則分析:從大量數(shù)據(jù)中發(fā)現(xiàn)頻繁模式,以挖掘數(shù)據(jù)或特征之間的關(guān)聯(lián)或相關(guān)性。
3.關(guān)聯(lián)規(guī)則的一般形式:
(1)項(xiàng)集A和B同時(shí)一起發(fā)生的概率稱為關(guān)聯(lián)規(guī)則的支持度:
Support(A -> B) = P(A ^ B)
(2)項(xiàng)集A發(fā)生的情況下,B也發(fā)生的概率稱為關(guān)聯(lián)規(guī)則的置信度:
Confidence ( A -> B) = P(B | A) = P(AB) / P(A)
4.最小支持度和最小置信度:
衡量支持度/置信度的最低門檻。
同時(shí)滿足最小支持度和最小置信度的規(guī)則稱為強(qiáng)規(guī)則。
滿足最小支持度的項(xiàng)集是頻繁項(xiàng)集,頻繁k項(xiàng)集通常記作Lk。
5.支持度計(jì)數(shù):項(xiàng)集A的支持度計(jì)數(shù)是指事物數(shù)據(jù)集中包含項(xiàng)集A的事物個(gè)數(shù)。
6.關(guān)聯(lián)規(guī)則建模的一般步驟:
(1)找出所有頻繁項(xiàng)集:頻繁項(xiàng)集中每一項(xiàng)出現(xiàn)的次數(shù)都大于等于最小支持度計(jì)數(shù)。
(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:強(qiáng)關(guān)聯(lián)規(guī)則必須滿足最小支持度和最小置信度。
eg:對(duì)如下事務(wù)集,令最小支持度為0.5,最小置信度為0.5.
可以得到頻繁項(xiàng)集為 {A,B,D,E,AD}(考慮到ABCDEF的各種組合,只有以上五個(gè)滿足最小支持度)
強(qiáng)關(guān)聯(lián)規(guī)則:(注意:由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,上一步得到的頻繁項(xiàng)集只有AD是兩項(xiàng)的,所以只要考慮AD)
????????A->D? ? ? ? 支持度0.6,置信度1
? ? ? ? D->A? ? ? ? 支持度0.6,置信度0.75
以上兩組滿足最小支持度和最小置信度,所以是強(qiáng)關(guān)聯(lián)規(guī)則。
7.極大(最大)頻繁項(xiàng)集:簡(jiǎn)單理解為該頻繁項(xiàng)集不是其他頻繁項(xiàng)集的子集。
8.Apriori算法:挖掘頻繁項(xiàng)集的算法。?
(1)重要先驗(yàn)性質(zhì):
頻繁項(xiàng)集的所有非空子集也是頻繁項(xiàng)集。如ABC是頻繁項(xiàng)集,則它的子集AB、B等都是頻繁項(xiàng)集,反之,如果AB不是頻繁項(xiàng)集,則ABC不可能是頻繁項(xiàng)集。
(2)過程一:找出所有頻繁項(xiàng)集
?
?
eg1:
eg2:
4-4時(shí)序模式
1.時(shí)間序列分析的目的就是給定一個(gè)已被觀測(cè)了的時(shí)間序列,預(yù)測(cè)該序列的未來值。
2.時(shí)間序列分類及使用的模型:
時(shí) 間? ?------->平穩(wěn)性檢驗(yàn) 序 列 |
平穩(wěn)序列? ------->隨機(jī)性檢驗(yàn) | 白噪聲 | 不用分析 |
平穩(wěn)非白噪聲 | AR | ||
MA | |||
ARMA | |||
非平穩(wěn)序列 | ARIMA |
3.序列的預(yù)處理:隨機(jī)性檢驗(yàn)和平穩(wěn)性檢驗(yàn)。
(1)隨機(jī)性檢驗(yàn):
- 檢驗(yàn)是不是純隨機(jī)序列(白噪聲序列)。白噪聲序列是沒有信息可以提取的序列。
- 對(duì)于平穩(wěn)非白噪聲序列,他的均值和方差都是常數(shù)。ARMA是最常用的平穩(wěn)序列擬合模型。
- 對(duì)于非平穩(wěn)序列,由于他的均值和方差不穩(wěn)定。處理方法是先將其專為平穩(wěn)序列,然后建立ARMA模型來研究。如果一個(gè)時(shí)間序列經(jīng)差分運(yùn)算后具有平穩(wěn)性,稱該序列為差分平穩(wěn)序列,可以使用ARIMA。
(2)平穩(wěn)性檢驗(yàn):
- 自協(xié)方差、自相關(guān)系數(shù)用來衡量一個(gè)事件在不同時(shí)間點(diǎn)之間的相關(guān)程度。
- 平穩(wěn)時(shí)間序列的性質(zhì):有常數(shù)均值和方差,一個(gè)時(shí)刻之后的另一個(gè)時(shí)刻自協(xié)方差和自相關(guān)系數(shù)是相等的。
4.平穩(wěn)性檢驗(yàn)方法:
(1)圖檢驗(yàn):時(shí)序圖和自相關(guān)圖。
- 時(shí)序圖檢驗(yàn):根據(jù)平穩(wěn)時(shí)間序列的均值和方差都為常數(shù)的性質(zhì),平穩(wěn)序列的時(shí)序圖顯示該序列值始終在一個(gè)常數(shù)附近隨機(jī)波動(dòng),而且波動(dòng)的范圍有界、無明顯趨勢(shì)及無周期特征。如果有明顯的趨勢(shì)性或者周期性,那它通常不是平穩(wěn)序列。eg:
- ?自相關(guān)圖檢驗(yàn):
eg:
(2)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:?jiǎn)挝桓鶛z驗(yàn)。
單位根檢驗(yàn)是指檢驗(yàn)序列中是否存在單位根,存在單位根的就是非平穩(wěn)時(shí)間序列。
eg.
5.隨機(jī)性檢驗(yàn)方法:一般是構(gòu)造檢驗(yàn)統(tǒng)計(jì)量。如:Q統(tǒng)計(jì)量(大樣本)、LB統(tǒng)計(jì)量(小樣本)。
6.拖尾與截尾:
(1)截尾:指時(shí)間序列的自相關(guān)函數(shù)(ACF)或偏自相關(guān)函數(shù)(PACF)在某階后均為0的性質(zhì)。即:在大于某個(gè)常數(shù)k后函數(shù)值快速趨于0或在0附近隨機(jī)波動(dòng)。
(2)拖尾:指ACF或PACF并不在某階后均為0的性質(zhì)。即:始終有非0取值,不會(huì)在k大于某個(gè)常數(shù)后函數(shù)值就恒等于0或在0附近隨機(jī)波動(dòng)。
eg:判斷是拖尾還是截尾
判斷方法:截尾比拖尾趨于零的速度更快,而且截尾在后期不會(huì)再有明顯的遞增。(
拖尾~拖拉~所以趨于0比較慢)?
?
?7.AR、MA、ARMA模型
(1)AR
(2) MA
(3)ARMA?
?8.ARIMA模型
eg.?
??本文原創(chuàng),如果對(duì)你有幫助的話歡迎點(diǎn)贊收藏哇!
??逢考必過~~
?
?
?
到了這里,關(guān)于Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!