国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

這篇具有很好參考價(jià)值的文章主要介紹了Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

期末三天賽高考我真的會(huì)謝,三天學(xué)完數(shù)據(jù)挖掘……真的很極限了的。

課本是那本綠色的Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版),作者張良均

圖片來自老師給的ppt,以下內(nèi)容是我自己總結(jié)的,自己復(fù)習(xí)用,覆蓋了老師給畫的重點(diǎn)考點(diǎn),八九不離十,期末考抱佛腳的可以看看。禁止轉(zhuǎn)載哦。

再強(qiáng)調(diào)一下,只涵蓋我們的考試重點(diǎn),不是整本書的完整內(nèi)容。


目錄

一、數(shù)據(jù)質(zhì)量分析

1-1數(shù)據(jù)分析常用的第三方庫

1-2異常值分析

二、數(shù)據(jù)特征分析

2-1.常見數(shù)據(jù)特征分析方法

2-2基本統(tǒng)計(jì)特征函數(shù)

三、數(shù)據(jù)預(yù)處理

3-1數(shù)據(jù)清洗——缺失值處理

3-2數(shù)據(jù)變換——規(guī)范化

3-3數(shù)據(jù)規(guī)約——屬性規(guī)約

3-4主要數(shù)據(jù)預(yù)處理函數(shù)

四、挖掘建模

4-1分類與預(yù)測(cè)

4-2聚類分析

4-3關(guān)聯(lián)分析

4-4時(shí)序模式


?文章來源地址http://www.zghlxwxcb.cn/news/detail-475616.html

一、數(shù)據(jù)質(zhì)量分析

1-1數(shù)據(jù)分析常用的第三方庫

要知道它們各自的用處

擴(kuò)展庫 簡(jiǎn)介
Numpy 提供數(shù)組支持,以及相應(yīng)的高效的處理函數(shù)
Pandas 強(qiáng)大、靈活的數(shù)據(jù)分析和探索工具
Matplotlib 強(qiáng)大的數(shù)據(jù)可視化工具、作圖庫
Scipy 提供矩陣支持,以及矩陣相關(guān)的數(shù)值計(jì)算模塊
StatsModels 統(tǒng)計(jì)建模和計(jì)量經(jīng)濟(jì)學(xué)
Scikit-Learn 支持回歸、分類、聚類等強(qiáng)大的機(jī)器學(xué)習(xí)庫

1-2異常值分析

1.臟數(shù)據(jù)通常包括:

  • 缺失值
  • 異常值
  • 不一致的值
  • 重復(fù)數(shù)據(jù)及含有特殊符號(hào)的數(shù)據(jù)

2.異常值分析:又稱離群點(diǎn)分析。主要方法有:簡(jiǎn)單統(tǒng)計(jì)量分析、3?原則、箱形圖分析。

3.箱形圖分析:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

二、數(shù)據(jù)特征分析

2-1.常見數(shù)據(jù)特征分析方法

生氣了,這一大部分碼了一個(gè)小時(shí),一個(gè)不小心全沒了,又要重新打一遍tmd

1.方法:

  • 分布分析
  • 對(duì)比分析
  • 統(tǒng)計(jì)量分析
  • 周期性分析
  • 貢獻(xiàn)度分析
  • 相關(guān)性分析

2.分布分析:分布分析能揭示數(shù)據(jù)的分布特征和分布類型,便于發(fā)現(xiàn)某些特大或特小的可疑值。對(duì)于定量數(shù)據(jù):欲了解數(shù)據(jù)的分布形式是對(duì)稱的、還是非對(duì)稱的,可做出頻率分布表、繪制頻率分布直方圖等進(jìn)行直觀地分析。 對(duì)于定性數(shù)據(jù):可用餅圖和條形圖直觀地顯示分布情況。

3.對(duì)比分析:指把兩個(gè)相互聯(lián)系的指標(biāo)數(shù)據(jù)進(jìn)行比較,從數(shù)量上展示和說明研究對(duì)象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào)。特別適用于指標(biāo)間的橫縱向比較、時(shí)間序列的比較分析。在對(duì)比分析中,選擇合適的對(duì)比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟。主要有兩種方式:絕對(duì)數(shù)比較和相對(duì)數(shù)比較。

4.統(tǒng)計(jì)量分析:用統(tǒng)計(jì)指標(biāo)對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述,常從集中趨勢(shì)和離中趨勢(shì)兩個(gè)方面進(jìn)行分析。

(1)集中趨勢(shì):一組數(shù)據(jù)向某一中心值靠攏的程度,度量主要有:均值、中位數(shù)、眾數(shù)。

均值、中位數(shù)、眾數(shù)怎么求的要會(huì),小學(xué)生都會(huì)。注意偶數(shù)位的數(shù)求中位數(shù)的話就是取中間兩個(gè)數(shù)和的一半。

(2)離中趨勢(shì):數(shù)據(jù)之間的差距和離散程度。度量主要有:極差、標(biāo)準(zhǔn)差、變異系數(shù)、四分位數(shù)間距(箱形圖分析用到了)。

  • 極差:極大值-極小值
  • 標(biāo)準(zhǔn)差:Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)
  • 變異系數(shù):Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)
  • ?四分位數(shù)間距IQR:IQR的值越大,說明數(shù)據(jù)的變異程度越大,反之則越小。Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

5.相關(guān)性分析:分析連續(xù)變量之間線性的相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來的過程。主要方法有:

  • 直接繪制散點(diǎn)圖Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)
  • 繪制散點(diǎn)圖矩陣:如圖所示,對(duì)角線是單個(gè)變量的分布,上下三角是變量?jī)蓛芍g的關(guān)系。Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)
  • 計(jì)算相關(guān)系數(shù):主要掌握Pearson相關(guān)系數(shù)。Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Pearson相關(guān)系數(shù)用條件

  • 兩個(gè)變量都是連續(xù)變量。
  • 兩個(gè)連續(xù)變量應(yīng)當(dāng)是成對(duì)的數(shù)據(jù)。
  • 兩個(gè)連續(xù)變量之間存在線性關(guān)系。通常做散點(diǎn)圖檢驗(yàn)該假設(shè)。
  • 兩個(gè)變量均沒有明顯的異常值。Pearson相關(guān)系數(shù)易受異常值影響。
  • ?兩個(gè)變量符合雙變量正態(tài)分布。

2-2基本統(tǒng)計(jì)特征函數(shù)

方法名 函數(shù)功能 所屬庫
sum() 求和 Pandas
mean() 求算術(shù)平均數(shù)
var() 求方差
std() 求標(biāo)準(zhǔn)差
corr() 求Spearman(Pearson)相關(guān)系數(shù)矩陣
describe() 給出樣本的基本描述

三、數(shù)據(jù)預(yù)處理

3-1數(shù)據(jù)清洗——缺失值處理

1.缺失值處理方法有三類:刪除記錄、數(shù)據(jù)插補(bǔ)和不處理

2.數(shù)據(jù)插補(bǔ)——拉格朗日插值法

(1)思路:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

(2)優(yōu)缺點(diǎn):

優(yōu)點(diǎn):插值公式結(jié)構(gòu)緊湊,在理論分析中使用方便。

缺點(diǎn):當(dāng)插值節(jié)點(diǎn)增減時(shí),插值多項(xiàng)式就會(huì)隨之發(fā)生變化,每個(gè)插值基函數(shù)就需要重新計(jì)算;當(dāng)多項(xiàng)式的n值取太高插值次數(shù)越高,會(huì)引起較大震蕩,產(chǎn)生的插值結(jié)果就會(huì)越偏離原來函數(shù)的現(xiàn)象,即所謂的龍格現(xiàn)象。

3-2數(shù)據(jù)變換——規(guī)范化

1.規(guī)范化方法:最小-最大規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化

2.為什么要進(jìn)行規(guī)范化;為了消除指標(biāo)之間的量綱和大小不一的影響。

3.三種規(guī)范化方法的公式:(考代碼)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?

3-3數(shù)據(jù)規(guī)約——屬性規(guī)約

1.屬性規(guī)約:通過合并或刪除不相關(guān)屬性來減少屬性維數(shù)可將數(shù)據(jù)進(jìn)行規(guī)約

2.屬性規(guī)約常用方法:

合并屬性;

刪除不相關(guān)屬性:逐步向前選擇、逐步向后刪除、決策樹歸納;

數(shù)據(jù)降維:主成分分析(PCA)。

3.主成分分析(PCA):(知道步驟、代碼實(shí)現(xiàn))

(1)得到觀測(cè)矩陣X

(2)將X標(biāo)準(zhǔn)化

(3)求相關(guān)系數(shù)矩陣R

(4)求R的特征方程的特征根

(5)確定主成分個(gè)數(shù)m

(6)計(jì)算m個(gè)相應(yīng)的單位特征向量

(7)計(jì)算主成分

3-4主要數(shù)據(jù)預(yù)處理函數(shù)

函數(shù)名 函數(shù)功能 所屬擴(kuò)展庫
drop_duplicates 去重 Numpy、Pandas
isnull 判斷是否為空 Pandas
notnull 判斷是否非空 Pandas
dropna 刪除空值 Pandas
fillna 填補(bǔ)空值 Pandas
PCA 對(duì)指標(biāo)變量矩陣進(jìn)行主成分分析 Scikit-learn

四、挖掘建模

4-1分類與預(yù)測(cè)

1.分類:構(gòu)造分類器或分類模型來預(yù)測(cè)離散屬性。

預(yù)測(cè):構(gòu)造預(yù)測(cè)器預(yù)測(cè)連續(xù)屬性。

2.分類的兩步過程:

學(xué)習(xí)步:通過歸納分析訓(xùn)練樣本集來建立分類模型得到分類規(guī)則。

分類步:先用已知的檢驗(yàn)測(cè)試集評(píng)估分類規(guī)則的準(zhǔn)確率,如果準(zhǔn)確率可接受,則使用該模型對(duì)問未知類標(biāo)號(hào)的待測(cè)樣本集進(jìn)行預(yù)測(cè)

預(yù)測(cè)模型的實(shí)現(xiàn)也有兩步,同上,先得到模型,然后模型通過檢驗(yàn)后再進(jìn)行預(yù)測(cè)。

3.主要分類與預(yù)測(cè)算法

(1)回歸分析:

回歸模型 適用條件 算法描述
線性回歸 x與y是線性關(guān)系 用最小二乘法求解
非線性回歸 x與y是非線性關(guān)系 用非線性最小二乘法求解
Logistic回歸 y一般有1-0兩種取值 利用Logistics函數(shù)將因變量的取值范圍控制在0和1之間,表示取值為1的概率

(2)決策樹:ID3算法,例題:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)?Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)?4.分類與預(yù)測(cè)算法評(píng)價(jià):模型預(yù)測(cè)效果評(píng)價(jià),通常用相對(duì)絕對(duì)誤差、平均絕對(duì)誤差、根均方差、相對(duì)平方根誤差、Kappa系數(shù)、準(zhǔn)確率、精確率、召回率、ROC曲線等評(píng)估指標(biāo)來衡量。

(1)混淆矩陣:描繪樣本數(shù)據(jù)的實(shí)際結(jié)果與預(yù)測(cè)結(jié)果之間的關(guān)系。

如二分類混淆矩陣:

實(shí)際類\預(yù)測(cè)類 C1 - C1
C1 TP FN
-C1 FP TN

(2)Kappa統(tǒng)計(jì):統(tǒng)計(jì)分析中Kappa系數(shù)可用來衡量?jī)蓚€(gè)變量一致性的指標(biāo)。對(duì)于分類問題,所謂一致性就是模型預(yù)測(cè)結(jié)果和實(shí)際分類結(jié)果是否一致。

kappa系數(shù)的計(jì)算是基于混淆矩陣的,系數(shù) k 為:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?po 是每一類正確分類的樣本數(shù)量之和除以總樣本數(shù),也就是總體分類精度,

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?看概念難懂,直接看例題吧:

這是一個(gè)三分類混淆矩陣:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

(3)識(shí)別準(zhǔn)確度Accuracy、精確度Precision、召回率Recall、F-度量、靈敏度、特異性:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?例子:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?5.評(píng)測(cè)分類器準(zhǔn)確率常用技術(shù):

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

4-2聚類分析

1.K-Means算法

(1)算法實(shí)現(xiàn):直接看例子:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?

(2)優(yōu)缺點(diǎn):

優(yōu)點(diǎn):

  • 算法實(shí)現(xiàn)快速、簡(jiǎn)單
  • 對(duì)于處理大數(shù)據(jù)集,該算法是可伸縮的、有效的
  • 當(dāng)結(jié)果簇是密集的,它的效果較好

缺點(diǎn):

  • 只有當(dāng)簇均值有定義的時(shí)候才能用
  • 必須事先確定簇的個(gè)數(shù)
  • 對(duì)初始值敏感,初始值不同可能產(chǎn)生不同結(jié)果
  • 對(duì)“噪聲”和孤立點(diǎn)數(shù)據(jù)敏感

2.算法評(píng)價(jià):組內(nèi)相似性越大,組間差異越大,聚類效果越好

評(píng)價(jià)方法:內(nèi)部評(píng)價(jià) + 外部評(píng)價(jià)
內(nèi)部評(píng)價(jià):無監(jiān)督的方法,無需基準(zhǔn)數(shù)據(jù)(Ground Truth),側(cè)重類內(nèi)聚集程度和類間
離散程度。
例如:輪廓系數(shù)(Silhouette Coefficient)、Calinski-Harabasz指數(shù)、鄧恩指數(shù)等。
外部評(píng)價(jià):有監(jiān)督的方法,用一定的度量評(píng)判聚類結(jié)果與基準(zhǔn)數(shù)據(jù)的符合程度。
例如: Purity評(píng)價(jià)法、RI評(píng)價(jià)法、F值評(píng)價(jià)法等。

3.Purity 評(píng)價(jià)法是一種簡(jiǎn)單的聚類評(píng)價(jià)方法。為了計(jì)算Purity,把每個(gè)簇中最多的類作為這個(gè)簇所代表的類,然后計(jì)算正確分類的聚類數(shù)占總數(shù)的比例。

eg:Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

4.RI評(píng)價(jià)法法是一種用排列組合原理來對(duì)聚類進(jìn)行評(píng)價(jià)的手段,該方法將聚類看成是一系列的決策過程,RI就是計(jì)算“正確決策”的比率(即精確率,Accuracy),公式如下:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

4-3關(guān)聯(lián)分析

1.頻繁模式:頻繁出現(xiàn)在數(shù)據(jù)集中的模式(如項(xiàng)集)

項(xiàng)集:是項(xiàng)的集合。如{牛奶、麥片、糖果}是一個(gè)3項(xiàng)集。

項(xiàng)集的出現(xiàn)頻率/頻度是包含項(xiàng)集的事物計(jì)數(shù),又稱為絕對(duì)支持度支持度計(jì)數(shù)。

2.關(guān)聯(lián)規(guī)則分析:從大量數(shù)據(jù)中發(fā)現(xiàn)頻繁模式,以挖掘數(shù)據(jù)或特征之間的關(guān)聯(lián)或相關(guān)性。

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

3.關(guān)聯(lián)規(guī)則的一般形式:

(1)項(xiàng)集A和B同時(shí)一起發(fā)生的概率稱為關(guān)聯(lián)規(guī)則的支持度

Support(A -> B) = P(A ^ B)

(2)項(xiàng)集A發(fā)生的情況下,B也發(fā)生的概率稱為關(guān)聯(lián)規(guī)則的置信度

Confidence ( A -> B) = P(B | A) = P(AB) / P(A)

4.最小支持度和最小置信度:

衡量支持度/置信度的最低門檻。

同時(shí)滿足最小支持度和最小置信度的規(guī)則稱為強(qiáng)規(guī)則

滿足最小支持度的項(xiàng)集是頻繁項(xiàng)集,頻繁k項(xiàng)集通常記作Lk。

5.支持度計(jì)數(shù):項(xiàng)集A的支持度計(jì)數(shù)是指事物數(shù)據(jù)集中包含項(xiàng)集A的事物個(gè)數(shù)。

6.關(guān)聯(lián)規(guī)則建模的一般步驟:

(1)找出所有頻繁項(xiàng)集:頻繁項(xiàng)集中每一項(xiàng)出現(xiàn)的次數(shù)都大于等于最小支持度計(jì)數(shù)。

(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:強(qiáng)關(guān)聯(lián)規(guī)則必須滿足最小支持度和最小置信度。

eg:對(duì)如下事務(wù)集,令最小支持度為0.5,最小置信度為0.5.

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

可以得到頻繁項(xiàng)集為 {A,B,D,E,AD}(考慮到ABCDEF的各種組合,只有以上五個(gè)滿足最小支持度)

強(qiáng)關(guān)聯(lián)規(guī)則:(注意:由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,上一步得到的頻繁項(xiàng)集只有AD是兩項(xiàng)的,所以只要考慮AD)

????????A->D? ? ? ? 支持度0.6,置信度1

? ? ? ? D->A? ? ? ? 支持度0.6,置信度0.75

以上兩組滿足最小支持度和最小置信度,所以是強(qiáng)關(guān)聯(lián)規(guī)則。

7.極大(最大)頻繁項(xiàng)集:簡(jiǎn)單理解為該頻繁項(xiàng)集不是其他頻繁項(xiàng)集的子集。

8.Apriori算法:挖掘頻繁項(xiàng)集的算法。?

(1)重要先驗(yàn)性質(zhì):

頻繁項(xiàng)集的所有非空子集也是頻繁項(xiàng)集。如ABC是頻繁項(xiàng)集,則它的子集AB、B等都是頻繁項(xiàng)集,反之,如果AB不是頻繁項(xiàng)集,則ABC不可能是頻繁項(xiàng)集。

(2)過程一:找出所有頻繁項(xiàng)集

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

eg1:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

eg2:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

4-4時(shí)序模式

1.時(shí)間序列分析的目的就是給定一個(gè)已被觀測(cè)了的時(shí)間序列,預(yù)測(cè)該序列的未來值。

2.時(shí)間序列分類及使用的模型:

時(shí)

間? ?------->平穩(wěn)性檢驗(yàn)

平穩(wěn)序列? ------->隨機(jī)性檢驗(yàn) 白噪聲 不用分析
平穩(wěn)非白噪聲 AR
MA
ARMA
非平穩(wěn)序列 ARIMA

3.序列的預(yù)處理:隨機(jī)性檢驗(yàn)和平穩(wěn)性檢驗(yàn)。

(1)隨機(jī)性檢驗(yàn):

  • 檢驗(yàn)是不是純隨機(jī)序列(白噪聲序列)。白噪聲序列是沒有信息可以提取的序列。
  • 對(duì)于平穩(wěn)非白噪聲序列,他的均值和方差都是常數(shù)。ARMA是最常用的平穩(wěn)序列擬合模型。
  • 對(duì)于非平穩(wěn)序列,由于他的均值和方差不穩(wěn)定。處理方法是先將其專為平穩(wěn)序列,然后建立ARMA模型來研究。如果一個(gè)時(shí)間序列經(jīng)差分運(yùn)算后具有平穩(wěn)性,稱該序列為差分平穩(wěn)序列,可以使用ARIMA。

(2)平穩(wěn)性檢驗(yàn):

  • 自協(xié)方差、自相關(guān)系數(shù)用來衡量一個(gè)事件在不同時(shí)間點(diǎn)之間的相關(guān)程度。
  • 平穩(wěn)時(shí)間序列的性質(zhì):有常數(shù)均值和方差,一個(gè)時(shí)刻之后的另一個(gè)時(shí)刻自協(xié)方差和自相關(guān)系數(shù)是相等的。

4.平穩(wěn)性檢驗(yàn)方法

(1)圖檢驗(yàn):時(shí)序圖和自相關(guān)圖。

  • 時(shí)序圖檢驗(yàn):根據(jù)平穩(wěn)時(shí)間序列的均值和方差都為常數(shù)的性質(zhì),平穩(wěn)序列的時(shí)序圖顯示該序列值始終在一個(gè)常數(shù)附近隨機(jī)波動(dòng),而且波動(dòng)的范圍有界、無明顯趨勢(shì)及無周期特征。如果有明顯的趨勢(shì)性或者周期性,那它通常不是平穩(wěn)序列。eg:Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

  • ?自相關(guān)圖檢驗(yàn):Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

eg:

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

(2)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:?jiǎn)挝桓鶛z驗(yàn)。

單位根檢驗(yàn)是指檢驗(yàn)序列中是否存在單位根,存在單位根的就是非平穩(wěn)時(shí)間序列。

eg.

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

5.隨機(jī)性檢驗(yàn)方法:一般是構(gòu)造檢驗(yàn)統(tǒng)計(jì)量。如:Q統(tǒng)計(jì)量(大樣本)、LB統(tǒng)計(jì)量(小樣本)。

6.拖尾與截尾:

(1)截尾:指時(shí)間序列的自相關(guān)函數(shù)(ACF)或偏自相關(guān)函數(shù)(PACF)在某階后均為0的性質(zhì)。即:在大于某個(gè)常數(shù)k后函數(shù)值快速趨于0或在0附近隨機(jī)波動(dòng)。

(2)拖尾:指ACF或PACF并不在某階后均為0的性質(zhì)。即:始終有非0取值,不會(huì)在k大于某個(gè)常數(shù)后函數(shù)值就恒等于0或在0附近隨機(jī)波動(dòng)。

eg:判斷是拖尾還是截尾

判斷方法:截尾比拖尾趨于零的速度更快,而且截尾在后期不會(huì)再有明顯的遞增。(

拖尾~拖拉~所以趨于0比較慢)?

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?7.AR、MA、ARMA模型

(1)AR

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

(2) MA

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

(3)ARMA?

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

?8.ARIMA模型

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)

eg.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)?


??本文原創(chuàng),如果對(duì)你有幫助的話歡迎點(diǎn)贊收藏哇!

??逢考必過~~

?

?

?

到了這里,關(guān)于Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)期末考復(fù)習(xí)(抱佛腳啦)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大數(shù)據(jù)圖書推薦:Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)

    大數(shù)據(jù)圖書推薦:Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)

    《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)》的配套學(xué)習(xí)視頻,課程內(nèi)容共分為基礎(chǔ)篇(第1~5章)和實(shí)戰(zhàn)篇(第6~11章)。 ? ? ?基礎(chǔ)篇內(nèi)容包括數(shù)據(jù)挖掘的概述、基本流程、常用工具、開發(fā)環(huán)境,Python數(shù)據(jù)挖掘的編程基礎(chǔ)、數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘算法基礎(chǔ)等基礎(chǔ)知識(shí);

    2024年02月02日
    瀏覽(25)
  • 《大數(shù)據(jù)分析入門》期末復(fù)習(xí)資料

    期末復(fù)習(xí)資料,僅供參考。 1、數(shù)據(jù)分析工具不包括以下()選項(xiàng)。 A、SPSSStatisticsB、Matlab2014bC、OFFICEPowerpointD、StyleIntelligence 參考答案:D 2、Excel數(shù)據(jù)管理中,標(biāo)記關(guān)鍵數(shù)據(jù)的方法中能夠替代柱形圖的是()。 A、色階區(qū)分?jǐn)?shù)據(jù)B、條件格式突出C、圖標(biāo)集區(qū)分?jǐn)?shù)據(jù)D、數(shù)據(jù)條區(qū)分

    2024年02月15日
    瀏覽(21)
  • 數(shù)據(jù)分析與數(shù)據(jù)挖掘?qū)崙?zhàn)案例本地房?jī)r(jià)預(yù)測(cè)(716):

    數(shù)據(jù)分析與數(shù)據(jù)挖掘?qū)崙?zhàn)案例本地房?jī)r(jià)預(yù)測(cè)(716):

    2022 年首屆釘釘杯大學(xué)生大數(shù)據(jù)挑戰(zhàn)賽練習(xí)題目 練習(xí)題 A:二手房房?jī)r(jià)分析與預(yù)測(cè) 要點(diǎn): 1、機(jī)器學(xué)習(xí) 2、數(shù)據(jù)挖掘 3、數(shù)據(jù)清洗、分析、pyeahcrs可視化 4、隨機(jī)森林回歸預(yù)測(cè)模型預(yù)測(cè)房?jī)r(jià) 1、讀入數(shù)據(jù)、清洗數(shù)據(jù): 2、解決相關(guān)問題: (一) 根據(jù)附件中的數(shù)據(jù)集,將二手房數(shù)據(jù)

    2024年02月07日
    瀏覽(28)
  • 數(shù)據(jù)挖掘?qū)崙?zhàn)(2):信用卡詐騙分析

    ??????????歡迎來到我的博客?????????? ??作者: 秋無之地 ??簡(jiǎn)介:CSDN爬蟲、后端、大數(shù)據(jù)領(lǐng)域創(chuàng)作者。目前從事python爬蟲、后端和大數(shù)據(jù)等相關(guān)工作,主要擅長(zhǎng)領(lǐng)域有:爬蟲、后端、大數(shù)據(jù)開發(fā)、數(shù)據(jù)分析等。 ??歡迎小伙伴們 點(diǎn)贊????、收藏

    2024年02月07日
    瀏覽(153)
  • 【數(shù)據(jù)挖掘?qū)崙?zhàn)】——輿情分析:對(duì)微博文本進(jìn)行情緒分類

    【數(shù)據(jù)挖掘?qū)崙?zhàn)】——輿情分析:對(duì)微博文本進(jìn)行情緒分類

    ???♂? 個(gè)人主頁:@Lingxw_w的個(gè)人主頁 ???作者簡(jiǎn)介:計(jì)算機(jī)科學(xué)與技術(shù)研究生在讀 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話, 歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ ? 目錄 一、背景介紹 二、比賽任務(wù)

    2024年02月08日
    瀏覽(22)
  • Python數(shù)據(jù)分析與數(shù)據(jù)挖掘:解析數(shù)據(jù)的力量

    隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)分析和數(shù)據(jù)挖掘已經(jīng)成為許多行業(yè)中不可或缺的一部分。在這個(gè)信息爆炸的時(shí)代,如何從大量的數(shù)據(jù)中提取有價(jià)值的信息,成為了企業(yè)和個(gè)人追求的目標(biāo)。而Python作為一種強(qiáng)大的編程語言,提供了豐富的庫和工具,使得數(shù)據(jù)分析和數(shù)據(jù)挖掘變得更

    2024年02月11日
    瀏覽(23)
  • 數(shù)據(jù)挖掘期末復(fù)習(xí)-作業(yè)(簡(jiǎn)答)

    數(shù)據(jù)挖掘期末復(fù)習(xí)-作業(yè)(簡(jiǎn)答)

    作業(yè) 1、數(shù)據(jù)挖掘的定義? 數(shù)據(jù)挖掘是從大量的、有噪聲的、不完全的、模糊和隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的、具有潛在利用價(jià)值的信息和知識(shí)的過程。 2、數(shù)據(jù)挖掘主要有哪些技術(shù)方向? 答: 數(shù)據(jù)挖掘的技術(shù)可分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、

    2024年02月09日
    瀏覽(26)
  • 【數(shù)據(jù)挖掘】使用 Python 分析公共數(shù)據(jù)【01/10】

    【數(shù)據(jù)挖掘】使用 Python 分析公共數(shù)據(jù)【01/10】

    ????????本文討論了如何使用 Python 使用 Pandas 庫分析官方 COVID-19 病例數(shù)據(jù)。您將看到如何從實(shí)際數(shù)據(jù)集中收集見解,發(fā)現(xiàn)乍一看可能不那么明顯的信息。特別是,本文中提供的示例說明了如何獲取有關(guān)疾病在不同國家/地區(qū)傳播速度的信息。 ????????要繼續(xù)操作,您需

    2024年02月12日
    瀏覽(48)
  • 【Python】數(shù)據(jù)分析+數(shù)據(jù)挖掘——探索Pandas中的數(shù)據(jù)篩選

    【Python】數(shù)據(jù)分析+數(shù)據(jù)挖掘——探索Pandas中的數(shù)據(jù)篩選

    當(dāng)涉及數(shù)據(jù)處理和分析時(shí),Pandas是Python編程語言中最強(qiáng)大、靈活且廣泛使用的工具之一。Pandas提供了豐富的功能和方法,使得數(shù)據(jù)的選擇、篩選和處理變得簡(jiǎn)單而高效。在本博客中,我們將重點(diǎn)介紹Pandas中數(shù)據(jù)篩選的關(guān)鍵知識(shí)點(diǎn),包括條件索引、邏輯操作符、 query() 方法以及

    2024年02月15日
    瀏覽(22)
  • Python數(shù)據(jù)分析-數(shù)據(jù)挖掘(準(zhǔn)備數(shù)據(jù)——數(shù)據(jù)建?!P驮u(píng)估——模型應(yīng)用)

    Python數(shù)據(jù)分析-數(shù)據(jù)挖掘(準(zhǔn)備數(shù)據(jù)——數(shù)據(jù)建模——模型評(píng)估——模型應(yīng)用)

    20 理解業(yè)務(wù)和數(shù)據(jù):我們需要做好什么計(jì)劃?_嗶哩嗶哩_bilibili 目錄 ? 一、理解業(yè)務(wù)和數(shù)據(jù):我們需要做好什么計(jì)劃? 1.1兩個(gè)思想問題 1.2為什么數(shù)據(jù)挖掘不是萬能的 1.3業(yè)務(wù)背景與目標(biāo) 1.4把握數(shù)據(jù)? 1.5總結(jié) 二、 準(zhǔn)備數(shù)據(jù):如何處理出完整、干凈的數(shù)據(jù)? 2.1找到數(shù)據(jù) 2.2數(shù)據(jù)探索

    2024年02月05日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包