国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

《CDA-LEVEL-II考試大綱》解讀--PART 5 數(shù)據(jù)分析模型

這篇具有很好參考價值的文章主要介紹了《CDA-LEVEL-II考試大綱》解讀--PART 5 數(shù)據(jù)分析模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

PART 5 數(shù)據(jù)分析模型

總體要求:領(lǐng)會模型基本原理,數(shù)值模型操作流程,懂得模型應(yīng)用場景,能夠完成數(shù)據(jù)建模分析報告。

1、主成分分析

【領(lǐng)會】
主成分分析的計算步驟;
主成分分析中對變量自身分布和多變量之間關(guān)系的假設(shè)以及模型設(shè)置。
【熟知】
適用于主成分分析的變量度量類型。
【應(yīng)用】
在深入理解主成分的意義的基礎(chǔ)之上,在遇到業(yè)務(wù)問題時,有能力決定是否使用主成分分析方法;
有能力決定何時采用相關(guān)系數(shù)計算方法和協(xié)方差矩陣計算方法;
有能力解釋主成分得分的結(jié)果;
根據(jù)變量分布情況進行函數(shù)轉(zhuǎn)換。

1.1、領(lǐng)會內(nèi)容

1.1.1、主成分分析的計算步驟

主成分分析是一種常見的數(shù)據(jù)降維方法,其計算步驟如下:

  • 數(shù)據(jù)標(biāo)準(zhǔn)化:將原始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,使得每個變量的均值為0,方差為1。
  • 計算樣本協(xié)方差矩陣或相關(guān)系數(shù)矩陣:根據(jù)樣本數(shù)據(jù)計算協(xié)方差矩陣或相關(guān)系數(shù)矩陣。
  • 特征值分解:對協(xié)方差矩陣或相關(guān)系數(shù)矩陣進行特征值分解,得到特征值和特征向量。
  • 選擇主成分:根據(jù)特征值的大小,選擇前k個主成分。通常選取的主成分個數(shù)k可以根據(jù)累計貢獻率和特征值大小來確定。
  • 計算主成分:將原始數(shù)據(jù)映射到主成分上,得到新的數(shù)據(jù)集合,每個變量對應(yīng)一個主成分。
  • 解釋主成分:根據(jù)主成分的特征向量,解釋每個主成分代表的意義,理解數(shù)據(jù)降維后的含義。
1.1.2、主成分分析的基礎(chǔ)內(nèi)容

主成分分析(Principal Component Analysis,PCA)的假設(shè)和模型設(shè)置如下:

假設(shè):
  • 假設(shè)變量之間存在線性關(guān)系;
  • 假設(shè)變量的方差不同;
  • 假設(shè)各變量之間不存在完全的共線性(即變量之間存在一定程度的獨立性);
  • 假設(shè)數(shù)據(jù)符合正態(tài)分布或接近正態(tài)分布
模型設(shè)置:
  • 確定主成分的個數(shù),通常通過特征值分析和累計方差貢獻率分析來確定;
  • 根據(jù)主成分個數(shù),運用線性代數(shù)方法求解主成分;
  • 利用主成分系數(shù),計算每個樣本在不同主成分上的得分;
  • 分析主成分的解釋力,并對主成分進行旋轉(zhuǎn)和解釋。

需要注意的是,PCA是一種基于樣本協(xié)方差矩陣的無監(jiān)督學(xué)習(xí)方法,因此對數(shù)據(jù)的可信度和有效性有一定要求。同時,PCA的結(jié)果也需要經(jīng)過科學(xué)的解釋和分析,才能得到有意義的結(jié)論和應(yīng)用。

1.2、熟知內(nèi)容

1.2.1、適用于主成分分析的變量度量類型

主成分分析可以適用于多種變量度量類型,包括:

  • 定量變量(連續(xù)型):如身高、體重、收入等數(shù)值型變量。
  • 定量二元變量:如是否吸煙、是否結(jié)婚等二元型數(shù)值變量。
  • 定性變量(分類型):如性別、種族、婚姻狀態(tài)等分類變量。
  • 定序變量:如受教育程度、職位級別等順序型分類變量。

需要注意的是,對于不同類型的變量,在進行主成分分析時需要使用不同的方法和技巧。同時,需要進行數(shù)據(jù)標(biāo)準(zhǔn)化和變量篩選等預(yù)處理工作,以確保分析結(jié)果的準(zhǔn)確性和可靠性。

2、因子分析

【領(lǐng)會】
了解因子分析模型設(shè)置,只需要關(guān)注主成分法的計算步驟
【熟知】
適用于因子分析的變量度量類型,通過分析結(jié)果,選取合適的因子個數(shù);
常用因子旋轉(zhuǎn)的方法。
【應(yīng)用】
在遇到業(yè)務(wù)問題時,有能力決定是否使用因子分析,還是使用主成分分析方法就可以了;
有能力根據(jù)原始變量在各因子上的權(quán)重明確每個因子的意義;
有能力對大量變量進行維度分析,分維度打分,并比較與專家打分(德爾菲法)的區(qū)別;
在聚類前對數(shù)據(jù)進行描述,發(fā)現(xiàn)理想的聚類方式和數(shù)量。

2.1、領(lǐng)會內(nèi)容

2.1.1、因子分析模型

在因子分析模型中,需要設(shè)置以下幾個參數(shù):

  1. 因子數(shù)目:決定了模型中的因子個數(shù),可以根據(jù)實際情況進行選擇。
  2. 因子旋轉(zhuǎn)方法:用于將因子旋轉(zhuǎn)到一個更可解釋的位置上,以便于進一步分析。常用的方法包括方差最大旋轉(zhuǎn)法(VARIMAX)、斜交旋轉(zhuǎn)法(OBLIMIN)等。
  3. 因子載荷估計方法:用于估計每個變量與因子之間的關(guān)系。常用的方法包括主成分分析、最大似然方法、加權(quán)最小二乘法等。
  4. 原始數(shù)據(jù)處理方法:如果原始數(shù)據(jù)存在缺失值、異常值等問題,需要先進行數(shù)據(jù)清洗和預(yù)處理。
  5. 因子的命名和解釋:根據(jù)因子的載荷和變量的含義,對因子進行命名和解釋,以便于后續(xù)分析。

以上參數(shù)設(shè)置需要根據(jù)具體研究問題和數(shù)據(jù)特點進行調(diào)整和選擇。

2.2、熟知內(nèi)容

2.2.1、因子分析的變量度量類型

因子分析適用于連續(xù)型數(shù)據(jù),常用的度量類型包括:

  • 定距變量:如溫度、時間等,可進行加減運算,但沒有絕對零點。
  • 定比變量:如重量、長度等,具有絕對零點,可進行任何數(shù)學(xué)運算,包括乘除。
  • 順序變量:如評分、等級等,有順序關(guān)系但沒有固定的數(shù)值,通??蓪⑵滢D(zhuǎn)化為數(shù)值。
  • 名義變量:如性別、國籍等,表示分類,通??蓪⑵滢D(zhuǎn)化為虛擬變量。

選取合適的因子個數(shù)時,可以結(jié)合以下指標(biāo)進行考慮:

  1. 原始變量的解釋程度:因子數(shù)目越多,對原始變量的解釋程度越高。但也要避免因子解釋過多而過度擬合數(shù)據(jù)。
  2. 因子的簡潔性:應(yīng)選擇能夠較簡潔地解釋數(shù)據(jù)變異度的因子個數(shù)。
  3. 因子的穩(wěn)定性:應(yīng)選擇具有穩(wěn)定性的因子,即在多次分析中得到相似的因子結(jié)構(gòu).
  4. 因子的實際意義:應(yīng)選擇能夠反映真實情況的因子,可結(jié)合領(lǐng)域知識和理論背景進行解釋。
2.2.2、常用因子旋轉(zhuǎn)的方法

因子旋轉(zhuǎn)是因子分析中常用的一種方法,它可以幫助研究者更好地理解因子結(jié)構(gòu)。常用的因子旋轉(zhuǎn)方法包括:

  1. 方差最大旋轉(zhuǎn)法(Varimax Rotation):這種方法旋轉(zhuǎn)后的因子具有簡單結(jié)構(gòu),即每個因子上只有少量的高載荷變量,其他變量的載荷較低。
  2. 均方根最小旋轉(zhuǎn)法(Promax Rotation):這種方法旋轉(zhuǎn)后的因子可以具有更為復(fù)雜的結(jié)構(gòu),但是計算量較大。
  3. 等比例旋轉(zhuǎn)法(Equamax Rotation):這種方法旋轉(zhuǎn)后的因子具有中等的簡單結(jié)構(gòu),可以平衡Varimax和Promax旋轉(zhuǎn)法的優(yōu)缺點。
  4. 嶺回歸旋轉(zhuǎn)法(Ridge Regression Rotation):這種方法旋轉(zhuǎn)后的因子具有最小的共同因子方差,可以更好地解釋共同因子之間的相關(guān)性。

以上這些方法都可以用于因子旋轉(zhuǎn),具體使用哪種方法,需要根據(jù)具體研究問題和數(shù)據(jù)特點進行選擇。

3、回歸分析

【領(lǐng)會】
線性回歸的綜合應(yīng)用
【熟知】
明確線性回歸的 6 個經(jīng)典假設(shè)(線性模型、不存在共線性、殘差期望為 0(無內(nèi)生性)、同方差、正態(tài)性、隨機抽樣);
明確違反上述假設(shè)后出現(xiàn)的問題;
模型是否違反經(jīng)典假設(shè)的檢驗方法與模型糾正的方法;
獨立同分布的概念;
變量篩選方法;
離群值、指標(biāo)計算方法;
明晰橫截面和時間序列數(shù)據(jù)在回歸建模上的差異。
【應(yīng)用】
結(jié)合業(yè)務(wù)構(gòu)建回歸模型并且解釋回歸系數(shù)
根據(jù)業(yè)務(wù)場景與變量分布情況進行函數(shù)轉(zhuǎn)換
解釋變量為分類變量時的處理方法
區(qū)分預(yù)測性建模與解釋性建模的關(guān)系
使用結(jié)果進行新樣本預(yù)測
進行客戶價值分析的基本步驟與注意事項

3.1、領(lǐng)會內(nèi)容

3.1.1、線性回歸的綜合應(yīng)用

線性回歸是一種常見的機器學(xué)習(xí)算法,它可以被廣泛應(yīng)用于各種場景,例如:

  1. 房價預(yù)測:通過分析歷史房價數(shù)據(jù)和房屋特征(例如地理位置、房屋面積、房間數(shù)量等),可以建立一個線性回歸模型來預(yù)測未來房價。
  2. 銷售預(yù)測:通過分析歷史銷售數(shù)據(jù)和市場特征(例如經(jīng)濟情況、競爭對手?jǐn)?shù)量和市場份額等),可以建立一個線性回歸模型來預(yù)測未來銷售額。
  3. .財務(wù)預(yù)測:通過分析歷史財務(wù)數(shù)據(jù)和市場特征(例如利潤率、銷售額等),可以建立一個線性回歸模型來預(yù)測未來的財務(wù)表現(xiàn)。
  4. 醫(yī)療預(yù)測:通過分析患者的個人信息、病史和檢查結(jié)果等數(shù)據(jù),可以建立一個線性回歸模型來預(yù)測患者的疾病風(fēng)險和治療效果等。
  5. 交通預(yù)測:通過分析歷史交通數(shù)據(jù)和交通狀況(例如擁堵程度、交通信號燈狀況等),可以建立一個線性回歸模型來預(yù)測未來交通情況,從而幫助規(guī)劃交通路線和優(yōu)化交通流量。

綜上所述,線性回歸具有廣泛的應(yīng)用場景,通過不斷迭代和優(yōu)化模型,可以使其擁有更高的準(zhǔn)確率和預(yù)測能力。

3.2、熟知內(nèi)容

3.2.1、線性回歸
6 個經(jīng)典假設(shè):
  1. 線性模型假設(shè):線性回歸模型是基于假設(shè)因變量與自變量之間存在線性關(guān)系的。
  2. 不存在共線性(獨立性)假設(shè):自變量之間不存在高度相關(guān)性,即不存在共線性問題.
  3. 殘差期望為 0(無內(nèi)生性)假設(shè):模型的殘差項的期望值為 0,這意味著模型中的任何遺漏變量并不影響模型的預(yù)測能力,也就是說,沒有內(nèi)生性問題。
  4. 同方差假設(shè):對于任何給定的自變量值,殘差的方差相等,即殘差具有同方差性。
  5. 正態(tài)性假設(shè):殘差符合正態(tài)分布,即誤差是隨機的,不會呈現(xiàn)任何系統(tǒng)性的模式。
  6. 隨機抽樣假設(shè):觀測數(shù)據(jù)是從一個總體中隨機抽取的,即每個觀測值對于總體是獨立的。
違反上述假設(shè)后出現(xiàn)的問題:
  1. 線性性不滿足時,模型的預(yù)測效果會顯著降低
  2. 獨立性不滿足時,可能出現(xiàn)估計量偏差(即變量之間存在強相關(guān)性)。
  3. 均值為零不滿足時,模型的截距計算會出現(xiàn)偏差。
  4. 同方差性不滿足時,會出現(xiàn)異方差問題(即隨著自變量的變化,因變量的方差也會變化)。
  5. 正態(tài)性不滿足時,模型在進行假設(shè)檢驗和置信區(qū)間估計時會出現(xiàn)偏差。
  6. 同方向性不滿足時,模型的預(yù)測效果會顯著降低。
模型是否違反經(jīng)典假設(shè)的檢驗方法與模型糾正的方法:
  1. 線性性:可以通過圖示法F檢驗來檢驗,可以嘗試添加二次項或?qū)?shù)項來修正。
  2. 獨立性:可以通過相關(guān)系數(shù)矩陣方差膨脹因子來檢驗,可以嘗試通過主成分分析等方法來處理多重共線性。
  3. 均值為零:可以通過樣本平均值來檢驗,可以嘗試在模型中加入截距項來糾正。
  4. 同方差性:可以通過殘差圖Goldfeld-Quandt檢驗來檢驗,可以嘗試通過加權(quán)最小二乘法或使用泊松回歸等方法進行糾正。
  5. 正態(tài)性:可以通過正態(tài)概率圖殘差圖來檢驗,可以嘗試通過對數(shù)轉(zhuǎn)換Box-Cox變換來糾正。
  6. 同方向性:可以通過散點圖來初步檢驗,可以嘗試添加相反的自變量或進行交互項來糾正。
3.2.2、獨立同分布

獨立同分布是指對于兩個或更多的隨機變量,在它們之間不存在任何關(guān)聯(lián),且它們都來自同一種概率分布。

具體地說,如果存在兩個隨機變量X和Y,它們之間互不影響,也就是說,X的值的變化不會影響Y的概率分布,反之亦然,那么X和Y就是獨立的。

此外,如果X和Y都來自于同一種概率分布,這就說明它們具有相同的概率密度函數(shù)或概率質(zhì)量函數(shù),即它們是同分布的。因此,當(dāng)X和Y既是獨立的,又具有相同的概率分布時,它們就是獨立同分布的。

3.2.3、明晰橫截面和時間序列數(shù)據(jù)在回歸建模上的差異

橫截面數(shù)據(jù)是在同一時間點上對樣本進行的觀察,而時間序列數(shù)據(jù)是在一段時間內(nèi)對同一樣本進行的觀察。在回歸建模中,這兩種數(shù)據(jù)的差異表現(xiàn)在以下幾個方面:

類別 橫截面 時間序列數(shù)據(jù)
變量選擇 選擇樣本在同一時間點上的各項指標(biāo)作為解釋變量 考慮過去時間點的數(shù)據(jù)作為解釋變量,例如前一期的變量值等。
模型結(jié)構(gòu) 考慮獨立的觀察對象之間的關(guān)系 考慮時間維度上的相關(guān)性,并且需要考慮更復(fù)雜的模型結(jié)構(gòu),例如ARMA、ARIMA等。
數(shù)據(jù)平穩(wěn)性 無需考慮 需要考慮數(shù)據(jù)的平穩(wěn)性

總之,橫截面數(shù)據(jù)和時間序列數(shù)據(jù)在回歸建模上的差異主要表現(xiàn)在變量選擇、模型結(jié)構(gòu)和數(shù)據(jù)平穩(wěn)性三個方面。在真實的數(shù)據(jù)分析中,需要了解數(shù)據(jù)的特點,并使用適當(dāng)?shù)姆椒ㄟM行建模。

3.3、應(yīng)用內(nèi)容

3.3.1、分類變量

當(dāng)變量為分類變量時,處理方法通常包括以下幾個方面:

  1. 查看分類變量的取值范圍:分類變量通常包括不同的類別或者標(biāo)簽,需要先查看該變量的取值范圍,以便后續(xù)分析。
  2. 統(tǒng)計每個分類變量的頻數(shù)和頻率:對于分類變量,我們需要了解每個類別的頻數(shù)和頻率,以衡量每個類別在樣本中所占的比例??梢酝ㄟ^繪制頻率分布表、柱狀圖等方式來展示。
  3. 進行分類變量的編碼:在一些模型建立和分析中,需要使用分類變量進行分析,但是計算機往往不能直接處理分類變量,因此需要將其編碼成數(shù)字形式??梢圆捎脝∽兞烤幋a、標(biāo)簽編碼等方法。
  4. 進行分類變量的特征工程:當(dāng)變量為分類變量時,我們可以進行一些特征工程,例如對某些類別進行合并或刪除,以提高變量的區(qū)分度和預(yù)測能力。
  5. 分析分類變量與其他變量之間的關(guān)系:可以通過交叉分析、卡方檢驗等方法,來了解分類變量和其他變量之間的關(guān)系,進一步探索分類變量對預(yù)測目標(biāo)的影響。
3.3.2、區(qū)分預(yù)測性建模與解釋性建模的關(guān)系

預(yù)測性建模和解釋性建模是兩個不同的概念,但它們之間存在一定的聯(lián)系。

預(yù)測性建模通常是為了解決一個具體的問題預(yù)測未來的趨勢而創(chuàng)建的模型。例如,通過使用歷史銷售數(shù)據(jù)來預(yù)測未來的銷售額,或使用股票價格數(shù)據(jù)來預(yù)測未來的市場趨勢。預(yù)測性建模的目標(biāo)是創(chuàng)建一個高準(zhǔn)確性的模型,以便可以做出最佳的預(yù)測決策。

解釋性建模則旨在理解模型中的關(guān)鍵因素和變量之間的相互作用。這種建模通常被用于研究學(xué)術(shù)或科學(xué)問題,以及在政策制定和決策制定方面進行決策。解釋性建模的目標(biāo)是創(chuàng)建一個能夠清楚地解釋模型的結(jié)果和結(jié)論的模型,以便可以幫助人們更好地理解數(shù)據(jù)和現(xiàn)象。

雖然預(yù)測性建模和解釋性建模有不同的目標(biāo),但它們之間存在一定的聯(lián)系。預(yù)測性建模通常需要對數(shù)據(jù)進行深入分析,以了解數(shù)據(jù)中的模式和關(guān)系。這種分析通常需要使用解釋性建模的方法來解釋數(shù)據(jù)。同樣,解釋性建模通常需要將模型用于實際問題中,從而需要進行預(yù)測性建模來預(yù)測實際情況下的結(jié)果。

3.3.3、客戶價值分析

進行客戶價值分析的基本步驟與注意事項,如下內(nèi)容所述。

基本步驟:
  1. 定義研究目標(biāo):明確需要了解的問題和目標(biāo),例如客戶需求、滿意度、忠誠度等。
  2. 確定研究方法:根據(jù)研究目標(biāo),選擇適當(dāng)?shù)难芯糠椒?,例如問卷調(diào)查、深度訪談、焦點小組討論等。
  3. 客戶分群:將客戶根據(jù)行為、偏好、價值等因素劃分為不同的群體,以便更好地了解其需求和特點。
  4. 客戶細(xì)分:在每個客戶群體中進一步細(xì)分客戶,如購買頻率、消費金額、購買渠道等,以便更好地了解其需求和行為。
  5. 進行調(diào)查分析:通過調(diào)查和分析客戶數(shù)據(jù),了解客戶的需求、滿意度、期望等,發(fā)現(xiàn)客戶痛點和機會,為提高客戶價值提供依據(jù)。
  6. 制定客戶價值策略:根據(jù)客戶價值分析結(jié)果,制定相應(yīng)的策略,如提高服務(wù)質(zhì)量、增加產(chǎn)品種類、優(yōu)化營銷策略等,以提升客戶價值。
注意事項:
  1. 研究目標(biāo)要明確,研究方法要科學(xué)、有效。
  2. 客戶分群和細(xì)分要根據(jù)客戶行為和價值確定,且應(yīng)嚴(yán)格保密。
  3. 調(diào)查分析要保證數(shù)據(jù)可靠性和客觀性,避免因主觀因素而偏離實際情況。
  4. 制定策略時要有重點、有針對性,充分考慮客戶需求和市場環(huán)境。
  5. 在實施方案時,要注意跟蹤和評估效果,及時調(diào)整策略和方法。

4、分類分析

【領(lǐng)會】
卡方檢驗計算公式
二分類邏輯回歸的計算公式
【熟知】
分類變量是否存在相關(guān)關(guān)系的描述方法和檢驗方法,涉及列聯(lián)表分析、卡方檢驗 似
然比與 Logit 轉(zhuǎn)換
二分類邏輯回歸模型構(gòu)建與變量篩選
模型評估的方法,涉及混淆矩陣、ROC 曲線
【應(yīng)用】
結(jié)合業(yè)務(wù)構(gòu)建回歸模型并且解釋回歸系數(shù)
根據(jù)業(yè)務(wù)場景與變量分布情況進行函數(shù)轉(zhuǎn)換
使用結(jié)果進行新樣本預(yù)測
邏輯回歸與多元線性回歸模型的結(jié)合應(yīng)用
進行客戶流失預(yù)測、信用評級、精準(zhǔn)營銷等模型的基本步驟與注意事項

4.1、領(lǐng)會內(nèi)容

4.1.1、卡方檢驗計算公式

卡方檢驗的計算公式如下:

X2 = Σ [ (Oi - Ei)2 / Ei ]

其中, X2為卡方值; Oi為實際觀察值; Ei為期望值,由樣本數(shù)據(jù)計算而來; Σ為求和符號。

4.1.2、二分類邏輯回歸的計算公式

二分類邏輯回歸模型的數(shù)學(xué)表達(dá)式為:

h θ ( x ) = g ( θ T x ) = 1 1 + e ? θ T x h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}} hθ?(x)=g(θTx)=1+e?θTx1?

其中, h θ ( x ) h_\theta(x) hθ?(x) 表示預(yù)測的概率, g ( z ) g(z) g(z) 是邏輯函數(shù)(也稱為sigmoid函數(shù)), x x x 是輸入特征向量, θ \theta θ 是模型參數(shù)向量。

預(yù)測結(jié)果為正類的概率可以通過將 h θ ( x ) h_\theta(x) hθ?(x) 帶入閾值函數(shù)進行判斷,如:

y = { 1 , h θ ( x ) ≥ 0.5 ? 0 , h θ ( x ) < 0.5 y = \begin{cases} 1, & h_\theta(x) \geq 0.5 \ 0, & h_\theta(x) < 0.5 \end{cases} y={1,?hθ?(x)0.5?0,?hθ?(x)<0.5?

模型的目標(biāo)是最大化訓(xùn)練數(shù)據(jù)的似然函數(shù),即:

L ( θ ) = ∏ i = 1 m h θ ( x ( i ) ) y ( i ) ( 1 ? h θ ( x ( i ) ) ) 1 ? y ( i ) L(\theta) = \prod_{i=1}^m h_\theta(x^{(i)})^{y^{(i)}} (1 - h_\theta(x^{(i)}))^{1-y^{(i)}} L(θ)=i=1m?hθ?(x(i))y(i)(1?hθ?(x(i)))1?y(i)

為了方便求解,通常采用對數(shù)似然函數(shù)來代替似然函數(shù),即:

l ( θ ) = log ? L ( θ ) = ∑ i = 1 m [ y ( i ) log ? h θ ( x ( i ) ) + ( 1 ? y ( i ) ) log ? ( 1 ? h θ ( x ( i ) ) ) ] l(\theta) = \log L(\theta) = \sum_{i=1}^m [y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1 - h_\theta(x^{(i)})) ] l(θ)=logL(θ)=i=1m?[y(i)loghθ?(x(i))+(1?y(i))log(1?hθ?(x(i)))]

模型的目標(biāo)就是最小化對數(shù)似然函數(shù)的負(fù)值,即:

J ( θ ) = ? 1 m ∑ i = 1 m [ y ( i ) log ? h θ ( x ( i ) ) + ( 1 ? y ( i ) ) log ? ( 1 ? h θ ( x ( i ) ) ) ] J(\theta) = -\frac{1}{m} \sum_{i=1}^m [y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1 - h_\theta(x^{(i)})) ] J(θ)=?m1?i=1m?[y(i)loghθ?(x(i))+(1?y(i))log(1?hθ?(x(i)))]

模型訓(xùn)練的過程就是通過梯度下降等優(yōu)化算法,求解 θ \theta θ 使得 J ( θ ) J(\theta) J(θ) 取得最小值。

4.2、熟知內(nèi)容

4.2.1、分類變量

分類變量之間存在相關(guān)關(guān)系是統(tǒng)計學(xué)分析中一個重要的問題。描述和檢驗方法如下:

列聯(lián)表分析

列聯(lián)表是將兩個或多個分類變量的頻數(shù)匯總到一個表格中,用于研究它們之間的關(guān)系。通過觀察列聯(lián)表中各類別的頻數(shù)和頻率,可以初步判斷兩個變量是否存在相關(guān)關(guān)系。

例如,假設(shè)我們要研究某地區(qū)男女性別和是否抽煙的關(guān)系,可以按照性別和抽煙與否兩個變量分別建立一張列聯(lián)表,并計算出各類別的頻數(shù)(或頻率),如下所示:

類別 抽煙 不抽煙 總計
男性 150 50 200
女性 80 120 200
總計 230 170 400

通過觀察上表可以看出,男性中抽煙比例高于女性,男性中不抽煙比例低于女性,因此可能存在男女性別和是否抽煙的相關(guān)關(guān)系。

卡方檢驗

卡方檢驗是檢驗兩個或多個分類變量之間是否存在相關(guān)關(guān)系的常用方法。它的原理是通過比較觀察值和期望值之間的差異,判斷樣本數(shù)據(jù)是否與假設(shè)模型一致。

對于兩個分類變量的列聯(lián)表,可以利用卡方檢驗來檢驗它們之間的相關(guān)性??ǚ綑z驗的步驟如下:

  1. 建立假設(shè)
    H0:兩個變量之間不相關(guān)。
    H1:兩個變量之間存在相關(guān)關(guān)系。
  2. 計算期望頻數(shù)根據(jù)假設(shè)模型和樣本數(shù)據(jù),計算出每個單元格的期望頻數(shù)。
  3. 計算卡方值
    將觀察頻數(shù)和期望頻數(shù)的差值平方,除以期望頻數(shù),得到每個單元格的卡方值。將所有單元格的卡方值相加,得到總的卡方值。
  4. 計算自由度
    自由度的計算方法是:自由度 = (行數(shù)-1)*(列數(shù)-1)。
  5. 查表得出顯著性水平
    根據(jù)自由度和顯著性水平查找卡方分布表,得到卡方值的臨界值。
  6. 比較卡方值和臨界值
    如果卡方值大于臨界值,則拒絕原假設(shè),認(rèn)為兩個變量之間存在相關(guān)關(guān)系;否則接受原假設(shè),認(rèn)為兩個變量之間不相關(guān)。

例如,在上述例子中,可以用卡方檢驗來檢驗?zāi)信詣e和是否抽煙的相關(guān)性。得到卡方值為3.97,自由度為1,顯著性水平為0.05時,卡方分布表上的臨界值為3.84。因此,卡方值大于臨界值,可以拒絕原假設(shè),認(rèn)為男女性別和是否抽煙之間存在相關(guān)關(guān)系。

4.2.2、似然比與 Logit 轉(zhuǎn)換
4.2.3、二分類邏輯回歸模型構(gòu)建與變量篩選

二元邏輯回歸是一種常用的分類問題解決方法,主要應(yīng)用于輸出二分類結(jié)果,例如判斷某個人是否生病或是否購買某個商品等。它基于邏輯函數(shù),可以將輸入的特征映射為概率輸出,并根據(jù)閾值進行分類預(yù)測。

構(gòu)建二元邏輯回歸模型的步驟如下:

  • 收集數(shù)據(jù)集并進行預(yù)處理,包括缺失值處理、異常值處理和特征歸一化等。
  • 將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,通常采用隨機劃分的方式。
  • 選擇適當(dāng)?shù)奶卣?,并對特征進行編碼,例如采用獨熱編碼或二進制編碼等方式。
  • 建立邏輯回歸模型,即構(gòu)建邏輯函數(shù)和損失函數(shù),并使用訓(xùn)練數(shù)據(jù)集進行模型訓(xùn)練。常用的優(yōu)化算法包括梯度下降法、牛頓法和擬牛頓法等。
  • 使用測試數(shù)據(jù)集對模型進行評估,包括計算準(zhǔn)確率、召回率、精度和F1值等指標(biāo)。

變量篩選是構(gòu)建邏輯回歸模型的重要步驟,主要有以下幾種方法:

  • 相關(guān)性分析:通過計算特征與結(jié)果變量之間的相關(guān)性系數(shù),篩選出與結(jié)果變量相關(guān)性較強的特征。
  • 嵌入式方法:將特征選擇嵌入到模型訓(xùn)練過程中,例如使用L1正則化或L2正則化約束模型參數(shù),從而選擇重要的特征。
  • 包裹式方法:將特征選擇看成一個搜索問題,通過迭代地添加或刪除特征來選擇最佳的特征集合。
  • 過濾式方法:通過計算特征與結(jié)果變量之間的統(tǒng)計指標(biāo)來評估特征的重要性,例如卡方檢驗、互信息、F檢驗等,從而選擇重要的特征。
4.2.4、模型評估的方法

模型評估是評估一個機器學(xué)習(xí)模型在訓(xùn)練和測試數(shù)據(jù)上的表現(xiàn)。一些常見的評估方法如下:

混淆矩陣:是一種矩陣,用于可視化模型的性能。它包含四個指標(biāo):真陽性(true positive, TP)、真陰性(true negative, TN)、假陽性(false positive, FP)和假陰性(false negative, FN)。這個指標(biāo)矩陣可用于評估二分類問題的模型性能,例如在醫(yī)學(xué)領(lǐng)域中,應(yīng)用到腫瘤診斷。

ROC 曲線:是一種繪制真陽性率 (TPR) 和假陽性率 (FPR)之間關(guān)系的圖形。真陽性率是指被正確分類為真實正類的樣本占所有真實正類樣本的比例,假陽性率是指被錯誤分類為正類的負(fù)類樣本占所有負(fù)類樣本的比例。通過繪制 ROC 曲線,我們可以評估模型的性能,例如,ROC 曲線下方的面積 AUC(Area Under the Curve)可以用于比較不同分類器的性能。

準(zhǔn)確率、精確率和召回率:是用于評估分類模型性能的指標(biāo)。準(zhǔn)確率表示被正確分類的樣本所占比例,精確率衡量預(yù)測為正類的樣本中有多少實際上是真正的正類,召回率衡量真正正類中有多少被預(yù)測為正類。這三個指標(biāo)可以一起使用,以評估模型的分類能力,以及權(quán)衡假陽性和假陰性的風(fēng)險。

5、聚類分析

【領(lǐng)會】
多種聚類算法的特點;
迭代的概念與實現(xiàn)。
【熟知】
聚類方法的基本邏輯;
距離的計算;
系統(tǒng)聚類和 K-Means 聚類的基本算法和優(yōu)缺點;
系統(tǒng)聚類的計算步驟,包括兩點距離、兩類合并的計算方法;
系統(tǒng)聚類法中選擇最優(yōu)聚類數(shù)量的方法;
K-Means 聚類的基本算法;
聚類分析變量標(biāo)準(zhǔn)化的原因和計算方法;
變量需要進行主成分分析的原因;
變量進行函數(shù)轉(zhuǎn)化的原因和計算方法。
【應(yīng)用】
結(jié)合客戶畫像、客戶細(xì)分、商品聚類、離群值檢驗(欺詐、反洗錢)等業(yè)務(wù)運用場景, 選取合適的聚類方法與步驟。
聚類事后分析,根據(jù)聚類后變量分布情況獲取每類的特征。

5.1、領(lǐng)會內(nèi)容

5.1.1、多種聚類算法的特點

聚類算法是無監(jiān)督學(xué)習(xí)中最常用的方法之一,它的目標(biāo)是將數(shù)據(jù)集劃分為若干個不同的組或簇。不同的聚類算法基于不同的假設(shè)和方法,因此具有不同的特點。以下是常見聚類算法的特點.

聚類算法 特點
K均值聚類 一種基于距離度量的聚類算法,通過將數(shù)據(jù)點分配到最近的k個簇中,來構(gòu)建簇。該算法的優(yōu)點是簡單易懂,計算速度快,適用于大規(guī)模數(shù)據(jù)集。但是,該算法對初始簇中心的選擇非常敏感,可能會收斂到局部最優(yōu)解。
層次聚類 一種逐步合并或分裂簇的算法,形成一個層次結(jié)構(gòu)??梢赃x擇自底向上(聚合)或自頂向下(分裂)地構(gòu)建層次結(jié)構(gòu)。該算法的優(yōu)點是可以生成不同的簇數(shù),不需要預(yù)先指定聚類數(shù),同時可以看到層次結(jié)構(gòu)。但是,該算法對于大規(guī)模數(shù)據(jù)集的計算開銷較大,同時合并或分裂決策可能會導(dǎo)致局部最優(yōu)解。
密度聚類 一種基于樣本間密度的聚類算法,通過尋找高密度區(qū)域來確定簇。該算法特別適合于處理具有不同密度和形狀的簇。但是,該算法對于噪聲和維數(shù)災(zāi)難的數(shù)據(jù)集容易出現(xiàn)偏差,且需要手動指定密度閾值和鄰域大小等參數(shù)。
譜聚類 是一種基于圖論的聚類算法,通過計算樣本的拉普拉斯矩陣,將數(shù)據(jù)投影到低維空間,然后使用其他聚類方法來劃分簇。該算法可以處理非線性可分的數(shù)據(jù),且對噪聲具有一定的魯棒性。但是,該算法有較高的計算復(fù)雜度,并且需要進行特定的特征變換和簇數(shù)的選擇。
DBSCAN聚類 一種基于密度的聚類算法,它通過將樣本點分為核心點、邊界點和噪聲點,來確定簇。該算法可以自動確定簇的數(shù)量,且對噪聲和密度變化敏感。但是,該算法對于高維數(shù)據(jù)和不同密度的數(shù)據(jù)集可能會失效,并且需要手動調(diào)整參數(shù)。

綜上所述,不同的聚類算法有不同的適用場景和特點,需要根據(jù)數(shù)據(jù)的特點和需求來選擇合適的聚類算法。

5.1.2、迭代的概念與實現(xiàn)

迭代是指重復(fù)執(zhí)行一定的操作來逐步接近所需結(jié)果的過程。在編程中,迭代通常用于處理數(shù)據(jù)集合中的每個元素,或在循環(huán)中重復(fù)執(zhí)行某些操作。迭代的實現(xiàn)方式有很多種,以下是其中幾種常見的方式:

  • for循環(huán):for循環(huán)是一種非常常見的迭代方式。for循環(huán)通常用于遍歷數(shù)組、列表等數(shù)據(jù)結(jié)構(gòu)中的每個元素,并對每個元素執(zhí)行一定的操作。
  • while循環(huán):while循環(huán)也可以用來實現(xiàn)迭代。while循環(huán)通常用于在滿足某個條件時重復(fù)執(zhí)行一些操作,直到條件不再滿足。
  • 迭代器:迭代器是一種用于遍歷數(shù)據(jù)集合的對象。迭代器提供了next()方法,用于返回下一個元素,直到所有元素遍歷完畢。
  • 遞歸:遞歸是一種通過重復(fù)調(diào)用函數(shù)來實現(xiàn)迭代的方式。遞歸通常用于處理樹形結(jié)構(gòu)等復(fù)雜數(shù)據(jù)結(jié)構(gòu),逐層遍歷節(jié)點并對每個節(jié)點進行操作。

以上是幾種常見的迭代實現(xiàn)方式,每種方式都有自己的特點和適用場景。在實際編程中,應(yīng)根據(jù)具體情況選擇最合適的迭代方式。

5.2、熟知內(nèi)容

5.2.1、聚類方法的基本邏輯

聚類方法的基本邏輯是將數(shù)據(jù)集中的對象劃分成多個類別或簇,使得同一類內(nèi)的對象相似度盡可能高,不同類間的對象相似度盡可能低。聚類方法的目的是找到數(shù)據(jù)中的潛在結(jié)構(gòu)模式和分類規(guī)律,以便對數(shù)據(jù)進行分析和應(yīng)用。

5.2.2、聚類的距離計算

在聚類中,距離計算是用來衡量兩個樣本之間的相似程度的方法。通常情況下,距離計算方法應(yīng)該是對稱的(即d(x,y) = d(y,x)),非負(fù)的(即d(x,y) >= 0),并且d(x,y) = 0當(dāng)且僅當(dāng)x = y。

以下是幾種常用的距離計算方法:

歐幾里得距離:歐幾里得距離是空間中兩點之間的距離,也稱為 L 2 L_2 L2?距離。假設(shè)有兩個向量 x x x y y y,它們的歐幾里得距離為:
d ( x , y ) = ∑ i = 1 n ( x i ? y i ) 2 d(x,y) = \sqrt{\sum_{i=1}^{n}(x_i-y_i)^2} d(x,y)=i=1n?(xi??yi?)2 ?

曼哈頓距離:曼哈頓距離也稱為 L 1 L_1 L1?距離,是指在二維平面上兩點之間的距離,與從一個十字路口到另一個十字路口的距離相同。假設(shè)有兩個向量 x x x y y y,它們的曼哈頓距離為:
d ( x , y ) = ∑ i = 1 n ∣ x i ? y i ∣ d(x,y) = \sum_{i=1}^{n}|x_i-y_i| d(x,y)=i=1n?xi??yi?

閔可夫斯基距離:閔可夫斯基距離是歐幾里得距離和曼哈頓距離的一般化。假設(shè)有兩個向量 x x x y y y,它們的閔可夫斯基距離為:
d ( x , y ) = ( ∑ i = 1 n ∣ x i ? y i ∣ p ) 1 p d(x,y) = (\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac{1}{p}} d(x,y)=(i=1n?xi??yi?p)p1?

其中 p p p是一個可調(diào)整的參數(shù),通常為2。

切比雪夫距離:切比雪夫距離也稱為 L ∞ L_\infty L?距離,是指兩個向量在各維度上數(shù)值差的最大值。假設(shè)有兩個向量 x x x y y y,它們的切比雪夫距離為:
d ( x , y ) = max ? i = 1 n ∣ x i ? y i ∣ d(x,y) = \max_{i=1}^{n}|x_i-y_i| d(x,y)=i=1maxn?xi??yi?

在聚類算法中,距離計算方法的選擇取決于數(shù)據(jù)的性質(zhì)和算法的需求。

5.2.3、系統(tǒng)聚類和 K-Means 聚類的基本算法和優(yōu)缺點
類別 系統(tǒng)聚類 K-Means 聚類
概念 一種基于樹狀結(jié)構(gòu)的聚類方法,可以分為自上而下的聚合(Agglomerative)和自下而上的分裂(Divisive)兩種方式 一種基于距離度量的非層次聚類方法
算法步驟 1,初始化,將每個數(shù)據(jù)點看作一個簇。2,計算任意兩個簇之間的相似度或距離,用距離作為相似度度量的話,距離越小,相似度越高。3,找到距離最近的兩個簇,將它們合并為一個新的簇。4,重復(fù)步驟2和3,直到簇的個數(shù)達(dá)到預(yù)設(shè)的閾值或者只剩下一個簇。 1,初始化,隨機選擇 K 個數(shù)據(jù)點作為初始聚類中心。2,將每個數(shù)據(jù)點分配到與其距離最近的聚類中心所在的簇中。3,重新計算每個簇的質(zhì)心(即平均值),作為新的聚類中心。4,重復(fù)步驟2和3,直到簇的中心不再變化或達(dá)到預(yù)設(shè)的迭代次數(shù)。
優(yōu)點 1,不需要預(yù)設(shè)簇的數(shù)量,可以根據(jù)不同的相似度閾值得到不同數(shù)量的簇。2,可以可視化地表示出不同層次的聚類結(jié)果,對數(shù)據(jù)有良好解釋性和可理解性。3,可以處理不同類型和形態(tài)的數(shù)據(jù),包括數(shù)值型、標(biāo)稱型、序數(shù)型等。 1,計算量相對較小,速度快。2,能夠處理大規(guī)模數(shù)據(jù)集。3,通常表現(xiàn)較好的處理數(shù)值型數(shù)據(jù)。
缺點 1,對于大規(guī)模數(shù)據(jù)集,計算任意兩個簇之間的相似度或距離的時間復(fù)雜度較高,計算量大。2,對噪聲和異常值敏感。3,由于是貪心算法,容易陷入局部最優(yōu)解。 1,需要預(yù)設(shè)聚類的個數(shù) K。2,對于不同密度和不同大小的簇效果不佳。3,對于不是凸形的簇,表現(xiàn)不如基于密度的聚類算法。
5.2.4、系統(tǒng)聚類法中選擇最優(yōu)聚類數(shù)量的方法

在系統(tǒng)聚類法中,選擇最優(yōu)聚類數(shù)量的方法包括以下幾種:

聚類平均簇內(nèi)距離法(Ward’s method):該方法通過計算每個聚類的凝聚度,即聚類內(nèi)各點與聚類中心的距離平方和,來評估不同數(shù)量的聚類效果,選擇使平均簇內(nèi)距離增幅最小的聚類數(shù)量作為最優(yōu)聚類數(shù)。

輪廓系數(shù)法(Silhouette method):該方法通過計算每個數(shù)據(jù)點的輪廓系數(shù),即該點與其所屬聚類內(nèi)其他點的平均距離,與該點與距離最近聚類內(nèi)其他點的平均距離之差的比值,來評估不同數(shù)量的聚類效果,選擇輪廓系數(shù)達(dá)到最大值時的聚類數(shù)量作為最優(yōu)聚類數(shù)。

間隔統(tǒng)計量法(Gap statistic method):該方法通過生成一組隨機數(shù)據(jù)集并計算其與原始數(shù)據(jù)集的聚類效果之間的差異,來評估不同數(shù)量的聚類效果,選擇使間隔統(tǒng)計量達(dá)到最大值時的聚類數(shù)量作為最優(yōu)聚類數(shù)。

直觀分析法:該方法通過觀察聚類圖像,判斷聚類數(shù)量增加時每個聚類之間的區(qū)別是否足夠明顯,對聚類效果進行直觀分析來選擇最優(yōu)聚類數(shù)。

5.2.5、聚類分析變量標(biāo)準(zhǔn)化的原因和計算方法

聚類分析需要對不同變量之間的距離進行度量,而不同變量之間的度量單位不同,可能會導(dǎo)致距離度量的偏差。為了消除偏差,需要進行變量標(biāo)準(zhǔn)化。

變量標(biāo)準(zhǔn)化的計算方法有以下兩種:

Z-score標(biāo)準(zhǔn)化方法:將變量的原始值轉(zhuǎn)化為其標(biāo)準(zhǔn)分?jǐn)?shù),即將各變量的值減去該變量所有數(shù)據(jù)的均值,再除以該變量所有數(shù)據(jù)的標(biāo)準(zhǔn)差,即
z i = x i ? x ˉ s z_i=\frac{x_i-\bar{x}}{s} zi?=sxi??xˉ?

其中, z i z_i zi?表示變量 i i i的標(biāo)準(zhǔn)分?jǐn)?shù), x i x_i xi?表示變量 i i i的原始值, x ˉ \bar{x} xˉ表示變量 i i i所有數(shù)據(jù)的均值, s s s表示變量 i i i所有數(shù)據(jù)的標(biāo)準(zhǔn)差。

Min-max標(biāo)準(zhǔn)化方法:將變量的原始值轉(zhuǎn)化為0~1之間的數(shù)值,即將各變量的值減去該變量所有數(shù)據(jù)的最小值,再除以該變量所有數(shù)據(jù)的最大值與最小值之差,即
x i ′ = x i ? x m i n x m a x ? x m i n x_i'=\frac{x_i-x_{min}}{x_{max}-x_{min}} xi?=xmax??xmin?xi??xmin??

其中, x i ′ x_i' xi?表示變量 i i i的標(biāo)準(zhǔn)化值, x i x_i xi?表示變量 i i i的原始值, x m i n x_{min} xmin?表示變量 i i i所有數(shù)據(jù)的最小值, x m a x x_{max} xmax?表示變量 i i i所有數(shù)據(jù)的最大值。

無論使用哪種標(biāo)準(zhǔn)化方法,都能夠消除不同變量之間的度量單位差異,使得聚類分析的結(jié)果更加準(zhǔn)確。

5.2.6、變量需要進行主成分分析的原因

變量需要進行主成分分析的原因是在實際問題中,可能存在許多相關(guān)變量,它們會造成冗余信息和多重共線性問題,導(dǎo)致模型的不穩(wěn)定性和誤差增加。而主成分分析可以將這些相關(guān)變量轉(zhuǎn)化為少數(shù)幾個無關(guān)的綜合變量,從而降低變量的維度和冗余信息,提高模型的精度和效率,更好地解決實際問題。同時,主成分分析還可以幫助理解數(shù)據(jù)的結(jié)構(gòu)和變量之間的關(guān)系,有助于探索變量之間的內(nèi)在聯(lián)系和發(fā)現(xiàn)隱藏的模式,對于數(shù)據(jù)挖掘和特征提取等領(lǐng)域有著重要的應(yīng)用價值。

5.2.7、變量進行函數(shù)轉(zhuǎn)化的原因和計算方法

變量進行函數(shù)轉(zhuǎn)化的主要原因是為了方便計算和描述。將變量進行函數(shù)轉(zhuǎn)化可以讓我們更加清晰地了解變量的變化規(guī)律和特性,也可以使得計算過程更加簡便和高效。

計算方法主要分為以下兩個步驟:

  1. 將變量轉(zhuǎn)化為符合函數(shù)形式的表達(dá)式,即將變量表示為自變量和因變量之間的關(guān)系式,例如:
    通過線性變換將變量x轉(zhuǎn)化為y,y=ax+b
    通過指數(shù)函數(shù)將變量x轉(zhuǎn)化為y,y=a^x
    通過對數(shù)函數(shù)將變量x轉(zhuǎn)化為y,y=log_a(x)
  2. 使用所得到的函數(shù)式進行計算,即將自變量代入函數(shù)中求出因變量的值。例如,如果要求線性變換y=ax+b在x=2時的因變量值,可以將x=2代入函數(shù),得到y(tǒng)=a*2+b的結(jié)果。

6、時間序列

【領(lǐng)會】
明確趨勢分解法、ARIMA 方法、時間序列回歸方法的差異和適用場景;
明確 ARIMA 方法的計算方法;
【熟知】
趨勢分解法,涉及乘法模型、加法模型、ARIMA 方法的具體步驟;
時間序列回歸的方法
【應(yīng)用】
結(jié)合業(yè)務(wù)(業(yè)績預(yù)測、預(yù)警),選取合適的分析方法;
進行業(yè)務(wù)時間序列預(yù)測等模型的基本步驟與注意事項。

6.1、領(lǐng)會內(nèi)容

6.1.1、趨勢分解法&ARIMA 方法&時間序列回歸方法

趨勢分解法、ARIMA 方法、時間序列回歸方法是時間序列分析中常用的三種方法,它們分別具有不同的特點和適用場景。

趨勢分解法:將一個時間序列分解為趨勢、季節(jié)性和隨機波動三個部分,以便更好地理解其性質(zhì)和特征。該方法適用于周期性變化、趨勢變化和季節(jié)性變化較為明顯的時間序列,例如自然災(zāi)害、經(jīng)濟周期等。

ARIMA 方法:自回歸移動平均模型,是一種廣泛應(yīng)用于時間序列分析的方法。該方法主要適用于非常規(guī)時間序列,如具有長期趨勢和季節(jié)性變化等特征的時間序列。其適用條件包括時間序列平穩(wěn)性、自相關(guān)性和偏自相關(guān)性等方面的要求。

時間序列回歸方法:將時間序列與其他相關(guān)變量進行回歸分析,以確定兩者之間的關(guān)系,并進行預(yù)測。它主要適用于分析時間序列與其他變量之間的相關(guān)性,如銷售額與廣告投入、氣溫與能源消耗等。

總之,選擇合適的方法進行時間序列分析需要根據(jù)具體的數(shù)據(jù)和問題來確定。趨勢分解法適用于周期性、趨勢性和季節(jié)性變化較為明顯的時間序列,ARIMA 方法適用于非常規(guī)時間序列,時間序列回歸方法適用于分析時間序列與其他變量之間的相關(guān)性。

6.1.2、 ARIMA 方法的計算方法

ARIMA (AutoRegressive Integrated Moving Average) 是一種用于時間序列預(yù)測的方法,其計算方法如下:

  1. 觀察時間序列的趨勢和季節(jié)性,并進行差分,使其變成平穩(wěn)時間序列。
  2. 確定 ARIMA 模型的參數(shù) p、q、d:
    p 是自回歸項的階數(shù),表示之前的 p 個時間步長的數(shù)據(jù)對當(dāng)前時間步長的影響;
    q 是移動平均項的階數(shù),表示之前的 q 個時間步長的噪聲對當(dāng)前時間步長的影響;
    d 是差分次數(shù),表示將時間序列進行差分的次數(shù)。
  3. 使用樣本數(shù)據(jù)訓(xùn)練 ARIMA 模型,并進行模型檢驗和參數(shù)調(diào)整。
  4. 使用訓(xùn)練好的 ARIMA 模型進行預(yù)測。對于每個時間步長,使用之前的 p 個時間步長的數(shù)據(jù)和之前的 q 個時間步長的誤差來生成預(yù)測。
  5. 對于每個預(yù)測結(jié)果,使用置信區(qū)間來評估預(yù)測的精度。如果置信區(qū)間與實際觀測值重疊,則認(rèn)為預(yù)測結(jié)果可信。

需要注意的是,在實際應(yīng)用中,ARIMA 方法的計算可能比較復(fù)雜,需要結(jié)合實際場景和數(shù)據(jù)進行調(diào)優(yōu)和優(yōu)化。

6.2、熟知內(nèi)容

6.2.1、趨勢分解法具體步驟

**勢分解法(Trend Decomposition Method)**可以將時間序列分解為趨勢、季節(jié)性、循環(huán)和隨機四個部分,提取出時間序列的各種特征,是時間序列分析中常用的方法之一。趨勢分解法包括乘法模型、加法模型和ARIMA(自回歸(AR)綜合移動平均(IMA))方法,下面是它們的具體步驟:

  1. 乘法模型 乘法模型將時間序列分解為趨勢、季節(jié)性、循環(huán)和隨機四個部分,其公式為: y(t) = T(t) * S(t) * C(t) * E(t) 其中,y(t)為時間序列,T(t)為趨勢,S(t)為季節(jié)性,C(t)為循環(huán),E(t)為隨機誤差。
    乘法模型的具體步驟如下:
    (1)對原始時間序列進行對數(shù)轉(zhuǎn)換,轉(zhuǎn)化為線性關(guān)系。
    (2)對轉(zhuǎn)換后的序列進行平滑處理,例如移動平均法或指數(shù)平滑法。
    (3)計算季節(jié)性指數(shù),將序列分解為趨勢和季節(jié)性兩部分。
    (4)對季節(jié)性指數(shù)進行平滑處理,例如移動平均法或指數(shù)平滑法。
    (5)計算循環(huán)指數(shù),將序列分解為趨勢、季節(jié)性和循環(huán)三部分。
    (6)對循環(huán)指數(shù)進行平滑處理,例如移動平均法或指數(shù)平滑法。
    (7)將趨勢、季節(jié)性、循環(huán)指數(shù)和隨機誤差相乘,得到原始時間序列。
  2. 加法模型 加法模型將時間序列分解為趨勢、季節(jié)性、循環(huán)和隨機四個部分,其公式為: y(t) = T(t) + S(t) + C(t) + E(t) 其中,y(t)為時間序列,T(t)為趨勢,S(t)為季節(jié)性,C(t)為循環(huán),E(t)為隨機誤差。
    加法模型的具體步驟如下:
    (1)對原始時間序列進行平滑處理,例如移動平均法或指數(shù)平滑法。
    (2)計算季節(jié)性指數(shù),將序列分解為趨勢和季節(jié)性兩部分。
    (3)對季節(jié)性指數(shù)進行平滑處理,例如移動平均法或指數(shù)平滑法。
    (4)計算循環(huán)指數(shù),將序列分解為趨勢、季節(jié)性和循環(huán)三部分。
    (5)對循環(huán)指數(shù)進行平滑處理,例如移動平均法或指數(shù)平滑法。
    (6)將趨勢、季節(jié)性、循環(huán)指數(shù)和隨機誤差相加,得到原始時間序列。
  3. ARIMA 方法 ARIMA 方法是一種基于自回歸(AR)綜合移動平均(IMA)的時間序列模型,可以用于預(yù)測和分解時間序列的趨勢和季節(jié)性。
    ARIMA 方法的具體步驟如下:
    (1)進行時間序列分解,提取趨勢和季節(jié)性。
    (2)對分解后的殘差進行自回歸(AR)建模。
    (3)對自回歸建模得到的殘差進行移動平均(MA)建模。
    (4)通過AR和MA的參數(shù)建立ARIMA模型,預(yù)測未來時間序列值。
    (5)將預(yù)測的趨勢和季節(jié)性加回去,得到完整的預(yù)測結(jié)果。
6.2.2、時間序列回歸方法

時間序列回歸是一種基于時間序列數(shù)據(jù)的回歸分析方法,它將時間作為一個自變量或者是一個特征來預(yù)測目標(biāo)變量的值。下面介紹幾種常見的時間序列回歸方法:

  • 線性回歸:基于線性關(guān)系建立的回歸模型,可以用來預(yù)測目標(biāo)變量在時間上的變化趨勢。
  • ARIMA模型:ARIMA是一種廣泛使用的時間序列建模方法,它基于自回歸(AR)和移動平均(MA)的概念,可以分離出時間序列中的趨勢、季節(jié)性和隨機性成分。
  • Prophet模型:由Facebook開發(fā)的一種強大的預(yù)測框架,針對具有時間趨勢、季節(jié)性和節(jié)假日等復(fù)雜模式的時間序列數(shù)據(jù)進行建模,能夠在預(yù)測需求、銷售和其他趨勢時提高準(zhǔn)確度。
  • LSTM模型:LSTM是一種遞歸神經(jīng)網(wǎng)絡(luò)模型,能夠更好地處理時間序列數(shù)據(jù)中的長期依賴關(guān)系,適合處理非線性的時間序列數(shù)據(jù)。

以上方法在實際應(yīng)用中選擇的因素主要包括數(shù)據(jù)的性質(zhì)、數(shù)據(jù)量、預(yù)測精度要求等因素,需要根據(jù)具體情況進行選擇。

6.3、應(yīng)用內(nèi)容

6.3.1、進行業(yè)務(wù)時間序列預(yù)測等模型的基本步驟與注意事項

進行業(yè)務(wù)時間序列預(yù)測模型的基本步驟如下:

  1. 數(shù)據(jù)收集:收集所需的歷史時間序列數(shù)據(jù),包括每個時間點的相關(guān)指標(biāo)。
  2. 數(shù)據(jù)探索:通過可視化和統(tǒng)計方法探索數(shù)據(jù),并發(fā)現(xiàn)可能的趨勢、周期性和異常值。
  3. 數(shù)據(jù)預(yù)處理:清洗數(shù)據(jù)、平滑、差分、縮放數(shù)據(jù),以便更好地擬合模型。
  4. 模型選擇:根據(jù)數(shù)據(jù)的特點選擇合適的模型,如ARIMA、ETS、Prophet等。
  5. 模型訓(xùn)練:使用歷史數(shù)據(jù)對所選模型進行訓(xùn)練,并對模型進行參數(shù)調(diào)整。
  6. 模型評估:使用評估指標(biāo)(如均方誤差、平均絕對誤差等)對訓(xùn)練好的模型進行評估。
  7. 模型應(yīng)用:使用訓(xùn)練好的模型進行未來時間的預(yù)測。

進行業(yè)務(wù)時間序列預(yù)測模型時需要注意以下幾點:

  • 數(shù)據(jù)采集應(yīng)確保數(shù)據(jù)的完整性和準(zhǔn)確性。
  • 在模型選擇時,要特別注意數(shù)據(jù)的特點和需求,并根據(jù)實際情況調(diào)整模型。
  • 在模型訓(xùn)練時,需要對模型進行合理的參數(shù)調(diào)整,以獲得更好的預(yù)測效果。
  • 在模型評估時,使用多個不同的評估指標(biāo),以全面評估模型的性能。
  • 在應(yīng)用模型時,需要注意模型的適用范圍和時間跨度,以及模型的未來預(yù)測的可靠性。

(“Youth is not afraid of the long years, there is still glory in the other side.少年不懼歲月長,彼方尚有榮光在。”FIGHTING. . . .)文章來源地址http://www.zghlxwxcb.cn/news/detail-479213.html

到了這里,關(guān)于《CDA-LEVEL-II考試大綱》解讀--PART 5 數(shù)據(jù)分析模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 華為認(rèn)證 | HCIE-云計算 考試大綱

    上次更新了HCIP的Datacom考綱,好多小伙伴來詢問 云計算HCIE的相關(guān)內(nèi)容,先安排上! 還想看什么方向的考綱, 私信我 ,發(fā)送暗號 「考綱」 ,我直接給你發(fā)更詳細(xì)的內(nèi)容哈! 華為云計算HCIE 培訓(xùn)定位 國內(nèi)外大中型云數(shù)據(jù)中心的規(guī)劃、設(shè)計、操作、部署以及運維優(yōu)化 。 設(shè)計內(nèi)

    2024年01月16日
    瀏覽(26)
  • 系統(tǒng)架構(gòu)設(shè)計師考試大綱(2017年)

    ? ? ? ?考試合格人員應(yīng)能夠根據(jù)系統(tǒng)需求規(guī)格說明書,結(jié)合應(yīng)用領(lǐng)域和技術(shù)發(fā)展的實際情況,考慮有關(guān)約束條件,設(shè)計正確、合理的軟件架構(gòu),確保系統(tǒng)架構(gòu)具有良好的特性;能夠?qū)椖肯到y(tǒng)架構(gòu)進行描述、分析、設(shè)計與評估;能夠按照相關(guān)標(biāo)準(zhǔn)編寫相應(yīng)的設(shè)計文檔;能夠

    2024年02月12日
    瀏覽(16)
  • C語言程序設(shè)計研究生考試大綱

    C語言程序設(shè)計研究生考試大綱

    適用于全部C語言程序設(shè)計自命題院校 1.單選(30分)。 2.判斷(15分)。 3.程序閱讀與分析(45)。 4.編程題(60分)。 考試總分:150分 考試時間:3小時 一、 程序設(shè)計和C語言 1. 計算機程序、計算機語言; 程序 :一組計算機能識別和執(zhí)行的指令,每一條指令使計算機執(zhí)行特

    2024年02月14日
    瀏覽(28)
  • 阿里云大數(shù)據(jù)工程師(ACP)認(rèn)證考試大綱

    ??阿里云大數(shù)據(jù)專業(yè)認(rèn)證(ACP 級-Alibaba Cloud CertificationProfessional)是面向使用阿里云大數(shù)據(jù)產(chǎn)品的架構(gòu)、開發(fā)、運維類人員的專業(yè)技術(shù)認(rèn)證,主要涉及阿里云大數(shù)據(jù)類的幾款核心產(chǎn)品,包括大數(shù)據(jù)計算服務(wù)MaxCompute、數(shù)據(jù)工場DataWorks、數(shù)據(jù)集成、Quick BI、機器學(xué)習(xí) PAI等。通

    2024年02月03日
    瀏覽(25)
  • CSP-J信息學(xué)奧賽考試大綱(入門級)

    目錄 教學(xué)PPT代碼視頻 2.1.1 計算機基礎(chǔ)與編程環(huán)境 【1】計算機的基本構(gòu)成(CPU、內(nèi)存、I/O設(shè)備等) 【1】Windows、Linux等操作系統(tǒng)的基本概念及其常見操作 【1】計算機網(wǎng)絡(luò)和Internet的基本概念 【1】計算機的歷史及其在現(xiàn)代社會中的常見應(yīng)用 【1】NOI以及相關(guān)活動的歷史 【1】進

    2024年02月04日
    瀏覽(25)
  • Oracle OCP DBA的考試大綱以及學(xué)習(xí)路徑

    Oracle OCP DBA(Oracle Certified Professional, Database Administrator)考試是針對Oracle數(shù)據(jù)庫管理人員的認(rèn)證考試,旨在驗證考生對Oracle數(shù)據(jù)庫的基本原理和管理操作的掌握程度。以下是該考試的大綱和學(xué)習(xí)路徑: 1.數(shù)據(jù)庫基礎(chǔ)知識(10%) - 關(guān)系型數(shù)據(jù)庫概述 - 數(shù)據(jù)庫術(shù)語及基本關(guān)系型原則

    2023年04月21日
    瀏覽(22)
  • 2023年淮陰工學(xué)院五年一貫制專轉(zhuǎn)本大學(xué)語文考試大綱

    2023年淮陰工學(xué)院五年一貫制專轉(zhuǎn)本大學(xué)語文考試大綱

    2023年淮陰工學(xué)院五年一貫制專轉(zhuǎn)本大學(xué)語文考試大綱 一、考試目標(biāo) 淮陰工學(xué)院五年一貫制高職專轉(zhuǎn)本入學(xué)考試秘書學(xué)專業(yè)《大學(xué)語文》考試是我校為招收五年一貫制高職專轉(zhuǎn)本學(xué)生設(shè)置的具有選拔性質(zhì)的考試科目。其目的是科學(xué)、公平、有效地測試考生是否具備攻讀秘書學(xué)

    2023年04月23日
    瀏覽(16)
  • 2023年南京曉莊學(xué)院五年一貫制專轉(zhuǎn)本秘書學(xué)專業(yè)考試大綱

    2023年南京曉莊學(xué)院五年一貫制專轉(zhuǎn)本秘書學(xué)專業(yè)考試大綱

    2023年南京曉莊學(xué)院五年一貫制專轉(zhuǎn)本秘書學(xué)專業(yè)考試大綱 專業(yè)科目一 :秘書實務(wù) 【參考書目】《秘書實務(wù)》溫瑜編,南京大學(xué)出版社 2016 年 11 月版 (2019 年再次印刷) 【考試大綱】 ( 一) 考試范圍 1.秘書職場: 了解中華人民共和國社會組織和組織結(jié)構(gòu); 了解我國秘書機構(gòu)的

    2023年04月08日
    瀏覽(20)
  • 華為大數(shù)據(jù)HCIP認(rèn)證(HCIP-Big Data Developer V2.0) 考試大綱

    華為大數(shù)據(jù)HCIP認(rèn)證(HCIP-Big Data Developer V2.0) 考試大綱

    華為認(rèn)證 HCIP-Big Data Developer V2.0 考試 ? 考試內(nèi)容 HCIP-Big Data Developer V2.0 大數(shù)據(jù)場景化解決方案總覽、大數(shù)據(jù)場景化解決方案:離線批 處理、實時檢索、實時流處理等內(nèi)容。 ? 第 1 章 大數(shù)據(jù)場景化解決方案 1. 大數(shù)據(jù)主流技術(shù) 2. 大數(shù)據(jù)場景化解決方案 3. 大數(shù)據(jù)應(yīng)用開發(fā) 第

    2024年02月05日
    瀏覽(21)
  • 阿里云云計算工程師ACA認(rèn)證(Alibaba Cloud Certified Associate - Cloud Computing)考試大綱-V3.0

    阿里云云計算工程師ACA認(rèn)證(Alibaba Cloud Certified Associate - Cloud Computing)介紹: 阿里云云計算工程師ACA認(rèn)證(Alibaba Cloud Certified Associate - Cloud Computing)考試是面向云計算行業(yè)工作人員的初級認(rèn)證,主要考核考生對云計算領(lǐng)域知識的整體掌控情況。 通過該技術(shù)認(rèn)證可以有效證明

    2024年02月03日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包