国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

西瓜書讀書筆記整理(三)—— 第二章 模型評估與選擇

這篇具有很好參考價(jià)值的文章主要介紹了西瓜書讀書筆記整理(三)—— 第二章 模型評估與選擇。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

第 2 章 模型評估與選擇

2.1 經(jīng)驗(yàn)誤差與過擬合

1. 錯(cuò)誤率 / 精度 / 誤差

錯(cuò)誤率(error rate):分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。

精度(accuracy):分類正確的樣本數(shù)占樣本總數(shù)的比例。

誤差(error):學(xué)習(xí)器的實(shí)際預(yù)測輸出與樣本的真實(shí)輸出質(zhì)檢的差異。

2. 訓(xùn)練誤差 / 經(jīng)驗(yàn)誤差 / 泛化誤差

**訓(xùn)練誤差(training error)**或 經(jīng)驗(yàn)誤差(empirical error):學(xué)習(xí)器在訓(xùn)練集上的誤差。

泛化誤差(generalization error):模型在新樣本上的誤差。

3. 過擬合 / 欠擬合

過擬合(overfitting) 指的是機(jī)器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)非常好,但在新的測試數(shù)據(jù)上表現(xiàn)較差的情況。過擬合的主要原因是模型過于復(fù)雜,擬合了訓(xùn)練數(shù)據(jù)集中的噪聲和細(xì)節(jié),導(dǎo)致泛化能力差。簡單來說,過擬合是指模型過分追求“記憶”訓(xùn)練數(shù)據(jù)集,而忽略了“理解”數(shù)據(jù)背后的規(guī)律,導(dǎo)致在新的數(shù)據(jù)上表現(xiàn)不佳。

過擬合可以通過以下方法來避免:

  • 增加更多的訓(xùn)練數(shù)據(jù),使得模型更具泛化能力。
  • 減少特征數(shù)量,避免過于復(fù)雜的模型。
  • 增加正則化項(xiàng),如L1、L2正則化等,使得模型更加平滑。
  • 使用dropout等技巧隨機(jī)削弱一部分神經(jīng)元的輸出,減少模型的復(fù)雜性。

欠擬合(underfitting) 指的是機(jī)器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)集上和測試數(shù)據(jù)集上的表現(xiàn)都比較差,這意味著模型沒有很好地捕捉到數(shù)據(jù)的規(guī)律和模式。欠擬合的主要原因是模型過于簡單,無法擬合數(shù)據(jù)集的復(fù)雜度和非線性關(guān)系。簡單來說,欠擬合是指模型過于簡單,無法捕捉到數(shù)據(jù)集的全部信息。

欠擬合可以通過以下方法來避免:

  • 增加更多的特征,以更好地捕捉數(shù)據(jù)的復(fù)雜性和非線性關(guān)系。
  • 增加模型的復(fù)雜度,如增加層數(shù)或節(jié)點(diǎn)數(shù)等。
  • 減少正則化項(xiàng)的強(qiáng)度,使得模型更加靈活。
  • 使用更復(fù)雜的算法或模型,如神經(jīng)網(wǎng)絡(luò)等。

需要注意的是,過度擬合和欠擬合都會(huì)導(dǎo)致模型的泛化能力下降,因此需要在兩者之間進(jìn)行權(quán)衡,選擇最適合的模型和算法。

4. 學(xué)習(xí)能力

機(jī)器學(xué)習(xí)中模型的學(xué)習(xí)能力指的是模型通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)到數(shù)據(jù)之間的關(guān)系和規(guī)律的能力。具體來說,模型的學(xué)習(xí)能力可以體現(xiàn)在以下方面:

  • 模型的表示能力:模型的表示能力越強(qiáng),它能夠擬合的函數(shù)空間就越大,因此可以更好地逼近數(shù)據(jù)的真實(shí)分布。

  • 模型的泛化能力:泛化能力指的是模型對于新數(shù)據(jù)的預(yù)測能力。當(dāng)模型的泛化能力很強(qiáng)時(shí),它可以對未見過的數(shù)據(jù)做出準(zhǔn)確的預(yù)測。反之,如果模型的泛化能力很差,則無法對新數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測。

  • 模型的訓(xùn)練能力:模型的訓(xùn)練能力指的是它能夠從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到什么程度。當(dāng)模型的訓(xùn)練能力很強(qiáng)時(shí),它可以從少量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到更多的信息,從而更好地逼近數(shù)據(jù)的真實(shí)分布。

  • 模型的收斂速度:模型的收斂速度指的是它學(xué)習(xí)到數(shù)據(jù)分布的速度。當(dāng)模型的收斂速度很快時(shí),它可以在較短的時(shí)間內(nèi)學(xué)習(xí)到數(shù)據(jù)之間的關(guān)系和規(guī)律。

在機(jī)器學(xué)習(xí)中,選擇一個(gè)具有良好學(xué)習(xí)能力的模型是非常重要的。不同的機(jī)器學(xué)習(xí)算法和模型具有不同的學(xué)習(xí)能力,因此需要根據(jù)具體的問題和數(shù)據(jù)選擇最適合的算法和模型。

學(xué)習(xí)能力是否 “過于強(qiáng)大”,是由學(xué)習(xí)算法和數(shù)據(jù)內(nèi)涵共同決定的。

5. 模型選擇

在機(jī)器學(xué)習(xí)中,選擇合適的模型對于建立一個(gè)成功的機(jī)器學(xué)習(xí)系統(tǒng)來說非常重要。以下是一些常見的模型選擇方法:

  • 經(jīng)驗(yàn)法則:根據(jù)問題的性質(zhì)和數(shù)據(jù)的特點(diǎn)選擇合適的模型。例如,如果數(shù)據(jù)具有線性關(guān)系,可以選擇線性回歸模型;如果數(shù)據(jù)具有非線性關(guān)系,可以選擇支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)等非線性模型。

  • 交叉驗(yàn)證:使用交叉驗(yàn)證方法評估不同模型的性能,并選擇最佳模型。交叉驗(yàn)證將數(shù)據(jù)集分為訓(xùn)練集和測試集,然后多次訓(xùn)練和測試模型,并計(jì)算平均測試誤差。通過比較不同模型的測試誤差,可以選擇性能最佳的模型。

  • 正則化方法:使用正則化方法對不同的模型進(jìn)行比較,選擇最佳的模型。正則化方法通過對模型參數(shù)進(jìn)行約束來避免過擬合,同時(shí)減少模型的復(fù)雜度,從而提高模型的泛化能力。

  • 模型融合方法:使用多個(gè)模型組合來提高預(yù)測性能。模型融合方法可以是簡單的平均或加權(quán)平均,也可以是基于模型的集成方法,例如隨機(jī)森林和Boosting等。

  • 模型選擇工具:使用一些開源的模型選擇工具,例如scikit-learn和TensorFlow等,這些工具提供了多種不同的機(jī)器學(xué)習(xí)算法和模型,同時(shí)提供了評估和比較不同模型的方法。

需要注意的是,在選擇模型時(shí)需要考慮多個(gè)因素,例如數(shù)據(jù)的特點(diǎn)、問題的性質(zhì)、模型的復(fù)雜度、模型的訓(xùn)練時(shí)間等等。選擇合適的模型需要綜合考慮這些因素,并根據(jù)具體的問題和需求來進(jìn)行選擇。

2.2 評估方法

1. 評估方法概述

通常,我們可通過實(shí)驗(yàn)測試來對學(xué)習(xí)器的泛化誤差進(jìn)行評估并進(jìn)而做出選擇。為此,需使用一個(gè) “測試集(testomg set)” 來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的 “測試誤差(tesing error)” 作為泛化誤差的近似。通常我們假設(shè)測試樣本也是從樣本真實(shí)分布中獨(dú)立同分布采樣而得。但需要注意的是,測試集應(yīng)該盡可能與訓(xùn)練集互斥,即測試集盡量不在訓(xùn)練集中出現(xiàn)、未在訓(xùn)練過程中使用過。

2. 留出法

留出法(hold-out)直接將數(shù)據(jù)集 D D D 劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集 S S S,另外一個(gè)作為測試集 T T T,即 D = S ? T D=S \bigcup T D=S?T, S ? T = ? S \bigcap T = \oslash S?T=?。在 S S S 上訓(xùn)練出模型后,用 T T T 來評估其測試誤差,作為對泛化誤差的估計(jì)。

3. 交叉驗(yàn)證法

交叉驗(yàn)證法(cross valida tion)先將數(shù)據(jù)集 D D D 劃分為 k k k 個(gè)大小相似的互斥子集,即 D = D 1 ∪ D 2 ∪ . . . ∪ k D=D_1 \cup D_2 \cup ...\cup_k D=D1?D2?...k? D i ? D j = ? D_i \bigcap D_j =\oslash Di??Dj?=?。每個(gè)子集 D i D_i Di? 都盡可能保持?jǐn)?shù)據(jù)分布的一致性,即從 D D D 中通過分層采樣得到。然后,每次用 k ? 1 k-1 k?1 個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測試集;這樣就可獲得 k k k 組訓(xùn)練 / 測試集,從而可進(jìn)行 k k k 次訓(xùn)練和測試,最終返回的是這 k k k 個(gè)測試結(jié)果的均值。

顯然,交叉驗(yàn)證法評估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于 k k k 的取值,為強(qiáng)調(diào)這一點(diǎn),通常把交叉驗(yàn)證法稱為 “ k k k 折交叉驗(yàn)證” ( k k k-fold cross validation)。

k k k 最常用的取值是 10,此時(shí)稱為 10 折交叉驗(yàn)證;其他常用的 k k k 值有 5、20 等。

4. 自助法

自助法(bootstrapping)是一種非參數(shù)統(tǒng)計(jì)方法,用于從有限的樣本數(shù)據(jù)集中估計(jì)統(tǒng)計(jì)量的分布和置信區(qū)間。自助法是通過從原始數(shù)據(jù)集中隨機(jī)抽取樣本形成新的數(shù)據(jù)集,并重復(fù)這個(gè)過程多次來得到估計(jì)統(tǒng)計(jì)量的分布。這個(gè)過程可以產(chǎn)生多個(gè)樣本數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的樣本數(shù)和原始數(shù)據(jù)集相同,但可能包含重復(fù)的樣本數(shù)據(jù)。

自助法的基本思想是通過對原始數(shù)據(jù)進(jìn)行有放回的抽樣來模擬從總體中抽樣。由于樣本的重復(fù)采樣,部分樣本可能在某次采樣中被重復(fù)選擇,而另一些樣本可能在某些采樣中沒有被選擇。這樣可以形成一個(gè)更廣泛的樣本空間,并且可以通過這些不同的樣本數(shù)據(jù)集來估計(jì)統(tǒng)計(jì)量的置信區(qū)間。

自助法可以用于解決小樣本數(shù)據(jù)集的統(tǒng)計(jì)問題,并且具有一定的魯棒性和準(zhǔn)確性。例如,在機(jī)器學(xué)習(xí)中,自助法可以用于估計(jì)模型參數(shù)的置信區(qū)間,從而評估模型的穩(wěn)定性和準(zhǔn)確性。自助法還可以用于特征選擇、模型選擇和模型融合等問題,它是一種常用的非參數(shù)統(tǒng)計(jì)方法。

5. 調(diào)參 / 最終模型

大多數(shù)學(xué)習(xí)算法都有些參數(shù) (parameter) 需要設(shè)定,參數(shù)配置不同 ,學(xué)得模型的性能往往有顯著差別,因此,在進(jìn)行模型評估與選擇時(shí),除了要對適用學(xué)習(xí)算法進(jìn)行選擇,還需對算法參數(shù)進(jìn)行設(shè)定,這就是通常所說的 “參數(shù)調(diào)節(jié)” 或簡稱 “調(diào)參” (parameter tuning)。

2.3 性能度量

1. 回歸任務(wù)的性能度量

回歸任務(wù)最常用的性能度量是 “均方誤差”(mean squared error)。

E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) ? y i ) 2 (2.2) E(f ; D)=\frac{1}{m} \sum_{i=1}^m\left(f\left(\boldsymbol{x}_i\right)-y_i\right)^2 \tag{2.2} E(f;D)=m1?i=1m?(f(xi?)?yi?)2(2.2)

更一般的,對于數(shù)據(jù)分布 D \mathcal{D} D 和概率密度函數(shù) p ( ? ) p(\cdot) p(?),均方誤差可描述為

E ( f ; D ) = ∫ x ~ D ( f ( x ) ? y ) 2 p ( x ) d x (2.3) E(f ; \mathcal{D})=\int_{\boldsymbol{x} \sim \mathcal{D}}(f(\boldsymbol{x})-y)^2 p(\boldsymbol{x}) \mathrmn5n3t3z \boldsymbol{x} \tag{2.3} E(f;D)=xD?(f(x)?y)2p(x)dx(2.3)

2. 分類任務(wù)性能度量方法 —— 錯(cuò)誤率 / 精度

錯(cuò)誤率是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例,精度則是分類正確的樣本數(shù)占樣本總數(shù)的比例。對樣本集 D \mathcal{D} D,分類錯(cuò)誤率定義為

E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) (2.4) E(f ; D)=\frac{1}{m} \sum_{i=1}^m \mathbb{I}\left(f\left(\boldsymbol{x}_i\right) \neq y_i\right) \tag{2.4} E(f;D)=m1?i=1m?I(f(xi?)=yi?)(2.4)

精度則定義為

acc ? ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 ? E ( f ; D ) . (2.5) \begin{aligned} \operatorname{acc}(f ; D) & =\frac{1}{m} \sum_{i=1}^m \mathbb{I}\left(f\left(\boldsymbol{x}_i\right)=y_i\right) \\ & =1-E(f ; D) . \end{aligned} \tag{2.5} acc(f;D)?=m1?i=1m?I(f(xi?)=yi?)=1?E(f;D).?(2.5)

更一般的,對于數(shù)據(jù)分布 D \mathcal{D} D 和概率密度函數(shù) p ( ? ) p(\cdot) p(?),錯(cuò)誤率與精度可分別描述為

E ( f ; D ) = ∫ x ~ D I ( f ( x ) ≠ y ) p ( x ) d x (2.6) E(f ; \mathcal{D})=\int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x}) \neq y) p(\boldsymbol{x}) \mathrmn5n3t3z \boldsymbol{x} \tag{2.6} E(f;D)=xD?I(f(x)=y)p(x)dx(2.6)

acc ? ( f ; D ) = ∫ x ~ D I ( f ( x ) = y ) p ( x ) d x = 1 ? E ( f ; D ) (2.7) \begin{aligned} \operatorname{acc}(f ; \mathcal{D}) & =\int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x})=y) p(\boldsymbol{x}) \mathrmn5n3t3z \boldsymbol{x} \\ & =1-E(f ; \mathcal{D}) \tag{2.7} \end{aligned} acc(f;D)?=xD?I(f(x)=y)p(x)dx=1?E(f;D)?(2.7)

3. 分類任務(wù)性能度量方法 —— 查準(zhǔn)率 / 查全率 / F1

對于二分類問題,如下所示:

全稱 真實(shí)值(標(biāo)簽,label) 預(yù)測值(predict)
TP True Positive 1 1
FP False Positive 0 1
TN True Negative 0 0
FN False Negative 1 0

查準(zhǔn)率(precision)

P = T P T P + F P (2.8) P=\frac{T P}{T P+F P} \tag{2.8} P=TP+FPTP?(2.8)

查全率(recall)

R = T P T P + F N (2.9) R=\frac{T P}{T P+F N} \tag{2.9} R=TP+FNTP?(2.9)

更常用的是 F 1 F1 F1 度量:

F 1 = 2 × P × R P + R = 2 × T P ?樣例總數(shù)? + T P ? T N .? (2.10) F 1=\frac{2 \times P \times R}{P+R}=\frac{2 \times T P}{\text { 樣例總數(shù) }+T P-T N} \text {. } \tag{2.10} F1=P+R2×P×R?=?樣例總數(shù)?+TP?TN2×TP?.?(2.10)

4. ROC 曲線

ROC(Receiver Operating Characteristic)曲線是一種用于評估二元分類器性能的圖形工具。ROC曲線以真陽性率(True Positive Rate,TPR)為縱坐標(biāo),以假陽性率(False Positive Rate,F(xiàn)PR)為橫坐標(biāo),用于衡量分類器的敏感性和特異性。

T P R = T P T P + F N (2.18) \mathrm{TPR}=\frac{T P}{T P+F N} \tag{2.18} TPR=TP+FNTP?(2.18)

F P R = F P T N + F P (2.19) \mathrm{FPR}=\frac{F P}{T N+F P} \tag{2.19} FPR=TN+FPFP?(2.19)

在ROC曲線中,每個(gè)點(diǎn)代表分類器在不同的閾值下的TPR和FPR。通過改變分類器的閾值,可以得到不同的點(diǎn),并將這些點(diǎn)連接起來得到ROC曲線。曲線下面積(Area Under Curve,AUC)可以用來衡量分類器的性能,AUC的取值范圍為0.5到1,AUC越大表示分類器的性能越好。

ROC曲線的優(yōu)點(diǎn)在于不受分類器閾值的影響,同時(shí)可以通過比較不同分類器的ROC曲線來評估它們的性能。ROC曲線也適用于不平衡數(shù)據(jù)集的分類問題,其中一類樣本數(shù)量較少,例如醫(yī)學(xué)診斷和欺詐檢測等應(yīng)用場景。

需要注意的是,ROC曲線不能直接用于比較多類別分類器的性能。對于多類別分類問題,可以使用一些衍生自ROC曲線的評估指標(biāo),例如微平均(micro-averaging)和宏平均(macro-averaging)等。

下面是一個(gè)示例ROC曲線:

西瓜書讀書筆記整理(三)—— 第二章 模型評估與選擇

在這個(gè)例子中,橫軸是假陽性率(False Positive Rate,F(xiàn)PR),縱軸是真陽性率(True Positive Rate,TPR)。假陽性率是指實(shí)際為負(fù)樣本但被錯(cuò)誤地預(yù)測為正樣本的樣本占所有負(fù)樣本的比例,真陽性率是指實(shí)際為正樣本且被正確地預(yù)測為正樣本的樣本占所有正樣本的比例。

ROC曲線顯示了分類器在不同閾值下的性能,閾值從左上角到右下角逐漸增加。曲線下面積(Area Under Curve,AUC)為0.91,說明該分類器的性能很好。通常,AUC的取值范圍為0.5到1,AUC越大表示分類器的性能越好。

在實(shí)際應(yīng)用中,可以根據(jù)ROC曲線選擇合適的分類器和閾值,以達(dá)到最佳的分類性能。

5. AUC 曲線

AUC(Area Under Curve)曲線是ROC(Receiver Operating Characteristic)曲線下方的面積,用于評估二元分類器的性能。AUC曲線常用于評估分類器的準(zhǔn)確性、魯棒性和可靠性。

A U C = 1 2 ∑ i = 1 m ? 1 ( x i + 1 ? x i ) ? ( y i + y i + 1 ) (2.20) \mathrm{AUC}=\frac{1}{2} \sum_{i=1}^{m-1}\left(x_{i+1}-x_i\right) \cdot\left(y_i+y_{i+1}\right) \tag{2.20} AUC=21?i=1m?1?(xi+1??xi?)?(yi?+yi+1?)(2.20)

AUC的取值范圍在0.5到1之間,其中0.5表示隨機(jī)分類器,而1表示完美分類器。在AUC為0.5到1之間的情況下,AUC值越大,分類器的性能越好。AUC曲線的斜率越大,分類器的性能也越好。

AUC曲線可以解決在不同閾值下分類器性能的變化問題,并且可以對不同的分類器進(jìn)行比較。對于大多數(shù)實(shí)際問題,AUC都是一個(gè)有用的度量標(biāo)準(zhǔn)。

需要注意的是,AUC曲線并不適用于多類別分類問題,因?yàn)镽OC曲線只適用于二元分類問題。在多類別分類問題中,可以使用一些其他的評估指標(biāo),例如混淆矩陣、準(zhǔn)確率、召回率等。

以下是一個(gè)AUC曲線的例子:
西瓜書讀書筆記整理(三)—— 第二章 模型評估與選擇

這個(gè)例子展示了一個(gè)分類器的AUC曲線。曲線下方的面積(AUC)為0.87,表示該分類器的性能相對較好。在這個(gè)例子中,分類器的預(yù)測結(jié)果可以根據(jù)閾值進(jìn)行分類,閾值從左上角到右下角逐漸增加。在最優(yōu)閾值處,該分類器的真陽性率(TPR)為0.75,假陽性率(FPR)為0.15。

在實(shí)際應(yīng)用中,AUC曲線可以用來選擇最佳分類器和閾值,以最大化分類性能。由于AUC曲線不受分類器閾值的影響,因此它通常比其他評估指標(biāo)更適合評估分類器的性能。

2.4 比較檢驗(yàn)

1. 什么是比較驗(yàn)證

在機(jī)器學(xué)習(xí)中,比較驗(yàn)證是一種通過比較不同模型的性能來選擇最佳模型的方法。比較驗(yàn)證通常涉及以下步驟:

  • 數(shù)據(jù)集劃分:將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。通常使用交叉驗(yàn)證方法來確保模型在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。

  • 模型訓(xùn)練:使用訓(xùn)練集訓(xùn)練不同的模型。

  • 模型評估:使用測試集評估模型的性能,并計(jì)算模型的指標(biāo),如準(zhǔn)確率、召回率、F1分?jǐn)?shù)、AUC等。

  • 模型比較:比較不同模型的性能指標(biāo),并選擇最佳模型。

比較驗(yàn)證的目的是找到最佳的模型,以在未知數(shù)據(jù)上實(shí)現(xiàn)最佳性能。由于不同的模型在不同的數(shù)據(jù)集上表現(xiàn)可能不同,因此比較驗(yàn)證是一種重要的機(jī)器學(xué)習(xí)技術(shù)。通常,比較驗(yàn)證需要在多個(gè)數(shù)據(jù)集上進(jìn)行,以避免因特定數(shù)據(jù)集導(dǎo)致的偏差。

比較驗(yàn)證可以使用多種方法,如留出法、交叉驗(yàn)證和自助法等。其中,交叉驗(yàn)證是最常用的方法之一,它可以有效地利用數(shù)據(jù),并減少估計(jì)誤差。交叉驗(yàn)證通??梢苑譃閗折交叉驗(yàn)證、留一交叉驗(yàn)證等。

2. 假設(shè)驗(yàn)證

在機(jī)器學(xué)習(xí)中,假設(shè)驗(yàn)證是一種評估模型的泛化能力的方法,也稱為模型選擇。假設(shè)驗(yàn)證的基本思想是將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。模型在訓(xùn)練集上訓(xùn)練,在驗(yàn)證集上進(jìn)行驗(yàn)證和參數(shù)調(diào)整,最終在測試集上進(jìn)行測試。

假設(shè)驗(yàn)證通常涉及以下步驟:

  1. 數(shù)據(jù)集劃分:將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集用于模型訓(xùn)練,驗(yàn)證集用于模型選擇和參數(shù)調(diào)整,測試集用于模型測試。

  2. 模型訓(xùn)練:使用訓(xùn)練集訓(xùn)練模型。

  3. 模型選擇:使用驗(yàn)證集評估不同模型的性能,并選擇最佳模型。

  4. 參數(shù)調(diào)整:使用驗(yàn)證集調(diào)整模型的參數(shù)。

  5. 模型測試:使用測試集評估最終模型的性能。

假設(shè)驗(yàn)證的目的是選擇最佳模型,并避免過度擬合或欠擬合。過度擬合是指模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在測試數(shù)據(jù)上表現(xiàn)較差。欠擬合是指模型無法捕捉數(shù)據(jù)的復(fù)雜性,導(dǎo)致在訓(xùn)練和測試數(shù)據(jù)上都表現(xiàn)不佳。假設(shè)驗(yàn)證可以幫助選擇最佳模型,以最大限度地提高模型的泛化性能。

假設(shè)驗(yàn)證可以使用多種方法,如留出法、交叉驗(yàn)證和自助法等。其中,交叉驗(yàn)證是最常用的方法之一,它可以有效地利用數(shù)據(jù),并減少估計(jì)誤差。交叉驗(yàn)證通??梢苑譃閗折交叉驗(yàn)證、留一交叉驗(yàn)證等。

2.5 偏差與方差

1. 偏差與方差

在機(jī)器學(xué)習(xí)中,方差(Variance)和偏差(Bias)是模型的兩個(gè)重要性質(zhì)。它們通常被用來描述模型的復(fù)雜度和泛化性能。

偏差是指模型的預(yù)測結(jié)果與真實(shí)結(jié)果的平均差異,也稱為模型的擬合能力。低偏差的模型通常具有較好的擬合能力,能夠在訓(xùn)練數(shù)據(jù)上獲得較好的性能。然而,當(dāng)模型太簡單時(shí),它可能無法捕捉數(shù)據(jù)的復(fù)雜性,導(dǎo)致欠擬合。因此,適當(dāng)?shù)钠钔ǔP枰WC模型具有一定的靈活性和能力,以提高其泛化性能。

方差是指模型在不同訓(xùn)練數(shù)據(jù)集上預(yù)測結(jié)果的差異,也稱為模型的泛化能力。高方差的模型通常具有過擬合的傾向,即在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在測試數(shù)據(jù)上表現(xiàn)較差。過度復(fù)雜的模型通常容易過擬合,因?yàn)樗鼈兛梢杂洃浻?xùn)練數(shù)據(jù)中的噪聲和異常值,而不是學(xué)習(xí)數(shù)據(jù)的真實(shí)模式。

為了平衡偏差和方差,可以使用正則化方法、交叉驗(yàn)證和集成學(xué)習(xí)等技術(shù)來調(diào)整模型的復(fù)雜度和參數(shù)。例如,正則化可以通過添加懲罰項(xiàng)來限制模型的復(fù)雜度,從而減少方差。交叉驗(yàn)證可以用于估計(jì)模型的泛化性能,并選擇最佳模型。集成學(xué)習(xí)可以通過組合多個(gè)模型的預(yù)測結(jié)果來減少方差和偏差。

西瓜書讀書筆記整理(三)—— 第二章 模型評估與選擇

2. 泛化誤差 / 偏差 / 方差 / 噪聲

泛化誤差可分解為偏差、方差與噪聲之和。

E ( f ; D ) = bias ? 2 ( x ) + var ? ( x ) + ε 2 (2.42) E(f ; D)=\operatorname{bias}^2(\boldsymbol{x})+\operatorname{var}(\boldsymbol{x})+\varepsilon^2 \tag{2.42} E(f;D)=bias2(x)+var(x)+ε2(2.42)

Smileyan
2023.05.01 01:22文章來源地址http://www.zghlxwxcb.cn/news/detail-453227.html

到了這里,關(guān)于西瓜書讀書筆記整理(三)—— 第二章 模型評估與選擇的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)概念整理-第二章 物理層【期末復(fù)習(xí)|考研復(fù)習(xí)】

    計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)概念整理-第二章 物理層【期末復(fù)習(xí)|考研復(fù)習(xí)】

    計(jì)算機(jī)網(wǎng)絡(luò)復(fù)習(xí)系列文章傳送門: 第一章 計(jì)算機(jī)網(wǎng)絡(luò)概述 第二章 物理層 第三章 數(shù)據(jù)鏈路層 第四章 網(wǎng)絡(luò)層 第五章 傳輸層 第六章 應(yīng)用層 第七章 網(wǎng)絡(luò)安全 計(jì)算機(jī)網(wǎng)絡(luò)整理-簡稱縮寫 給大家整理了一下計(jì)算機(jī)網(wǎng)絡(luò)中的重點(diǎn)概念,以供大家期末復(fù)習(xí)和考研復(fù)習(xí)的時(shí)候使用。 參

    2024年02月08日
    瀏覽(30)
  • 西瓜書讀書筆記整理(十一) —— 第十一章 特征選擇與稀疏學(xué)習(xí)

    西瓜書讀書筆記整理(十一) —— 第十一章 特征選擇與稀疏學(xué)習(xí)

    11.1.1 基本概念 特征(feature) :在機(jī)器學(xué)習(xí)中, 特征 是指從數(shù)據(jù)中提取的用于描述樣本的屬性或信息。 相關(guān)特征(relevant feature) :對當(dāng)前學(xué)習(xí)任務(wù) 有用 的屬性稱為 “ 相關(guān)特征 ”。 無關(guān)特征(inrelevant feature) :對當(dāng)前學(xué)習(xí)任務(wù) 無用 的屬性稱為 “ 無關(guān)特征 ”。 冗余特

    2024年01月19日
    瀏覽(57)
  • 計(jì)算機(jī)操作系統(tǒng)重點(diǎn)概念整理-第二章 進(jìn)程管理【期末復(fù)習(xí)|考研復(fù)習(xí)】

    計(jì)算機(jī)操作系統(tǒng)重點(diǎn)概念整理-第二章 進(jìn)程管理【期末復(fù)習(xí)|考研復(fù)習(xí)】

    計(jì)算機(jī)操作系統(tǒng)復(fù)習(xí)系列文章傳送門: 第一章 計(jì)算機(jī)系統(tǒng)概述 第二章 進(jìn)程管理 第三章 進(jìn)程同步 第四章 內(nèi)存管理 第五章 文件管理 第六章 輸出輸出I/O管理 給大家整理了一下計(jì)算機(jī)操作系統(tǒng)中的重點(diǎn)概念,以供大家期末復(fù)習(xí)和考研復(fù)習(xí)的時(shí)候使用。 參考資料是王道的計(jì)算

    2024年02月08日
    瀏覽(35)
  • 第二章(一):Django框架的模型(Model)

    第二章(一):Django框架的模型(Model)

    備注:這里是Django系列文章的所有文章的目錄 第一章(一) : Django框架之創(chuàng)建項(xiàng)目/應(yīng)用/templates、連接MYSQL、配置日志LOGGING、啟動(dòng)django項(xiàng)目 第一章(二):Django框架的模式、路由、視圖; 第一章(三):Django框架的視圖函數(shù)、視圖類的認(rèn)識(shí)及常規(guī)使用; 第一章(四):Django框架的模板

    2024年02月08日
    瀏覽(54)
  • 【課堂筆記】運(yùn)籌學(xué)第二章:對偶問題

    【課堂筆記】運(yùn)籌學(xué)第二章:對偶問題

    聽說運(yùn)籌學(xué)這門課挺好的,有值得一聽的必要;此篇用作課堂總結(jié)、期末復(fù)習(xí)及記錄。 或許與教材內(nèi)容會(huì)有很大程度重復(fù)。 本章開始會(huì)適當(dāng)結(jié)合一些B站網(wǎng)課【運(yùn)籌學(xué)】應(yīng)試向基礎(chǔ)教程 對偶問題的對偶問題就是原問題 矩陣表達(dá) 要弄清楚矩陣 A A A 和 C C C 分別是什么 最好記住

    2024年02月07日
    瀏覽(31)
  • 計(jì)算機(jī)網(wǎng)絡(luò)-筆記-第二章-物理層

    計(jì)算機(jī)網(wǎng)絡(luò)-筆記-第二章-物理層

    一、第一章——計(jì)算機(jī)網(wǎng)絡(luò)概述 二、第二章——物理層 三、第三章——數(shù)據(jù)鏈路層 四、第四章——網(wǎng)絡(luò)層 五、第五章——運(yùn)輸層 六、第六章——應(yīng)用層 目錄 二、第二章——物理層 1、物理層的基本概念 2、物理層下面的傳輸媒體 (1)光纖、同軸電纜、雙絞線、電力線【導(dǎo)

    2024年02月11日
    瀏覽(29)
  • JS深入學(xué)習(xí)筆記 - 第二章.類和對象

    JS深入學(xué)習(xí)筆記 - 第二章.類和對象

    3.1面向?qū)ο?這里順帶提一句學(xué)習(xí)JAVA時(shí),老師說的面向?qū)ο蠛兔嫦蜻^程的區(qū)別: 面向過程:強(qiáng)調(diào)做什么事情,具體什么步驟。舉個(gè)把大象放進(jìn)冰箱的例子: 打開冰箱門 把大象放進(jìn)冰箱 關(guān)上冰箱門 面向?qū)ο螅?強(qiáng)調(diào)的是做動(dòng)作的主體(稱之為對象) 冰箱 :打開操作 冰箱 :放

    2024年02月08日
    瀏覽(20)
  • 【博弈論筆記】第二章 完全信息靜態(tài)博弈

    此部分博弈論筆記參考自經(jīng)濟(jì)博弈論(第四版)/謝識(shí)予和老師的PPT,是在平時(shí)學(xué)習(xí)中以及期末備考中整理的,主要注重對本章節(jié)知識(shí)點(diǎn)的梳理以及重點(diǎn)知識(shí)的理解,細(xì)節(jié)和邏輯部分還不是很完善,可能不太適合初學(xué)者閱讀(看書應(yīng)該會(huì)理解的更明白O(∩_∩)O哈哈~)。現(xiàn)更新到

    2024年02月10日
    瀏覽(21)
  • 【計(jì)算機(jī)網(wǎng)絡(luò)筆記】第二章物理層

    【計(jì)算機(jī)網(wǎng)絡(luò)筆記】第二章物理層

    ①機(jī)械特性:接口是怎樣的(接口所用接線器的形狀和尺寸,引腳數(shù)目和排列,固定和鎖定裝置等)。 ②電氣特性:用多少的電 ③功能特性:線路上電平電壓的特性 ④過程特性:實(shí)現(xiàn)不同功能所發(fā)射信號(hào)的順序 (P42) ①模擬信號(hào):代表消息的參數(shù)的取值是連續(xù)的,特定頻

    2024年02月14日
    瀏覽(21)
  • 第二章 OSI七層模型及TCP/IP四層模型

    第二章 OSI七層模型及TCP/IP四層模型

    第二章 OSI七層模型及TCP/IP四層模型 本章主要介紹了OSI七層分層的目的是什么以及各層次的功能,具體講述了OSI分層與TCP/IP四層模型是什么關(guān)系,以及在分組網(wǎng)絡(luò)中是如何傳輸?shù)摹?OSI七層網(wǎng)絡(luò):分成7層是從技術(shù)角度上去細(xì)分的。分層主要有如下功能: 1、各層之間是獨(dú)立的。

    2024年01月16日
    瀏覽(15)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包