第 2 章 模型評估與選擇
2.1 經(jīng)驗(yàn)誤差與過擬合
1. 錯(cuò)誤率 / 精度 / 誤差
錯(cuò)誤率(error rate):分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例。
精度(accuracy):分類正確的樣本數(shù)占樣本總數(shù)的比例。
誤差(error):學(xué)習(xí)器的實(shí)際預(yù)測輸出與樣本的真實(shí)輸出質(zhì)檢的差異。
2. 訓(xùn)練誤差 / 經(jīng)驗(yàn)誤差 / 泛化誤差
**訓(xùn)練誤差(training error)**或 經(jīng)驗(yàn)誤差(empirical error):學(xué)習(xí)器在訓(xùn)練集上的誤差。
泛化誤差(generalization error):模型在新樣本上的誤差。
3. 過擬合 / 欠擬合
過擬合(overfitting) 指的是機(jī)器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)非常好,但在新的測試數(shù)據(jù)上表現(xiàn)較差的情況。過擬合的主要原因是模型過于復(fù)雜,擬合了訓(xùn)練數(shù)據(jù)集中的噪聲和細(xì)節(jié),導(dǎo)致泛化能力差。簡單來說,過擬合是指模型過分追求“記憶”訓(xùn)練數(shù)據(jù)集,而忽略了“理解”數(shù)據(jù)背后的規(guī)律,導(dǎo)致在新的數(shù)據(jù)上表現(xiàn)不佳。
過擬合可以通過以下方法來避免:
- 增加更多的訓(xùn)練數(shù)據(jù),使得模型更具泛化能力。
- 減少特征數(shù)量,避免過于復(fù)雜的模型。
- 增加正則化項(xiàng),如L1、L2正則化等,使得模型更加平滑。
- 使用dropout等技巧隨機(jī)削弱一部分神經(jīng)元的輸出,減少模型的復(fù)雜性。
欠擬合(underfitting) 指的是機(jī)器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)集上和測試數(shù)據(jù)集上的表現(xiàn)都比較差,這意味著模型沒有很好地捕捉到數(shù)據(jù)的規(guī)律和模式。欠擬合的主要原因是模型過于簡單,無法擬合數(shù)據(jù)集的復(fù)雜度和非線性關(guān)系。簡單來說,欠擬合是指模型過于簡單,無法捕捉到數(shù)據(jù)集的全部信息。
欠擬合可以通過以下方法來避免:
- 增加更多的特征,以更好地捕捉數(shù)據(jù)的復(fù)雜性和非線性關(guān)系。
- 增加模型的復(fù)雜度,如增加層數(shù)或節(jié)點(diǎn)數(shù)等。
- 減少正則化項(xiàng)的強(qiáng)度,使得模型更加靈活。
- 使用更復(fù)雜的算法或模型,如神經(jīng)網(wǎng)絡(luò)等。
需要注意的是,過度擬合和欠擬合都會(huì)導(dǎo)致模型的泛化能力下降,因此需要在兩者之間進(jìn)行權(quán)衡,選擇最適合的模型和算法。
4. 學(xué)習(xí)能力
機(jī)器學(xué)習(xí)中模型的學(xué)習(xí)能力指的是模型通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)到數(shù)據(jù)之間的關(guān)系和規(guī)律的能力。具體來說,模型的學(xué)習(xí)能力可以體現(xiàn)在以下方面:
-
模型的表示能力:模型的表示能力越強(qiáng),它能夠擬合的函數(shù)空間就越大,因此可以更好地逼近數(shù)據(jù)的真實(shí)分布。
-
模型的泛化能力:泛化能力指的是模型對于新數(shù)據(jù)的預(yù)測能力。當(dāng)模型的泛化能力很強(qiáng)時(shí),它可以對未見過的數(shù)據(jù)做出準(zhǔn)確的預(yù)測。反之,如果模型的泛化能力很差,則無法對新數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測。
-
模型的訓(xùn)練能力:模型的訓(xùn)練能力指的是它能夠從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到什么程度。當(dāng)模型的訓(xùn)練能力很強(qiáng)時(shí),它可以從少量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到更多的信息,從而更好地逼近數(shù)據(jù)的真實(shí)分布。
-
模型的收斂速度:模型的收斂速度指的是它學(xué)習(xí)到數(shù)據(jù)分布的速度。當(dāng)模型的收斂速度很快時(shí),它可以在較短的時(shí)間內(nèi)學(xué)習(xí)到數(shù)據(jù)之間的關(guān)系和規(guī)律。
在機(jī)器學(xué)習(xí)中,選擇一個(gè)具有良好學(xué)習(xí)能力的模型是非常重要的。不同的機(jī)器學(xué)習(xí)算法和模型具有不同的學(xué)習(xí)能力,因此需要根據(jù)具體的問題和數(shù)據(jù)選擇最適合的算法和模型。
學(xué)習(xí)能力是否 “過于強(qiáng)大”,是由學(xué)習(xí)算法和數(shù)據(jù)內(nèi)涵共同決定的。
5. 模型選擇
在機(jī)器學(xué)習(xí)中,選擇合適的模型對于建立一個(gè)成功的機(jī)器學(xué)習(xí)系統(tǒng)來說非常重要。以下是一些常見的模型選擇方法:
-
經(jīng)驗(yàn)法則:根據(jù)問題的性質(zhì)和數(shù)據(jù)的特點(diǎn)選擇合適的模型。例如,如果數(shù)據(jù)具有線性關(guān)系,可以選擇線性回歸模型;如果數(shù)據(jù)具有非線性關(guān)系,可以選擇支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)等非線性模型。
-
交叉驗(yàn)證:使用交叉驗(yàn)證方法評估不同模型的性能,并選擇最佳模型。交叉驗(yàn)證將數(shù)據(jù)集分為訓(xùn)練集和測試集,然后多次訓(xùn)練和測試模型,并計(jì)算平均測試誤差。通過比較不同模型的測試誤差,可以選擇性能最佳的模型。
-
正則化方法:使用正則化方法對不同的模型進(jìn)行比較,選擇最佳的模型。正則化方法通過對模型參數(shù)進(jìn)行約束來避免過擬合,同時(shí)減少模型的復(fù)雜度,從而提高模型的泛化能力。
-
模型融合方法:使用多個(gè)模型組合來提高預(yù)測性能。模型融合方法可以是簡單的平均或加權(quán)平均,也可以是基于模型的集成方法,例如隨機(jī)森林和Boosting等。
-
模型選擇工具:使用一些開源的模型選擇工具,例如scikit-learn和TensorFlow等,這些工具提供了多種不同的機(jī)器學(xué)習(xí)算法和模型,同時(shí)提供了評估和比較不同模型的方法。
需要注意的是,在選擇模型時(shí)需要考慮多個(gè)因素,例如數(shù)據(jù)的特點(diǎn)、問題的性質(zhì)、模型的復(fù)雜度、模型的訓(xùn)練時(shí)間等等。選擇合適的模型需要綜合考慮這些因素,并根據(jù)具體的問題和需求來進(jìn)行選擇。
2.2 評估方法
1. 評估方法概述
通常,我們可通過實(shí)驗(yàn)測試來對學(xué)習(xí)器的泛化誤差進(jìn)行評估并進(jìn)而做出選擇。為此,需使用一個(gè) “測試集(testomg set)” 來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的 “測試誤差(tesing error)” 作為泛化誤差的近似。通常我們假設(shè)測試樣本也是從樣本真實(shí)分布中獨(dú)立同分布采樣而得。但需要注意的是,測試集應(yīng)該盡可能與訓(xùn)練集互斥,即測試集盡量不在訓(xùn)練集中出現(xiàn)、未在訓(xùn)練過程中使用過。
2. 留出法
留出法(hold-out)直接將數(shù)據(jù)集 D D D 劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集 S S S,另外一個(gè)作為測試集 T T T,即 D = S ? T D=S \bigcup T D=S?T, S ? T = ? S \bigcap T = \oslash S?T=?。在 S S S 上訓(xùn)練出模型后,用 T T T 來評估其測試誤差,作為對泛化誤差的估計(jì)。
3. 交叉驗(yàn)證法
交叉驗(yàn)證法(cross valida tion)先將數(shù)據(jù)集 D D D 劃分為 k k k 個(gè)大小相似的互斥子集,即 D = D 1 ∪ D 2 ∪ . . . ∪ k D=D_1 \cup D_2 \cup ...\cup_k D=D1?∪D2?∪...∪k?, D i ? D j = ? D_i \bigcap D_j =\oslash Di??Dj?=?。每個(gè)子集 D i D_i Di? 都盡可能保持?jǐn)?shù)據(jù)分布的一致性,即從 D D D 中通過分層采樣得到。然后,每次用 k ? 1 k-1 k?1 個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測試集;這樣就可獲得 k k k 組訓(xùn)練 / 測試集,從而可進(jìn)行 k k k 次訓(xùn)練和測試,最終返回的是這 k k k 個(gè)測試結(jié)果的均值。
顯然,交叉驗(yàn)證法評估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于 k k k 的取值,為強(qiáng)調(diào)這一點(diǎn),通常把交叉驗(yàn)證法稱為 “ k k k 折交叉驗(yàn)證” ( k k k-fold cross validation)。
k k k 最常用的取值是 10,此時(shí)稱為 10 折交叉驗(yàn)證;其他常用的 k k k 值有 5、20 等。
4. 自助法
自助法(bootstrapping)是一種非參數(shù)統(tǒng)計(jì)方法,用于從有限的樣本數(shù)據(jù)集中估計(jì)統(tǒng)計(jì)量的分布和置信區(qū)間。自助法是通過從原始數(shù)據(jù)集中隨機(jī)抽取樣本形成新的數(shù)據(jù)集,并重復(fù)這個(gè)過程多次來得到估計(jì)統(tǒng)計(jì)量的分布。這個(gè)過程可以產(chǎn)生多個(gè)樣本數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的樣本數(shù)和原始數(shù)據(jù)集相同,但可能包含重復(fù)的樣本數(shù)據(jù)。
自助法的基本思想是通過對原始數(shù)據(jù)進(jìn)行有放回的抽樣來模擬從總體中抽樣。由于樣本的重復(fù)采樣,部分樣本可能在某次采樣中被重復(fù)選擇,而另一些樣本可能在某些采樣中沒有被選擇。這樣可以形成一個(gè)更廣泛的樣本空間,并且可以通過這些不同的樣本數(shù)據(jù)集來估計(jì)統(tǒng)計(jì)量的置信區(qū)間。
自助法可以用于解決小樣本數(shù)據(jù)集的統(tǒng)計(jì)問題,并且具有一定的魯棒性和準(zhǔn)確性。例如,在機(jī)器學(xué)習(xí)中,自助法可以用于估計(jì)模型參數(shù)的置信區(qū)間,從而評估模型的穩(wěn)定性和準(zhǔn)確性。自助法還可以用于特征選擇、模型選擇和模型融合等問題,它是一種常用的非參數(shù)統(tǒng)計(jì)方法。
5. 調(diào)參 / 最終模型
大多數(shù)學(xué)習(xí)算法都有些參數(shù) (parameter) 需要設(shè)定,參數(shù)配置不同 ,學(xué)得模型的性能往往有顯著差別,因此,在進(jìn)行模型評估與選擇時(shí),除了要對適用學(xué)習(xí)算法進(jìn)行選擇,還需對算法參數(shù)進(jìn)行設(shè)定,這就是通常所說的 “參數(shù)調(diào)節(jié)” 或簡稱 “調(diào)參” (parameter tuning)。
2.3 性能度量
1. 回歸任務(wù)的性能度量
回歸任務(wù)最常用的性能度量是 “均方誤差”(mean squared error)。
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) ? y i ) 2 (2.2) E(f ; D)=\frac{1}{m} \sum_{i=1}^m\left(f\left(\boldsymbol{x}_i\right)-y_i\right)^2 \tag{2.2} E(f;D)=m1?i=1∑m?(f(xi?)?yi?)2(2.2)
更一般的,對于數(shù)據(jù)分布 D \mathcal{D} D 和概率密度函數(shù) p ( ? ) p(\cdot) p(?),均方誤差可描述為
E ( f ; D ) = ∫ x ~ D ( f ( x ) ? y ) 2 p ( x ) d x (2.3) E(f ; \mathcal{D})=\int_{\boldsymbol{x} \sim \mathcal{D}}(f(\boldsymbol{x})-y)^2 p(\boldsymbol{x}) \mathrmn5n3t3z \boldsymbol{x} \tag{2.3} E(f;D)=∫x~D?(f(x)?y)2p(x)dx(2.3)
2. 分類任務(wù)性能度量方法 —— 錯(cuò)誤率 / 精度
錯(cuò)誤率是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例,精度則是分類正確的樣本數(shù)占樣本總數(shù)的比例。對樣本集 D \mathcal{D} D,分類錯(cuò)誤率定義為
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) (2.4) E(f ; D)=\frac{1}{m} \sum_{i=1}^m \mathbb{I}\left(f\left(\boldsymbol{x}_i\right) \neq y_i\right) \tag{2.4} E(f;D)=m1?i=1∑m?I(f(xi?)=yi?)(2.4)
精度則定義為
acc ? ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 ? E ( f ; D ) . (2.5) \begin{aligned} \operatorname{acc}(f ; D) & =\frac{1}{m} \sum_{i=1}^m \mathbb{I}\left(f\left(\boldsymbol{x}_i\right)=y_i\right) \\ & =1-E(f ; D) . \end{aligned} \tag{2.5} acc(f;D)?=m1?i=1∑m?I(f(xi?)=yi?)=1?E(f;D).?(2.5)
更一般的,對于數(shù)據(jù)分布 D \mathcal{D} D 和概率密度函數(shù) p ( ? ) p(\cdot) p(?),錯(cuò)誤率與精度可分別描述為
E ( f ; D ) = ∫ x ~ D I ( f ( x ) ≠ y ) p ( x ) d x (2.6) E(f ; \mathcal{D})=\int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x}) \neq y) p(\boldsymbol{x}) \mathrmn5n3t3z \boldsymbol{x} \tag{2.6} E(f;D)=∫x~D?I(f(x)=y)p(x)dx(2.6)
acc ? ( f ; D ) = ∫ x ~ D I ( f ( x ) = y ) p ( x ) d x = 1 ? E ( f ; D ) (2.7) \begin{aligned} \operatorname{acc}(f ; \mathcal{D}) & =\int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x})=y) p(\boldsymbol{x}) \mathrmn5n3t3z \boldsymbol{x} \\ & =1-E(f ; \mathcal{D}) \tag{2.7} \end{aligned} acc(f;D)?=∫x~D?I(f(x)=y)p(x)dx=1?E(f;D)?(2.7)
3. 分類任務(wù)性能度量方法 —— 查準(zhǔn)率 / 查全率 / F1
對于二分類問題,如下所示:
全稱 | 真實(shí)值(標(biāo)簽,label) | 預(yù)測值(predict) | |
---|---|---|---|
TP | True Positive | 1 | 1 |
FP | False Positive | 0 | 1 |
TN | True Negative | 0 | 0 |
FN | False Negative | 1 | 0 |
查準(zhǔn)率(precision):
P = T P T P + F P (2.8) P=\frac{T P}{T P+F P} \tag{2.8} P=TP+FPTP?(2.8)
查全率(recall):
R = T P T P + F N (2.9) R=\frac{T P}{T P+F N} \tag{2.9} R=TP+FNTP?(2.9)
更常用的是 F 1 F1 F1 度量:
F 1 = 2 × P × R P + R = 2 × T P ?樣例總數(shù)? + T P ? T N .? (2.10) F 1=\frac{2 \times P \times R}{P+R}=\frac{2 \times T P}{\text { 樣例總數(shù) }+T P-T N} \text {. } \tag{2.10} F1=P+R2×P×R?=?樣例總數(shù)?+TP?TN2×TP?.?(2.10)
4. ROC 曲線
ROC(Receiver Operating Characteristic)曲線是一種用于評估二元分類器性能的圖形工具。ROC曲線以真陽性率(True Positive Rate,TPR)為縱坐標(biāo),以假陽性率(False Positive Rate,F(xiàn)PR)為橫坐標(biāo),用于衡量分類器的敏感性和特異性。
T P R = T P T P + F N (2.18) \mathrm{TPR}=\frac{T P}{T P+F N} \tag{2.18} TPR=TP+FNTP?(2.18)
F P R = F P T N + F P (2.19) \mathrm{FPR}=\frac{F P}{T N+F P} \tag{2.19} FPR=TN+FPFP?(2.19)
在ROC曲線中,每個(gè)點(diǎn)代表分類器在不同的閾值下的TPR和FPR。通過改變分類器的閾值,可以得到不同的點(diǎn),并將這些點(diǎn)連接起來得到ROC曲線。曲線下面積(Area Under Curve,AUC)可以用來衡量分類器的性能,AUC的取值范圍為0.5到1,AUC越大表示分類器的性能越好。
ROC曲線的優(yōu)點(diǎn)在于不受分類器閾值的影響,同時(shí)可以通過比較不同分類器的ROC曲線來評估它們的性能。ROC曲線也適用于不平衡數(shù)據(jù)集的分類問題,其中一類樣本數(shù)量較少,例如醫(yī)學(xué)診斷和欺詐檢測等應(yīng)用場景。
需要注意的是,ROC曲線不能直接用于比較多類別分類器的性能。對于多類別分類問題,可以使用一些衍生自ROC曲線的評估指標(biāo),例如微平均(micro-averaging)和宏平均(macro-averaging)等。
下面是一個(gè)示例ROC曲線:
在這個(gè)例子中,橫軸是假陽性率(False Positive Rate,F(xiàn)PR),縱軸是真陽性率(True Positive Rate,TPR)。假陽性率是指實(shí)際為負(fù)樣本但被錯(cuò)誤地預(yù)測為正樣本的樣本占所有負(fù)樣本的比例,真陽性率是指實(shí)際為正樣本且被正確地預(yù)測為正樣本的樣本占所有正樣本的比例。
ROC曲線顯示了分類器在不同閾值下的性能,閾值從左上角到右下角逐漸增加。曲線下面積(Area Under Curve,AUC)為0.91,說明該分類器的性能很好。通常,AUC的取值范圍為0.5到1,AUC越大表示分類器的性能越好。
在實(shí)際應(yīng)用中,可以根據(jù)ROC曲線選擇合適的分類器和閾值,以達(dá)到最佳的分類性能。
5. AUC 曲線
AUC(Area Under Curve)曲線是ROC(Receiver Operating Characteristic)曲線下方的面積,用于評估二元分類器的性能。AUC曲線常用于評估分類器的準(zhǔn)確性、魯棒性和可靠性。
A U C = 1 2 ∑ i = 1 m ? 1 ( x i + 1 ? x i ) ? ( y i + y i + 1 ) (2.20) \mathrm{AUC}=\frac{1}{2} \sum_{i=1}^{m-1}\left(x_{i+1}-x_i\right) \cdot\left(y_i+y_{i+1}\right) \tag{2.20} AUC=21?i=1∑m?1?(xi+1??xi?)?(yi?+yi+1?)(2.20)
AUC的取值范圍在0.5到1之間,其中0.5表示隨機(jī)分類器,而1表示完美分類器。在AUC為0.5到1之間的情況下,AUC值越大,分類器的性能越好。AUC曲線的斜率越大,分類器的性能也越好。
AUC曲線可以解決在不同閾值下分類器性能的變化問題,并且可以對不同的分類器進(jìn)行比較。對于大多數(shù)實(shí)際問題,AUC都是一個(gè)有用的度量標(biāo)準(zhǔn)。
需要注意的是,AUC曲線并不適用于多類別分類問題,因?yàn)镽OC曲線只適用于二元分類問題。在多類別分類問題中,可以使用一些其他的評估指標(biāo),例如混淆矩陣、準(zhǔn)確率、召回率等。
以下是一個(gè)AUC曲線的例子:
這個(gè)例子展示了一個(gè)分類器的AUC曲線。曲線下方的面積(AUC)為0.87,表示該分類器的性能相對較好。在這個(gè)例子中,分類器的預(yù)測結(jié)果可以根據(jù)閾值進(jìn)行分類,閾值從左上角到右下角逐漸增加。在最優(yōu)閾值處,該分類器的真陽性率(TPR)為0.75,假陽性率(FPR)為0.15。
在實(shí)際應(yīng)用中,AUC曲線可以用來選擇最佳分類器和閾值,以最大化分類性能。由于AUC曲線不受分類器閾值的影響,因此它通常比其他評估指標(biāo)更適合評估分類器的性能。
2.4 比較檢驗(yàn)
1. 什么是比較驗(yàn)證
在機(jī)器學(xué)習(xí)中,比較驗(yàn)證是一種通過比較不同模型的性能來選擇最佳模型的方法。比較驗(yàn)證通常涉及以下步驟:
-
數(shù)據(jù)集劃分:將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。通常使用交叉驗(yàn)證方法來確保模型在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。
-
模型訓(xùn)練:使用訓(xùn)練集訓(xùn)練不同的模型。
-
模型評估:使用測試集評估模型的性能,并計(jì)算模型的指標(biāo),如準(zhǔn)確率、召回率、F1分?jǐn)?shù)、AUC等。
-
模型比較:比較不同模型的性能指標(biāo),并選擇最佳模型。
比較驗(yàn)證的目的是找到最佳的模型,以在未知數(shù)據(jù)上實(shí)現(xiàn)最佳性能。由于不同的模型在不同的數(shù)據(jù)集上表現(xiàn)可能不同,因此比較驗(yàn)證是一種重要的機(jī)器學(xué)習(xí)技術(shù)。通常,比較驗(yàn)證需要在多個(gè)數(shù)據(jù)集上進(jìn)行,以避免因特定數(shù)據(jù)集導(dǎo)致的偏差。
比較驗(yàn)證可以使用多種方法,如留出法、交叉驗(yàn)證和自助法等。其中,交叉驗(yàn)證是最常用的方法之一,它可以有效地利用數(shù)據(jù),并減少估計(jì)誤差。交叉驗(yàn)證通??梢苑譃閗折交叉驗(yàn)證、留一交叉驗(yàn)證等。
2. 假設(shè)驗(yàn)證
在機(jī)器學(xué)習(xí)中,假設(shè)驗(yàn)證是一種評估模型的泛化能力的方法,也稱為模型選擇。假設(shè)驗(yàn)證的基本思想是將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。模型在訓(xùn)練集上訓(xùn)練,在驗(yàn)證集上進(jìn)行驗(yàn)證和參數(shù)調(diào)整,最終在測試集上進(jìn)行測試。
假設(shè)驗(yàn)證通常涉及以下步驟:
-
數(shù)據(jù)集劃分:將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集用于模型訓(xùn)練,驗(yàn)證集用于模型選擇和參數(shù)調(diào)整,測試集用于模型測試。
-
模型訓(xùn)練:使用訓(xùn)練集訓(xùn)練模型。
-
模型選擇:使用驗(yàn)證集評估不同模型的性能,并選擇最佳模型。
-
參數(shù)調(diào)整:使用驗(yàn)證集調(diào)整模型的參數(shù)。
-
模型測試:使用測試集評估最終模型的性能。
假設(shè)驗(yàn)證的目的是選擇最佳模型,并避免過度擬合或欠擬合。過度擬合是指模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在測試數(shù)據(jù)上表現(xiàn)較差。欠擬合是指模型無法捕捉數(shù)據(jù)的復(fù)雜性,導(dǎo)致在訓(xùn)練和測試數(shù)據(jù)上都表現(xiàn)不佳。假設(shè)驗(yàn)證可以幫助選擇最佳模型,以最大限度地提高模型的泛化性能。
假設(shè)驗(yàn)證可以使用多種方法,如留出法、交叉驗(yàn)證和自助法等。其中,交叉驗(yàn)證是最常用的方法之一,它可以有效地利用數(shù)據(jù),并減少估計(jì)誤差。交叉驗(yàn)證通??梢苑譃閗折交叉驗(yàn)證、留一交叉驗(yàn)證等。
2.5 偏差與方差
1. 偏差與方差
在機(jī)器學(xué)習(xí)中,方差(Variance)和偏差(Bias)是模型的兩個(gè)重要性質(zhì)。它們通常被用來描述模型的復(fù)雜度和泛化性能。
偏差是指模型的預(yù)測結(jié)果與真實(shí)結(jié)果的平均差異,也稱為模型的擬合能力。低偏差的模型通常具有較好的擬合能力,能夠在訓(xùn)練數(shù)據(jù)上獲得較好的性能。然而,當(dāng)模型太簡單時(shí),它可能無法捕捉數(shù)據(jù)的復(fù)雜性,導(dǎo)致欠擬合。因此,適當(dāng)?shù)钠钔ǔP枰WC模型具有一定的靈活性和能力,以提高其泛化性能。
方差是指模型在不同訓(xùn)練數(shù)據(jù)集上預(yù)測結(jié)果的差異,也稱為模型的泛化能力。高方差的模型通常具有過擬合的傾向,即在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在測試數(shù)據(jù)上表現(xiàn)較差。過度復(fù)雜的模型通常容易過擬合,因?yàn)樗鼈兛梢杂洃浻?xùn)練數(shù)據(jù)中的噪聲和異常值,而不是學(xué)習(xí)數(shù)據(jù)的真實(shí)模式。
為了平衡偏差和方差,可以使用正則化方法、交叉驗(yàn)證和集成學(xué)習(xí)等技術(shù)來調(diào)整模型的復(fù)雜度和參數(shù)。例如,正則化可以通過添加懲罰項(xiàng)來限制模型的復(fù)雜度,從而減少方差。交叉驗(yàn)證可以用于估計(jì)模型的泛化性能,并選擇最佳模型。集成學(xué)習(xí)可以通過組合多個(gè)模型的預(yù)測結(jié)果來減少方差和偏差。
2. 泛化誤差 / 偏差 / 方差 / 噪聲
泛化誤差可分解為偏差、方差與噪聲之和。
E ( f ; D ) = bias ? 2 ( x ) + var ? ( x ) + ε 2 (2.42) E(f ; D)=\operatorname{bias}^2(\boldsymbol{x})+\operatorname{var}(\boldsymbol{x})+\varepsilon^2 \tag{2.42} E(f;D)=bias2(x)+var(x)+ε2(2.42)文章來源:http://www.zghlxwxcb.cn/news/detail-453227.html
Smileyan
2023.05.01 01:22文章來源地址http://www.zghlxwxcb.cn/news/detail-453227.html
到了這里,關(guān)于西瓜書讀書筆記整理(三)—— 第二章 模型評估與選擇的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!