噪聲是影響機器學(xué)習(xí)算法有效性的重要因素之一,由于實際數(shù)據(jù)集存在采集誤差、主觀標(biāo)注以及被惡意投毒等許多因素,使得所構(gòu)造的數(shù)據(jù)集中難免存在噪聲
一、噪聲的分類、產(chǎn)生原因與影響
在機器學(xué)習(xí)訓(xùn)練集中,存在兩種噪聲
屬性噪聲 樣本中某個屬性的值存在噪聲
標(biāo)簽噪聲 樣本歸屬類別
關(guān)于噪聲分布的假設(shè):均勻分布、高斯分布、泊松分布等
一般認(rèn)為,數(shù)據(jù)質(zhì)量決定了分類效果的上限,而分類器算法只能決定多大程度上逼近這個上限
標(biāo)簽噪聲的產(chǎn)生原因
(1)特定類別的影響,在給定的標(biāo)注任務(wù)中,各個類別樣本之間的區(qū)分度不同,有的類別與其他類別都比較相似,就會導(dǎo)致這類樣本標(biāo)注錯誤率高
(2)標(biāo)注人為的因素
(3)少數(shù)類的標(biāo)注更容易錯誤
(4)訓(xùn)練數(shù)據(jù)受到了惡意投毒,當(dāng)在對抗環(huán)境下應(yīng)用機器學(xué)習(xí)模型時,攻擊者往往會通過一些途徑向數(shù)據(jù)中注入惡意樣本,擾亂分類器的性能
標(biāo)簽噪聲比屬性噪聲更重要
數(shù)據(jù)利用率
分類性能下降: KNN、決策樹和支持向量機、 Boosting 等
模型復(fù)雜度 決策樹節(jié)點增多 為了降低噪聲影響,需要增加正確樣本數(shù)量 可能導(dǎo)致非平衡數(shù)據(jù)
正面影響:Bagging訓(xùn)練數(shù)據(jù)中的噪聲有利于提升基分類器的多樣性
與噪聲類似的概念和研究
異常 離群點:outlier 少數(shù)類 小樣本 對抗樣本 惡意樣本 臟數(shù)據(jù)
二、噪聲處理的理論與方法
概率近似正確定理(probably approximately correct,PAC )
對于任意的學(xué)習(xí)算法而言,訓(xùn)練數(shù)據(jù)噪聲率β,必須滿足β≤ ε /(1+ ε) ,其中ε表示分類器的錯誤率
三、基于數(shù)據(jù)清洗的噪聲過濾
在這類方法中,一般假設(shè)噪聲標(biāo)簽樣本是分類錯誤的樣本,因此就把噪聲樣本的過濾問題轉(zhuǎn)換為普通的分類問題,這種方法的基本思路是消除或者糾正數(shù)據(jù)中的錯誤標(biāo)簽,這個步驟可以在訓(xùn)練之前完成,也可以與模型訓(xùn)練同步進(jìn)行,噪聲去除方法具體包括直接刪除法,基于最近鄰的去噪方法和集成去噪法等
數(shù)據(jù)層 去除噪聲樣本 修正噪聲樣本 方法:采用噪聲敏感方法檢測噪聲 KNN,K小 密度方法 決策樹 集成學(xué)習(xí):靜態(tài)集成、動態(tài)集成;投票 主動學(xué)習(xí):人工+分類器迭代
1:直接刪除法
直接刪除法是基于兩種情況,把異常值影響較大或看起來比較可疑的實例刪除,或者直接刪除分類器中分類錯誤的訓(xùn)練實例
在具體實現(xiàn)方法上,如何判斷異常值、可疑等特征,可以使用邊界點發(fā)現(xiàn)之類的方法
2:基于最近鄰的去噪方法
從KNN本身原理來看,當(dāng)k比較小的時候,分類結(jié)果與近鄰的樣本標(biāo)簽關(guān)系很大。因此,它是一種典型的噪聲敏感模型,在噪聲過濾中有一定優(yōu)勢
壓縮最近鄰CNN、縮減最近鄰RNN、基于實例選擇的Edited Nearest Neighbor等,也都可以用于噪聲過濾
3:集成去噪
集成分類方法對若干個弱分類器進(jìn)行組合,根據(jù)結(jié)果的一致性來判斷是否為噪聲,是目前一種較好的標(biāo)簽去噪方法。兩種情況
使用具有相同分布的其他數(shù)據(jù)集,當(dāng)然該數(shù)據(jù)集必須是一個干凈、沒有噪聲的數(shù)據(jù)
不使用外部數(shù)據(jù)集,而是直接使用給定的標(biāo)簽數(shù)據(jù)集進(jìn)行K折交叉分析
四、主動式過濾
?基于數(shù)據(jù)清洗的噪聲過濾方法的隱含假設(shè)是噪聲是錯分樣本,把噪聲和錯分樣本等同起來
位于分類邊界的噪聲最難于處理,需要人工確認(rèn)
主動學(xué)習(xí)框架和理論為人類專家與機器學(xué)習(xí)的寫作提供了一種有效的途徑,它通過迭代抽樣的方式將某種特定的樣本挑選出來,交由專家對標(biāo)簽進(jìn)行人工判斷和標(biāo)注,從而構(gòu)造有效訓(xùn)練集的一種方法
查詢策略如何選擇可能是噪聲的樣本,就成為主動學(xué)習(xí)的核心問題
查詢策略主要可以分為以下兩類:基于池的樣例選擇算法和基于流的樣例選擇算法
基于池的樣本選擇算法代表性的有:基于不確定性采樣的查詢方法、基于委員會的查詢方法、基于密度權(quán)重的方法等
不確定采樣
?不確定性采樣的查詢
將模型難于區(qū)分的樣本提取出來,具體在衡量不確定性時可以采用的方法有最小置信度、邊緣采樣和熵
邊緣采樣是選擇哪些類別概率相差不大的樣本
其中,y1,y2是樣本x的top 2歸屬概率的類別。 對于兩個樣本a,b的分類概率分別為(0.71,0.19,0.10)、(0.17,0.53,0.30) ,應(yīng)當(dāng)選擇b,因為0.53-0.17<0.71-0.19。對于二分類問題,邊緣采樣和最小置信度是等價的
?基于熵采樣
通過熵來度量,它衡量了在每個類別歸屬概率上的不確定。選擇熵最大的樣本作為需要人工判定的樣本
基于委員會的采樣?
當(dāng)主動學(xué)習(xí)中采用集成學(xué)習(xí)模型時,這種選擇策略考慮到每個基分類器的投票情況。相應(yīng)地,通過基于投票熵和平均KL散度來選擇樣本
樣本x的投票熵計算時,把x的每個類別的投票數(shù)當(dāng)作隨機變量,衡量該隨機變量的不確定性
?
其中V(y)表示投票給y的分類器的個數(shù),C表示分類器總數(shù)。投票熵越大,就越有可能被選擇出來
當(dāng)每個基分類器為每個樣本輸出分類概率時,可以使用平均KL散度來計算各個分類器的分類概率分布與平均分布的平均偏差。偏差越大的樣本,其分類概率分布的一致性越差,應(yīng)當(dāng)越有可能被選擇出來
五、噪聲魯棒模型
?在分類模型中嵌入噪聲處理的學(xué)習(xí)機制,使得學(xué)習(xí)到的模型能抵抗一定的噪聲樣本
在機制設(shè)計上,可以從樣本權(quán)重調(diào)整、損失函數(shù)設(shè)計、Bagging集成學(xué)習(xí)、深度學(xué)習(xí)等角度提升模型的噪聲容忍度
AdaBoost串接的基分類器中,越往后面,錯誤標(biāo)簽的樣本越會得到基分類器的關(guān)注
?
當(dāng)樣本x分類錯誤時,其權(quán)值以exp(beta_m)變化;而對于正確分類的樣本以exp(-beta_m)。 從上述算法流程可以看出,0<=e_m<=0.5,相應(yīng)地,beta_m>=0。因此,對于,錯誤的樣本的權(quán)重>exp(0)=1,而分類正確的樣本的權(quán)值<=exp(0)=1
經(jīng)過t輪后得到的權(quán)重為exp(beta_m1) exp(beta_m2)…exp(beta_mt)。可見噪聲樣本的權(quán)重得到了快速增加而變得很大
AdaBoost 算法的噪聲敏感性歸因于其對數(shù)損失函數(shù),當(dāng)一個樣本未被正確分類的時候,該樣本的 權(quán)值會指數(shù)型增加
?隨著迭代次數(shù)的增加,由于算法會更多地關(guān)注于錯分類的樣本, 必然會使得噪聲樣本的權(quán)值越來越大,進(jìn)而增加了模型復(fù)雜度,降低了算法性能
刪除權(quán)重過高的樣本或調(diào)整異常樣本的權(quán)重來降低標(biāo)簽噪聲的影響
MadaBoost:針對噪聲樣本在后期的訓(xùn)練權(quán)重過大的問題,算法重新調(diào)整了AdaBoost中的權(quán)值更新公式,設(shè)置了一個權(quán)重的最大上限1,限制標(biāo)簽噪聲造成的樣本權(quán)值的過度增加
AdaBoost的損失函數(shù)改進(jìn)
?各分類器穩(wěn)健性差異的本質(zhì)原因在于損失函數(shù)
不同損失函數(shù)對噪聲的穩(wěn)健性差異
0-1損失或最小二乘損失對均勻分布噪聲穩(wěn)健
指數(shù)、對數(shù)型損失函數(shù)對各類噪聲大都不穩(wěn)健
AdaBoost的損失函數(shù)
?
(1)噪聲樣本被正確分類,表示為xp
(2)非噪聲樣本被正確分類,表示為xq
(3)噪聲樣本被錯誤分類,表示為xk
(4)非噪聲樣本被錯誤分類,表示為xl?
預(yù)期目標(biāo)
ndAdaBoost的損失函數(shù)
?
?
在這樣的損失函數(shù)下
(1)如果樣本xn被錯誤分類 在誤分的樣本中,噪聲數(shù)據(jù)比非噪聲數(shù)據(jù)所占的比例更大。不正確分類的樣本噪聲越大,其損失函數(shù)值越小
?
(2)如果樣本xn被正確分類
在正確分類的樣本中,非噪聲數(shù)據(jù)傾向于最小化損失函數(shù),也就是說非噪聲數(shù)據(jù)盡可能多地成為正確分類
?
常見損失函數(shù)如下
?0-1損失函數(shù)
平均絕對誤差MAE
均方誤差MSE
均方根誤差RMSE
交叉熵?fù)p失
指數(shù)損失
對數(shù)損失文章來源:http://www.zghlxwxcb.cn/news/detail-767483.html
Hinge損失函數(shù)文章來源地址http://www.zghlxwxcb.cn/news/detail-767483.html
到了這里,關(guān)于人工智能中噪聲數(shù)據(jù)的產(chǎn)生與處理方法詳解的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!