国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

人工智能中噪聲數(shù)據(jù)的產(chǎn)生與處理方法詳解

這篇具有很好參考價值的文章主要介紹了人工智能中噪聲數(shù)據(jù)的產(chǎn)生與處理方法詳解。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

噪聲是影響機器學(xué)習(xí)算法有效性的重要因素之一,由于實際數(shù)據(jù)集存在采集誤差、主觀標(biāo)注以及被惡意投毒等許多因素,使得所構(gòu)造的數(shù)據(jù)集中難免存在噪聲

一、噪聲的分類、產(chǎn)生原因與影響

在機器學(xué)習(xí)訓(xùn)練集中,存在兩種噪聲

屬性噪聲 樣本中某個屬性的值存在噪聲

標(biāo)簽噪聲 樣本歸屬類別

關(guān)于噪聲分布的假設(shè):均勻分布、高斯分布、泊松分布等

一般認(rèn)為,數(shù)據(jù)質(zhì)量決定了分類效果的上限,而分類器算法只能決定多大程度上逼近這個上限

標(biāo)簽噪聲的產(chǎn)生原因

(1)特定類別的影響,在給定的標(biāo)注任務(wù)中,各個類別樣本之間的區(qū)分度不同,有的類別與其他類別都比較相似,就會導(dǎo)致這類樣本標(biāo)注錯誤率高

(2)標(biāo)注人為的因素

(3)少數(shù)類的標(biāo)注更容易錯誤

(4)訓(xùn)練數(shù)據(jù)受到了惡意投毒,當(dāng)在對抗環(huán)境下應(yīng)用機器學(xué)習(xí)模型時,攻擊者往往會通過一些途徑向數(shù)據(jù)中注入惡意樣本,擾亂分類器的性能

標(biāo)簽噪聲比屬性噪聲更重要

數(shù)據(jù)利用率

分類性能下降: KNN、決策樹和支持向量機、 Boosting 等

模型復(fù)雜度 決策樹節(jié)點增多 為了降低噪聲影響,需要增加正確樣本數(shù)量 可能導(dǎo)致非平衡數(shù)據(jù)

正面影響:Bagging訓(xùn)練數(shù)據(jù)中的噪聲有利于提升基分類器的多樣性

與噪聲類似的概念和研究

異常 離群點:outlier 少數(shù)類 小樣本 對抗樣本 惡意樣本 臟數(shù)據(jù)

二、噪聲處理的理論與方法

概率近似正確定理(probably approximately correct,PAC )

對于任意的學(xué)習(xí)算法而言,訓(xùn)練數(shù)據(jù)噪聲率β,必須滿足β≤ ε /(1+ ε) ,其中ε表示分類器的錯誤率

三、基于數(shù)據(jù)清洗的噪聲過濾

在這類方法中,一般假設(shè)噪聲標(biāo)簽樣本是分類錯誤的樣本,因此就把噪聲樣本的過濾問題轉(zhuǎn)換為普通的分類問題,這種方法的基本思路是消除或者糾正數(shù)據(jù)中的錯誤標(biāo)簽,這個步驟可以在訓(xùn)練之前完成,也可以與模型訓(xùn)練同步進(jìn)行,噪聲去除方法具體包括直接刪除法,基于最近鄰的去噪方法和集成去噪法等

數(shù)據(jù)層 去除噪聲樣本 修正噪聲樣本 方法:采用噪聲敏感方法檢測噪聲 KNN,K小 密度方法 決策樹 集成學(xué)習(xí):靜態(tài)集成、動態(tài)集成;投票 主動學(xué)習(xí):人工+分類器迭代

1:直接刪除法

直接刪除法是基于兩種情況,把異常值影響較大或看起來比較可疑的實例刪除,或者直接刪除分類器中分類錯誤的訓(xùn)練實例

在具體實現(xiàn)方法上,如何判斷異常值、可疑等特征,可以使用邊界點發(fā)現(xiàn)之類的方法

2:基于最近鄰的去噪方法

從KNN本身原理來看,當(dāng)k比較小的時候,分類結(jié)果與近鄰的樣本標(biāo)簽關(guān)系很大。因此,它是一種典型的噪聲敏感模型,在噪聲過濾中有一定優(yōu)勢

壓縮最近鄰CNN、縮減最近鄰RNN、基于實例選擇的Edited Nearest Neighbor等,也都可以用于噪聲過濾

3:集成去噪

集成分類方法對若干個弱分類器進(jìn)行組合,根據(jù)結(jié)果的一致性來判斷是否為噪聲,是目前一種較好的標(biāo)簽去噪方法。兩種情況

使用具有相同分布的其他數(shù)據(jù)集,當(dāng)然該數(shù)據(jù)集必須是一個干凈、沒有噪聲的數(shù)據(jù)

不使用外部數(shù)據(jù)集,而是直接使用給定的標(biāo)簽數(shù)據(jù)集進(jìn)行K折交叉分析

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

四、主動式過濾

?基于數(shù)據(jù)清洗的噪聲過濾方法的隱含假設(shè)是噪聲是錯分樣本,把噪聲和錯分樣本等同起來

位于分類邊界的噪聲最難于處理,需要人工確認(rèn)

主動學(xué)習(xí)框架和理論為人類專家與機器學(xué)習(xí)的寫作提供了一種有效的途徑,它通過迭代抽樣的方式將某種特定的樣本挑選出來,交由專家對標(biāo)簽進(jìn)行人工判斷和標(biāo)注,從而構(gòu)造有效訓(xùn)練集的一種方法

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

查詢策略如何選擇可能是噪聲的樣本,就成為主動學(xué)習(xí)的核心問題

查詢策略主要可以分為以下兩類:基于池的樣例選擇算法和基于流的樣例選擇算法

基于池的樣本選擇算法代表性的有:基于不確定性采樣的查詢方法、基于委員會的查詢方法、基于密度權(quán)重的方法等

不確定采樣

?不確定性采樣的查詢

將模型難于區(qū)分的樣本提取出來,具體在衡量不確定性時可以采用的方法有最小置信度、邊緣采樣和熵

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

邊緣采樣是選擇哪些類別概率相差不大的樣本

其中,y1,y2是樣本x的top 2歸屬概率的類別。 對于兩個樣本a,b的分類概率分別為(0.71,0.19,0.10)、(0.17,0.53,0.30) ,應(yīng)當(dāng)選擇b,因為0.53-0.17<0.71-0.19。對于二分類問題,邊緣采樣和最小置信度是等價的

?基于熵采樣

通過熵來度量,它衡量了在每個類別歸屬概率上的不確定。選擇熵最大的樣本作為需要人工判定的樣本

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

基于委員會的采樣?

當(dāng)主動學(xué)習(xí)中采用集成學(xué)習(xí)模型時,這種選擇策略考慮到每個基分類器的投票情況。相應(yīng)地,通過基于投票熵和平均KL散度來選擇樣本

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

樣本x的投票熵計算時,把x的每個類別的投票數(shù)當(dāng)作隨機變量,衡量該隨機變量的不確定性

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)?

其中V(y)表示投票給y的分類器的個數(shù),C表示分類器總數(shù)。投票熵越大,就越有可能被選擇出來

當(dāng)每個基分類器為每個樣本輸出分類概率時,可以使用平均KL散度來計算各個分類器的分類概率分布與平均分布的平均偏差。偏差越大的樣本,其分類概率分布的一致性越差,應(yīng)當(dāng)越有可能被選擇出來

五、噪聲魯棒模型

?在分類模型中嵌入噪聲處理的學(xué)習(xí)機制,使得學(xué)習(xí)到的模型能抵抗一定的噪聲樣本

在機制設(shè)計上,可以從樣本權(quán)重調(diào)整、損失函數(shù)設(shè)計、Bagging集成學(xué)習(xí)、深度學(xué)習(xí)等角度提升模型的噪聲容忍度

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

AdaBoost串接的基分類器中,越往后面,錯誤標(biāo)簽的樣本越會得到基分類器的關(guān)注

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)?

當(dāng)樣本x分類錯誤時,其權(quán)值以exp(beta_m)變化;而對于正確分類的樣本以exp(-beta_m)。 從上述算法流程可以看出,0<=e_m<=0.5,相應(yīng)地,beta_m>=0。因此,對于,錯誤的樣本的權(quán)重>exp(0)=1,而分類正確的樣本的權(quán)值<=exp(0)=1

經(jīng)過t輪后得到的權(quán)重為exp(beta_m1) exp(beta_m2)…exp(beta_mt)。可見噪聲樣本的權(quán)重得到了快速增加而變得很大

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

AdaBoost 算法的噪聲敏感性歸因于其對數(shù)損失函數(shù),當(dāng)一個樣本未被正確分類的時候,該樣本的 權(quán)值會指數(shù)型增加

?隨著迭代次數(shù)的增加,由于算法會更多地關(guān)注于錯分類的樣本, 必然會使得噪聲樣本的權(quán)值越來越大,進(jìn)而增加了模型復(fù)雜度,降低了算法性能

刪除權(quán)重過高的樣本或調(diào)整異常樣本的權(quán)重來降低標(biāo)簽噪聲的影響

MadaBoost:針對噪聲樣本在后期的訓(xùn)練權(quán)重過大的問題,算法重新調(diào)整了AdaBoost中的權(quán)值更新公式,設(shè)置了一個權(quán)重的最大上限1,限制標(biāo)簽噪聲造成的樣本權(quán)值的過度增加

AdaBoost的損失函數(shù)改進(jìn)

?各分類器穩(wěn)健性差異的本質(zhì)原因在于損失函數(shù)

不同損失函數(shù)對噪聲的穩(wěn)健性差異

0-1損失或最小二乘損失對均勻分布噪聲穩(wěn)健

指數(shù)、對數(shù)型損失函數(shù)對各類噪聲大都不穩(wěn)健

AdaBoost的損失函數(shù)

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

?nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

(1)噪聲樣本被正確分類,表示為xp

(2)非噪聲樣本被正確分類,表示為xq

(3)噪聲樣本被錯誤分類,表示為xk

(4)非噪聲樣本被錯誤分類,表示為xl?

預(yù)期目標(biāo)

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

ndAdaBoost的損失函數(shù)

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)?

?nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)

在這樣的損失函數(shù)下

(1)如果樣本xn被錯誤分類 在誤分的樣本中,噪聲數(shù)據(jù)比非噪聲數(shù)據(jù)所占的比例更大。不正確分類的樣本噪聲越大,其損失函數(shù)值越小

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)?

(2)如果樣本xn被正確分類

在正確分類的樣本中,非噪聲數(shù)據(jù)傾向于最小化損失函數(shù),也就是說非噪聲數(shù)據(jù)盡可能多地成為正確分類

nyt數(shù)據(jù)集中的噪聲,人工智能安全,人工智能,算法,python,噪聲數(shù)據(jù)處理,機器學(xué)習(xí)?

常見損失函數(shù)如下

?0-1損失函數(shù)

平均絕對誤差MAE

均方誤差MSE

均方根誤差RMSE

交叉熵?fù)p失

指數(shù)損失

對數(shù)損失

Hinge損失函數(shù)文章來源地址http://www.zghlxwxcb.cn/news/detail-767483.html

到了這里,關(guān)于人工智能中噪聲數(shù)據(jù)的產(chǎn)生與處理方法詳解的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【人工智能】實驗一:產(chǎn)生式系統(tǒng)實驗與基礎(chǔ)知識

    實驗?zāi)康?熟悉一階謂詞邏輯和產(chǎn)生式表示法; 掌握產(chǎn)生式系統(tǒng)的運行機制,以及基于規(guī)則推理的基本方法。 實驗內(nèi)容 設(shè)計并編程實現(xiàn)一個飛行生物的小型產(chǎn)生式系統(tǒng)。 實驗要求 具體應(yīng)用領(lǐng)域自選,具體系統(tǒng)名稱自定。 用一階謂詞邏輯和產(chǎn)生式規(guī)則作為知識表示,利用產(chǎn)生

    2024年02月02日
    瀏覽(1052)
  • 【數(shù)據(jù)挖掘與人工智能自然語言處理】自然語言處理和人工智能:如何利用自然語言處理技術(shù)進(jìn)行數(shù)據(jù)挖掘

    作者:禪與計算機程序設(shè)計藝術(shù) 隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘已成為各個行業(yè)的熱門話題。數(shù)據(jù)挖掘的核心在于發(fā)現(xiàn)數(shù)據(jù)中的有價值信息,而自然語言處理(NLP)技術(shù)是實現(xiàn)這一目標(biāo)的重要手段。本文旨在通過自然語言處理技術(shù)進(jìn)行數(shù)據(jù)挖掘,為數(shù)據(jù)挖掘提供一

    2024年02月05日
    瀏覽(103)
  • 人工智能安全-2-非平衡數(shù)據(jù)處理

    人工智能安全-2-非平衡數(shù)據(jù)處理

    現(xiàn)象與原因 非平衡數(shù)據(jù)處理方法概覽 數(shù)據(jù)預(yù)處理層面 特征層 算法層面 非平衡數(shù)據(jù)分類問題 :在網(wǎng)絡(luò)信息安全問題中,諸如 惡意軟件檢測、SQL注入、不良信息檢測等 許多問題都可以歸結(jié)為機器學(xué)習(xí)分類問題。這類機器學(xué)習(xí)應(yīng)用問題中,普遍存在非平衡數(shù)據(jù)的現(xiàn)象。 產(chǎn)生的

    2024年02月14日
    瀏覽(89)
  • 人工智能安全-2-非平衡數(shù)據(jù)處理(1)

    人工智能安全-2-非平衡數(shù)據(jù)處理(1)

    現(xiàn)象與原因 非平衡數(shù)據(jù)處理方法概覽 數(shù)據(jù)預(yù)處理層面 特征層 算法層面 非平衡數(shù)據(jù)分類問題 :在網(wǎng)絡(luò)信息安全問題中,諸如 惡意軟件檢測、SQL注入、不良信息檢測等 許多問題都可以歸結(jié)為機器學(xué)習(xí)分類問題。這類機器學(xué)習(xí)應(yīng)用問題中,普遍存在非平衡數(shù)據(jù)的現(xiàn)象。 產(chǎn)生的

    2024年02月06日
    瀏覽(114)
  • AI倫理問題探究:人工智能對我們的未來會產(chǎn)生什么樣的影響?

    AI倫理問題探究:人工智能對我們的未來會產(chǎn)生什么樣的影響?

    “人工智能(AI)已經(jīng)成為當(dāng)今世界的熱點話題。它正在影響著我們的生活,改變著我們的世界。但是,AI的發(fā)展也帶來了一系列的倫理問題和社會影響。本文將詳細(xì)介紹AI的倫理問題和社會影響,并探討這些問題可能對我們未來的生活產(chǎn)生的影響?!?1. 隱私問題?? AI的發(fā)展

    2024年02月04日
    瀏覽(108)
  • 從數(shù)據(jù)處理到人工智能(常用庫的介紹)

    從數(shù)據(jù)處理到人工智能(常用庫的介紹)

    ? ????????????? ?可以這么理解pandas通過擴展了對一維數(shù)據(jù)和二維數(shù)據(jù)的一種表示,因而能夠形成更高層對數(shù)據(jù)的操作,簡化數(shù)據(jù)分析的運行? Matplotlib — Visualization with Python? ?seaborn: statistical data visualization — seaborn 0.12.2 documentation (pydata.org)? ?Mayavi: 3D scien

    2023年04月27日
    瀏覽(85)
  • 數(shù)據(jù)預(yù)處理與模型評估【機器學(xué)習(xí)、人工智能、實際事例】

    在機器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)預(yù)處理和模型評估是兩個至關(guān)重要的步驟。它們確保我們構(gòu)建的機器學(xué)習(xí)模型能夠從數(shù)據(jù)中有效地學(xué)習(xí)并做出準(zhǔn)確的預(yù)測。本文將詳細(xì)介紹數(shù)據(jù)預(yù)處理和模型評估的概念,并通過現(xiàn)實中的例子來闡述它們之間的密切關(guān)系。 什么是數(shù)據(jù)預(yù)處理? 數(shù)據(jù)預(yù)處

    2024年02月07日
    瀏覽(103)
  • 人工智能:數(shù)據(jù)分析之?dāng)?shù)據(jù)預(yù)處理、分析模型與可視化

    在人工智能和數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一種核心過程,它幫助我們從大量的數(shù)據(jù)中提取有價值的信息。數(shù)據(jù)分析的質(zhì)量和結(jié)果直接影響到?jīng)Q策的效率和準(zhǔn)確性。在這篇博客中,我們將詳細(xì)探討數(shù)據(jù)分析的關(guān)鍵步驟,包括數(shù)據(jù)預(yù)處理、分析模型和可視化,并通過實際應(yīng)用案例

    2024年03月10日
    瀏覽(99)
  • 人工智能與大數(shù)據(jù)面試指南——自然語言處理(NLP)

    分類目錄:《人工智能與大數(shù)據(jù)面試指南》總目錄 《人工智能與大數(shù)據(jù)面試指南》系列下的內(nèi)容會 持續(xù)更新 ,有需要的讀者可以 收藏 文章,以及時獲取文章的最新內(nèi)容。 自然語言處理(NLP)領(lǐng)域有哪些常見任務(wù)? 基礎(chǔ)任務(wù) 中文分詞:將一串連續(xù)的字符構(gòu)成的句子分割成

    2024年02月11日
    瀏覽(121)
  • 數(shù)據(jù)預(yù)處理的人工智能與深度學(xué)習(xí):如何提高模型性能

    數(shù)據(jù)預(yù)處理是人工智能(AI)和深度學(xué)習(xí)(DL)領(lǐng)域中的一個關(guān)鍵環(huán)節(jié),它涉及到數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸一化、數(shù)據(jù)增強等多種操作,以提高模型性能。在過去的幾年里,隨著數(shù)據(jù)規(guī)模的增加和復(fù)雜性的提高,數(shù)據(jù)預(yù)處理的重要性得到了廣泛認(rèn)識。本文將從以下幾個方面進(jìn)行

    2024年02月19日
    瀏覽(105)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包