国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

樸素貝葉斯(垃圾郵件分類)

這篇具有很好參考價值的文章主要介紹了樸素貝葉斯(垃圾郵件分類)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一.基于貝葉斯決策理論的分類方法

? 樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一,也是為數(shù)不多的基于概率論的分類算法。對于大多數(shù)的分類算法,在所有的機(jī)器學(xué)習(xí)分類算法中,樸素貝葉斯和其他絕大多數(shù)的分類算法都不同。比如決策樹,KNN,邏輯回歸,支持向量機(jī)等,他們都是判別方法,也就是直接學(xué)習(xí)出特征輸出Y和特征X之間的關(guān)系,要么是決策函數(shù),要么是條件分布。但是樸素貝葉斯卻是生成方法,該算法原理簡單,也易于實(shí)現(xiàn)。

優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。

缺點(diǎn):對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。

適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)

??樸素貝葉斯是貝葉斯決策理論的一部分,所以講述樸素貝葉斯之前有必要快速了解一下貝葉斯決策理論。? 假設(shè)現(xiàn)在我們有一個數(shù)據(jù)集,它由兩類數(shù)據(jù)組成,數(shù)據(jù)分布如下圖所示:

樸素貝葉斯(垃圾郵件分類)

? ? 我們現(xiàn)在用p1(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別1(圖中用圓點(diǎn)表示的類別)的概率,用p2(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別2(圖中用三角形表示的類別)的概率,那么對于一個新數(shù)據(jù)點(diǎn)(x,y),可以用下面的規(guī)則來判斷它的類別:

如果 p1(x,y) > p2(x,y),那么類別為1。?
如果 p2(x,y) > p1(x,y),那么類別為2。
? ? ? ? 也就是說,我們會選擇高概率對應(yīng)的類別。這就是貝葉斯決策理論的核心思想,即選擇具有 最高概率的決策??磮D1,如果該圖中的整個數(shù)據(jù)使用6個浮點(diǎn)數(shù)來表示,并且計(jì)算類別概率的Python代碼只有兩行,那么我們應(yīng)該使用下面哪種方法來對該數(shù)據(jù)點(diǎn)進(jìn)行分類?

使用kNN算法,則需要進(jìn)行1000次距離計(jì)算,和簡單的概率計(jì)算相比,kNN的計(jì)算量太大;
使用決策樹,則需要分別沿x軸、y軸劃分?jǐn)?shù)據(jù),似乎效果并不是很好;
還有就是計(jì)算數(shù)據(jù)點(diǎn)屬于每個類別的概率,并進(jìn)行比較,這是最佳選擇。
?

使用樸素貝葉斯過濾垃圾郵件

使用樸素貝葉斯進(jìn)行交叉驗(yàn)證

def textParse(bigString):  # 輸入字符串, 輸出單詞列表
    import re
    listOfTokens = re.split(r'[\W*]', bigString)                    # 字符串切分,去掉除單詞、數(shù)字外的任意字符串
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]    # 除了單個字母外,其他字符串全部轉(zhuǎn)換成小寫

函數(shù)textParse()接受一個大字符串并將其解析為字符串列表。該函數(shù)去掉少于兩個字符的字符串,并將所有字符串轉(zhuǎn)換為小寫。?文章來源地址http://www.zghlxwxcb.cn/news/detail-471750.html

# 完整的垃圾郵件測試函數(shù)
def spamTest():
    docList = []                 # 文檔列表
    classList = []               # 文檔標(biāo)簽
    fullText = []                # 全部文檔內(nèi)容集合
    for i in range(1, 26):                                           # 遍歷垃圾郵件和非垃圾郵件各25個
        wordList = textParse(open('email/spam/%d.txt' % i).read())   # 讀取垃圾郵件,將大字符串并將其解析為字符串列表
        docList.append(wordList)                                     # 垃圾郵件加入文檔列表
        fullText.extend(wordList)                                    # 把當(dāng)前垃圾郵件加入文檔內(nèi)容集合
        classList.append(1)                                          # 1表示垃圾郵件,標(biāo)記垃圾郵件
        wordList = textParse(open(&

到了這里,關(guān)于樸素貝葉斯(垃圾郵件分類)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 樸素貝葉斯(垃圾郵件分類)

    樸素貝葉斯(垃圾郵件分類)

    ? 樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一,也是為數(shù)不多的基于概率論的分類算法。對于大多數(shù)的分類算法,在所有的機(jī)器學(xué)習(xí)分類算法中,樸素貝葉斯和其他絕大多數(shù)的分類算法都不同。比如決策樹,KNN,邏輯回歸,支持向量機(jī)等,他們都是判別方法,也就是直接學(xué)習(xí)出特

    2024年02月07日
    瀏覽(26)
  • 機(jī)器學(xué)習(xí)——樸素貝葉斯算法(垃圾郵件分類)

    機(jī)器學(xué)習(xí)——樸素貝葉斯算法(垃圾郵件分類)

    先驗(yàn)概率 :指的是 事件發(fā)生前 的預(yù)判概率,可以根據(jù)歷史數(shù)據(jù)/經(jīng)驗(yàn)估算得到。例如,當(dāng)我們需要判斷西瓜是不是好瓜的時候,對紋理、根蒂等特征都不了解,只是平常我們買西瓜的時候買到好瓜的概率是70%,那么這個西瓜是好瓜的概率我們也可以認(rèn)為是70%。這個概率70%就是

    2024年02月03日
    瀏覽(24)
  • 機(jī)器學(xué)習(xí)——使用樸素貝葉斯分類器實(shí)現(xiàn)垃圾郵件檢測(python代碼+數(shù)據(jù)集)

    機(jī)器學(xué)習(xí)——scikit-learn庫學(xué)習(xí)、應(yīng)用 機(jī)器學(xué)習(xí)——最小二乘法擬合曲線、正則化 機(jī)器學(xué)習(xí)——使用樸素貝葉斯分類器實(shí)現(xiàn)垃圾郵件檢測(python代碼+數(shù)據(jù)集) 貝葉斯公式: P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A mid B)=frac{P(A) P(B mid A)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A ) P ( B ∣ A )

    2024年02月10日
    瀏覽(29)
  • 機(jī)器學(xué)習(xí)-樸素貝葉斯過濾垃圾郵件

    機(jī)器學(xué)習(xí)-樸素貝葉斯過濾垃圾郵件

    什么是樸素貝葉斯算法:用貝葉斯定理來預(yù)測一個未知類別的樣本屬于各個類別的可能性,選擇可能性最大的一個類別作為該樣本的最終類別。 用這個算法處理垃圾郵件就可以理解為:用貝葉斯定理來預(yù)測一封由若干個單詞組成的不知道是否為垃圾郵件的郵件,它是垃圾郵件

    2024年02月09日
    瀏覽(23)
  • 自實(shí)現(xiàn)樸素貝葉斯分類器with案例:基于SMS Spam Collection數(shù)據(jù)集的廣告郵件分類

    自實(shí)現(xiàn)樸素貝葉斯分類器with案例:基于SMS Spam Collection數(shù)據(jù)集的廣告郵件分類

    首先要理解貝葉斯決策的理論依據(jù),引用西瓜書上的原話:對于分類任務(wù),在所有相關(guān)概率都已知的理想情形下,貝葉斯決策論考慮如何基于這些 概率 和 誤判損失 來選擇最優(yōu)的類別標(biāo)記。 然后引入我們很熟悉的貝葉斯公式: P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(cmid bolds

    2024年02月07日
    瀏覽(26)
  • python機(jī)器學(xué)習(xí)——分類模型評估 & 分類算法(k近鄰,樸素貝葉斯,決策樹,隨機(jī)森林,邏輯回歸,svm)

    python機(jī)器學(xué)習(xí)——分類模型評估 & 分類算法(k近鄰,樸素貝葉斯,決策樹,隨機(jī)森林,邏輯回歸,svm)

    交叉驗(yàn)證:為了讓被評估的模型更加準(zhǔn)確可信 交叉驗(yàn)證:將拿到的數(shù)據(jù),分為訓(xùn)練和驗(yàn)證集。以下圖為例:將數(shù)據(jù)分成5份,其中一份作為驗(yàn)證集。然后經(jīng)過5次(組)的測試,每次都更換不同的驗(yàn)證集。即得到5組模型的結(jié)果,取平均值作為最終結(jié)果。又稱5折交叉驗(yàn)證。 通常情

    2024年02月03日
    瀏覽(31)
  • 基于weka平臺手工實(shí)現(xiàn)樸素貝葉斯分類

    B事件發(fā)生后,A事件發(fā)生的概率可以如下表示: p ( A ∣ B ) = p ( A ∩ B ) P ( B ) (1) p(A|B)=frac{p(Acap B)}{P(B)}tag{1} p ( A ∣ B ) = P ( B ) p ( A ∩ B ) ? ( 1 ) A事件發(fā)生后,B事件發(fā)生的概率可以如下表示: p ( B ∣ A ) = p ( A ∩ B ) P ( A ) (2) p(B|A)=frac{p(Acap B)}{P(A)}tag{2} p ( B ∣ A ) = P ( A ) p

    2024年02月13日
    瀏覽(16)
  • 基于樸素貝葉斯分類器的西瓜數(shù)據(jù)集(實(shí)戰(zhàn))

    基于樸素貝葉斯分類器的西瓜數(shù)據(jù)集(實(shí)戰(zhàn))

    最近剛開始學(xué)習(xí)機(jī)器學(xué)習(xí)中的樸素貝葉斯分類器,用西瓜數(shù)據(jù)集做了一下,最后結(jié)果預(yù)測正確率75%,其中運(yùn)用到的python語法并不復(fù)雜,適合小白觀看。 目錄 樸素貝葉斯分類器思想的自然語言描述: 詳細(xì)步驟在代碼中說明 樸素貝葉斯分類器其實(shí)就是計(jì)算先驗(yàn)概率和每一個屬性

    2024年02月11日
    瀏覽(18)
  • 【機(jī)器學(xué)習(xí)實(shí)戰(zhàn)】-基于概率論的分類方法:樸素貝葉斯

    【機(jī)器學(xué)習(xí)實(shí)戰(zhàn)】-基于概率論的分類方法:樸素貝葉斯

    【機(jī)器學(xué)習(xí)實(shí)戰(zhàn)】讀書筆記 **樸素貝葉斯:**稱為“ 樸素 ”的原因,整個形式化過程只做最原始、最簡單的假設(shè),特征之間沒有關(guān)聯(lián),是統(tǒng)計(jì)意義上的獨(dú)立。 **優(yōu)點(diǎn):**在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。 **缺點(diǎn):**對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。 **適

    2024年03月25日
    瀏覽(24)
  • 第四章 基于概率論的分類方法:樸素貝葉斯

    樸素貝葉斯 優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。 缺點(diǎn):對于輸?數(shù)據(jù)的準(zhǔn)備?式較為敏感。 適?數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。 假設(shè)類別為 c 1 , c 2 c_1,c_2 c 1 ? , c 2 ? : 如果 p 1 ( x , y ) p 2 ( x , y ) p1(x,y) p2(x,y) p 1 ( x , y ) p 2 ( x , y ) ,那么類別為 c 1 c_1 c

    2024年02月13日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包