国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tfoot id="ul0is"></tfoot>

<center id="ul0is"></center>

樸素貝葉斯（垃圾郵件分類）

2年前作者：di8分類：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價值的文章主要介紹了樸素貝葉斯（垃圾郵件分類）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一.基于貝葉斯決策理論的分類方法

? 樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一，也是為數(shù)不多的基于概率論的分類算法。對于大多數(shù)的分類算法，在所有的機(jī)器學(xué)習(xí)分類算法中，樸素貝葉斯和其他絕大多數(shù)的分類算法都不同。比如決策樹，KNN，邏輯回歸，支持向量機(jī)等，他們都是判別方法，也就是直接學(xué)習(xí)出特征輸出Y和特征X之間的關(guān)系，要么是決策函數(shù)，要么是條件分布。但是樸素貝葉斯卻是生成方法，該算法原理簡單，也易于實(shí)現(xiàn)。

優(yōu)點(diǎn)：在數(shù)據(jù)較少的情況下仍然有效，可以處理多類別問題。

缺點(diǎn)：對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。

適用數(shù)據(jù)類型：標(biāo)稱型數(shù)據(jù)

??樸素貝葉斯是貝葉斯決策理論的一部分，所以講述樸素貝葉斯之前有必要快速了解一下貝葉斯決策理論。? 假設(shè)現(xiàn)在我們有一個數(shù)據(jù)集，它由兩類數(shù)據(jù)組成，數(shù)據(jù)分布如下圖所示：

樸素貝葉斯（垃圾郵件分類）

? ? 我們現(xiàn)在用p1(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別1（圖中用圓點(diǎn)表示的類別）的概率，用p2(x,y)表示數(shù)據(jù)點(diǎn)(x,y)屬于類別2（圖中用三角形表示的類別）的概率，那么對于一個新數(shù)據(jù)點(diǎn)(x,y)，可以用下面的規(guī)則來判斷它的類別：

如果 p1(x,y) > p2(x,y)，那么類別為1。?
如果 p2(x,y) > p1(x,y)，那么類別為2。
? ? ? ? 也就是說，我們會選擇高概率對應(yīng)的類別。這就是貝葉斯決策理論的核心思想，即選擇具有最高概率的決策?？磮D1，如果該圖中的整個數(shù)據(jù)使用6個浮點(diǎn)數(shù)來表示，并且計(jì)算類別概率的Python代碼只有兩行，那么我們應(yīng)該使用下面哪種方法來對該數(shù)據(jù)點(diǎn)進(jìn)行分類？

使用kNN算法，則需要進(jìn)行1000次距離計(jì)算，和簡單的概率計(jì)算相比，kNN的計(jì)算量太大；
使用決策樹，則需要分別沿x軸、y軸劃分?jǐn)?shù)據(jù)，似乎效果并不是很好；
還有就是計(jì)算數(shù)據(jù)點(diǎn)屬于每個類別的概率，并進(jìn)行比較，這是最佳選擇。
?

使用樸素貝葉斯過濾垃圾郵件

使用樸素貝葉斯進(jìn)行交叉驗(yàn)證

def textParse(bigString):  # 輸入字符串, 輸出單詞列表
    import re
    listOfTokens = re.split(r'[\W*]', bigString)                    # 字符串切分，去掉除單詞、數(shù)字外的任意字符串
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]    # 除了單個字母外，其他字符串全部轉(zhuǎn)換成小寫

函數(shù)textParse()接受一個大字符串并將其解析為字符串列表。該函數(shù)去掉少于兩個字符的字符串，并將所有字符串轉(zhuǎn)換為小寫。?文章來源地址http://www.zghlxwxcb.cn/news/detail-471750.html

# 完整的垃圾郵件測試函數(shù)
def spamTest():
    docList = []                 # 文檔列表
    classList = []               # 文檔標(biāo)簽
    fullText = []                # 全部文檔內(nèi)容集合
    for i in range(1, 26):                                           # 遍歷垃圾郵件和非垃圾郵件各25個
        wordList = textParse(open('email/spam/%d.txt' % i).read())   # 讀取垃圾郵件，將大字符串并將其解析為字符串列表
        docList.append(wordList)                                     # 垃圾郵件加入文檔列表
        fullText.extend(wordList)                                    # 把當(dāng)前垃圾郵件加入文檔內(nèi)容集合
        classList.append(1)                                          # 1表示垃圾郵件，標(biāo)記垃圾郵件
        wordList = textParse(open(&

到了這里，關(guān)于樸素貝葉斯（垃圾郵件分類）的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

樸素貝葉斯（垃圾郵件分類）
? 樸素貝葉斯是經(jīng)典的機(jī)器學(xué)習(xí)算法之一，也是為數(shù)不多的基于概率論的分類算法。對于大多數(shù)的分類算法，在所有的機(jī)器學(xué)習(xí)分類算法中，樸素貝葉斯和其他絕大多數(shù)的分類算法都不同。比如決策樹，KNN，邏輯回歸，支持向量機(jī)等，他們都是判別方法，也就是直接學(xué)習(xí)出特
2024年02月07日
瀏覽(26)
機(jī)器學(xué)習(xí)——樸素貝葉斯算法（垃圾郵件分類）
先驗(yàn)概率：指的是事件發(fā)生前的預(yù)判概率，可以根據(jù)歷史數(shù)據(jù)/經(jīng)驗(yàn)估算得到。例如，當(dāng)我們需要判斷西瓜是不是好瓜的時候，對紋理、根蒂等特征都不了解，只是平常我們買西瓜的時候買到好瓜的概率是70%，那么這個西瓜是好瓜的概率我們也可以認(rèn)為是70%。這個概率70%就是
2024年02月03日
瀏覽(24)
機(jī)器學(xué)習(xí)——使用樸素貝葉斯分類器實(shí)現(xiàn)垃圾郵件檢測（python代碼+數(shù)據(jù)集）
機(jī)器學(xué)習(xí)——scikit-learn庫學(xué)習(xí)、應(yīng)用機(jī)器學(xué)習(xí)——最小二乘法擬合曲線、正則化機(jī)器學(xué)習(xí)——使用樸素貝葉斯分類器實(shí)現(xiàn)垃圾郵件檢測（python代碼+數(shù)據(jù)集）貝葉斯公式： P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A mid B)=frac{P(A) P(B mid A)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A ) P ( B ∣ A )
2024年02月10日
瀏覽(29)
機(jī)器學(xué)習(xí)-樸素貝葉斯過濾垃圾郵件
什么是樸素貝葉斯算法：用貝葉斯定理來預(yù)測一個未知類別的樣本屬于各個類別的可能性,選擇可能性最大的一個類別作為該樣本的最終類別。用這個算法處理垃圾郵件就可以理解為：用貝葉斯定理來預(yù)測一封由若干個單詞組成的不知道是否為垃圾郵件的郵件，它是垃圾郵件
2024年02月09日
瀏覽(23)
自實(shí)現(xiàn)樸素貝葉斯分類器with案例：基于SMS Spam Collection數(shù)據(jù)集的廣告郵件分類
首先要理解貝葉斯決策的理論依據(jù)，引用西瓜書上的原話：對于分類任務(wù)，在所有相關(guān)概率都已知的理想情形下，貝葉斯決策論考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標(biāo)記。然后引入我們很熟悉的貝葉斯公式： P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(cmid bolds
2024年02月07日
瀏覽(26)
python機(jī)器學(xué)習(xí)——分類模型評估 & 分類算法（k近鄰，樸素貝葉斯，決策樹，隨機(jī)森林，邏輯回歸，svm）
交叉驗(yàn)證：為了讓被評估的模型更加準(zhǔn)確可信交叉驗(yàn)證：將拿到的數(shù)據(jù)，分為訓(xùn)練和驗(yàn)證集。以下圖為例：將數(shù)據(jù)分成5份，其中一份作為驗(yàn)證集。然后經(jīng)過5次(組)的測試，每次都更換不同的驗(yàn)證集。即得到5組模型的結(jié)果，取平均值作為最終結(jié)果。又稱5折交叉驗(yàn)證。通常情
2024年02月03日
瀏覽(31)
基于weka平臺手工實(shí)現(xiàn)樸素貝葉斯分類
B事件發(fā)生后，A事件發(fā)生的概率可以如下表示： p ( A ∣ B ) = p ( A ∩ B ) P ( B ) (1) p(A|B)=frac{p(Acap B)}{P(B)}tag{1} p ( A ∣ B ) = P ( B ) p ( A ∩ B ) ? ( 1 ) A事件發(fā)生后，B事件發(fā)生的概率可以如下表示： p ( B ∣ A ) = p ( A ∩ B ) P ( A ) (2) p(B|A)=frac{p(Acap B)}{P(A)}tag{2} p ( B ∣ A ) = P ( A ) p
2024年02月13日
瀏覽(16)
基于樸素貝葉斯分類器的西瓜數(shù)據(jù)集（實(shí)戰(zhàn)）
最近剛開始學(xué)習(xí)機(jī)器學(xué)習(xí)中的樸素貝葉斯分類器，用西瓜數(shù)據(jù)集做了一下，最后結(jié)果預(yù)測正確率75%，其中運(yùn)用到的python語法并不復(fù)雜，適合小白觀看。目錄樸素貝葉斯分類器思想的自然語言描述：詳細(xì)步驟在代碼中說明樸素貝葉斯分類器其實(shí)就是計(jì)算先驗(yàn)概率和每一個屬性
2024年02月11日
瀏覽(18)
【機(jī)器學(xué)習(xí)實(shí)戰(zhàn)】-基于概率論的分類方法：樸素貝葉斯
【機(jī)器學(xué)習(xí)實(shí)戰(zhàn)】讀書筆記 **樸素貝葉斯：**稱為“ 樸素 ”的原因，整個形式化過程只做最原始、最簡單的假設(shè)，特征之間沒有關(guān)聯(lián)，是統(tǒng)計(jì)意義上的獨(dú)立。 **優(yōu)點(diǎn)：**在數(shù)據(jù)較少的情況下仍然有效，可以處理多類別問題。 **缺點(diǎn)：**對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。 **適
2024年03月25日
瀏覽(24)
第四章基于概率論的分類方法：樸素貝葉斯
樸素貝葉斯優(yōu)點(diǎn)：在數(shù)據(jù)較少的情況下仍然有效，可以處理多類別問題。缺點(diǎn)：對于輸?數(shù)據(jù)的準(zhǔn)備?式較為敏感。適?數(shù)據(jù)類型：標(biāo)稱型數(shù)據(jù)。假設(shè)類別為 c 1 , c 2 c_1,c_2 c 1 ? , c 2 ? ：如果 p 1 ( x , y ) p 2 ( x , y ) p1(x,y) p2(x,y) p 1 ( x , y ) p 2 ( x , y ) ，那么類別為 c 1 c_1 c
2024年02月13日
瀏覽(24)