国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【樸素貝葉斯】深入淺出講解樸素貝葉斯算法(公式、原理)

這篇具有很好參考價值的文章主要介紹了【樸素貝葉斯】深入淺出講解樸素貝葉斯算法(公式、原理)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

  • 樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類本文收錄于《深入淺出講解自然語言處理》專欄,此專欄聚焦于自然語言處理領(lǐng)域的各大經(jīng)典算法,將持續(xù)更新,歡迎大家訂閱!
  • 樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類?個人主頁:有夢想的程序星空
  • 樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類?個人介紹:小編是人工智能領(lǐng)域碩士,全棧工程師,深耕Flask后端開發(fā)、數(shù)據(jù)挖掘、NLP、Android開發(fā)、自動化等領(lǐng)域,有較豐富的軟件系統(tǒng)、人工智能算法服務(wù)的研究和開發(fā)經(jīng)驗。
  • 樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類?如果文章對你有幫助,歡迎樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類?關(guān)注、樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類?點贊、樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類?收藏、樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類?訂閱。

樸素貝葉斯(Naive Bayes)是一種簡單經(jīng)典的分類算法,它的經(jīng)典應(yīng)用案例為人所熟知:文本分類(如垃圾郵件過濾)。

1、貝葉斯定理

先驗概率:即基于統(tǒng)計的概率,是基于以往歷史經(jīng)驗和分析得到的結(jié)果,不需要依賴當(dāng)前發(fā)生的條件。

后驗概率:則是從條件概率而來,由因推果,是基于當(dāng)下發(fā)生了事件之后計算的概率,依賴于當(dāng)前發(fā)生的條件。

條件概率:記事件A發(fā)生的概率為P(A),事件B發(fā)生的概率為P(B),則在B事件發(fā)生的前提下,A事件發(fā)生的概率即為條件概率,記為P(A|B)。

貝葉斯公式:貝葉斯公式便是基于條件概率,通過P(B|A)來求P(A|B),如下:

將A看成“規(guī)律”,B看成“現(xiàn)象”,那么貝葉斯公式看成:

樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類

全概率公式:表示若事件構(gòu)成一個完備事件組且都有正概率,則對任意一個事件B都有公式成立:?

將全概率公式帶入貝葉斯公式中,得到:

2、樸素貝葉斯算法的原理

特征條件假設(shè):假設(shè)每個特征之間沒有聯(lián)系,給定訓(xùn)練數(shù)據(jù)集,其中每個樣本都包括維特征,即,類標(biāo)記集合含有種類別,即。

對于給定的新樣本,判斷其屬于哪個標(biāo)記的類別,根據(jù)貝葉斯定理,可以得到屬于類別的概率:

后驗概率最大的類別記為預(yù)測類別,即:。

樸素貝葉斯算法對條件概率分布作出了獨立性的假設(shè),通俗地講就是說假設(shè)各個維度的特征互相獨立,在這個假設(shè)的前提上,條件概率可以轉(zhuǎn)化為:

代入上面貝葉斯公式中,得到:

于是,樸素貝葉斯分類器可表示為:

因為對所有的,上式中的分母的值都是一樣的,所以可以忽略分母部分,樸素貝葉斯分類器最終表示為:

適用范圍:

  • 樸素貝葉斯只適用于特征之間是條件獨立的情況下,否則分類效果不好,這里的樸素指的就是條件獨立。
  • 樸素貝葉斯主要被廣泛地使用在文檔分類中。

樸素貝葉斯常用的三個模型有:

  • 高斯模型:處理特征是連續(xù)型變量的情況。
  • 多項式模型:最常見,要求特征是離散數(shù)據(jù)。
  • 伯努利模型:要求特征是離散的,且為布爾類型,即true和false,或者1和0。

4、拉普拉斯平滑

為了解決零概率的問題,法國數(shù)學(xué)家拉普拉斯最早提出用加1的方法估計沒有出現(xiàn)過的現(xiàn)象的概率,所以加法平滑也叫做拉普拉斯平滑。假定訓(xùn)練樣本很大時,每個分量的計數(shù)加1造成的估計概率變化可以忽略不計,但可以方便有效的避免零概率問題。

是一個多項乘法公式,其中有一項數(shù)值為0,則整個公式就為0顯然不合理,避免每一項為零的做法就是在分子、分母上各加一個數(shù)值。

樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類

表示分類的樣本數(shù),為樣本總數(shù),是分類總數(shù)。

樸素貝葉斯算法,深入淺出講解自然語言處理,機器學(xué)習(xí),算法,概率論,機器學(xué)習(xí),分類

表示分類屬性的樣本數(shù),表示分類的樣本數(shù),表示屬性的可能的取值數(shù)。

在實際的使用中也經(jīng)常使用加來代替簡單加1。 如果對個計數(shù)都加上,這時分母也要記得加上。

4、樸素貝葉斯算法的優(yōu)缺點

優(yōu)點:

1、樸素貝葉斯模型有穩(wěn)定的分類效率。
2、對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能處理多分類任務(wù),適合增量式訓(xùn)練,尤其是數(shù)據(jù)量超出內(nèi)存時,可以一批批的去增量訓(xùn)練。
3、對缺失數(shù)據(jù)不太敏感,算法也比較簡單,常用于文本分類。

缺點:

1、需要知道先驗概率,且先驗概率很多時候取決于假設(shè),假設(shè)的模型可以有很多種,因此在某些時候會由于假設(shè)的先驗?zāi)P偷脑驅(qū)е骂A(yù)測效果不佳。
2、對輸入數(shù)據(jù)的表達形式很敏感(離散、連續(xù),值極大極小之類的)。

5、python代碼實現(xiàn)

庫方法:sklearn.naive_bayes.MultinomialNB(alpha = 1.0)

其中,alpha:拉普拉斯平滑系數(shù)

實驗內(nèi)容:sklearn20類新聞分類,20個新聞組數(shù)據(jù)集包含20個主題的18000個新聞組帖子。

實驗方法:首先,加載20類新聞數(shù)據(jù),并進行分割。然后,生成文章特征詞,接著,使用樸素貝葉斯分類器進行預(yù)估。

代碼實現(xiàn):

# coding:utf-8
 
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
 
 
def naviebayes():
    news = fetch_20newsgroups()
    # 進行數(shù)據(jù)分割
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)
    # 對數(shù)據(jù)集進行特征抽取
    tf = TfidfVectorizer()
    # 以訓(xùn)練集當(dāng)中詞的列表進行每篇文章重要性統(tǒng)計['a','b','c','d']
    x_train = tf.fit_transform(x_train)
    print(tf.get_feature_names())
    x_test = tf.transform(x_test)
    # 進行樸素貝葉斯算法的預(yù)測
    mlt = MultinomialNB(alpha=1.0)
    print(x_train.toarray())
    mlt.fit(x_train, y_train)
    y_predict = mlt.predict(x_test)
    print("預(yù)測的文章類別為:", y_predict)
    # 得出準(zhǔn)確率
    print("準(zhǔn)確率為:", mlt.score(x_test, y_test))
 
if __name__ == '__main__':
    naviebayes()

關(guān)注微信公眾號【有夢想的程序星空】,了解軟件系統(tǒng)和人工智能算法領(lǐng)域的前沿知識,讓我們一起學(xué)習(xí)、一起進步吧!文章來源地址http://www.zghlxwxcb.cn/news/detail-779217.html

到了這里,關(guān)于【樸素貝葉斯】深入淺出講解樸素貝葉斯算法(公式、原理)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 深入淺出講解Stable Diffusion原理,新手也能看明白

    深入淺出講解Stable Diffusion原理,新手也能看明白

    最近一段時間對多模態(tài)很感興趣,尤其是Stable Diffusion,安裝了環(huán)境,圓了自己藝術(shù)家的夢想??戳诉@方面的一些論文,也給人講過一些這方面的原理,寫了一些文章,具體可以參考我的文章: 北方的郎:圖文匹配:Clip模型介紹 北方的郎:VQGAN(Vector Quantized Generative Adversar

    2024年02月08日
    瀏覽(23)
  • 隨機森林算法深入淺出

    目錄 一 隨機森林算法的基本原理 二 隨機森林算法的優(yōu)點 1. 隨機森林算法具有很高的準(zhǔn)確性和魯棒性 2. 隨機森林算法可以有效地避免過擬合問題 3. 隨機森林算法可以處理高維度數(shù)據(jù) 4. 隨機森林算法可以評估特征的重要性 三 隨機森林算法的缺點 1. 隨機森林算法對于少量數(shù)

    2023年04月08日
    瀏覽(27)
  • 深入淺出排序算法之計數(shù)排序

    深入淺出排序算法之計數(shù)排序

    目錄 1. 原理 2. 代碼實現(xiàn) 3. 性能分析 首先看一個題目,有n個數(shù),取值范圍是 0~n,寫出一個排序算法,要求時間復(fù)雜度和空間復(fù)雜度都是O(n)的。 為了達到這種效果,這一篇將會介紹一種 不基于比較的排序方法。 這種方法被稱為計數(shù)排序。 計數(shù)排序的思路是這樣的,對于每

    2024年02月06日
    瀏覽(19)
  • 深入淺出排序算法之基數(shù)排序

    深入淺出排序算法之基數(shù)排序

    目錄 1. 前言 1.1 什么是基數(shù)排序??? 1.2 執(zhí)行流程????? 2. 代碼實現(xiàn)??? 3. 性能分析?? 3.1 時間復(fù)雜度 3.2 空間復(fù)雜度 一個算法,只有理解算法的思路才是真正地認(rèn)識該算法,不能單純記住某個算法的實現(xiàn)代碼! (1) 通過鍵值得各個位的值,將要排序的元素分配

    2024年02月08日
    瀏覽(18)
  • 【數(shù)據(jù)結(jié)構(gòu)與算法篇】深入淺出——二叉樹(詳解)

    【數(shù)據(jù)結(jié)構(gòu)與算法篇】深入淺出——二叉樹(詳解)

    ???內(nèi)容專欄:《數(shù)據(jù)結(jié)構(gòu)與算法專欄》 ??本文概括: 二叉樹是一種常見的數(shù)據(jù)結(jié)構(gòu),它在計算機科學(xué)中廣泛應(yīng)用。本博客將介紹什么是二叉樹、二叉樹的順序與鏈?zhǔn)浇Y(jié)構(gòu)以及它的基本操作,幫助讀者理解和運用這一重要概念。 ??本文作者: 花 蝶 ??發(fā)布時間:2023.6.5

    2024年02月08日
    瀏覽(24)
  • 深入淺出解析LoRA完整核心基礎(chǔ)知識 | 【算法兵器譜】

    深入淺出解析LoRA完整核心基礎(chǔ)知識 | 【算法兵器譜】

    Rocky Ding 公眾號:WeThinkIn 【算法兵器譜】欄目專注分享AI行業(yè)中的前沿/經(jīng)典/必備的模型論文,并對具備劃時代意義的模型論文進行全方位系統(tǒng)的解析,比如Rocky之前出品的爆款文章Make YOLO Great Again系列。也歡迎大家提出寶貴的優(yōu)化建議,一起交流學(xué)習(xí)?? 大家好,我是Rocky。

    2024年02月11日
    瀏覽(27)
  • 【數(shù)據(jù)結(jié)構(gòu)與算法】深入淺出:單鏈表的實現(xiàn)和應(yīng)用

    【數(shù)據(jù)結(jié)構(gòu)與算法】深入淺出:單鏈表的實現(xiàn)和應(yīng)用

    ? ??博客主頁:青竹霧色間. ??博客制作不易歡迎各位??點贊+?收藏+?關(guān)注 ?? 人生如寄,多憂何為? ? 目錄 前言 單鏈表的基本概念 節(jié)點 頭節(jié)點 尾節(jié)點 單鏈表的基本操作 創(chuàng)建單鏈表 頭插法: 尾插法: 插入(增)操作 ?刪除(刪)操作: 查找(查)操作: 修改(改

    2024年02月08日
    瀏覽(24)
  • 深入淺出opencv人臉識別,準(zhǔn)確率95%,云服務(wù)器數(shù)據(jù)庫存儲人臉信息,代碼全過程講解以及心得

    深入淺出opencv人臉識別,準(zhǔn)確率95%,云服務(wù)器數(shù)據(jù)庫存儲人臉信息,代碼全過程講解以及心得

    此文章記錄自己從實現(xiàn)人臉識別到把識別到的數(shù)據(jù)上傳到云端的數(shù)據(jù)庫,隨時隨地只要有網(wǎng)就能登錄服務(wù)器,查看人員進出的情況。我會把我記得的所有的錯誤和經(jīng)驗都分享出來,希望能對大家有所幫助也是對自己的一個總結(jié)。 1:人臉采集: 首先輸入學(xué)號和姓名,設(shè)定一個

    2024年02月06日
    瀏覽(35)
  • 深入淺出解析Stable Diffusion完整核心基礎(chǔ)知識 | 【算法兵器譜】

    深入淺出解析Stable Diffusion完整核心基礎(chǔ)知識 | 【算法兵器譜】

    Rocky Ding 公眾號:WeThinkIn 最新更新: Rocky也一直在更新Stable Diffusion系列的文章內(nèi)容,包括最新發(fā)布的Stable Diffusion XL。Rocky都進行了全方位的深入淺出的解析, 碼字真心不易,希望大家能給Rocky正在撰寫更新的下面兩篇文章多多點贊,萬分感謝: 深入淺出完整解析Stable Diffus

    2024年02月10日
    瀏覽(25)
  • 【動手學(xué)深度學(xué)習(xí)】深入淺出深度學(xué)習(xí)之RMSProp算法的設(shè)計與實現(xiàn)

    【動手學(xué)深度學(xué)習(xí)】深入淺出深度學(xué)習(xí)之RMSProp算法的設(shè)計與實現(xiàn)

    目錄 ??一、實驗?zāi)康???二、實驗準(zhǔn)備 ??三、實驗內(nèi)容 ??1. 認(rèn)識RMSProp算法 ??2. 在optimizer_compare_naive.py中加入RMSProp ??3. 在optimizer_compare_mnist.py中加入RMSProp ??4.?問題的解決 ??四、實驗心得 深入學(xué)習(xí)RMSProp算法的原理和工作機制; 根據(jù)RMSProp算法的原理,設(shè)計并實現(xiàn)一個

    2024年04月10日
    瀏覽(32)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包