国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)

這篇具有很好參考價值的文章主要介紹了【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)

目錄

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)

一、 貝葉斯分類器

1 . 貝葉斯分類器 :

2 . 貝葉斯分類器的類型 :

3 . 正向概率 與 逆向概率 :

4 . 貝葉斯公式 : 有兩個事件 , 事件? A , 和事件? B ;

二、 貝葉斯分類器處理多屬性數(shù)據(jù)集方案

三、 貝葉斯分類器分類的流程

?四、拉普拉斯修正

五、貝葉斯分類器示例

六、 樸素貝葉斯分類器使用

七、 樸素貝葉斯分類的優(yōu)缺點


一、 貝葉斯分類器

1 . 貝葉斯分類器 :

① 原理 : 基于統(tǒng)計學方法貝葉斯 ( Bayes ) 理論 , 預測樣本某個屬性的分類概率 ;

② 性能分析 : 樸素貝葉斯 分類器 , 與 決策樹 , 神經(jīng)網(wǎng)絡 分類器 性能基本相同 , 性能指標處于同一數(shù)量級 , 適合大數(shù)據(jù)處理 ;

2 . 貝葉斯分類器的類型 :

樸素貝葉斯分類器 : 樣本屬性都是獨立的 ;

貝葉斯信念網(wǎng)絡 : 樣本屬性間有依賴關系的情況 ;

3 . 正向概率 與 逆向概率 :

正向概率 : 盒子中有 N 個白球 ,? M 個黑球 , 摸出黑球的概率是 M /N + M ;

逆向概率 : 事先不知道盒子中白球和黑球的數(shù)量 , 任意摸出X 個球 , 通過觀察這些球的顏色 , 推測盒子中有多少白球 , 多少黑球 ;

4 . 貝葉斯公式 : 有兩個事件 , 事件? A , 和事件? B ;

公式:

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

簡寫形式:

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

或者:

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

① 事件 A A A 發(fā)生的概率 : 表示為? P(A) ;

② 事件 B B B 發(fā)生的概率 : 表示為? P(B) ;

③ A B 兩個事件同時發(fā)生的概率 : 表示為 P(A,B) ;

④ 事件 A? 發(fā)生時 B 發(fā)生的概率 : 表示為? P(B∣A) ;

⑤ 事件 B 發(fā)生時 A 發(fā)生的概率 : 表示為? P(A∣B) ;
?

二、 貝葉斯分類器處理多屬性數(shù)據(jù)集方案

1 . 多屬性特征 : 如果要處理的樣本數(shù)據(jù)的特征有 n 個屬性 , 其取值{X1?,X2?,?,Xn?} 組成了向量 X? ;

2 . 后驗概率 : 計算最終分類為? C1? 時 , 多個屬性的取值為 X 向量的概率 , 即 P(X∣C1?)

3 . 樸素貝葉斯由來 : 樸素地認為這些屬性之間不存在依賴關系 , 就可以使用乘法法則計算這些屬性取值同時發(fā)生的概率 ;

4 . 計算單個分類概率 : 分類為? C1? 時? n 個屬性每個取值取值概率 :

1)當最終分類為 C1? 時 , 第 1 個屬性取值? X1? 的概率為? P(X1?∣C1?) ;

2)當最終分類為 C1? 時 , 第 2 個屬性取值? X2? 的概率為? P(X2?∣C1?) ;

3)當最終分類為 C1? 時 , 第 n 個屬性取值? Xn? 的概率為? P(Xn?∣C1?) ;

4)最終分類為? C1? 時 , n 個屬性取值 X 向量的概率 為 :

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

5 . 多屬性分類概率總結(jié) : 分類為? Ci? 時 n 個屬性取值 X 向量的概率為 :

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

6 . 上述公式中的分類屬性 P(Xk?∣Ci?) 計算方式 : 如果第 k 個屬性的取值是離散的 , 即分類屬性 , 那么通過以下公式計算 :
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

Si? 是分類為? Ci? 類型的數(shù)據(jù)集樣本個數(shù) ;

Sik? 是被分類成? Ci? 類型的樣本中 , 并且第? k 個值是 Xk? 的樣本個數(shù) ;

7 . 樣本分類 :

① 樣本 : 給出未知屬性類型樣本 , 其 n 個已知的屬性取值為 X 向量 ;

② 分類個數(shù) : 其根據(jù)分類屬性可能分為 m 類 ;

③ 分類 : 求其取值為 X 向量時 , 分類為? Ci? 的概率 , 哪個概率最大 , 其被分為哪個 Ci? 類型 , 表示為
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

?④ 后驗概率 : 多屬性取值為 X 向量時 , 分類為 Ci? 的概率進行比較 , 分母都是 P(X) , 是一個常數(shù) , 可以不考慮這種情況 , 只比較? P(Ci?) 值的大小 ,? P(X∣Ci?)P(Ci?) 值最大的情況 , 就是分類的目標分類 Ci? , 也就是后驗概率 ;
?

?

三、 貝葉斯分類器分類的流程

已知條件 :

已知樣本 : 已知若干個樣本

未知樣本 : 給定 1? 個未知樣本 , 其有 4 個屬性組成向量 X , 樣本的分類有兩種 , Y 和? N ; ( Yes / No )

分類步驟 :

計算兩個概率 , 即

樣本取值為 X 向量時 , 分類為? Y 的概率 , 公式為 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y )/ P ( X ) , 其中 P ( X ∣ Y ) P ( Y )? 含義是 : 樣本分類? Y 的概率? P(Y) , 乘以 樣本分類為 YY 前提下樣本取值 X X 時的概率 P ( P(X∣Y) , 是? P(XY) 共同發(fā)生的概率 ;

樣本取值為 X 向量時 , 分類為 N 的概率 , 公式為? P(N∣X)=P(X)P(X∣N)/P(N)? , 其中 P ( X ∣ N ) P ( N )含義是 : 樣本分類為 N 的概率? P(N) , 乘以 樣本取值 N 時的概率? P(X∣N) , 是? P(XN) 共同發(fā)生的概率 ;

上述兩個概率 , 哪個概率高 , 就將該樣本分為哪個分類 ;

先驗概率 : P ( Y ) , P ( N ) ;

后驗概率 : P ( X ∣ Y ) P ( Y ) , P ( X ∣ N ) P ( N )? ;

上述兩個公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) / P ( X )? 和 P ( N ∣ X ) = P ( X ∣ N ) P ( N )/ P ( X )? , 分母都是 P ( X )? , 只比較分子即可; 其中先驗概率 P ( Y )? , P ( N )? 很容易求得 , 重點是求兩個后驗概率 P ( X ∣ Y ) P ( Y )? , P ( X ∣ N ) P ( N )? ;

后驗概率 P ( X ∣ Y )? 求法 : 針對 X? 向量中 4 個分量屬性的取值 , 當樣品類型是 Y? 時 , 分量? 1 取值為該分量屬性時的概率 , 同理計算出 4 個分量屬性對應的 4 個概率 , 最后將 四個概率相乘 ;

后驗概率 P ( X ∣ Y ) 再乘以先驗概率 P ( Y )? , 就是最終的 未知樣本分類為? Y 類型的概率 ;

最終對比樣本 , ① 未知樣本分類為 Y? 類型的概率 , ② 未知樣本分類為 N? 類型的概率 , 哪個概率大 , 就分類為哪個類型 ;
?

?四、拉普拉斯修正

在計算后驗概率 P ( X ∣ Y ) 時 , 需要計算出 當樣品類型是 Y? 時 , X? 向量的 分量 1? 取值為該分量屬性時的概率 , 同理計算出 4 個分量屬性對應的 4 個概率 , 最后將 四個概率相乘 ;

如果上述 4 個相乘的概率其中有一個是? 0 , 那么最終結(jié)果肯定就是 0 , 這里需要避免這種情況 , 引入拉普拉斯修正 ;

拉普拉斯修正 :

① 計算 先驗概率 時 進行 拉普拉斯修正 :

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

  • Dc? 表示訓練集中 , 分類為? C 的樣本個數(shù) ;
  • D? 表示訓練集中樣本中個數(shù) ;
  • N 表示按照某屬性分類的類別數(shù) , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里 N=2 ;
    ?

② 計算 類條件概率 ( 似然 ) 時 進行 拉普拉斯修正 :

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

  • Si? 是分類為? Ci? 類型的數(shù)據(jù)集樣本個數(shù) ;
  • Sik?被分類成 Ci? 類型的樣本中 , 并且第? k 個值是? Xk? 的樣本個數(shù) ;
  • Ni? 表示該屬性的可取值個數(shù) , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里? Ni?=2 ;

舉例子說明 ;

如果計算時 , 9 個樣本是購買商品的 , 但年齡都大于? 30 , 計算過程如下 ;

P(年齡小于30∣Y)=0/9

拉普拉斯修正就是分子加? 1 , 分母加上樣本類型個數(shù) 2 ; ( 樣本有兩個類型 , Y 購買商品 ,? N 不購買商品 ) ;

P(年齡小于30∣Y)=0+1 / 9+2?=1 / 11?

注意是所有的分量的概率都要進行拉普拉斯修正 , 不能只修正這一個 ;
?

五、貝葉斯分類器示例

分類需求 : 根據(jù) 年齡 , 收入水平 , 級別 , 部門 , 人數(shù) , 預測 " 年齡 31..35, 收入 41 k . . 41k..45k ,? systems 部門 " 的員工級別 ;

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算),研究生考試,數(shù)據(jù)挖掘,貝葉斯分類,樸素貝葉斯分類,拉普拉斯修正,數(shù)據(jù)分析

未知樣本 取值? X 向量 為 " 年齡? 31..35, 收入? 41k..45k ,? systems 部門 " ;

未知樣本 分類為? senior ( 高級 ) 類型的概率 : P(senior∣X)=P(X∣senior)P(senior)?/P(X)

未知樣本 分類為 junior ( 低級 ) 類型的概率 : P(junior∣X)=P(X∣junior)P(junior)?/P(X)

上述兩個概率的分母? P(X) 是常數(shù) , 對比時可以忽略 , 只需要對比分子即可 ;

先驗概率 P ( s e n i o r ) = 52 / 165 ? , P ( j u n i o r ) = 113 / 165 ,? 52 個人是 senior 級別 , 113 個人是 junior 級別 ;

后驗概率

① P ( X ∣ s e n i o r ) = P ( 年 齡 31..35 ∣ s e n i o r ) × P ( 收 入 41 k . . 45 k ∣ s e n i o r ) × P ( 部 門 s y s t e m s ∣ s e n i o r ) = 8 / 52 × 35/ 52 × 0 /52

上述后驗概率的結(jié)果為 0 , 需要進行 拉普拉斯修正 , 上述式子中的三個概率分子都需要 +1 , 分母 分母是分類的個數(shù) , senior 和? junior 兩個分類下各自包含的該屬性分類的類別數(shù) , 因此分母對應增加:年齡為 +4,收入為 +4,部門為 +4 ;

拉普拉斯修正后的結(jié)果 :

P ( X ∣ s e n i o r ) = ((8 + 1) / (52 + 4) )× ((35 + 1 )/ (52 + 4)) × ((0 + 1) / (52 + 2)) = (9 / 56 )× (36./ 56) × (1/ 56 )

② P ( X ∣ j u n i o r ) = P ( 年 齡 31..35 ∣ j u n i o r ) × P ( 收 入 41 k . . 45 k ∣ j u n i o r ) × P ( 部 門 s y s t e m s ∣ j u n i o r ) = 23 ./ 113 × 44 /113 × 4 /113

1)未知樣本 分類為? Y 類型的概率 分子 : P ( X ∣ s e n i o r ) P ( s e n i o r ) =(9 / 56 )× (36./ 56) × (1/ 56 ) = 0.00058

2)未知樣本 分類為? N 類型的概率 分子 : P ( X ∣ j u n i o r ) P ( j u n i o r ) = 23 113 × 44 113 × 4 113 × 113 165 ≈ 0.0024

該樣本分類 為? junior , 是低級員工 ;
?

六、 樸素貝葉斯分類器使用

1 . 要求分類速度快 : 此時先計算出所有數(shù)據(jù)的概率估值 , 分類時 , 直接查表計算 ;

2 . 數(shù)據(jù)集頻繁變化 : 使用懶惰學習的策略 , 收到 分類請求時 , 再進行訓練 , 然后預測 , 分類速度肯定變慢 , 但是預測準確 ;

3 . 數(shù)據(jù)不斷增加 : 使用增量學習策略 , 原來的估值不變 , 對新樣本進行訓練 , 然后基于新樣本的估值修正原來的估值 ;

七、 樸素貝葉斯分類的優(yōu)缺點

樸素貝葉斯分類 :

  • ??? 優(yōu)點 : 只用幾個公式實現(xiàn) , 代碼簡單 , 結(jié)果大多數(shù)情況下比較準確
  • ??? 缺點 : 假設的屬性獨立實際上不存在 , 屬性間是存在關聯(lián)的 , 這會導致部分分類結(jié)果不準確

針對屬性間存在依賴的情況 , 使用 貝葉斯信念網(wǎng)絡 方法進行分類 ;
?

參考內(nèi)容:

【數(shù)據(jù)挖掘】數(shù)據(jù)挖掘總結(jié) ( 貝葉斯分類器 ) ★_貝葉斯分類器實驗

【數(shù)據(jù)挖掘】數(shù)據(jù)挖掘總結(jié) ( 貝葉斯分類器示例 ) ★_數(shù)據(jù)挖掘貝葉斯分類例題

【數(shù)據(jù)挖掘】數(shù)據(jù)挖掘總結(jié) ( 拉普拉斯修正 | 貝葉斯分類器示例2 ) ★_拉普拉斯修正例題文章來源地址http://www.zghlxwxcb.cn/news/detail-519290.html

到了這里,關于【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包