【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)
目錄
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)
一、 貝葉斯分類器
1 . 貝葉斯分類器 :
2 . 貝葉斯分類器的類型 :
3 . 正向概率 與 逆向概率 :
4 . 貝葉斯公式 : 有兩個事件 , 事件? A , 和事件? B ;
二、 貝葉斯分類器處理多屬性數(shù)據(jù)集方案
三、 貝葉斯分類器分類的流程
?四、拉普拉斯修正
五、貝葉斯分類器示例
六、 樸素貝葉斯分類器使用
七、 樸素貝葉斯分類的優(yōu)缺點
一、 貝葉斯分類器
1 . 貝葉斯分類器 :
① 原理 : 基于統(tǒng)計學方法貝葉斯 ( Bayes ) 理論 , 預測樣本某個屬性的分類概率 ;
② 性能分析 : 樸素貝葉斯 分類器 , 與 決策樹 , 神經(jīng)網(wǎng)絡 分類器 性能基本相同 , 性能指標處于同一數(shù)量級 , 適合大數(shù)據(jù)處理 ;
2 . 貝葉斯分類器的類型 :
① 樸素貝葉斯分類器 : 樣本屬性都是獨立的 ;
② 貝葉斯信念網(wǎng)絡 : 樣本屬性間有依賴關系的情況 ;
3 . 正向概率 與 逆向概率 :
① 正向概率 : 盒子中有 N 個白球 ,? M 個黑球 , 摸出黑球的概率是 M /N + M ;
② 逆向概率 : 事先不知道盒子中白球和黑球的數(shù)量 , 任意摸出X 個球 , 通過觀察這些球的顏色 , 推測盒子中有多少白球 , 多少黑球 ;
4 . 貝葉斯公式 : 有兩個事件 , 事件? A , 和事件? B ;
公式:
簡寫形式:
或者:
① 事件 A A A 發(fā)生的概率 : 表示為? P(A) ;
② 事件 B B B 發(fā)生的概率 : 表示為? P(B) ;
③ A B 兩個事件同時發(fā)生的概率 : 表示為 P(A,B) ;
④ 事件 A? 發(fā)生時 B 發(fā)生的概率 : 表示為? P(B∣A) ;
⑤ 事件 B 發(fā)生時 A 發(fā)生的概率 : 表示為? P(A∣B) ;
?
二、 貝葉斯分類器處理多屬性數(shù)據(jù)集方案
1 . 多屬性特征 : 如果要處理的樣本數(shù)據(jù)的特征有 n 個屬性 , 其取值{X1?,X2?,?,Xn?} 組成了向量 X? ;
2 . 后驗概率 : 計算最終分類為? C1? 時 , 多個屬性的取值為 X 向量的概率 , 即 P(X∣C1?)
3 . 樸素貝葉斯由來 : 樸素地認為這些屬性之間不存在依賴關系 , 就可以使用乘法法則計算這些屬性取值同時發(fā)生的概率 ;
4 . 計算單個分類概率 : 分類為? C1? 時? n 個屬性每個取值取值概率 :
1)當最終分類為 C1? 時 , 第 1 個屬性取值? X1? 的概率為? P(X1?∣C1?) ;
2)當最終分類為 C1? 時 , 第 2 個屬性取值? X2? 的概率為? P(X2?∣C1?) ;
3)當最終分類為 C1? 時 , 第 n 個屬性取值? Xn? 的概率為? P(Xn?∣C1?) ;
4)最終分類為? C1? 時 , n 個屬性取值 X 向量的概率 為 :
5 . 多屬性分類概率總結(jié) : 分類為? Ci? 時 n 個屬性取值 X 向量的概率為 :
6 . 上述公式中的分類屬性 P(Xk?∣Ci?) 計算方式 : 如果第 k 個屬性的取值是離散的 , 即分類屬性 , 那么通過以下公式計算 :
Si? 是分類為? Ci? 類型的數(shù)據(jù)集樣本個數(shù) ;
Sik? 是被分類成? Ci? 類型的樣本中 , 并且第? k 個值是 Xk? 的樣本個數(shù) ;
7 . 樣本分類 :
① 樣本 : 給出未知屬性類型樣本 , 其 n 個已知的屬性取值為 X 向量 ;
② 分類個數(shù) : 其根據(jù)分類屬性可能分為 m 類 ;
③ 分類 : 求其取值為 X 向量時 , 分類為? Ci? 的概率 , 哪個概率最大 , 其被分為哪個 Ci? 類型 , 表示為
?④ 后驗概率 : 多屬性取值為 X 向量時 , 分類為 Ci? 的概率進行比較 , 分母都是 P(X) , 是一個常數(shù) , 可以不考慮這種情況 , 只比較? P(Ci?) 值的大小 ,? P(X∣Ci?)P(Ci?) 值最大的情況 , 就是分類的目標分類 Ci? , 也就是后驗概率 ;
?
?
三、 貝葉斯分類器分類的流程
已知條件 :
已知樣本 : 已知若干個樣本
未知樣本 : 給定 1? 個未知樣本 , 其有 4 個屬性組成向量 X , 樣本的分類有兩種 , Y 和? N ; ( Yes / No )
分類步驟 :
計算兩個概率 , 即
① 樣本取值為 X 向量時 , 分類為? Y 的概率 , 公式為 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y )/ P ( X ) , 其中 P ( X ∣ Y ) P ( Y )? 含義是 : 樣本分類? Y 的概率? P(Y) , 乘以 樣本分類為 YY 前提下樣本取值 X X 時的概率 P ( P(X∣Y) , 是? P(XY) 共同發(fā)生的概率 ;
② 樣本取值為 X 向量時 , 分類為 N 的概率 , 公式為? P(N∣X)=P(X)P(X∣N)/P(N)? , 其中 P ( X ∣ N ) P ( N )含義是 : 樣本分類為 N 的概率? P(N) , 乘以 樣本取值 N 時的概率? P(X∣N) , 是? P(XN) 共同發(fā)生的概率 ;
上述兩個概率 , 哪個概率高 , 就將該樣本分為哪個分類 ;
先驗概率 : P ( Y ) , P ( N ) ;
后驗概率 : P ( X ∣ Y ) P ( Y ) , P ( X ∣ N ) P ( N )? ;
上述兩個公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) / P ( X )? 和 P ( N ∣ X ) = P ( X ∣ N ) P ( N )/ P ( X )? , 分母都是 P ( X )? , 只比較分子即可; 其中先驗概率 P ( Y )? , P ( N )? 很容易求得 , 重點是求兩個后驗概率 P ( X ∣ Y ) P ( Y )? , P ( X ∣ N ) P ( N )? ;
后驗概率 P ( X ∣ Y )? 求法 : 針對 X? 向量中 4 個分量屬性的取值 , 當樣品類型是 Y? 時 , 分量? 1 取值為該分量屬性時的概率 , 同理計算出 4 個分量屬性對應的 4 個概率 , 最后將 四個概率相乘 ;
后驗概率 P ( X ∣ Y ) 再乘以先驗概率 P ( Y )? , 就是最終的 未知樣本分類為? Y 類型的概率 ;
最終對比樣本 , ① 未知樣本分類為 Y? 類型的概率 , ② 未知樣本分類為 N? 類型的概率 , 哪個概率大 , 就分類為哪個類型 ;
?
?四、拉普拉斯修正
在計算后驗概率 P ( X ∣ Y ) 時 , 需要計算出 當樣品類型是 Y? 時 , X? 向量的 分量 1? 取值為該分量屬性時的概率 , 同理計算出 4 個分量屬性對應的 4 個概率 , 最后將 四個概率相乘 ;
如果上述 4 個相乘的概率其中有一個是? 0 , 那么最終結(jié)果肯定就是 0 , 這里需要避免這種情況 , 引入拉普拉斯修正 ;
拉普拉斯修正 :
① 計算 先驗概率 時 進行 拉普拉斯修正 :
- Dc? 表示訓練集中 , 分類為? C 的樣本個數(shù) ;
- D? 表示訓練集中樣本中個數(shù) ;
-
N 表示按照某屬性分類的類別數(shù) , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里 N=2 ;
?
② 計算 類條件概率 ( 似然 ) 時 進行 拉普拉斯修正 :
- Si? 是分類為? Ci? 類型的數(shù)據(jù)集樣本個數(shù) ;
- Sik? 是被分類成 Ci? 類型的樣本中 , 并且第? k 個值是? Xk? 的樣本個數(shù) ;
- Ni? 表示該屬性的可取值個數(shù) , 如 , 是否購買商品 , 是 或 否 兩種可取值類別 , 這里? Ni?=2 ;
舉例子說明 ;
如果計算時 , 9 個樣本是購買商品的 , 但年齡都大于? 30 , 計算過程如下 ;
P(年齡小于30∣Y)=0/9
拉普拉斯修正就是分子加? 1 , 分母加上樣本類型個數(shù) 2 ; ( 樣本有兩個類型 , Y 購買商品 ,? N 不購買商品 ) ;
P(年齡小于30∣Y)=0+1 / 9+2?=1 / 11?
注意是所有的分量的概率都要進行拉普拉斯修正 , 不能只修正這一個 ;
?
五、貝葉斯分類器示例
分類需求 : 根據(jù) 年齡 , 收入水平 , 級別 , 部門 , 人數(shù) , 預測 " 年齡 31..35, 收入 41 k . . 41k..45k ,? systems 部門 " 的員工級別 ;
未知樣本 取值? X 向量 為 " 年齡? 31..35, 收入? 41k..45k ,? systems 部門 " ;
未知樣本 分類為? senior ( 高級 ) 類型的概率 : P(senior∣X)=P(X∣senior)P(senior)?/P(X)
未知樣本 分類為 junior ( 低級 ) 類型的概率 : P(junior∣X)=P(X∣junior)P(junior)?/P(X)
上述兩個概率的分母? P(X) 是常數(shù) , 對比時可以忽略 , 只需要對比分子即可 ;
先驗概率 P ( s e n i o r ) = 52 / 165 ? , P ( j u n i o r ) = 113 / 165 ,? 52 個人是 senior 級別 , 113 個人是 junior 級別 ;
后驗概率
① P ( X ∣ s e n i o r ) = P ( 年 齡 31..35 ∣ s e n i o r ) × P ( 收 入 41 k . . 45 k ∣ s e n i o r ) × P ( 部 門 s y s t e m s ∣ s e n i o r ) = 8 / 52 × 35/ 52 × 0 /52
上述后驗概率的結(jié)果為 0 , 需要進行 拉普拉斯修正 , 上述式子中的三個概率分子都需要 +1 , 分母 分母是分類的個數(shù) , senior 和? junior 兩個分類下各自包含的該屬性分類的類別數(shù) , 因此分母對應增加:年齡為 +4,收入為 +4,部門為 +4 ;
拉普拉斯修正后的結(jié)果 :
P ( X ∣ s e n i o r ) = ((8 + 1) / (52 + 4) )× ((35 + 1 )/ (52 + 4)) × ((0 + 1) / (52 + 2)) = (9 / 56 )× (36./ 56) × (1/ 56 )
② P ( X ∣ j u n i o r ) = P ( 年 齡 31..35 ∣ j u n i o r ) × P ( 收 入 41 k . . 45 k ∣ j u n i o r ) × P ( 部 門 s y s t e m s ∣ j u n i o r ) = 23 ./ 113 × 44 /113 × 4 /113
1)未知樣本 分類為? Y 類型的概率 分子 : P ( X ∣ s e n i o r ) P ( s e n i o r ) =(9 / 56 )× (36./ 56) × (1/ 56 ) = 0.00058
2)未知樣本 分類為? N 類型的概率 分子 : P ( X ∣ j u n i o r ) P ( j u n i o r ) = 23 113 × 44 113 × 4 113 × 113 165 ≈ 0.0024
該樣本分類 為? junior , 是低級員工 ;
?
六、 樸素貝葉斯分類器使用
1 . 要求分類速度快 : 此時先計算出所有數(shù)據(jù)的概率估值 , 分類時 , 直接查表計算 ;
2 . 數(shù)據(jù)集頻繁變化 : 使用懶惰學習的策略 , 收到 分類請求時 , 再進行訓練 , 然后預測 , 分類速度肯定變慢 , 但是預測準確 ;
3 . 數(shù)據(jù)不斷增加 : 使用增量學習策略 , 原來的估值不變 , 對新樣本進行訓練 , 然后基于新樣本的估值修正原來的估值 ;
七、 樸素貝葉斯分類的優(yōu)缺點
樸素貝葉斯分類 :
- ??? 優(yōu)點 : 只用幾個公式實現(xiàn) , 代碼簡單 , 結(jié)果大多數(shù)情況下比較準確
- ??? 缺點 : 假設的屬性獨立實際上不存在 , 屬性間是存在關聯(lián)的 , 這會導致部分分類結(jié)果不準確
針對屬性間存在依賴的情況 , 使用 貝葉斯信念網(wǎng)絡 方法進行分類 ;
?
參考內(nèi)容:
【數(shù)據(jù)挖掘】數(shù)據(jù)挖掘總結(jié) ( 貝葉斯分類器 ) ★_貝葉斯分類器實驗
【數(shù)據(jù)挖掘】數(shù)據(jù)挖掘總結(jié) ( 貝葉斯分類器示例 ) ★_數(shù)據(jù)挖掘貝葉斯分類例題文章來源:http://www.zghlxwxcb.cn/news/detail-519290.html
【數(shù)據(jù)挖掘】數(shù)據(jù)挖掘總結(jié) ( 拉普拉斯修正 | 貝葉斯分類器示例2 ) ★_拉普拉斯修正例題文章來源地址http://www.zghlxwxcb.cn/news/detail-519290.html
到了這里,關于【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】 之 貝葉斯分類算法(樸素貝葉斯分類、貝葉斯分類計算流程、拉普拉斯修正、貝葉斯分類實例計算)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!