国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

貝葉斯數(shù)據(jù)分析

這篇具有很好參考價(jià)值的文章主要介紹了貝葉斯數(shù)據(jù)分析。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1.基礎(chǔ)知識

條件概率公式:

對于任意兩個(gè)事件A和B,且P(A)>0,定義在A發(fā)生的條件下,B發(fā)生的條件概率為

從而,這就是乘法公式

推而廣之,設(shè)是任意n個(gè)隨機(jī)事件,則有更一般的乘法公式

全概率公式:

設(shè)是樣本空間中的一個(gè)完備事件群(又稱為的一個(gè)劃分)。換言之,它們滿足下列條件:

(a)兩兩不相交,即

(b)它們的并(和)恰好是樣本空間,即

設(shè)A為中的一個(gè)事件,則全概率公式為

這個(gè)公式將事件A分解成一些兩兩不相交的事件之并。直接計(jì)算P(A)不容易,但分解后的那些事件的概率容易計(jì)算,從而使P(A)的計(jì)算變得容易了。

2.貝葉斯公式

在全概率公式的條件下,即存在樣本空間的一個(gè)完備事件群,設(shè)A為中的一個(gè)事件,且,,則按照條件概率的計(jì)算方法,有

示例:一種診斷某癌癥的試劑,經(jīng)臨床實(shí)驗(yàn)有如下記錄:癌癥病人試驗(yàn)結(jié)果是陽性的概率為95%,非癌癥病人試驗(yàn)結(jié)果是陰性的概率為95%?,F(xiàn)用這種試劑在某社區(qū)進(jìn)行癌癥篩查,該社區(qū)癌癥發(fā)病率為0.5%,問某人反應(yīng)為陽性時(shí),該如何判斷他是否患有癌癥?

解:設(shè)事件A表示“試驗(yàn)結(jié)果是陽性”,事件B表示“被診斷者患癌癥”,則和構(gòu)成一個(gè)完備事件群。由題意知:

現(xiàn)需計(jì)算.由貝葉斯公式得

貝葉斯數(shù)據(jù)分析

練習(xí):用貝葉斯公式解釋“幸存者偏差”現(xiàn)象

用X表示飛機(jī)被擊中的部位,取值集合為{機(jī)頭,機(jī)翼,機(jī)身,機(jī)尾}

Y=0表示飛機(jī)墜毀

我們關(guān)心的是那些墜毀飛機(jī)被擊中部位的分布

即關(guān)心X為哪些部位時(shí),比較大,從而應(yīng)該加強(qiáng)這些部位的防護(hù)。由于二戰(zhàn)期間的炮彈是不長眼睛的,所以可以將P(X)視為均勻分布,從而得到

類似地,可以得到

同時(shí)注意到貝葉斯數(shù)據(jù)分析

我們僅能觀察到返航飛機(jī)上彈痕的分布P(X|Y=1),所以當(dāng)某一部位X(例如機(jī)身)的彈痕較多時(shí),說明P(X=機(jī)身|Y=1)較大,根據(jù)上述關(guān)系得到P(Y=1|X=機(jī)身)較大,而P(Y=0|X=機(jī)身)和P(X=機(jī)身|Y=0)較小,從而說明機(jī)身不是關(guān)鍵部位;相反地,如果另一部位X(例如機(jī)翼)彈痕較少時(shí),該部位往往可能是關(guān)鍵部位,應(yīng)加強(qiáng)防護(hù)。

貝葉斯公式也可用于糾正一些“成功學(xué)謬誤”

3.貝葉斯統(tǒng)計(jì)學(xué)與經(jīng)典統(tǒng)計(jì)學(xué)的主要區(qū)別

基于總體信息、樣本信息、先驗(yàn)信息進(jìn)行統(tǒng)計(jì)推斷的方法和理論稱為貝葉斯統(tǒng)計(jì)學(xué)。

  • 貝葉斯統(tǒng)計(jì)學(xué)與經(jīng)典統(tǒng)計(jì)學(xué)的主要區(qū)別在于是否利用先驗(yàn)信息。
  • 在使用樣本上存在差別,貝葉斯方法重視已出現(xiàn)的樣本,對尚未發(fā)生的樣本值不予考慮。
  • 貝葉斯學(xué)派重視先驗(yàn)信息的收集、挖掘和加工,使之形成先驗(yàn)分布而參加到統(tǒng)計(jì)推斷中來,以提高統(tǒng)計(jì)推斷的效果。

古典學(xué)派與貝葉斯學(xué)派的主要分歧:

(1)對于概率含義的解釋:

??????? 古典學(xué)派:一個(gè)事件的概率可以用大量重復(fù)試驗(yàn)下的頻率來解釋

??????? 貝葉斯學(xué)派:將主觀概率認(rèn)為是認(rèn)識主體對事件發(fā)生機(jī)會的相信程度,因?yàn)橛行┦录豢芍貜?fù)

(2)對于參數(shù)的理解:

??????? 古典學(xué)派:參數(shù)是一個(gè)固定值,雖然可能未知,但可以推斷

??????? 貝葉斯學(xué)派:參數(shù)是隨機(jī)變量,具有特定分布

4.貝葉斯參數(shù)估計(jì)

貝葉斯參數(shù)估計(jì)是基于貝葉斯公式的參數(shù)估計(jì)方法

????????其中,是參數(shù)的后驗(yàn)分布,是x關(guān)于的似然函數(shù),是參數(shù)的先驗(yàn)分布,p(x)是x的邊緣分布,亦稱歸一化因子

?4.1先驗(yàn)分布是均勻分布的擲硬幣試驗(yàn)

示例:擲硬幣試驗(yàn),擲出n次,設(shè)隨機(jī)變量X表示正面向上的次數(shù),因此隨機(jī)變量X服從二項(xiàng)分布Bin(n,),是硬幣正面向上的概率,概率分布如下:

????????其中x表示觀測到正面向上的次數(shù)。

x關(guān)于參數(shù)的似然函數(shù)(將擲出n次硬幣看做一次擲n枚,x枚朝上)

參數(shù)的先驗(yàn)分布:選取[0,1]區(qū)間上的均勻分布

x的邊緣分布(歸一化因子)

貝葉斯數(shù)據(jù)分析

將上述三項(xiàng)代入貝葉斯公式,得到參數(shù)的后驗(yàn)分布

貝葉斯數(shù)據(jù)分析

事實(shí)上,擲硬幣試驗(yàn)的先驗(yàn)分布不一定為均勻分布。我們不妨將試驗(yàn)的先驗(yàn)分布設(shè)定為Beta分布,再次代入貝葉斯公式,來觀察后驗(yàn)分布會有何變化。

4.2先驗(yàn)分布為Beta分布的擲硬幣試驗(yàn)

首先對Beta分布進(jìn)行簡要介紹。

Beta分布是一組定義在[0,1]區(qū)間上的連續(xù)概率分布

Beta分布的概率密度函數(shù)為

????????其中B(a,b)是Beta函數(shù),定義為

貝葉斯數(shù)據(jù)分析

????????其中是Gamma函數(shù),定義為

參數(shù)a和b控制著Beta分布的形式

貝葉斯數(shù)據(jù)分析

  • 特別地,當(dāng)a=b=1時(shí),Beta分布就是[0,1]區(qū)間上的均勻分布
  • Beta分布通常作為二項(xiàng)分布的參數(shù)的先驗(yàn)分布使用

Beta分布的期望、眾數(shù)、方差

貝葉斯數(shù)據(jù)分析

回到擲硬幣試驗(yàn)

將參數(shù)的先驗(yàn)分布設(shè)定為Beta分布

當(dāng)a=b=1時(shí),Beta分布就是[0,1]區(qū)間上的均勻分布

x的邊緣分布(歸一化因子)可以寫為

貝葉斯數(shù)據(jù)分析

將x的邊緣分布p(x)代入貝葉斯公式

貝葉斯數(shù)據(jù)分析

的后驗(yàn)分布是參數(shù)為a+x和b+n-x的Beta分布。進(jìn)一步可以發(fā)現(xiàn),事實(shí)上a+x代表的即是硬幣先驗(yàn)及后驗(yàn)中向上的總次數(shù);b+n-x代表的是硬幣先驗(yàn)及后驗(yàn)中向下的總次數(shù)。

后驗(yàn)概率密度最大的點(diǎn)(眾數(shù)mode)是

貝葉斯數(shù)據(jù)分析

????????稱之為極大后驗(yàn)估計(jì)

考慮到極大似然估計(jì)(MLE)的結(jié)果為,因此,后驗(yàn)眾數(shù)可以看成極大似然估計(jì)結(jié)果和先驗(yàn)眾數(shù)的加權(quán)組合。

貝葉斯數(shù)據(jù)分析

????????其中,貝葉斯數(shù)據(jù)分析

當(dāng)n變大,w趨向于1,后驗(yàn)眾數(shù)趨向于極大似然估計(jì)結(jié)果

當(dāng)a=b=1時(shí),w=1,后驗(yàn)眾數(shù)等于極大似然估計(jì)結(jié)果,極大后驗(yàn)估計(jì)結(jié)果與極大似然估計(jì)結(jié)果相同。

同理,若取后驗(yàn)均值作為貝葉斯參數(shù)估計(jì)的結(jié)果,貝葉斯數(shù)據(jù)分析

  • 在小樣本情形下比更合理
  • 當(dāng)試驗(yàn)次數(shù)n增加時(shí),趨向于
  • 使用先驗(yàn)原因:因?yàn)橛行┰囼?yàn)不能大量重復(fù)進(jìn)行

貝葉斯數(shù)據(jù)分析

貝葉斯原理符合人們認(rèn)知事物的模式:先驗(yàn)+數(shù)據(jù)=后驗(yàn)

?4.3后驗(yàn)預(yù)測分布

在已經(jīng)擲出n次硬幣并觀測到x次正面向上的試驗(yàn)結(jié)果上,預(yù)測重新擲出次硬幣正面向上的次數(shù)y

后驗(yàn)預(yù)測分布:

首先,利用,第一次擲硬幣與第二次結(jié)果無關(guān)兩個(gè)條件,

那么,后驗(yàn)預(yù)測分布為

貝葉斯數(shù)據(jù)分析

期望和方差分別為:

貝葉斯數(shù)據(jù)分析

5.共軛先驗(yàn)

在硬幣實(shí)驗(yàn)中,參數(shù)的先驗(yàn)分布和后驗(yàn)分布都是Beta分布,稱Beta分布是二項(xiàng)分布的共軛先驗(yàn)分布。

當(dāng)先驗(yàn)分布和后驗(yàn)分布是同一種分布,稱先驗(yàn)分布是似然函數(shù)的共軛先驗(yàn)分布。

只有給定似然函數(shù),才能確定其共軛先驗(yàn)分布。也就是說,必須根據(jù)問題的性質(zhì)選取其共軛先驗(yàn)分布。常見的共軛先驗(yàn)分布如下:

似然函數(shù) 參數(shù) 共軛先驗(yàn)分布
二項(xiàng)分布 成功概率 貝塔分布(Beta)
多項(xiàng)分布 成功概率 狄利克雷分布(Dirichlet)
泊松分布 參數(shù) 伽馬分布(Gamma)
指數(shù)分布 參數(shù) 伽馬分布(Gamma)
正態(tài)分布-方差已知 均值 正態(tài)分布(Normal,Gaussian)
正態(tài)分布-均值已知 方差 逆伽馬分布(Inverse Gamma)

?對于一般形式的似然函數(shù),共軛先驗(yàn)分布可能不存在

若選取某種分布作為參數(shù)的先驗(yàn)分布,x的邊緣分布(歸一化因子)很可能沒有解析表達(dá)式

這將導(dǎo)致參數(shù)的后驗(yàn)分布沒有解析表達(dá)式。解決方法:(1)Markov Chain Monte Carlo(MCMC)(2)Variational Inference(VI)

6.貝葉斯方法的應(yīng)用

潛在狄利克雷的分配模型(LDA)

貝葉斯數(shù)據(jù)分析

貝葉斯數(shù)據(jù)分析?

貝葉斯數(shù)據(jù)分析

?文章來源地址http://www.zghlxwxcb.cn/news/detail-403199.html

?

到了這里,關(guān)于貝葉斯數(shù)據(jù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包