頻率學(xué)派 vs. 貝葉斯學(xué)派
頻率學(xué)派:
- 概率是事件發(fā)生的長(zhǎng)期預(yù)期頻率。
- P(A) = n/N,其中n是事件A在N次機(jī)會(huì)中發(fā)生的次數(shù)。
- "某事發(fā)生的概率是0.1"意味著0.1是在無(wú)窮多樣本的極限條件下能夠被觀察到的比例。
- 在許多情況下,不可能進(jìn)行重復(fù)實(shí)驗(yàn)。
- 例如問(wèn)題:第三次世界大戰(zhàn)發(fā)生的概率是多少?
貝葉斯學(xué)派
- 概率是信念的度量。
- 它是一種基于不完全知識(shí)給出事件可能性的度量。
- 貝葉斯分析從先驗(yàn)信念開(kāi)始,根據(jù)新的數(shù)據(jù)更新這種信念。
- 貝葉斯概率的主觀性可能是一個(gè)限制,因?yàn)椴煌娜丝赡苡胁煌南闰?yàn)信念,并且可能根據(jù)相同的數(shù)據(jù)以不同的方式更新他們的信念。
Probability(概率):
- Probability(概率)是對(duì)不確定知識(shí)一種嚴(yán)密的形式化方法。
- 它提供了一種量化不同事件或結(jié)果的可能性的方式。
- 全聯(lián)合概率分布指定了對(duì)隨機(jī)變量的每種完全賦值,即每個(gè)原子事件的概率。
- 可以通過(guò)把對(duì)應(yīng)于查詢(xún)命題的原子事件的條目相加的方式來(lái)回答查詢(xún)。
- 對(duì)于復(fù)雜的領(lǐng)域,聯(lián)合分布可能會(huì)變得過(guò)于復(fù)雜,我們必須找到一種方法來(lái)減少它的大小。
- 獨(dú)立性和條件獨(dú)立性提供了分解聯(lián)合分布和簡(jiǎn)化計(jì)算的工具。
獨(dú)立性/條件獨(dú)立性:
- 當(dāng)且僅當(dāng) P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(A∣B)=P(A),或 P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P(B∣A)=P(B),或 P ( A , B ) = P ( A ) P ( B ) P(A,B) = P(A)P(B) P(A,B)=P(A)P(B)時(shí),A和B是獨(dú)立的。
- 如果 P ( A ∣ B , C ) = P ( A ∣ C ) P(A|B,C) = P(A|C) P(A∣B,C)=P(A∣C),則在給定C的條件下,A對(duì)于B是條件獨(dú)立的。
- 在大多數(shù)情況下,使用條件獨(dú)立性可以將全聯(lián)合概率的表示從指數(shù)關(guān)系減少為線性關(guān)系。
- 條件獨(dú)立性是我們關(guān)于不確定環(huán)境最基本和最強(qiáng)大的知識(shí)形式。
- 它可以簡(jiǎn)化復(fù)雜模型和更有效地進(jìn)行推斷。
Probability Theory(概率論):
- 概率論可以用兩個(gè)簡(jiǎn)單的方程式表達(dá):
- 加法規(guī)則(Sum Rule): P ( X ) = ∑ Y P ( X , Y ) P(X) = \sum_Y P(X,Y) P(X)=∑Y?P(X,Y),通過(guò)邊緣化或求和其他變量來(lái)獲得變量的概率。
- 乘法規(guī)則(Product Rule): P ( X , Y ) = P ( X ∣ Y ) P ( Y ) P(X,Y) = P(X|Y)P(Y) P(X,Y)=P(X∣Y)P(Y),聯(lián)合概率可以用條件概率表達(dá)。
- 所有的概率推斷和學(xué)習(xí)都可以歸結(jié)為不斷應(yīng)用加法規(guī)則和乘法規(guī)則。
Graphical models (概率圖模型)
什么是圖模型(Graphical Models)
- 圖模型是概率分布的圖表表示。
- 它是概率論和圖論的結(jié)合。
- 也被稱(chēng)為概率圖模型(Probabilistic Graphical Models)。
- 它們?cè)鰪?qiáng)了分析,而不是使用純代數(shù)。
圖是什么
- 由節(jié)點(diǎn)(也稱(chēng)為頂點(diǎn))和鏈接(也稱(chēng)為邊或?。┙M成。
- 在概率圖模型中,
- 每個(gè)節(jié)點(diǎn)表示一個(gè)隨機(jī)變量(或一組隨機(jī)變量)。
- 鏈接表示變量之間的概率關(guān)系。
計(jì)算機(jī)科學(xué)中的圖模型:
- 處理不確定性和復(fù)雜性的自然工具,這些概念貫穿應(yīng)用數(shù)學(xué)和工程。
- 圖模型的基本思想是模塊化,即通過(guò)組合較簡(jiǎn)單的部分來(lái)構(gòu)建復(fù)雜的系統(tǒng)。
- 圖模型為許多領(lǐng)域提供了一種有效的建模和推斷方法,如人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等。
為什么圖模型有用?
- 概率理論提供了粘合劑,通過(guò)它,各部分得以結(jié)合,從而確保整個(gè)系統(tǒng)的一致性,并為模型與數(shù)據(jù)之間提供接口。
- 圖論方面提供了:
- 直觀的可視化界面,使人類(lèi)能夠?qū)Ω叨冉换サ淖兞考M(jìn)行建模。
- 數(shù)據(jù)結(jié)構(gòu),自然地適合設(shè)計(jì)高效的通用算法。
- 圖模型為許多領(lǐng)域提供了一種有效的建模和推斷方法,如人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等。
圖模型:統(tǒng)一框架
- 將經(jīng)典的多元概率系統(tǒng)視為共同的基礎(chǔ)形式,如混合模型、因子分析、隱馬爾可夫模型、卡爾曼濾波器等。
- 在系統(tǒng)工程、信息理論、模式識(shí)別和統(tǒng)計(jì)力學(xué)等領(lǐng)域中遇到。
- 觀點(diǎn)的優(yōu)點(diǎn):
- 可以在不同領(lǐng)域之間轉(zhuǎn)移和利用特定技術(shù)。
- 為設(shè)計(jì)新系統(tǒng)提供自然框架。
- 圖模型為許多領(lǐng)域提供了一種有效的建模和推斷方法,如人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等。
圖模型在機(jī)器學(xué)習(xí)中的作用:
- 形象化概率模型的結(jié)構(gòu),提供了一種簡(jiǎn)單的可視化方式。
- 通過(guò)檢查圖,可以深入了解模型的屬性,如條件獨(dú)立性屬性。
- 需要進(jìn)行推斷和學(xué)習(xí)的復(fù)雜計(jì)算可以表示為圖操作,從而簡(jiǎn)化了計(jì)算過(guò)程。
圖的方向性:
-
有向圖模型
-
箭頭表示方向性。
-
貝葉斯網(wǎng)絡(luò)
- 表示隨機(jī)變量之間的因果關(guān)系。
-
在人工智能和統(tǒng)計(jì)學(xué)中更為流行。
-
-
無(wú)向圖模型
-
沒(méi)有箭頭的鏈接。
-
馬爾科夫隨機(jī)場(chǎng)
- 更適合表示變量之間的軟約束。
-
在視覺(jué)和物理學(xué)中更為流行。
-
貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)是一種簡(jiǎn)單的、圖形化的數(shù)據(jù)結(jié)構(gòu),用于表示變量之間的依賴(lài)關(guān)系(條件獨(dú)立性),為任何全聯(lián)合概率分布提供一種簡(jiǎn)明的規(guī)范。
- 語(yǔ)法:
- 一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)變量。
- 一個(gè)有向無(wú)環(huán)圖(DAG)(鏈接≈“直接影響”)。
- 每個(gè)節(jié)點(diǎn)都有一個(gè)條件分布,給定其父節(jié)點(diǎn)的條件下的概率分布: P ( X i ∣ P a r e n t s ( X i ) ) P(X_i | Parents(X_i)) P(Xi?∣Parents(Xi?)),量化其父節(jié)點(diǎn)對(duì)該節(jié)點(diǎn)的影響。
- 在最簡(jiǎn)單的情況下,條件分布可以表示為一個(gè)條件概率表(CPT),給出每個(gè)父節(jié)點(diǎn)值組合下Xi的分布。
舉例說(shuō)明:
網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)編碼了條件獨(dú)立性的斷言:
- 天氣與其他變量無(wú)關(guān)。
- 在給定牙齒蛀牙的情況下,牙痛和牙感染(Catch)是條件獨(dú)立的。
舉例說(shuō)明:
我正在工作,鄰居約翰(John)打電話(huà)說(shuō)我的鬧鐘響了,但鄰居瑪麗(Mary)沒(méi)有打電話(huà)。有時(shí)它會(huì)因?yàn)樾〉牡卣鸲|發(fā)。這是不是有夜賊?
變量:入室行竊、地震、鬧鐘、約翰打電話(huà)、瑪麗打電話(huà)。
網(wǎng)絡(luò)拓?fù)浞从沉恕耙蚬敝R(shí):
-
夜賊可以觸發(fā)鬧鐘。
-
地震可以觸發(fā)鬧鐘。
-
鬧鐘可以導(dǎo)致瑪麗打電話(huà)。
-
鬧鐘可以導(dǎo)致約翰打電話(huà)。
- P(Burglary)
- P(Earthquake)
- P(Alarm | Burglary, Earthquake)
- P(JohnCalls | Alarm)
- P(MaryCalls | Alarm)
-
給定觀測(cè)到的變量,可以進(jìn)行推斷,例如:
- 如果John報(bào)警,那么入室行竊的后驗(yàn)概率是多少?
- 如果沒(méi)有人打電話(huà),那么地震的后驗(yàn)概率是多少?
- 如果沒(méi)有地震,也沒(méi)有報(bào)警,那么入室行竊的后驗(yàn)概率是多少?
通過(guò)貝葉斯網(wǎng)絡(luò),可以直觀地表達(dá)變量之間的依賴(lài)關(guān)系和條件獨(dú)立性,從而進(jìn)行推斷和決策。
Compactness(緊致性)
一個(gè)具有k個(gè)布爾父節(jié)點(diǎn)的布爾變量的條件概率表中有 2 k 2^k 2k個(gè)獨(dú)立的可指定概率,對(duì)應(yīng)于父節(jié)點(diǎn)值的組合。
每一行需要一個(gè)數(shù)字
p
p
p,表示
X
i
X_i
Xi?
=
=
=
t
r
u
e
true
true的概率(
X
i
X_i
Xi?
=
=
=
f
a
l
s
e
false
false的概率是
1
?
p
1-p
1?p)。
如果每個(gè)變量的父節(jié)點(diǎn)不超過(guò)k個(gè),則完整的網(wǎng)絡(luò)需要 O ( n ? 2 k ) O(n \cdot 2^k) O(n?2k)個(gè)數(shù)字。與完整的聯(lián)合分布相比,其增長(zhǎng)率是線性的,而不是 O ( 2 n ) O(2^n) O(2n)。
例如,對(duì)于入室行竊網(wǎng)絡(luò),有 1 + 1 + 4 + 2 + 2 = 10 1 + 1 + 4 + 2 + 2 = 10 1+1+4+2+2=10個(gè)數(shù)字(而全聯(lián)合分布有 2 5 ? 1 = 31 2^{5}-1=31 25?1=31)。
全局語(yǔ)義
在貝葉斯網(wǎng)絡(luò)中,全聯(lián)合概率分布可以表示為所有變量的條件概率分布的乘積,即:
P
(
X
1
,
X
2
,
.
.
.
,
X
n
)
=
∏
i
=
1
n
P
(
X
i
∣
P
a
r
e
n
t
s
(
X
i
)
)
P(X_{1},X_{2},...,X_{n}) = \prod_{i=1}^{n}P(X_{i}|Parents(X_{i}))
P(X1?,X2?,...,Xn?)=i=1∏n?P(Xi?∣Parents(Xi?))
這個(gè)等式表明,聯(lián)合概率分布可以完全由局部條件概率分布確定。這意味著,貝葉斯網(wǎng)絡(luò)提供了一種緊湊、可解釋、易于推斷的方式來(lái)表示聯(lián)合概率分布。
局部語(yǔ)義
局部語(yǔ)義指的是,給定父節(jié)點(diǎn),一個(gè)節(jié)點(diǎn)與它的非后代節(jié)點(diǎn)是條件獨(dú)立的。換句話(huà)說(shuō),每個(gè)節(jié)點(diǎn)只依賴(lài)于它的父節(jié)點(diǎn)和自身,與其他節(jié)點(diǎn)無(wú)關(guān)。
定理:局部語(yǔ)義 ? \Leftrightarrow ? 全局語(yǔ)義
即,全局語(yǔ)義中的聯(lián)合概率分布可以由每個(gè)節(jié)點(diǎn)的條件概率分布表示,每個(gè)節(jié)點(diǎn)的條件獨(dú)立性質(zhì)可以保證全局條件獨(dú)立性質(zhì)。
因果鏈
-
基本結(jié)構(gòu)
-
在給定Y的條件下,X是否與Z獨(dú)立?
-
沿著鏈的證據(jù)“阻止”了影響。
-
因果鏈?zhǔn)且环N基本的因果結(jié)構(gòu),其中一個(gè)變量直接影響另一個(gè)變量,從而構(gòu)成一個(gè)鏈。例如,如果X導(dǎo)致Y,然后Y導(dǎo)致Z,那么這個(gè)結(jié)構(gòu)就是一個(gè)因果鏈。
在因果鏈中,如果給定Y的條件下,X和Z是獨(dú)立的,那么我們可以說(shuō)Y是一個(gè)“阻礙變量”,它“阻止”了X對(duì)Z的影響。這種阻礙效應(yīng)是因果推斷的基礎(chǔ),因?yàn)樗鼈兲峁┝岁P(guān)于變量間因果關(guān)系的信息。
共同原因
-
另一個(gè)基本結(jié)構(gòu):同一原因的兩個(gè)影響
- X和Z是否獨(dú)立?
- 在給定Y的條件下,X和Z是否獨(dú)立?
共同原因是另一個(gè)基本的因果結(jié)構(gòu),其中兩個(gè)變量都受到同一原因的影響。例如,如果X和Z都是由Y導(dǎo)致的,那么這個(gè)結(jié)構(gòu)就是一個(gè)共同原因。
在共同原因結(jié)構(gòu)中,如果沒(méi)有給定Y,那么X和Z可能會(huì)出現(xiàn)關(guān)聯(lián)。但是,如果給定Y,則X和Z可能成為條件獨(dú)立的,因?yàn)榻o定Y的情況下,它們的共同原因已經(jīng)被控制。這種情況被稱(chēng)為“控制反應(yīng)”,它提供了關(guān)于變量間因果關(guān)系的信息。
共同效應(yīng)
? 最后一種結(jié)構(gòu):一個(gè)影響的兩個(gè)原因(v-structures)
- X和Z是否獨(dú)立?
? 是:記住球賽和下雨導(dǎo)致交通堵塞,沒(méi)有相關(guān)性嗎? - 在給定Y的條件下,X和Z是否獨(dú)立?
? 不是:記住看到交通堵塞讓雨和球賽處于競(jìng)爭(zhēng)狀態(tài)嗎? -
這與其他情況不同
? 觀察效應(yīng)可以使原因之間產(chǎn)生影響。
共同效應(yīng)是一種因果結(jié)構(gòu),其中兩個(gè)原因都可以導(dǎo)致同一效應(yīng)。例如,如果X和Z都可以導(dǎo)致Y,那么這個(gè)結(jié)構(gòu)就是一個(gè)共同效應(yīng)。
在共同效應(yīng)結(jié)構(gòu)中,如果X和Z都是獨(dú)立的,那么它們可能不會(huì)對(duì)Y產(chǎn)生影響,因?yàn)樗鼈儧](méi)有直接的關(guān)系。但是,如果給定了Y,則X和Z可能成為條件獨(dú)立的,因?yàn)樵诮o定Y的情況下,它們之間的影響路徑被阻斷了。這種情況被稱(chēng)為“掩蔽”,它提供了關(guān)于變量間因果關(guān)系的信息。
需要注意的是,觀察到效應(yīng)可能會(huì)導(dǎo)致原因之間產(chǎn)生影響,這與其他情況不同。例如,如果我們觀察到交通堵塞,那么球賽和下雨可能會(huì)成為競(jìng)爭(zhēng)因素,從而影響彼此的發(fā)生概率。這種情況是與其他情況相反的,因?yàn)橛^察到效應(yīng)可以啟用原因之間的影響。
構(gòu)建貝葉斯網(wǎng)絡(luò)
需要一種方法使得局部的條件獨(dú)立關(guān)系能夠保證全局語(yǔ)義得以成立。
- 選擇變量 X 1 X_1 X1?, X 2 X_2 X2?,…, X n X_n Xn?的順序。
- 對(duì)于
i
=
1
i = 1
i=1到
n
n
n,將
X
i
X_i
Xi?添加到網(wǎng)絡(luò)中,并從
X
1
X_1
X1?,
X
2
X_2
X2?,…,
X
i
?
1
X_{i-1}
Xi?1?中選擇父節(jié)點(diǎn),使得條件概率符合以下條件:
P ( X i ∣ P a r e n t s ( X i ) ) = P ( X i ∣ X 1 , . . . , X i ? 1 ) P(X_i|Parents(X_i)) = P(X_i|X_1,...,X_{i-1}) P(Xi?∣Parents(Xi?))=P(Xi?∣X1?,...,Xi?1?)
這種父節(jié)點(diǎn)的選擇方式可以保證全局語(yǔ)義成立:
P
(
X
1
,
.
.
.
,
X
n
)
=
P
(
X
i
∣
X
1
,
.
.
.
,
X
i
?
1
)
=
∏
i
=
1
n
P
(
X
i
∣
P
a
r
e
n
t
s
(
X
i
)
)
(使用鏈法則、通過(guò)上述構(gòu)建方法)
P(X_1,...,X_n) = P(X_i|X_1,...,X_{i-1})= \prod_{i=1}^{n} P(X_i | Parents(X_i))\\(使用鏈法則、通過(guò)上述構(gòu)建方法)
P(X1?,...,Xn?)=P(Xi?∣X1?,...,Xi?1?)=i=1∏n?P(Xi?∣Parents(Xi?))(使用鏈法則、通過(guò)上述構(gòu)建方法)
通過(guò)這種構(gòu)建方式,可以保證貝葉斯網(wǎng)絡(luò)中的條件獨(dú)立關(guān)系與全局語(yǔ)義相一致。此外,這種構(gòu)建方式還具有計(jì)算效率高、可解釋性強(qiáng)等優(yōu)點(diǎn)。
- 要求網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)確實(shí)反映了合適的父節(jié)點(diǎn)集對(duì)每個(gè)變量
的那些直接影響。 - 添加節(jié)點(diǎn)的正確次序是首先添加“根本原因”節(jié)點(diǎn),然后加
入受它們直接影響的變量,以此類(lèi)推。
構(gòu)建貝葉斯網(wǎng)絡(luò)舉例
假設(shè)我們選擇順序?yàn)镸,J,A,B,E。下面是對(duì)每個(gè)問(wèn)題的解釋?zhuān)?/p>
-
P ( J ∣ M ) = P ( J ) ? P(J | M) = P(J)? P(J∣M)=P(J)? No
這個(gè)問(wèn)題詢(xún)問(wèn)M是否影響J的概率。從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)看,M是J的父節(jié)點(diǎn),因此M會(huì)影響J的概率。因此, P ( J ∣ M ) ≠ P ( J ) P(J | M) \neq P(J) P(J∣M)=P(J)。 -
P ( A ∣ J , M ) = P ( A ∣ J ) ? P(A | J, M) = P(A | J)? P(A∣J,M)=P(A∣J)? No
這個(gè)問(wèn)題詢(xún)問(wèn)J和M是否一起影響A的概率,或者說(shuō)是否存在直接影響A的路徑上的變量被忽略了。從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)看,A的父節(jié)點(diǎn)是M和J,因此M會(huì)影響A的概率。因此, P ( A ∣ J , M ) ≠ P ( A ∣ J ) P(A | J, M) \neq P(A | J) P(A∣J,M)=P(A∣J)。 -
P ( B ∣ A , J , M ) = P ( B ∣ A ) ? P(B | A, J, M) = P(B | A)? P(B∣A,J,M)=P(B∣A)? Yes
這個(gè)問(wèn)題詢(xún)問(wèn)是否存在一個(gè)變量,使得在給定其他相關(guān)變量的情況下,該變量與B的獨(dú)立性與其他變量無(wú)關(guān)。從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)看,B的父節(jié)點(diǎn)是M和E,而A和J不是B的父節(jié)點(diǎn),因此在給定A和J的情況下,M和E對(duì)B的概率具有獨(dú)立性。因此, P ( B ∣ A , J , M ) = P ( B ∣ A ) P(B | A, J, M) = P(B | A) P(B∣A,J,M)=P(B∣A)。 -
P ( B ∣ A , J , M ) = P ( B ) ? P(B | A, J, M) = P(B)? P(B∣A,J,M)=P(B)? No
這個(gè)問(wèn)題詢(xún)問(wèn)B是否獨(dú)立于M和J。從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)看,B的父節(jié)點(diǎn)是M和E,而J和A不是B的父節(jié)點(diǎn),因此在給定A和J的情況下,M和E對(duì)B的概率具有獨(dú)立性,但是B的概率仍然會(huì)受到E的影響。因此, P ( B ∣ A , J , M ) ≠ P ( B ) P(B | A, J, M) \neq P(B) P(B∣A,J,M)=P(B)。 -
P ( E ∣ B , A , J , M ) = P ( E ∣ A ) ? P(E | B, A, J, M) = P(E | A)? P(E∣B,A,J,M)=P(E∣A)? No
這個(gè)問(wèn)題詢(xún)問(wèn)是否存在一個(gè)變量,使得在給定其他相關(guān)變量的情況下,該變量與E的獨(dú)立性與其他變量無(wú)關(guān)。從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)看,E的父節(jié)點(diǎn)是B,B對(duì)E的概率仍然有影響。因此, P ( E ∣ B , A , J , M ) ≠ P ( E ∣ A ) P(E | B, A, J, M) \neq P(E | A) P(E∣B,A,J,M)=P(E∣A)。 -
P ( E ∣ B , A , J , M ) = P ( E ∣ A , B ) ? P(E | B, A, J, M) = P(E | A, B)? P(E∣B,A,J,M)=P(E∣A,B)? Yes
這個(gè)問(wèn)題詢(xún)問(wèn)是否存在一個(gè)變量,使得在給定其他相關(guān)變量的情況下,該變量與E的獨(dú)立性與其他變量無(wú)關(guān)。從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)看,E的父節(jié)點(diǎn)是B,而J和M不是E的父節(jié)點(diǎn),因此 P ( E ∣ B , A , J , M ) = P ( E ∣ A , B ) P(E | B, A, J, M) = P(E | A, B) P(E∣B,A,J,M)=P(E∣A,B)。
因果方向
決定非因果方向上的條件獨(dú)立關(guān)系是困難的。因?yàn)樵谶@種情況下,變量之間的關(guān)系可能是相互影響的,而不是單向因果關(guān)系。這使得我們不能簡(jiǎn)單地依靠因果模型和條件獨(dú)立性來(lái)解決問(wèn)題。
相比之下,在因果方向上,因果模型和條件獨(dú)立性是相對(duì)容易理解的,因?yàn)樗鼈兎从沉苏鎸?shí)世界中變量之間的因果關(guān)系。這是因?yàn)槲覀兊拇竽X天生被設(shè)計(jì)用來(lái)理解因果關(guān)系,而不是非因果關(guān)系。
此外,在非因果方向上,構(gòu)建網(wǎng)絡(luò)所需的數(shù)字?jǐn)?shù)量通常更多,因?yàn)槲覀冃枰紤]所有可能的相互作用,而不僅僅是單向因果關(guān)系。例如,在一個(gè)由5個(gè)變量組成的網(wǎng)絡(luò)中,如果我們選擇非因果方向,則需要13個(gè)數(shù)字來(lái)表示條件概率分布,而在因果方向上只需要5個(gè)數(shù)字。
綜上所述,雖然在非因果方向上決定條件獨(dú)立關(guān)系是困難的,但因果模型和條件獨(dú)立性仍然是人類(lèi)天生熟悉的概念,可以幫助我們更好地理解復(fù)雜的關(guān)系網(wǎng)絡(luò)。
數(shù)學(xué)公式:
在給定變量X和Y的情況下,如果變量Z與變量Y條件獨(dú)立,則可以表示為:
P
(
Z
∣
X
,
Y
)
=
P
(
Z
∣
X
)
P(Z|X,Y)=P(Z|X)
P(Z∣X,Y)=P(Z∣X)
因果性?
-
當(dāng)貝葉斯網(wǎng)絡(luò)反映真實(shí)因果模式時(shí):
- 常常更簡(jiǎn)單(節(jié)點(diǎn)具有較少的父節(jié)點(diǎn))
- 常常更易于思考
- 常常更容易從專(zhuān)家那里獲取
-
貝葉斯網(wǎng)絡(luò)不一定是因果的
- 有時(shí)在領(lǐng)域中不存在因果網(wǎng)絡(luò)(特別是如果變量缺失)
- 最終得到的箭頭反映相關(guān)性,而不是因果關(guān)系
-
箭頭真正意味著什么?
- 拓?fù)浣Y(jié)構(gòu)可能偶然編碼了因果結(jié)構(gòu)
- 拓?fù)浣Y(jié)構(gòu)真正編碼了條件獨(dú)立性
貝葉斯網(wǎng)絡(luò)中的推理
推理任務(wù)
貝葉斯網(wǎng)絡(luò)中通常需要進(jìn)行以下三種推理任務(wù):
-
簡(jiǎn)單查詢(xún)(Simple queries):計(jì)算后驗(yàn)概率 P ( X i ∣ E = e ) P(X_i | E=e) P(Xi?∣E=e)。例如,給定油表為空,車(chē)燈亮起且車(chē)輛未啟動(dòng)的情況下,計(jì)算沒(méi)有汽油的概率 P ( N o G a s ∣ G a u g e 油表 = e m p t y , L i g h t s = o n , S t a r t s = f a l s e ) P(NoGas|Gauge油表=empty, Lights=on, Starts=false) P(NoGas∣Gauge油表=empty,Lights=on,Starts=false)。
-
聯(lián)合查詢(xún)(Conjunctive queries):計(jì)算 P ( X i , X j ∣ E = e ) = P ( X i ∣ E = e ) P ( X j ∣ X i , E = e ) P(X_i, X_j | E=e) = P(X_i | E=e)P(X_j | X_i, E=e) P(Xi?,Xj?∣E=e)=P(Xi?∣E=e)P(Xj?∣Xi?,E=e)。這種查詢(xún)涉及兩個(gè)或多個(gè)變量的聯(lián)合概率分布。
這個(gè)等式成立是因?yàn)樗跅l件概率的定義和貝葉斯定理。
根據(jù)條件概率的定義,我們有: P ( X i , X j ∣ E = e ) = P ( X i , X j , E = e ) P ( E = e ) P(X_i,X_j|E=e) = \frac{P(X_i,X_j,E=e)}{P(E=e)} P(Xi?,Xj?∣E=e)=P(E=e)P(Xi?,Xj?,E=e)?
接下來(lái),我們可以將分子 P ( X i , X j , E = e ) P(X_i,X_j,E=e) P(Xi?,Xj?,E=e)拆分為條件概率的形式,即: P ( X i , X j , E = e ) = P ( X j ∣ X i , E = e ) P ( X i , E = e ) P(X_i,X_j,E=e) = P(X_j|X_i,E=e)P(X_i,E=e) P(Xi?,Xj?,E=e)=P(Xj?∣Xi?,E=e)P(Xi?,E=e) 將上式代入分母 P ( E = e ) P(E=e) P(E=e)中,得到: P ( X i , X j ∣ E = e ) = P ( X j ∣ X i , E = e ) P ( X i , E = e ) P ( E = e ) P(X_i,X_j|E=e) = \frac{P(X_j|X_i,E=e)P(X_i,E=e)}{P(E=e)} P(Xi?,Xj?∣E=e)=P(E=e)P(Xj?∣Xi?,E=e)P(Xi?,E=e)? 接著,根據(jù)貝葉斯定理,我們可以將條件概率 P ( X i , E = e ) P(X_i,E=e) P(Xi?,E=e)表示為: P ( X i , E = e ) = P ( X i ∣ E = e ) P ( E = e ) P(X_i,E=e) = P(X_i|E=e)P(E=e) P(Xi?,E=e)=P(Xi?∣E=e)P(E=e) 代入上式中,得到: P ( X i , X j ∣ E = e ) = P ( X j ∣ X i , E = e ) P ( X i ∣ E = e ) P ( E = e ) P ( E = e ) P(X_i,X_j|E=e) = \frac{P(X_j|X_i,E=e)P(X_i|E=e)P(E=e)}{P(E=e)} P(Xi?,Xj?∣E=e)=P(E=e)P(Xj?∣Xi?,E=e)P(Xi?∣E=e)P(E=e)? 化簡(jiǎn)后,即可得到:
P ( X i , X j ∣ E = e ) = P ( X j ∣ X i , E = e ) P ( X i ∣ E = e ) P(X_i,X_j|E=e) = P(X_j|X_i,E=e)P(X_i|E=e) P(Xi?,Xj?∣E=e)=P(Xj?∣Xi?,E=e)P(Xi?∣E=e)
這就是等式 P ( X i , X j ∣ E = e ) = P ( X i ∣ E = e ) P ( X j ∣ X i , E = e ) P(X_i,X_j|E=e) = P(X_i|E=e)P(X_j|X_i,E=e) P(Xi?,Xj?∣E=e)=P(Xi?∣E=e)P(Xj?∣Xi?,E=e)的推導(dǎo)過(guò)程。它表示在給定觀測(cè)值 E = e E=e E=e的條件下,變量 X i X_i Xi?和 X j X_j Xj?的聯(lián)合概率分布可以表示為在給定 E = e E=e E=e的條件下,變量 X i X_i Xi?的條件概率分布和在給定 E = e E=e E=e和 X i X_i Xi?的條件下,變量 X j X_j Xj?的條件概率分布的乘積。這個(gè)等式在貝葉斯網(wǎng)絡(luò)中具有重要的應(yīng)用價(jià)值,可以用于概率推斷和條件概率分布的計(jì)算等任務(wù)。
- 最優(yōu)決策(Optimal decisions):決策網(wǎng)絡(luò)包括效用信息;需要概率推理以計(jì)算 P ( o u t c o m e ∣ a c t i o n , e v i d e n c e ) P(outcome|action, evidence) P(outcome∣action,evidence),其中outcome表示結(jié)果,action表示決策,evidence表示證據(jù)。這種推理任務(wù)通常用于在不確定性環(huán)境中做出最優(yōu)決策。
這些推理任務(wù)可以幫助我們理解變量之間的概率關(guān)系,并用于許多實(shí)際應(yīng)用,例如醫(yī)學(xué)診斷、金融風(fēng)險(xiǎn)預(yù)測(cè)和自然語(yǔ)言處理等。
枚舉推理
枚舉推理是一種在貝葉斯網(wǎng)絡(luò)中進(jìn)行推理的方法,它通過(guò)計(jì)算條件概率的乘積并求和來(lái)回答查詢(xún),而不需要顯式構(gòu)建聯(lián)合概率分布的完整表示。
在貝葉斯網(wǎng)絡(luò)中,可以使用條件概率乘積的形式表示全聯(lián)合概率分布。具體來(lái)說(shuō),假設(shè)我們有一個(gè)由變量
X
1
,
X
2
,
.
.
.
,
X
n
X_1, X_2, ..., X_n
X1?,X2?,...,Xn?組成的貝葉斯網(wǎng)絡(luò)
B
B
B,則可以將全聯(lián)合概率分布
P
(
X
1
,
X
2
,
.
.
.
,
X
n
)
P(X_1, X_2, ..., X_n)
P(X1?,X2?,...,Xn?)表示為:
P
(
X
1
,
X
2
,
.
.
.
,
X
n
)
=
∏
i
=
1
n
P
(
X
i
∣
P
a
r
e
n
t
(
X
i
)
)
其中,
P
a
r
e
n
t
(
X
i
)
表示變量
X
i
的父節(jié)點(diǎn)集合。
P(X_1, X_2, ..., X_n) = \prod_{i=1}^n P(X_i | Parent(X_i))\\其中,Parent(X_i)表示變量X_i的父節(jié)點(diǎn)集合。
P(X1?,X2?,...,Xn?)=i=1∏n?P(Xi?∣Parent(Xi?))其中,Parent(Xi?)表示變量Xi?的父節(jié)點(diǎn)集合。
這個(gè)公式利用了條件獨(dú)立性的性質(zhì),即在給定父節(jié)點(diǎn)的情況下,每個(gè)變量的條件概率只依賴(lài)于其父節(jié)點(diǎn),而與其他變量無(wú)關(guān)。因此,我們可以將全聯(lián)合概率分布表示為每個(gè)變量的條件概率的乘積,從而簡(jiǎn)化計(jì)算的復(fù)雜度。
這個(gè)公式可以用于進(jìn)行貝葉斯網(wǎng)絡(luò)的推理,例如計(jì)算給定證據(jù)的情況下某個(gè)變量的后驗(yàn)概率。
枚舉推理的基本思想是枚舉網(wǎng)絡(luò)中的每個(gè)變量,對(duì)每個(gè)變量計(jì)算其條件概率,并將它們相乘。然后,將所有變量的條件概率乘積相加,得到所需的概率分布。在這個(gè)過(guò)程中,枚舉推理使用了貝葉斯定理和條件獨(dú)立性的性質(zhì),對(duì)計(jì)算過(guò)程進(jìn)行了簡(jiǎn)化。
枚舉推理是一種比較直觀的方法,可以在計(jì)算條件概率時(shí)避免顯式地構(gòu)建完整的聯(lián)合概率分布。然而,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜時(shí),枚舉推理的計(jì)算復(fù)雜度會(huì)非常高,因此需要使用其他更高效的推理方法,例如變量消元和近似推理等。
總的來(lái)說(shuō),枚舉推理是一種簡(jiǎn)單而直觀的推理方法,可以用于解決許多實(shí)際問(wèn)題,但在處理大型網(wǎng)絡(luò)時(shí)可能會(huì)面臨計(jì)算復(fù)雜度高的問(wèn)題。
枚舉推理舉例
從“偷竊”網(wǎng)絡(luò)簡(jiǎn)單查詢(xún)
使用條件概率表項(xiàng)重寫(xiě)全聯(lián)合項(xiàng)
遞歸深度優(yōu)先搜索:
O
(
n
)
空間復(fù)雜度,
O
(
d
n
)
時(shí)間復(fù)雜度
O(n)空間復(fù)雜度,O(d^n)時(shí)間復(fù)雜度
O(n)空間復(fù)雜度,O(dn)時(shí)間復(fù)雜度
枚舉效率不高
重復(fù)計(jì)算
P
(
j
∣
a
)
P
(
m
∣
a
)
P(j|a)P(m|a)
P(j∣a)P(m∣a)對(duì)于e的每個(gè)取值
變量消元
變量消元是貝葉斯網(wǎng)絡(luò)中一種常用的推理方法,它通過(guò)從右到左進(jìn)行求和,并存儲(chǔ)中間結(jié)果(因子)以避免重新計(jì)算,來(lái)簡(jiǎn)化計(jì)算復(fù)雜度。
變量消元的基本思想是將網(wǎng)絡(luò)中的變量根據(jù)其與待求變量的關(guān)系進(jìn)行分組,將每組變量的條件概率分布乘起來(lái),得到一個(gè)新的因子。然后,對(duì)于不需要的變量,可以將它們從因子中消去,最終得到一個(gè)只包含待求變量的因子。通過(guò)對(duì)這個(gè)因子進(jìn)行歸一化,我們可以得到待求變量的后驗(yàn)概率分布。
變量消元可以通過(guò)多種方式實(shí)現(xiàn),例如求和-乘積算法和置信傳播算法等。其中,求和-乘積算法是最常用的變量消元算法之一。該算法使用因子表示聯(lián)合概率分布,通過(guò)從右到左進(jìn)行求和的方式,逐步消去不需要的變量,最終得到只包含待求變量的因子。
變量消元是一種高效且常用的推理方法,可以用于計(jì)算貝葉斯網(wǎng)絡(luò)中任意變量的后驗(yàn)概率分布。
精確推理的復(fù)雜度
在貝葉斯網(wǎng)絡(luò)中,精確推理的復(fù)雜度取決于網(wǎng)絡(luò)的結(jié)構(gòu)和大小。對(duì)于單聯(lián)通網(wǎng)絡(luò)(或多樹(shù)),變量消元的時(shí)間和空間復(fù)雜度都與網(wǎng)絡(luò)規(guī)模呈線性關(guān)系,具體地說(shuō),是 O ( d k n ) O(d^kn) O(dkn),其中d是每個(gè)節(jié)點(diǎn)的最大父節(jié)點(diǎn)數(shù),k是每個(gè)節(jié)點(diǎn)的最大取值數(shù),n是網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)。
對(duì)于多聯(lián)通網(wǎng)絡(luò),精確推理的復(fù)雜度可能非常高,實(shí)際上,它可以被歸約到解決3SAT問(wèn)題上,從而是NP難的。此外,計(jì)算多聯(lián)通網(wǎng)絡(luò)的模型數(shù)量等價(jià)于計(jì)數(shù)3SAT模型的數(shù)量,這被稱(chēng)為#P完全問(wèn)題。
總的來(lái)說(shuō),精確推理在單聯(lián)通網(wǎng)絡(luò)(或多樹(shù))上是高效的,但在多聯(lián)通網(wǎng)絡(luò)上可能非常困難,需要使用近似推理或其他高級(jí)技術(shù)來(lái)解決。
舉例:樸素貝葉斯模型
樸素貝葉斯模型是一種基于貝葉斯定理的分類(lèi)算法,它假設(shè)每個(gè)特征與其他特征相互獨(dú)立。這使得樸素貝葉斯模型的計(jì)算復(fù)雜度低,同時(shí)在許多實(shí)際應(yīng)用中表現(xiàn)出色。
在樸素貝葉斯模型中,假設(shè)有一個(gè)類(lèi)別變量 Y Y Y和 n n n個(gè)特征變量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1?,X2?,...,Xn?。樸素貝葉斯模型假設(shè)每個(gè)特征變量 X i X_i Xi?與類(lèi)別變量 Y Y Y相互獨(dú)立,但在給定類(lèi)別變量 Y Y Y的情況下,每個(gè)特征變量 X i X_i Xi?可能的取值是有條件依賴(lài)的。因此,我們可以使用貝葉斯定理來(lái)計(jì)算給定類(lèi)別變量 Y Y Y和特征變量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1?,X2?,...,Xn?的聯(lián)合概率分布:
P ( Y , X 1 , X 2 , . . . , X n ) = P ( Y ) ∏ i = 1 n P ( X i ∣ Y ) P(Y, X_1, X_2, ..., X_n) = P(Y) \prod_{i=1}^n P(X_i | Y) P(Y,X1?,X2?,...,Xn?)=P(Y)i=1∏n?P(Xi?∣Y)
其中, P ( Y ) P(Y) P(Y)是類(lèi)別變量 Y Y Y的先驗(yàn)概率分布, P ( X i ∣ Y ) P(X_i | Y) P(Xi?∣Y)是在給定類(lèi)別變量 Y Y Y的情況下,特征變量 X i X_i Xi?的條件概率分布。
可以使用樸素貝葉斯模型進(jìn)行分類(lèi),即給定一個(gè)未知的特征向量 X = ( X 1 , X 2 , . . . , X n ) X=(X_1, X_2, ..., X_n) X=(X1?,X2?,...,Xn?),我們可以計(jì)算每個(gè)類(lèi)別變量 Y Y Y的后驗(yàn)概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X),然后選擇后驗(yàn)概率最大的類(lèi)別作為預(yù)測(cè)結(jié)果。
總的來(lái)說(shuō),樸素貝葉斯模型是一種簡(jiǎn)單而有效的分類(lèi)算法,適用于許多實(shí)際應(yīng)用場(chǎng)景,如文本分類(lèi)、垃圾郵件過(guò)濾等。
舉例:垃圾郵件檢測(cè)
假設(shè)我們要解決自動(dòng)檢測(cè)垃圾郵件的問(wèn)題。一個(gè)簡(jiǎn)單的起點(diǎn)是僅查看郵件中的“主題:”頭,并通過(guò)檢查一些簡(jiǎn)單的可計(jì)算特征來(lái)嘗試識(shí)別垃圾郵件。我們考慮的兩個(gè)簡(jiǎn)單特征是:
Caps:主題頭是否全部大寫(xiě)
Free:主題頭是否包含單詞“free”,無(wú)論是大寫(xiě)還是小寫(xiě)
該模型基于以下三個(gè)隨機(jī)變量:Caps(是否全大寫(xiě))、Free(是否包含單詞“free”)和Spam(是否為垃圾郵件),每個(gè)變量都取值為Y(是)或N(否)。
具體來(lái)說(shuō),當(dāng)且僅當(dāng)郵件主題不含小寫(xiě)字母時(shí),Caps = Y;當(dāng)且僅當(dāng)郵件主題中包含單詞“free”(不區(qū)分大小寫(xiě))時(shí),F(xiàn)ree = Y;當(dāng)且僅當(dāng)郵件是垃圾郵件時(shí),Spam = Y。
我們可以使用聯(lián)合概率分布來(lái)描述這三個(gè)變量之間的關(guān)系,即:
P ( F r e e , C a p s , S p a m ) = P ( S p a m ) P ( C a p s ∣ S p a m ) P ( F r e e ∣ S p a m ) P(Free, Caps, Spam) = P(Spam) P(Caps|Spam) P(Free|Spam) P(Free,Caps,Spam)=P(Spam)P(Caps∣Spam)P(Free∣Spam)
舉例:數(shù)字識(shí)別器
- 簡(jiǎn)單版本:
- 每個(gè)網(wǎng)格位置<i,j>都有一個(gè)特征Fij
- 可能的特征值是開(kāi)/關(guān),基于底層圖像中強(qiáng)度是否大于0.5
- 每個(gè)輸入對(duì)應(yīng)一個(gè)特征向量,例如:
- 這里有很多特征,每個(gè)特征都是二進(jìn)制的
- 樸素貝葉斯模型:
- 條件概率表
對(duì)樸素貝葉斯模型的評(píng)價(jià):
-
通過(guò)假設(shè)條件獨(dú)立性,使概率推理變得可行。這個(gè)假設(shè)雖然很強(qiáng),但是在許多實(shí)際應(yīng)用中都表現(xiàn)出了較好的效果。
-
盡管使用了這個(gè)強(qiáng)假設(shè),樸素貝葉斯模型在許多應(yīng)用中表現(xiàn)出色,尤其是在文本分類(lèi)等領(lǐng)域。
-
實(shí)驗(yàn)表明,樸素貝葉斯模型在標(biāo)準(zhǔn)數(shù)據(jù)集上與其他分類(lèi)方法相比具有相當(dāng)?shù)母?jìng)爭(zhēng)力。
-
特別是在文本分類(lèi)中,例如垃圾郵件過(guò)濾,樸素貝葉斯模型非常受歡迎。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-453254.html
總的來(lái)說(shuō),樸素貝葉斯模型是一種簡(jiǎn)單而有效的分類(lèi)算法,尤其適用于文本分類(lèi)和垃圾郵件過(guò)濾等應(yīng)用。雖然它有一個(gè)強(qiáng)假設(shè),但在許多實(shí)際應(yīng)用中,它表現(xiàn)得很好,并且在競(jìng)爭(zhēng)性實(shí)驗(yàn)中也表現(xiàn)出良好的性能。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-453254.html
到了這里,關(guān)于【人工智能】— 貝葉斯網(wǎng)絡(luò)、概率圖模型、全局語(yǔ)義、因果鏈、樸素貝葉斯模型、枚舉推理、變量消元的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!