基本概率論
機器學習本質(zhì)上,就是做出預測。而概率論提供了一種量化和表達不確定性水平的方法,可以幫助我們量化對某個結果的確定性程度。
在一個簡單的圖像分類任務中;
- 如果我們非常確定圖像中的對象是一只貓,那么我們可以說標簽為 “貓” 的概率是 1,即 P ( y = “貓” ) = 1 P(y =“貓”) = 1 P(y=“貓”)=1;
- 如果我們無法區(qū)分圖像是貓還是狗,那么我們可以說兩者出現(xiàn)的概率相等,即 P ( y = “貓” ) = P ( y = “狗” ) = 0.5 P(y =“貓”) = P(y =“狗”) = 0.5 P(y=“貓”)=P(y=“狗”)=0.5;
- 如果我們對圖像是否為貓不太確定,我們可以將概率設置在一個介于 0.5 和 1 之間的值,表示我們對其為貓的確定性程度不是完全的,但比完全不確定要高。
這種概率的量化和比較使得我們可以更加客觀和量化地評估和處理不確定性。
概率論公理
概率論名詞:
- 樣本空間:所有可能結果的集合;
- 事件:給定樣本空間的一個子集;
- 概率:將集合映射到真實值的函數(shù),反映了事件發(fā)生的可能性;
概率論公理:
- 對于任意事件,其概率從不會是負數(shù);
- 整個樣本空間的概率為 1;
- 對于互斥事件(A、B、C互斥),有 P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) P(A∪B∪C)=P(A) + P(B) + P(C) P(A∪B∪C)=P(A)+P(B)+P(C);
隨機變量
隨機變量是將樣本空間中的每個結果映射到一個實數(shù)集上的函數(shù);
e . g . e.g. e.g. 以擲一個六面的骰子為例,其樣本空間 S S S 包含所有可能的結果,即 S = { 1 , 2 , 3 , 4 , 5 , 6 } S = \{1, 2, 3, 4, 5, 6\} S={1,2,3,4,5,6}。我們定義一個隨機變量 X X X,它將每個結果映射到一個實數(shù)。這里假設我們設定 X = x 2 + 1 X = x^2+1 X=x2+1,其中 x x x 為骰子的結果。
那么我們可以計算出每個結果對應的 X X X 值:
- 當 x = 1 x=1 x=1 時, X = x 2 + 1 = 2 X = x^2+1=2 X=x2+1=2;
- 當 x = 2 x=2 x=2 時, X = x 2 + 1 = 5 X = x^2+1=5 X=x2+1=5;
- 當 x = 3 x=3 x=3 時, X = x 2 + 1 = 10 X = x^2+1=10 X=x2+1=10;
- 當 x = 4 x=4 x=4 時, X = x 2 + 1 = 17 X = x^2+1=17 X=x2+1=17;
- 當 x = 5 x=5 x=5 時, X = x 2 + 1 = 26 X = x^2+1=26 X=x2+1=26;
- 當 x = 6 x=6 x=6 時, X = x 2 + 1 = 37 X = x^2+1=37 X=x2+1=37;
因此,離散隨機變量 X X X 的可能取值為 {2, 5, 10, 17, 26, 37};在公平骰子的情況下,每個結果出現(xiàn)的概率是相等的,出現(xiàn)的概率都為 1 6 \frac 1 6 61?。
多個隨機變量
聯(lián)合概率
聯(lián)合概率 P ( A = a , B = b ) P(A=a, B=b) P(A=a,B=b) 描述的是事件 A A A 發(fā)生且事件 B B B 也發(fā)生的概率。具體來說,它表示在所有可能的情況中,事件 A A A 結果為 a a a 且事件 B B B 結果為 b b b 的這種情況出現(xiàn)的概率是多少。
隱含在這個概念中的概率定律是,事件 A A A 和事件 B B B 同時發(fā)生的概率不會超過事件 A A A 或者事件 B B B 單獨發(fā)生的概率。即 P ( A = a , B = b ) ≤ P ( A = a ) P(A=a, B=b) ≤ P(A=a) P(A=a,B=b)≤P(A=a)。
條件概率
而聯(lián)合概率不等式的變形:
0
≤
P
(
A
=
a
,
B
=
b
)
P
(
A
=
a
)
≤
1
0 ≤ \frac {P(A=a, B=b)} {P(A=a)} ≤ 1
0≤P(A=a)P(A=a,B=b)?≤1
這個比率稱為條件概率,并用 P ( B = b ∣ A = a ) P(B=b|A=a) P(B=b∣A=a) 來表示。他是 B = b B=b B=b 的概率,前提是 A = a A=a A=a 已發(fā)生。
完整公式為: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac {P(AB)} {P(A)} P(B∣A)=P(A)P(AB)?
貝葉斯定理
根據(jù)條件概率的定義,我們可以得出統(tǒng)計學最有用的方程之一:Bayes 貝葉斯定理。
P
(
A
∣
B
)
=
P
(
B
∣
A
)
?
P
(
A
)
P
(
B
)
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)?P(A)?
貝葉斯定理的直觀含義是,當我們觀察到事件 B B B 發(fā)生時,事件 A A A 發(fā)生的概率會根據(jù)事件 B B B 發(fā)生的概率和對事件 A A A 和 B B B 相關性的了解而改變。貝葉斯定理是一種強大的工具,可以幫助我們在有新的證據(jù)出現(xiàn)時更新我們對某個假設的信念。
求和法則
根據(jù)求和法則, P ( B ) = ∑ A P ( A , B ) P(B)=\sum_{A}P(A,B) P(B)=A∑?P(A,B)
B B B 的概率相當于計算 A A A 的所有可能選擇,并將所有選擇聯(lián)合概率聚合在一起。
獨立性
如果兩個隨機變量 A A A 和 B B B 是獨立的,意味著事件 A A A 的發(fā)生跟事件 B B B 的發(fā)生無關。根據(jù)貝葉斯定理,馬上就能得到 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(A∣B)=P(A);
獨立性的一個常見例子是拋硬幣。拋擲一枚公平的硬幣,事件 A A A 是出現(xiàn)正面,事件 B B B 是出現(xiàn)反面。因為硬幣的每一面出現(xiàn)都是相互獨立的,所以事件 A A A 發(fā)生不影響事件 B B B 發(fā)生的概率,反之亦然。因此,事件 A 和事件 B 是獨立的。
獨立性在統(tǒng)計學和概率論中非常有用,它簡化了我們對事件之間關系的理解。如果我們知道兩個事件是獨立的,那么我們就可以將它們的概率分開來考慮,而不需要考慮它們之間的任何關系。
期望與方差
期望描述了一個隨機變量在多次重復實驗中平均可能取得的值。
E
x
?
P
[
f
(
x
)
]
=
∑
x
f
(
x
)
P
(
x
)
E_{x~P}[f(x)]=\sum _x f(x)P(x)
Ex?P?[f(x)]=x∑?f(x)P(x)
方差衡量的是隨機變量分布中采樣不同的
x
x
x 值時,函數(shù)值偏離該函數(shù)的期望的程度。
V
a
r
[
f
(
x
)
]
=
E
[
(
f
(
x
)
?
E
[
f
(
x
)
]
)
2
]
Var[f(x)]=E[(f(x)-E[f(x)])^2]
Var[f(x)]=E[(f(x)?E[f(x)])2]
小結
- 我們可以從概率分布中采樣;
- 我們可以使用聯(lián)合分布、條件分布、Bayes 定理、邊緣化和獨立性假設等來分析多個隨機變量;
- 期望和方差為概率分布的關鍵特征的概括提供了實用的度量形式。
以上
本節(jié)概率論內(nèi)容全部為理論知識。實踐部分將在后續(xù)博文中逐步展現(xiàn)。文章來源:http://www.zghlxwxcb.cn/news/detail-829088.html
2024.2.15文章來源地址http://www.zghlxwxcb.cn/news/detail-829088.html
到了這里,關于【深度學習】S2 數(shù)學基礎 P6 概率論的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!