邏輯回歸分類
考慮二分類問題,其中每個(gè)樣本由一個(gè)特征向量表示。
直觀理解:將特征向量 x \text{x} x映射到一個(gè)實(shí)數(shù) w T x \text{w}^T\text{x} wTx
- 一個(gè)正的值 w T x \text{w}^T\text{x} wTx表示 x \text{x} x屬于正類的可能性較高。
- 一個(gè)負(fù)的值 w T x \text{w}^T\text{x} wTx表示 x \text{x} x屬于負(fù)類的可能性較高。
概率解釋:
- 對(duì)映射值應(yīng)用一個(gè)變換函數(shù),將其范圍壓縮在0和1之間。
- 變換后的值表示屬于正類的概率。
- 變換后的值 w T x ∈ ( ? ∞ , + ∞ ) \text{w}^T\text{x}\in(-∞,+∞) wTx∈(?∞,+∞)的范圍是 [ 0 , 1 ] [0, 1] [0,1]。
注意:在邏輯回歸中通常使用的變換函數(shù)是sigmoid函數(shù)。
Logistic Regression Classification
條件概率:
- 條件概率在分類任務(wù)中很重要。
- 使用邏輯函數(shù)(也稱為sigmoid函數(shù))計(jì)算條件概率。
邏輯函數(shù) / sigmoid函數(shù):
-
當(dāng) z 趨近正無窮時(shí),邏輯函數(shù)趨近于1。
-
當(dāng) z 趨近負(fù)無窮時(shí),邏輯函數(shù)趨近于0。
-
當(dāng) z = 0 時(shí),邏輯函數(shù)等于0.5,表示兩個(gè)類別的概率相等。
-
給定輸入 x,正類的概率表示為:
p ( y = 1 ? ∣ ? x ) = σ ( w T x ) = 1 1 + e ? w T x = e w T x 1 + e w T x p(y = 1 \,|\, x) =\sigma(w^Tx) = \cfrac{1}{1 + e^{-w^T x}} = \cfrac{e^{w^T x}}{1 + e^{w^T x}} p(y=1∣x)=σ(wTx)=1+e?wTx1?=1+ewTxewTx? -
給定輸入 x,負(fù)類的概率表示為:
p ( y = 0 ? ∣ ? x ) = 1 ? p ( y = 1 ? ∣ ? x ) = 1 1 + e w T x p(y = 0 \,|\, x) = 1 - p(y = 1 \,|\, x) = \cfrac{1}{1 + e^{w^T x}} p(y=0∣x)=1?p(y=1∣x)=1+ewTx1?
Logistic Regression: Log Odds
- 在邏輯回歸中,我們使用log odds(對(duì)數(shù)幾率)來建模。
- 一個(gè)事件的幾率(odds):該事件發(fā)生的概率與不發(fā)生的概率的比值, p 1 ? p \cfrac{p}{1-p} 1?pp?。
- log odds / logit function: log ? ( p 1 ? p ) \log\left(\cfrac{p}{1-p}\right) log(1?pp?)。
- Log odds for logistic regression: log ? ( p ( y = 1 ∣ x ) 1 ? p ( y = 1 ∣ x ) ) = w T x \log\left(\cfrac{p(y=1|x)}{1-p(y=1|x)}\right) = w^Tx log(1?p(y=1∣x)p(y=1∣x)?)=wTx。
在邏輯回歸中,我們通過學(xué)習(xí)適當(dāng)?shù)臋?quán)重 w w w 來建立一個(gè)線性模型,該模型可以將輸入特征 x x x 映射到對(duì)數(shù)幾率(log odds)上。然后,通過對(duì)對(duì)數(shù)幾率應(yīng)用邏輯函數(shù)(sigmoid函數(shù))來得到分類概率。
Logistic Regression: Decision Boundary
決策邊界:
- 在邏輯回歸中,決策邊界是指分類模型對(duì)于輸入特征的判斷邊界。
- 對(duì)于線性邏輯回歸模型,決策邊界是線性的。
決策規(guī)則:
- 如果 p ^ ( y = 1 ∣ x ) ≥ 0.5 \hat{p}(y=1|x) \geq 0.5 p^?(y=1∣x)≥0.5,則預(yù)測(cè)為正類。
- 如果 p ^ ( y = 1 ∣ x ) < 0.5 \hat{p}(y=1|x) < 0.5 p^?(y=1∣x)<0.5,則預(yù)測(cè)為負(fù)類。
對(duì)于線性邏輯回歸,決策邊界是一個(gè)線性函數(shù),用于將特征空間劃分為兩個(gè)不同的類別區(qū)域。
Likelihood under the Logistic Model
在邏輯回歸中,我們觀察標(biāo)簽并測(cè)量它們?cè)谀P拖碌母怕省?img src="https://imgs.yssmx.com/Uploads/2023/06/490033-5.png" alt="【人工智能】— 邏輯回歸分類、對(duì)數(shù)幾率、決策邊界、似然估計(jì)、梯度下降" referrerpolicy="no-referrer" />
給定參數(shù)
w
w
w,樣本的條件對(duì)數(shù)似然函數(shù)為:
對(duì)數(shù)似然函數(shù)的表達(dá)式為:
其中, N N N 是樣本數(shù)量, x i x_i xi? 是第 i i i 個(gè)樣本的特征向量, y i y_i yi? 是第 i i i 個(gè)樣本的標(biāo)簽。
通過最大化對(duì)數(shù)似然函數(shù)來估計(jì)參數(shù) w w w,可以找到最佳的參數(shù)值,使得模型的概率預(yù)測(cè)與觀察到的標(biāo)簽盡可能一致。
Training the Logistic Model
訓(xùn)練邏輯回歸模型(即找到參數(shù)
w
w
w)可以通過最大化訓(xùn)練數(shù)據(jù)的條件對(duì)數(shù)似然函數(shù)或最小化損失函數(shù)來完成。
最大化條件對(duì)數(shù)似然函數(shù) or 最小化損失函數(shù):
其中, N N N 是訓(xùn)練數(shù)據(jù)的樣本數(shù)量, x i x_i xi? 是第 i i i 個(gè)樣本的特征向量, y i y_i yi? 是第 i i i 個(gè)樣本的標(biāo)簽。
通過最大化條件對(duì)數(shù)似然函數(shù)或最小化損失函數(shù),我們可以找到最優(yōu)的參數(shù) w w w,使得模型能夠最好地?cái)M合訓(xùn)練數(shù)據(jù),并能夠準(zhǔn)確地預(yù)測(cè)新的樣本標(biāo)簽。常用的優(yōu)化算法,如梯度下降法或牛頓法,可以用于求解最優(yōu)參數(shù)。
Gradient Descent
梯度下降是一種常用的優(yōu)化算法,用于求解最小化損失函數(shù)的問題。
梯度下降的步驟如下:
- 初始化參數(shù) w w w 的值。
- 重復(fù)以下步驟直到滿足停止條件:
- 計(jì)算損失函數(shù) J ( w ) J(w) J(w) 對(duì)參數(shù) w w w 的梯度,即 ? J ( w ) ? w \cfrac{\partial J(w)}{\partial w} ?w?J(w)?。
- 根據(jù)學(xué)習(xí)率 α \alpha α,更新參數(shù) w w w 的值: w j : = w j ? α ? J ( w ) ? w j w_j := w_j - \alpha \cfrac{\partial J(w)}{\partial w_j} wj?:=wj??α?wj??J(w)?,對(duì)所有參數(shù) w j w_j wj? 同時(shí)進(jìn)行更新。
梯度下降的目標(biāo)是通過迭代更新參數(shù),逐漸減小損失函數(shù)的值,直到達(dá)到局部最小值或收斂。文章來源:http://www.zghlxwxcb.cn/news/detail-490033.html
在邏輯回歸中,我們可以使用梯度下降算法來最小化損失函數(shù)
J
(
w
)
J(w)
J(w),從而找到最優(yōu)的參數(shù)
w
w
w,使得模型能夠最好地?cái)M合訓(xùn)練數(shù)據(jù)。通過計(jì)算損失函數(shù)對(duì)參數(shù)的梯度,然后根據(jù)梯度和學(xué)習(xí)率更新參數(shù),我們可以逐步調(diào)整參數(shù)的值,使得損失函數(shù)逐漸減小,從而達(dá)到最優(yōu)參數(shù)的目標(biāo)。文章來源地址http://www.zghlxwxcb.cn/news/detail-490033.html
到了這里,關(guān)于【人工智能】— 邏輯回歸分類、對(duì)數(shù)幾率、決策邊界、似然估計(jì)、梯度下降的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!