目錄
一、邏輯回歸簡(jiǎn)介及應(yīng)用
二、邏輯回歸的原理
(1)sigmoid函數(shù)
(2)輸入和輸出形式
?(3)基于目標(biāo)函數(shù)求解參數(shù)w
三、邏輯回歸代碼復(fù)現(xiàn)
一、邏輯回歸簡(jiǎn)介及應(yīng)用
? ? ? ? logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動(dòng)診斷,經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域。例如,探討引發(fā)疾病的危險(xiǎn)因素,并根據(jù)危險(xiǎn)因素預(yù)測(cè)疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。然后通過logistic回歸分析,可以得到自變量的權(quán)重,同時(shí)根據(jù)該權(quán)值可以根據(jù)危險(xiǎn)因素預(yù)測(cè)一個(gè)人患癌癥的可能性。
???????Logistic回歸的因變量可以是二分類的,如上述中是否患胃癌;也可以是多分類的,如mnist手寫識(shí)別,但是二分類的更為常用,也更加容易解釋。所以實(shí)際中最常用的就是二分類的Logistic回歸。
二、邏輯回歸的原理
? ? ? ? 談到回歸問題,第一反應(yīng)是:在二維平面上是一條直線。當(dāng)??和??確定時(shí),對(duì)于回歸問題,假設(shè)為面積,經(jīng)過線性映射,可以得到其體積,則完成回歸任務(wù);對(duì)于分類問題,假設(shè)為某個(gè)特征,經(jīng)過線性映射,得到>0,或<0,或=0,若規(guī)定大于0的為正標(biāo)簽,小于等于0的為負(fù)標(biāo)簽,則完成了分類任務(wù)。
????????同理可得,當(dāng)方程為多元方程時(shí):?? ?,如下圖所示:
?? ? ? ? ?如果繼續(xù)對(duì)多元方程回歸得到的規(guī)定大于0的為正標(biāo)簽,小于等于0的為負(fù)標(biāo)簽。由于的值域?yàn)?img src="https://latex.csdn.net/eq?%5Cleft%20%28%20-%5Cinfty%2C%20+%5Cinfty%20%5Cright%20%29" alt="邏輯回國,邏輯回歸,機(jī)器學(xué)習(xí),人工智能,python" referrerpolicy="no-referrer" />,這樣規(guī)定對(duì)于決策很不友好;若,規(guī)定大于閾值0.5為正標(biāo)簽,小于等于閾值0.5為負(fù)標(biāo)簽,那么越比0.5大,就越說明決策函數(shù)給出的正類的可信度越高,反之亦然。這樣不僅靈活,而且可以根據(jù)數(shù)據(jù)情況調(diào)整不同的閾值來達(dá)到最佳準(zhǔn)召率。
(1)sigmoid函數(shù)
??輸入數(shù)據(jù),經(jīng)過函數(shù)映射為,該函數(shù)為sigmoid函數(shù),形式為
(2)輸入和輸出形式
? ? ? ? 輸入:
? ? ? ?輸出:???,其中
?
這里和如圖所示,分別為輸入數(shù)據(jù)和待求參數(shù),為偏置項(xiàng),為了后續(xù)推導(dǎo)方便,設(shè)定:,即,。
? ? ? ? 輸出值就是概率值,對(duì)中參數(shù)的求導(dǎo)過程如下所示,后面會(huì)用到,先求出來放在這里哈:
?
? ? ? ? 求導(dǎo)過程為除法求導(dǎo)運(yùn)算法則,需要注意一個(gè)推導(dǎo)公式:。
?(3)基于目標(biāo)函數(shù)求解參數(shù)w
? ? ? ? 極大似然估計(jì)提供了一種基于給定觀察數(shù)據(jù)來評(píng)估模型參數(shù)的方法,即:“模型已定,參數(shù)未知”。簡(jiǎn)單說來,就是知道了模型和結(jié)果,求解使得事件結(jié)果以最大概率發(fā)生時(shí)出現(xiàn)的參數(shù)。
? ? ? ? 基于邏輯回歸的計(jì)算式,對(duì)應(yīng)標(biāo)簽1和0的概率分別為:
????????第一步,構(gòu)造極大似然函數(shù),計(jì)算這些樣本的似然函數(shù),其實(shí)就是把每個(gè)樣本的概率乘起來,
? ? ? ? 第二步,兩邊取對(duì)數(shù)得:
tips:由于極大似然函數(shù)中有連乘符號(hào),取對(duì)數(shù),將連乘變?yōu)榧雍汀?/p>
????????目標(biāo)函數(shù)為:其中,y為真值,p為預(yù)測(cè)值。
????????原函數(shù)求最大值,等價(jià)于乘以負(fù)1后求最小值。對(duì)于n個(gè)數(shù)據(jù)累加后值較大,用梯度下降容易導(dǎo)致梯度爆炸,可處于樣本總數(shù)n,即
????????
? ? ? ? 第三步,對(duì)目標(biāo)函數(shù)中參數(shù)w求導(dǎo):為了求導(dǎo)過程更清晰,先去掉求和符號(hào)
tips:,該求導(dǎo)過程,涉及到對(duì)概率值p的求導(dǎo),這個(gè)求導(dǎo)過程在前面已經(jīng)推導(dǎo)完成。
????????添加求和符號(hào)后為:
????????基于梯度下降法求得最優(yōu)w:
三、邏輯回歸代碼復(fù)現(xiàn)
? ? ? ? 后續(xù)補(bǔ)充。
參考文獻(xiàn):
【大道至簡(jiǎn)】機(jī)器學(xué)習(xí)算法之邏輯回歸(Logistic Regression)詳解(附代碼)---非常通俗易懂!
? ? ? ??文章來源地址http://www.zghlxwxcb.cn/news/detail-646661.html文章來源:http://www.zghlxwxcb.cn/news/detail-646661.html
? ? ? ??
到了這里,關(guān)于邏輯回歸(Logistic Regression)原理(理論篇)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!