- 博主簡(jiǎn)介:努力學(xué)習(xí)的22級(jí)計(jì)算機(jī)科學(xué)與技術(shù)本科生一枚??
- 博主主頁(yè): @Yaoyao2024
- 每日一言??: 勇敢的人,不是不落淚的人,而是愿意含著淚繼續(xù)奔跑的人。
——《朗讀者》
0、聲明
本系列博客文章是博主本人根據(jù)吳恩達(dá)老師2022年的機(jī)器學(xué)習(xí)課程所學(xué)而寫,主要包括老師的核心講義和自己的理解。在上完課后對(duì)課程內(nèi)容進(jìn)行回顧和整合,從而加深自己對(duì)知識(shí)的理解,也方便自己以及后續(xù)的同學(xué)們復(fù)習(xí)和回顧。
- 課程地址????2022吳恩達(dá)機(jī)器學(xué)習(xí)Deeplearning.ai課程
- 課程資料和代碼(jupyter notebook)????2022-Machine-Learning-Specialization
由于課程使用英文授課,所以博客中的表達(dá)也會(huì)用到英文,會(huì)用到中文輔助理解。
??Machine learning specialization課程共分為三部分
- 第一部分:Supervised Machine Learning: Regression and Classification
- 第二部分:Advanced Learning Algorithms(Neural networks、Decision Trees)
- 第三部分:Unsupervised Learning: Recommenders, Reinforcement Learning
??最后,感謝吳恩達(dá)老師Andrew Ng的無(wú)私奉獻(xiàn),和視頻搬運(yùn)同學(xué)以及課程資料整合同學(xué)的無(wú)私付出。Cheers!??
前言
???在前兩章中,我們學(xué)習(xí)了線性回歸模型(單變量、多變量)。線性回歸模型主要是解決回歸任務(wù)。我們知道,監(jiān)督學(xué)習(xí)(Supervised Learning)中,還有一個(gè)重要的任務(wù):分類(classification) 。分類問(wèn)題的主要思路和模型訓(xùn)練過(guò)程和回歸任務(wù)類似。但是在模型的選擇和算法思想上還是有一些不同的。我們下面會(huì)從線性回歸模型引入,介紹適用于分類任務(wù)的模型:邏輯回歸模型(logistic regression model).并介紹基于它的代價(jià)函數(shù)、梯度下降。此外還會(huì)引入及存在于回歸任務(wù)又存在于分類任務(wù)中的兩個(gè)概念:過(guò)擬合(Overfitting)、正則化(Regularization)。
?????♀?接下來(lái)讓我們開始吧!????????
一、分類問(wèn)題引入
下面圖中展示的是二分類問(wèn)題??梢钥吹剑瑪?shù)據(jù)的形式和線性回歸模型很類似。不同點(diǎn)就在于目標(biāo)值y
是離散的兩個(gè)值,而非連續(xù)。
如果借用回歸模型的思想,我們其實(shí)也可以擬合一個(gè)線性函數(shù):
上圖可以看出:線性回歸模型+閾值,似乎就能解決分類問(wèn)題。但真的如此嗎?
下圖可以看到,當(dāng)增加數(shù)據(jù)時(shí),模型按照線性回歸模型的訓(xùn)練方法,會(huì)有所改變。但是改變之后模型更加糟糕。
?????♀?總結(jié):分類問(wèn)題肯定不是簡(jiǎn)單的線性回歸+閾值分割。
二、邏輯回歸模型
于是,提出了邏輯回歸模型。核心思想還是:回歸+閾值分割。
在這個(gè)模型中的一個(gè)關(guān)鍵是: 邏輯函數(shù)(logistic function):Sigmoid 函數(shù)
上圖可以看到,對(duì)比線性回歸模型,Sigmod函數(shù)套在線性回歸函數(shù)的外面,作用像是把線性函數(shù)掰彎然后再捋平后。將取值范圍從(-∞ ~ +∞)
映射到(0~1)
。更好的表示了分類問(wèn)題中,對(duì)分類類別的可能性預(yù)測(cè)——概率。
下圖展示了對(duì)邏輯回歸模型中輸出變量的解釋??梢钥吹?,輸出值就是類別為1
時(shí),在給定輸入變量和參數(shù)的情況下的概率。
2.1:決策邊界(Decision Boundary)
下圖是是邏輯回歸模型的具體步驟,可以看到。首先是預(yù)測(cè)回歸模型的值(類別為1
的概率),再進(jìn)行閾值分割(閾值為0.5
)。也印證了前面說(shuō)的,分類問(wèn)題的本質(zhì)還是回歸+閾值分割。
由上圖也可知,在邏輯回歸模型中,閾值0.5
的取得是當(dāng)z=0
時(shí)。當(dāng)回歸函數(shù)z=0
時(shí),映射到嵌套的回歸函數(shù)中,對(duì)應(yīng)的就是:決策邊界(Decision Boundary).
就像下面這樣:當(dāng)回歸函數(shù)z >= 0
,也就是在決策邊界“之上”時(shí),代表類別為1
.
下面是非線性的回歸函數(shù)z
展示。綠色的部分就是回歸邊界,綠色部分>=0
時(shí)表示類別為1
2.2:損失函數(shù)(loss) & 代價(jià)函數(shù)(cost)
在前一章中訓(xùn)練線性回歸模型時(shí)我們學(xué)過(guò)均方誤差代價(jià)函數(shù),它是衡量訓(xùn)練集中樣本數(shù)據(jù)的真實(shí)目標(biāo)值和對(duì)應(yīng)的預(yù)測(cè)值之間的擬合程度的。
線性回歸模型中運(yùn)用的代價(jià)函數(shù)是 基于距離度量的。即把目標(biāo)數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)映射到距離度量的特征空間中(如歐氏空間,漢明空間等),將映射后的樣本數(shù)據(jù)看作是空間中的點(diǎn),再運(yùn)用損失函數(shù)(loss function)來(lái)度量?jī)牲c(diǎn)之間的距離。這個(gè)舉例也代表這兩個(gè)點(diǎn)的擬合程度。 將目標(biāo)值和預(yù)測(cè)值映射,放到特征空間的兩點(diǎn)中,運(yùn)用損失函數(shù)度量樣本真實(shí)目標(biāo)值和模型預(yù)測(cè)值之間的距離。特征空間中兩個(gè)點(diǎn)度量的距離越小,模型預(yù)測(cè)性能越好。
上面提到的損失函數(shù)(loss function),函數(shù)形式和代價(jià)函數(shù)形式一致。損失函數(shù)的定義就是針對(duì)單個(gè)樣本來(lái)說(shuō)的,求單個(gè)樣本的目標(biāo)值和預(yù)測(cè)值之間的距離。而代價(jià)函數(shù)(成本函數(shù))是針對(duì)整個(gè)樣本集來(lái)說(shuō)的,可以理解為整個(gè)樣本集的損失函數(shù)的累加和再平均。
?????♀? 選擇損失函數(shù)的兩個(gè)關(guān)鍵點(diǎn):
- 整體的代價(jià)函數(shù)是凸的(保證能夠正確的進(jìn)行梯度下降,得到理想?yún)?shù)值)
-
滿足損失函數(shù)的定義:
- 預(yù)測(cè)值接近真實(shí)值,loss?∞
- 預(yù)測(cè)值遠(yuǎn)離真實(shí)值,loss?0
基于距離的均方誤差損失函數(shù)并不適用于分類問(wèn)題的邏輯回歸模型。如下圖,因?yàn)橛盟蟪鰜?lái)的代價(jià)函數(shù)不滿足整個(gè)代價(jià)函數(shù)是凸的:
在分類任務(wù)中邏輯回歸模型是運(yùn)用 基于概率分布度量的損失函數(shù): 交叉熵?fù)p失函數(shù)
ps:背后是使用概率論中的最大似然估計(jì)求得的,這里可以不用管這個(gè)背后的原理。
也可以像下面這樣直接寫成一個(gè)式子:
2.3:梯度下降
梯度下降和一些在多變量回歸模型那章提出的一些concepts的主要思想,在邏輯回歸中仍然適用:
三、正則化(Regularization)
3.1:引入:過(guò)擬合問(wèn)題(Overfitting)
下圖可以看到,當(dāng)模型參數(shù)過(guò)多時(shí),會(huì)出現(xiàn)過(guò)擬合問(wèn)題。
所謂過(guò)擬合,就是當(dāng)模型參數(shù)太多,導(dǎo)致訓(xùn)練出的模型和當(dāng)前訓(xùn)練集擬合太好,而出現(xiàn)新數(shù)據(jù)時(shí)卻出現(xiàn)很大誤差,也就是模型泛化能力差。
所謂正則化(Regularization),就是正則化代價(jià)函數(shù),盡可能減小參數(shù)的影響(相當(dāng)于減少參數(shù)),使模型沒(méi)有對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行過(guò)擬合,從而增加泛化能力。如下圖所示:
知道了正則化的原因和思想后,下面看看,這個(gè)正則化代價(jià)函數(shù)的過(guò)程,在線性回歸和邏輯回歸中是具體如何實(shí)現(xiàn)的。
3.2:線性回歸中的正則化
可以看到,通過(guò)對(duì)代價(jià)函數(shù)進(jìn)行正則化:加入正則化項(xiàng),對(duì)代價(jià)函數(shù)進(jìn)行正則化
下面看看這個(gè)正則化項(xiàng)是如何在梯度下降過(guò)程中起作用的:
上圖可以看到,加入正則化項(xiàng)之后,會(huì)減小w
,也就是減小w
的影響,從而使模型不那么過(guò)擬合!
3.3:邏輯回歸中的正則化
步驟和思想與線性回歸中的正則化完全一致文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-826966.html
??下期預(yù)告:高級(jí)的機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)算法:神經(jīng)網(wǎng)絡(luò)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-826966.html
到了這里,關(guān)于【吳恩達(dá)·機(jī)器學(xué)習(xí)】第三章:分類任務(wù):邏輯回歸模型(交叉熵?fù)p失函數(shù)、決策邊界、過(guò)擬合、正則化)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!