深度學(xué)習(xí)基本概念簡介

1年前作者：GeekDragon分類：Toy博客閱讀(17)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了深度學(xué)習(xí)基本概念簡介。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、Linear Models' Bias

上篇學(xué)習(xí)機(jī)器學(xué)習(xí)一文中，所構(gòu)造的 $y = b + wx_0$ 函數(shù)是一個(gè)linear model亦即線性模型，但是linear models有缺陷的——它過于簡單了。實(shí)際應(yīng)用中，我們所面臨的不會只是一個(gè)簡單的linear model，因此我們需要更復(fù)雜的models。

深度學(xué)習(xí)基本概念簡介
比如上圖中的紅色曲線，如何找到它的表達(dá)式呢？

深度學(xué)習(xí)基本概念簡介

可以通過許多條藍(lán)色的函數(shù)相加得到紅色曲線的函數(shù)。所有的Piecewise Linear Curves都可以用一組類似的“藍(lán)色函數(shù) + 常數(shù)”來表達(dá)出來，即使是曲線也可以，如下圖：

深度學(xué)習(xí)基本概念簡介

二、如何找“藍(lán)色函數(shù)”？

Sigmoid Function
$y = c\frac{1}{1 + e ^ {-(b + wx_1)}} = c*sigmoid(b + wx_1)$
其函數(shù)圖像如下表示：

深度學(xué)習(xí)基本概念簡介

我們可以對sigmoid函數(shù)中的參數(shù)做調(diào)整，得到不同形狀的sigmoid函數(shù)，來逼近藍(lán)色函數(shù)。
改變w可以改變sigmoid函數(shù)的斜率；改變b可以左右移動其位置；改變c可以改變其高度，如下圖：
深度學(xué)習(xí)基本概念簡介

所以不同的常數(shù)c，截距b和斜率w就會得到不同的sigmoid函數(shù)，然后將它們加起來就能夠逼近目標(biāo)函數(shù)，即

\[y = b + \sum_{i}c_isigmoid(b_i + w_ix_1) \]

深度學(xué)習(xí)基本概念簡介

\[y = b + w_1 \longrightarrow y = b + \sum_{i}c_isigmoid(b_i + w_ix_1) \]

三、深度學(xué)習(xí)里的三個(gè)步驟

仿照前面ML里的三個(gè)步驟，我們也可以將其完全套在DL中

1. Function with unkonwn parameters
不同于ML里我們定義的簡單的linear model，通過上面的分析我們可以得到一個(gè)全新的model——擁有更多features的model！
將前面的linear表達(dá)式代入sigmoid函數(shù)：

\[y = b + \sum_{j}w_jx_j \longrightarrow y = b + \sum_{i}c_isigmoid(b_i + \sum_{j}w_{ij}x_i) \]

其中：
$j$代表第$j$個(gè)feature（即第$j$天的點(diǎn)擊量）；$i$代表選擇第$i$個(gè)sigmoid函數(shù)；$w_{ij}$表示在第$i$個(gè)sigmoid函數(shù)中$x_j$的權(quán)值
如圖，分別代入計(jì)算就能得到：
深度學(xué)習(xí)基本概念簡介

\[r_1 = b_1 + w_{11}x_1 + w_{12}x_2 + w_{13}x_3 \]

\[r_2 = b_2 + w_{21}x_1 + w_{22}x_2 + w_{23}x_3 \]

\[r_3 = b_3 + w_{31}x_1 + w_{32}x_2 + w_{33}x_3 \]

由線性代數(shù)的知識可以發(fā)現(xiàn)，上面的三個(gè)式子可以寫作矩陣的乘法：

\[r = b + W x \]

\[\begin{bmatrix}r_1 \\ r_2 \\ r_3 \end{bmatrix} = \begin{bmatrix}b_1 \\ b_2 \\ b_3 \end{bmatrix} + \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \end{bmatrix} \begin{bmatrix}x_1 \\ x_2 \\ x_3 \end{bmatrix} \]

然后將$r$代入sigmoid函數(shù)，記作$a = \sigma(r)$，乘上系數(shù)$c$，再加上$b$就得到最后的$y$，即$y = b + c^Ta$
深度學(xué)習(xí)基本概念簡介

最終得到：$$y = b + c^T \sigma({\bf b} + Wx)$$($b$和$\bf b$區(qū)別開)

將W矩陣中的行或者列取出來，與$b$，$\bf b$和$c^T$豎著排列起來組成：

\[\theta = \begin{bmatrix} \theta_1 \\ \theta_2 \\ \theta_3 \\. \\. \\. \end{bmatrix} \]

就進(jìn)入了第2步找Loss函數(shù)

2. Define Loss from Training Data
Loss函數(shù)與ML一節(jié)中講的一樣，定義函數(shù)$L(\theta)$
先給定一組參數(shù)代入$y = b + c^T \sigma({\bf b} + Wx)$計(jì)算出$y$的值，然后將其與真實(shí)值（label） $\widehat{y}$比較，得到誤差$e$，最后便可得Loss函數(shù)的表達(dá)式：

\[L = \frac{1}{N}\sum_{n}e_n \]

進(jìn)而到第3步找一個(gè)最優(yōu)解的步驟

3. Optimization
記 $\theta^\star = arg min_{\theta}L$

(Randomly)Pick initial value $\theta^0$
gradient $g = \begin{bmatrix} \dfrac{\partial L}{\partial \theta_1}|_{\theta = \theta^0} \\ \dfrac{\partial L}{\partial \theta_2}|_{\theta = \theta^0} \\ . \\ . \\ . \end{bmatrix}$
可以記作：$g =\nabla L(\theta^0)$（就是梯度符號）
Compute gradient again and again
$g =\nabla L(\theta^0)$ $\theta^1 \leftarrow \theta^0 - \eta g$
$g =\nabla L(\theta^1)$ $\theta^2 \leftarrow \theta^1 - \eta g$
$g =\nabla L(\theta^2)$ $\theta^3 \leftarrow \theta^2 - \eta g$

還有另一種計(jì)算方式，將整個(gè)L中的數(shù)據(jù)分成N個(gè)batch（批），每批數(shù)據(jù)中有B個(gè)數(shù)據(jù)，與上面的方法略有差異，每次update時(shí)，是依次從每個(gè)batch里取出數(shù)據(jù)來update，當(dāng)把所有的batch更新過一遍，叫1個(gè)epoch（時(shí)期）
深度學(xué)習(xí)基本概念簡介

四、從sigmoid到ReLU

ReLU（Rectified Linear Unit）是另一種 Activation Function（激活函數(shù)），前面提到的分段Sigmoid（Hard-Sigmoid）函數(shù)的表達(dá)式可能會很難寫出來，但是其可以看作是2個(gè)ReLU函數(shù)相加，ReLU函數(shù)的表達(dá)式如下： $$c*max(0, b + wx_1)$$

深度學(xué)習(xí)基本概念簡介

如此，我們前面y的表達(dá)式就可以變成：

\[y = b + \sum_{i}c_isigmoid(b_i + \sum_{j}w_{ij}x_i) \]

\[\longrightarrow \]

\[y = b + \sum_{2i}c_{i}max(0, b_i + \sum_{j}w_{ij}x_j) \]

注意換成ReLU函數(shù)后，$i$變?yōu)樵瓉淼?倍，因?yàn)?個(gè)ReLU函數(shù)才能合成一個(gè)Sigmoid函數(shù)

五、到底為什么叫Deep Learning ？

上面的例子里我們只套了一層激活函數(shù)就得到了y的表達(dá)式，但是人們發(fā)現(xiàn)套的層數(shù)多一些預(yù)測的效果就會更好一些，所以不妨多套幾層：

深度學(xué)習(xí)基本概念簡介

其中我們用到的sigmoid或ReLU函數(shù)叫neuron（神經(jīng)元），許多neuron套起來就叫neural network（神經(jīng)網(wǎng)絡(luò)）。后來人們又給它們?nèi)×诵碌拿?，每一排的neuron叫作hidden layer（隱含層），有許多層layer所以叫作Deep Learning

深度學(xué)習(xí)基本概念簡介

但是層數(shù)越多不見得預(yù)測效果會越好，在課堂實(shí)例中，雖然隨著層數(shù)的增加，在訓(xùn)練數(shù)據(jù)上的效果越來越好，但是在預(yù)測數(shù)據(jù)上誤差出現(xiàn)了增大，這便是overfitting（過擬合）
文章來源地址http://www.zghlxwxcb.cn/news/detail-853500.html

到了這里，關(guān)于深度學(xué)習(xí)基本概念簡介的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

網(wǎng)絡(luò)協(xié)議從入門到底層原理學(xué)習(xí)（一）—— 簡介及基本概念
一、簡介 1、網(wǎng)絡(luò)協(xié)議的定義什么是網(wǎng)絡(luò)協(xié)議? 網(wǎng)絡(luò)協(xié)議是由定義網(wǎng)絡(luò)上兩個(gè)或多個(gè)設(shè)備之間通信的規(guī)則、過程和格式組成的正式標(biāo)準(zhǔn)和策略它們確保計(jì)算機(jī)網(wǎng)絡(luò)設(shè)備可以使用一種通用語言傳輸和接收數(shù)據(jù)，而不管它們的設(shè)計(jì)、硬件或基礎(chǔ)設(shè)施如何。網(wǎng)絡(luò)協(xié)議管理及時(shí)、安全
2024年02月09日
瀏覽(41)
AI入門之深度學(xué)習(xí)：基本概念篇
1、什么是深度學(xué)習(xí) 1.1 機(jī)器學(xué)習(xí)? 圖1：計(jì)算機(jī)有效工作的常用方法：程序員編寫規(guī)則（程序），計(jì)算機(jī)遵循這些規(guī)則將輸入數(shù)據(jù)轉(zhuǎn)換為適當(dāng)?shù)拇鸢?。這一方法被稱為符號主義人工智能，適合用來解決定義明確的邏輯問題，比如早期的PC小游戲：五子棋等，但是像圖像分類、語
2024年03月18日
瀏覽(24)
人工智能課程筆記（7）強(qiáng)化學(xué)習(xí)（基本概念 Q學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 附有大量例題）
強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)都是機(jī)器學(xué)習(xí)的分支，但是兩者在方法和應(yīng)用場景上有所不同。強(qiáng)化學(xué)習(xí) ：強(qiáng)化學(xué)習(xí)概述：強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境進(jìn)行交互來學(xué)習(xí)最優(yōu)行動策略的算法。在強(qiáng)化學(xué)習(xí)中，智能體與環(huán)境不斷交互，觀察環(huán)境的狀態(tài)并采取不同的行動，從而獲得獎(jiǎng)
2024年01月17日
瀏覽(27)
【Linear Probing | 線性探測】深度學(xué)習(xí) 線性層
【Linear Probing | 線性探測】深度學(xué)習(xí) 線性層自監(jiān)督模型評測方法是測試預(yù)訓(xùn)練模型性能的一種方法，又稱為linear probing evaluation 訓(xùn)練后，要評價(jià)模型的好壞，通過將最后的一層替換成線性層。預(yù)訓(xùn)練模型的表征層的特征固定，參數(shù)固化后未發(fā)生改變，只通過監(jiān)督數(shù)據(jù)去訓(xùn)練
2024年02月15日
瀏覽(16)
深度學(xué)習(xí)筆記：finetune和linear probing的區(qū)別
finetune和linear probing一般和預(yù)訓(xùn)練搭配出現(xiàn)，是預(yù)訓(xùn)練模型適配下游任務(wù)時(shí)可選的訓(xùn)練方式 finetune是使用預(yù)訓(xùn)練模型適配下游任務(wù)時(shí)，對整個(gè)預(yù)訓(xùn)練模型全部進(jìn)行參數(shù)更新微調(diào)也可以選擇不進(jìn)行全部更新，只對后面一部分模型進(jìn)行更新，因?yàn)槟Ｐ颓皫讓右话闾崛〉亩际潜容^公
2024年02月06日
瀏覽(15)
GLM（Generalized Linear Models）模型詳解
指數(shù)家族是指一類概率分布，其具有指數(shù)模式。需要注意，這是一類概率分布，不是特指某個(gè)概率分布，因此指數(shù)分布只有固定的格式，根據(jù)參數(shù)不同，會生成不同的分布。指數(shù)家族分布定義若一個(gè)隨機(jī)變量y的分布被稱為指數(shù)家族分布，那么其需要滿足：由以上可看出，
2024年02月07日
瀏覽(23)
【深度學(xué)習(xí)】（四）目標(biāo)檢測——上篇
上一章介紹了圖像分類，這一章來學(xué)習(xí)一下目標(biāo)檢測上篇。簡單來說，需要得到圖像中感興趣目標(biāo)的類別信息和位置信息，相比于分類問題，難度有所提升，對圖像的描述更加具體。在計(jì)算機(jī)視覺眾多的技術(shù)領(lǐng)域中，目標(biāo)檢測（Object Detection）也是一項(xiàng)非?；A(chǔ)的任務(wù)，圖像分
2024年02月02日
瀏覽(23)
卷積神經(jīng)網(wǎng)絡(luò)——上篇【深度學(xué)習(xí)】【PyTorch】
5.1.1、理論部分全連接層后，卷積層出現(xiàn)的意義？一個(gè)足夠充分的照片數(shù)據(jù)集，輸入，全連接層參數(shù)，GPU成本，訓(xùn)練時(shí)間是巨大的。（convolutional neural networks，CNN）是機(jī)器學(xué)習(xí)利用自然圖像中一些已知結(jié)構(gòu)的創(chuàng)造性方法，需要更少的參數(shù)，在處理圖像和其他類型的結(jié)構(gòu)化數(shù)據(jù)
2024年02月12日
瀏覽(25)
Flink的簡介以及基本概念
有界流和無界流有狀態(tài)的流處理 2.1集群角色 2.2 部署模式會話模式（Session Mode）單作業(yè)模式（Per-Job Mode）應(yīng)用模式（Application Mode） 3.1 ?系統(tǒng)架構(gòu) 1 ）作業(yè)管理器（JobManager） JobManager是一個(gè)Flink集群中任務(wù)管理和調(diào)度的核心，是控制應(yīng)用執(zhí)行的主進(jìn)程。也就是說，每個(gè)應(yīng)用
2024年04月09日
瀏覽(30)
Docker（一）簡介和基本概念
作者主頁：正函數(shù)的個(gè)人主頁文章收錄專欄： Docker 歡迎大家點(diǎn)贊 ?? 收藏 ? 加關(guān)注哦！本章將帶領(lǐng)你進(jìn)入 Docker 的世界。什么是 Docker ？用它會帶來什么樣的好處？好吧，讓我們帶著問題開始這神奇之旅。 Docker 最初是 dotCloud 公司創(chuàng)始人 Solomon Hykes 在法國期間發(fā)起的一
2024年01月19日
瀏覽(19)