国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<td id="ym44m"><optgroup id="ym44m"></optgroup></td>

<noframes id="ym44m"><tfoot id="ym44m"></tfoot></noframes>

<nav id="ym44m"></nav>

<s id="ym44m"><pre id="ym44m"></pre></s>

《動(dòng)手學(xué)深度學(xué)習(xí)(PyTorch版)》筆記3.1

2年前作者：南七澄江分類(lèi)：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了《動(dòng)手學(xué)深度學(xué)習(xí)(PyTorch版)》筆記3.1。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Chapter3 Linear Neural Networks

3.1 Linear Regression

3.1.1 Basic Concepts

我們通常使用 $n$ 來(lái)表示數(shù)據(jù)集中的樣本數(shù)。對(duì)索引為 $i$ 的樣本，其輸入表示為 $\mathbf{x}^{(i)} = [x_1^{(i)}, x_2^{(i)},...,x_n^{(i)}]^\top$ ，其對(duì)應(yīng)的標(biāo)簽是 $y^{(i)}$ 。

3.1.1.1 Linear Model

在機(jī)器學(xué)習(xí)領(lǐng)域，我們通常使用的是高維數(shù)據(jù)集，建模時(shí)采用線性代數(shù)表示法會(huì)比較方便。當(dāng)我們的輸入包含 $d$ 個(gè)特征時(shí)，我們將預(yù)測(cè)結(jié)果 $\hat{y}$ （通常使用“尖角”符號(hào)表示 $y$ 的估計(jì)值）表示為：

$\hat{y} = w_1 x_1 + ... + w_d x_d + b.$

將所有特征放到向量 $\mathbf{x} \in \mathbb{R}^d$ 中，并將所有權(quán)重放到向量 $\mathbf{w} \in \mathbb{R}^d$ 中，我們可以用點(diǎn)積形式來(lái)簡(jiǎn)潔地表達(dá)模型：

$\hat{y} = \mathbf{w}^\top \mathbf{x} + b \tag{1}$

在式(1)中，向量 $\mathbf{x}$ 對(duì)應(yīng)于單個(gè)數(shù)據(jù)樣本的特征。用符號(hào)表示的矩陣 $\mathbf{X} \in \mathbb{R}^{n \times d}$ 可以很方便地引用我們整個(gè)數(shù)據(jù)集的 $n$ 個(gè)樣本。其中， $\mathbf{X}$ 的每一行是一個(gè)樣本，每一列是一種特征。對(duì)于特征集合 $\mathbf{X}$ ，預(yù)測(cè)值 $\hat{\mathbf{y}} \in \mathbb{R}^n$ 可以通過(guò)矩陣-向量乘法表示為：

${\hat{\mathbf{y}}} = \mathbf{X} \mathbf{w} + b$

給定訓(xùn)練數(shù)據(jù)特征 $\mathbf{X}$ 和對(duì)應(yīng)的已知標(biāo)簽 $\mathbf{y}$ ，線性回歸的目標(biāo)是找到一組權(quán)重向量 $\mathbf{w}$ 和偏置 $b$ ：當(dāng)給定從 $\mathbf{X}$ 的同分布中取樣的新樣本特征時(shí)，這組權(quán)重向量和偏置能夠使得新樣本預(yù)測(cè)標(biāo)簽的誤差盡可能小。

雖然我們相信給定 $\mathbf{x}$ 預(yù)測(cè) $y$ 的最佳模型會(huì)是線性的，但我們很難找到一個(gè)有 $n$ 個(gè)樣本的真實(shí)數(shù)據(jù)集，其中對(duì)于所有的 $\leq i \leq n$ ， $y^{(i)}$ 完全等于 $\mathbf{w}^\top \mathbf{x}^{(i)}+b$ 。無(wú)論我們使用什么手段來(lái)觀察特征 $\mathbf{X}$ 和標(biāo)簽 $\mathbf{y}$ ，都可能會(huì)出現(xiàn)少量的觀測(cè)誤差。因此，即使確信特征與標(biāo)簽的潛在關(guān)系是線性的，我們也會(huì)加入一個(gè)噪聲項(xiàng)來(lái)考慮觀測(cè)誤差帶來(lái)的影響。

在開(kāi)始尋找最好的模型參數(shù)（model parameters $\mathbf{w}$ 和 $b$ 之前，
我們還需要兩個(gè)東西：

一種模型質(zhì)量的度量方式；
一種能夠更新模型以提高模型預(yù)測(cè)質(zhì)量的方法。

3.1.1.2 Loss Function

在我們開(kāi)始考慮如何用模型擬合（fit）數(shù)據(jù)之前，我們需要確定一個(gè)擬合程度的度量。
損失函數(shù)（loss function）能夠量化目標(biāo)的實(shí)際值與預(yù)測(cè)值之間的差距。通常我們會(huì)選擇非負(fù)數(shù)作為損失，且數(shù)值越小表示損失越小，完美預(yù)測(cè)時(shí)的損失為0。回歸問(wèn)題中最常用的損失函數(shù)是平方誤差函數(shù)。當(dāng)樣本 $i$ 的預(yù)測(cè)值為 $\hat{y}^{(i)}$ ，其相應(yīng)的真實(shí)標(biāo)簽為 $y^{(i)}$ 時(shí)，
平方誤差可以定義為以下公式：

$l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.$

常數(shù) $\frac{1}{2}$ 不會(huì)帶來(lái)本質(zhì)的差別，但這樣在形式上稍微簡(jiǎn)單一些（因?yàn)楫?dāng)我們對(duì)損失函數(shù)求導(dǎo)后常數(shù)系數(shù)為1）。由于訓(xùn)練數(shù)據(jù)集并不受我們控制，所以經(jīng)驗(yàn)誤差只是關(guān)于模型參數(shù)的函數(shù)。由于平方誤差函數(shù)中的二次方項(xiàng)，估計(jì)值 $\hat{y}^{(i)}$ 和觀測(cè)值 $y^{(i)}$ 之間較大的差異將導(dǎo)致更大的損失。為了度量模型在整個(gè)數(shù)據(jù)集上的質(zhì)量，我們需計(jì)算在訓(xùn)練集 $n$ 個(gè)樣本上的損失均值（也等價(jià)于求和）。

$L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.$

在訓(xùn)練模型時(shí)，我們希望尋找一組參數(shù)（ $\mathbf{w}^*, b^*$ ），這組參數(shù)能最小化在所有訓(xùn)練樣本上的總損失。如下式：

$\mathbf{w}^*, b^* = \operatorname*{argmin}_{\mathbf{w}, b}\ L(\mathbf{w}, b).$

3.1.1.3 Analytical Solution

線性回歸有解析解（analytical solution）。首先，我們將偏置 $b$ 合并到參數(shù) $\mathbf{w}$ 中，合并方法是在包含所有參數(shù)的矩陣中附加一列。我們的預(yù)測(cè)問(wèn)題是最小化 $\|\mathbf{y} - \mathbf{X}\mathbf{w}\|^2$ 。這在損失平面上只有一個(gè)臨界點(diǎn)，這個(gè)臨界點(diǎn)對(duì)應(yīng)于整個(gè)區(qū)域的損失極小點(diǎn)。將損失關(guān)于 $\mathbf{w}$ 的導(dǎo)數(shù)設(shè)為0，即
$\mathbf X^\top \mathbf{X}\mathbf{w}=\mathbf X^\top \mathbf{y}$
得到解析解：

$\mathbf{w}^* = (\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf{y}$

像線性回歸這樣的簡(jiǎn)單問(wèn)題存在解析解，但并不是所有的問(wèn)題都存在解析解。

3.1.1.4 Stochastic Gradient Descent

我們用到一種名為梯度下降（gradient descent）的方法，幾乎可以?xún)?yōu)化所有深度學(xué)習(xí)模型。它通過(guò)不斷地在損失函數(shù)遞減的方向上更新參數(shù)來(lái)降低誤差。

梯度下降最簡(jiǎn)單的用法是計(jì)算損失函數(shù)（數(shù)據(jù)集中所有樣本的損失均值）關(guān)于模型參數(shù)的導(dǎo)數(shù)（在這里也可以稱(chēng)為梯度）。但實(shí)際中的執(zhí)行可能會(huì)非常慢：因?yàn)樵诿恳淮胃聟?shù)之前，我們必須遍歷整個(gè)數(shù)據(jù)集。因此，我們通常會(huì)在每次需要計(jì)算更新的時(shí)候隨機(jī)抽取一小批樣本，這種變體叫做小批量隨機(jī)梯度下降（minibatch stochastic gradient descent）。

在每次迭代中，我們首先隨機(jī)抽樣一個(gè)小批量 $\mathcal{B}$ ，它是由固定數(shù)量的訓(xùn)練樣本組成的。然后，我們計(jì)算小批量的平均損失關(guān)于模型參數(shù)的導(dǎo)數(shù)（也可以稱(chēng)為梯度）。最后，我們將梯度乘以一個(gè)預(yù)先確定的正數(shù) $\eta$ ，并從當(dāng)前參數(shù)的值中減掉。

我們用下面的數(shù)學(xué)公式來(lái)表示這一更新過(guò)程，其中 $\mathbf{w}$ 和 $\mathbf{x}$ 都是向量, $|\mathcal{B}|$ 表示每個(gè)小批量中的樣本數(shù)，稱(chēng)為批量大小（batch size）。
$\eta$ 表示學(xué)習(xí)率（learning rate）。

$(\mathbf{w},b) \leftarrow (\mathbf{w},b) - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b).$

總而言之，算法的步驟如下：
（1）初始化模型參數(shù)的值，如隨機(jī)初始化；
（2）從數(shù)據(jù)集中隨機(jī)抽取小批量樣本且在負(fù)梯度的方向上更新參數(shù)，并不斷迭代這一步驟。
對(duì)于平方損失和仿射變換，可以寫(xiě)成如下形式:

$\begin{aligned} \mathbf{w} &\leftarrow \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{\mathbf{w}} l^{(i)}(\mathbf{w}, b) = \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right) \text{ (關(guān)于$\mathbf{w}$的偏導(dǎo))}\\ b &\leftarrow b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_b l^{(i)}(\mathbf{w}, b) = b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right) \text{ (關(guān)于$b$的偏導(dǎo))} \end{aligned}$

批量大小和學(xué)習(xí)率的值通常是手動(dòng)預(yù)先指定，而不是通過(guò)模型訓(xùn)練得到的。這些可以調(diào)整但不在訓(xùn)練過(guò)程中更新的參數(shù)稱(chēng)為超參數(shù)（hyperparameter）。調(diào)參（hyperparameter tuning）是選擇超參數(shù)的過(guò)程。超參數(shù)通常是我們根據(jù)訓(xùn)練迭代結(jié)果來(lái)調(diào)整的，而訓(xùn)練迭代結(jié)果是在獨(dú)立的驗(yàn)證數(shù)據(jù)集（validation dataset）上評(píng)估得到的。

在訓(xùn)練了預(yù)先確定的若干迭代次數(shù)后（或者直到滿(mǎn)足某些其他停止條件后），我們記錄下模型參數(shù)的估計(jì)值，表示為 $\hat{\mathbf{w}}, \hat$ 。但是，即使我們的函數(shù)確實(shí)是線性的且無(wú)噪聲，這些估計(jì)值也不會(huì)使損失函數(shù)真正地達(dá)到最小值。因?yàn)樗惴〞?huì)使得損失向最小值緩慢收斂，但卻不能在有限的步數(shù)內(nèi)非常精確地達(dá)到最小值。
線性回歸恰好是一個(gè)在整個(gè)域中只有一個(gè)最小值的學(xué)習(xí)問(wèn)題,但是對(duì)像深度神經(jīng)網(wǎng)絡(luò)這樣復(fù)雜的模型來(lái)說(shuō)，損失平面上通常包含多個(gè)最小值。深度學(xué)習(xí)實(shí)踐者很少會(huì)去花費(fèi)大力氣尋找這樣一組參數(shù)，使得在訓(xùn)練集上的損失達(dá)到最小。事實(shí)上，更難做到的是找到一組參數(shù)，這組參數(shù)能夠在我們從未見(jiàn)過(guò)的數(shù)據(jù)上實(shí)現(xiàn)較低的損失,這一挑戰(zhàn)被稱(chēng)為泛化（generalization）。

3.1.1.5 Using Models for Prediction

給定特征估計(jì)目標(biāo)的過(guò)程通常稱(chēng)為預(yù)測(cè)（prediction）或推斷（inference）。但在統(tǒng)計(jì)學(xué)中，推斷更多地表示基于數(shù)據(jù)集估計(jì)參數(shù)。

3.1.2 Vectorization Acceleration

在訓(xùn)練我們的模型時(shí)，我們經(jīng)常希望能夠同時(shí)處理整個(gè)小批量的樣本。為了實(shí)現(xiàn)這一點(diǎn)，需要我們對(duì)計(jì)算進(jìn)行矢量化，從而利用線性代數(shù)庫(kù)，而不是在Python中編寫(xiě)開(kāi)銷(xiāo)高昂的for循環(huán)，即使用：

n = 10000
a = torch.ones([n])
b = torch.ones([n])
c=a+b

而不是：

c = torch.zeros(n)
for i in range(n):
    c[i] = a[i] + b[i]

3.1.3 Normal Distribution and Squared Loss

噪聲正態(tài)分布如下式:

$\mathbf{w}^\top \mathbf{x} + b + \epsilon,$

其中， $\epsilon \sim \mathcal{N}(0, \sigma^2)$ 。

因此，我們現(xiàn)在可以寫(xiě)出通過(guò)給定的 $\mathbf{x}$ 觀測(cè)到特定 $y$ 的似然（likelihood）：

$\mid \mathbf{x}) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (y - \mathbf{w}^\top \mathbf{x} - b)^2\right).$

現(xiàn)在，根據(jù)極大似然估計(jì)法，參數(shù) $\mathbf{w}$ 和 $b$ 的最優(yōu)值是使整個(gè)數(shù)據(jù)集的似然最大的值：

$P(\mathbf y \mid \mathbf X) = \prod_{i=1}^{n} p(y^{(i)}|\mathbf{x}^{(i)}).$

根據(jù)極大似然估計(jì)法選擇的估計(jì)量稱(chēng)為極大似然估計(jì)量。雖然使許多指數(shù)函數(shù)的乘積最大化看起來(lái)很困難，但是我們可以在不改變目標(biāo)的前提下，通過(guò)最大化似然對(duì)數(shù)來(lái)簡(jiǎn)化。由于歷史原因，優(yōu)化通常是說(shuō)最小化而不是最大化。我們可以改為最小化負(fù)對(duì)數(shù)似然 $-\log P(\mathbf y \mid \mathbf X)$ 。由此可以得到的數(shù)學(xué)公式是：

$-\log P(\mathbf y \mid \mathbf X) = \sum_{i=1}^n \frac{1}{2} \log(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} \left(y^{(i)} - \mathbf{w}^\top \mathbf{x}^{(i)} - b\right)^2.$

現(xiàn)在我們只需要假設(shè) $\sigma$ 是某個(gè)固定常數(shù)就可以忽略第一項(xiàng)，現(xiàn)在第二項(xiàng)除了常數(shù) $\frac{1}{\sigma^2}$ 外，其余部分和前面介紹的均方誤差是一樣的。因此，在高斯噪聲的假設(shè)下，最小化均方誤差等價(jià)于對(duì)線性模型的極大似然估計(jì)。

3.1.4 From Linear Regression to Deep Networks

我們可以用描述神經(jīng)網(wǎng)絡(luò)的方式來(lái)描述線性模型，從而把線性模型看作一個(gè)神經(jīng)網(wǎng)絡(luò)。
《動(dòng)手學(xué)深度學(xué)習(xí)(PyTorch版)》筆記3.1,python,筆記,深度學(xué)習(xí),pytorch,筆記,python,人工智能,算法

首先，我們用“層”符號(hào)來(lái)重寫(xiě)這個(gè)模型。深度學(xué)習(xí)從業(yè)者喜歡繪制圖表來(lái)可視化模型中正在發(fā)生的事情。我們將線性回歸模型描述為一個(gè)神經(jīng)網(wǎng)絡(luò)。需要注意的是，該圖只顯示連接模式，即只顯示每個(gè)輸入如何連接到輸出，隱去了權(quán)重和偏置的值。
在圖中所示的神經(jīng)網(wǎng)絡(luò)中，輸入為 $x_1, \ldots, x_d$ ，因此輸入層中的輸入數(shù)（或稱(chēng)為特征維度，feature dimensionality）為 $d$ 。網(wǎng)絡(luò)的輸出為 $o_1$ ，因此輸出層中的輸出數(shù)是1。需要注意的是，輸入值都是已經(jīng)給定的，并且只有一個(gè)計(jì)算神經(jīng)元。由于模型重點(diǎn)在發(fā)生計(jì)算的地方，所以通常我們?cè)谟?jì)算層數(shù)時(shí)不考慮輸入層。也就是說(shuō)，圖中神經(jīng)網(wǎng)絡(luò)的層數(shù)為1。我們可以將線性回歸模型視為僅由單個(gè)人工神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò)，或稱(chēng)為單層神經(jīng)網(wǎng)絡(luò)。對(duì)于線性回歸，每個(gè)輸入都與每個(gè)輸出（在本例中只有一個(gè)輸出）相連，我們將這種變換（圖中的輸出層）稱(chēng)為全連接層（fully-connected layer）或稱(chēng)為稠密層（dense layer）。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-823584.html

到了這里，關(guān)于《動(dòng)手學(xué)深度學(xué)習(xí)(PyTorch版)》筆記3.1的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

《動(dòng)手學(xué)深度學(xué)習(xí)(PyTorch版)》筆記8.6
注：書(shū)中對(duì)代碼的講解并不詳細(xì)，本文對(duì)很多細(xì)節(jié)做了詳細(xì)注釋。另外，書(shū)上的源代碼是在Jupyter Notebook上運(yùn)行的，較為分散，本文將代碼集中起來(lái)，并加以完善，全部用vscode在python 3.9.18下測(cè)試通過(guò)，同時(shí)對(duì)于書(shū)上部分章節(jié)也做了整合。訓(xùn)練結(jié)果: 與上一節(jié)相比，由于pytorch的
2024年02月20日
瀏覽(20)
跟著李沐學(xué)AI（動(dòng)手學(xué)深度學(xué)習(xí) PyTorch版）學(xué)習(xí)筆記——03安裝（環(huán)境配置d2l、pytorch）（python3.7版本+Windows+各種問(wèn)題解決措施）
1.下載Miniconda下載地址 2.在安裝過(guò)程中需要勾選“Add Anaconda to the system PATH environment variable”選項(xiàng) 3.檢驗(yàn)win+R，輸入cmd，在文本框輸入conda --version 1.點(diǎn)擊該鏈接+點(diǎn)擊jupyter記事本下載壓縮包 2.解壓該壓縮包 3.在解壓后的文件夾地址欄輸入cmd回車(chē)進(jìn)入命令模式。 1.conda和pip默認(rèn)使?
2024年02月12日
瀏覽(30)
【AI】《動(dòng)手學(xué)-深度學(xué)習(xí)-PyTorch版》筆記（八）：線性回歸
線性函數(shù)如下： y ^ = w 1 x 1 + . . . + w d x d
2024年02月14日
瀏覽(30)
動(dòng)手學(xué)深度學(xué)習(xí)2.3線性代數(shù)-筆記&練習(xí)（PyTorch）
以下內(nèi)容為結(jié)合李沐老師的課程和教材補(bǔ)充的學(xué)習(xí)筆記，以及對(duì)課后練習(xí)的一些思考，自留回顧，也供同學(xué)之人交流參考。本節(jié)課程地址：線性代數(shù)_嗶哩嗶哩_bilibili 本節(jié)教材地址：2.3. 線性代數(shù) — 動(dòng)手學(xué)深度學(xué)習(xí) 2.0.0 documentation (d2l.ai) 本節(jié)開(kāi)源代碼：…d2l-zhpytorchchapter_pr
2024年04月12日
瀏覽(29)
【AI】《動(dòng)手學(xué)-深度學(xué)習(xí)-PyTorch版》筆記（五）：線性代數(shù)
標(biāo)量就是我們常見(jiàn)的單個(gè)數(shù)字（包括整數(shù)、小數(shù)等等），可以使用只有一個(gè)元素的張量表示用小寫(xiě)字母表示，如：x、y、z
2024年02月15日
瀏覽(21)
【AI】《動(dòng)手學(xué)-深度學(xué)習(xí)-PyTorch版》筆記（六）：微積分
f ′ ( x ) = lim ? h → 0 f (
2024年02月15日
瀏覽(93)
【AI】《動(dòng)手學(xué)-深度學(xué)習(xí)-PyTorch版》筆記（二十）：圖像增強(qiáng)、微調(diào)
圖像增強(qiáng)可以擴(kuò)展訓(xùn)練樣本數(shù)量、減小對(duì)某個(gè)屬性的依賴(lài)。比如，裁剪圖像，可以減少模型對(duì)對(duì)象出現(xiàn)位置的依賴(lài)；調(diào)整亮度、顏色等因素來(lái)降低模型對(duì)顏色的敏感度等頭文件 %matplotlib inline：圖表直接嵌入到Notebook中，本人使用的jupyter-lab 顯示圖片
2024年02月11日
瀏覽(25)
【AI】《動(dòng)手學(xué)-深度學(xué)習(xí)-PyTorch版》筆記（十四）：多層感知機(jī)
在前面介紹過(guò)，使用softmax回歸來(lái)處理分類(lèi)問(wèn)題時(shí)，每個(gè)輸出通過(guò)都一個(gè)仿射函數(shù)計(jì)算，網(wǎng)絡(luò)結(jié)構(gòu)如下，輸入和輸出之間為全鏈接層：多層感知機(jī)就是在輸入和輸出中間再添加一個(gè)或多個(gè)全鏈接層，將中間的層稱(chēng)為“隱藏層”，下圖為添加了一個(gè)全鏈接層的網(wǎng)絡(luò)結(jié)構(gòu)：現(xiàn)實(shí)世
2024年02月13日
瀏覽(35)
【AI】《動(dòng)手學(xué)-深度學(xué)習(xí)-PyTorch版》筆記（十八）：卷積神經(jīng)網(wǎng)絡(luò)模型
發(fā)布時(shí)間：1989年模型目的：識(shí)別手寫(xiě)數(shù)字 1.3.1 相關(guān)函數(shù)原型 1）nn.Conv2d：卷積層
2024年02月13日
瀏覽(90)
【AI】《動(dòng)手學(xué)-深度學(xué)習(xí)-PyTorch版》筆記（十一）：分類(lèi)問(wèn)題-softmax回歸
1）連續(xù)值與離散值線性回歸模型，適用于輸出為連續(xù)值的情景。 softmax回歸模型，適用于輸出為離散值的情景。例如圖像類(lèi)別，就需要對(duì)離散值進(jìn)行預(yù)測(cè)。softmax回歸模型引入了softmax運(yùn)算，使輸出更適合離散值的預(yù)測(cè)和訓(xùn)練。 2）輸出個(gè)數(shù) 線性回歸模型，輸出單元為1個(gè)，而
2024年02月14日
瀏覽(161)

<s id="24ecq"><pre id="24ecq"></pre></s>