国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【深度學(xué)習(xí)筆記】6_2 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（recurrent neural network）

2年前作者：RIKI_1分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【深度學(xué)習(xí)筆記】6_2 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（recurrent neural network）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

注：本文為《動(dòng)手學(xué)深度學(xué)習(xí)》開源內(nèi)容，部分標(biāo)注了個(gè)人理解，僅為個(gè)人學(xué)習(xí)記錄，無(wú)抄襲搬運(yùn)意圖

6.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

上一節(jié)介紹的 $n$ 元語(yǔ)法中，時(shí)間步 $t$ 的詞 $w_t$ 基于前面所有詞的條件概率只考慮了最近時(shí)間步的 $n ? 1$ 個(gè)詞。如果要考慮比 $t ? (n ? 1)$ 更早時(shí)間步的詞對(duì) $w_t$ 的可能影響，我們需要增大 $n$ 。但這樣模型參數(shù)的數(shù)量將隨之呈指數(shù)級(jí)增長(zhǎng)。

本節(jié)將介紹循環(huán)神經(jīng)網(wǎng)絡(luò)。它并非剛性地記憶所有固定長(zhǎng)度的序列，而是通過(guò)隱藏狀態(tài)來(lái)存儲(chǔ)之前時(shí)間步的信息。首先我們回憶一下前面介紹過(guò)的多層感知機(jī)，然后描述如何添加隱藏狀態(tài)來(lái)將它變成循環(huán)神經(jīng)網(wǎng)絡(luò)。

6.2.1 不含隱藏狀態(tài)的神經(jīng)網(wǎng)絡(luò)

讓我們考慮一個(gè)含單隱藏層的多層感知機(jī)。給定樣本數(shù)為 $n$ 、輸入個(gè)數(shù)（特征數(shù)或特征向量維度）為 $d$ 的小批量數(shù)據(jù)樣本 $\boldsymbol{X} \in \mathbb{R}^{n \times d}$ 。設(shè)隱藏層的激活函數(shù)為 $\phi$ ，那么隱藏層的輸出 $\boldsymbol{H} \in \mathbb{R}^{n \times h}$ 計(jì)算為

$\boldsymbol{H} = \phi(\boldsymbol{X} \boldsymbol{W}_{xh} + \boldsymbol_h),$

其中隱藏層權(quán)重參數(shù) $\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$ ，隱藏層偏差參數(shù) $\boldsymbol_h \in \mathbb{R}^{1 \times h}$ ， $h$ 為隱藏單元個(gè)數(shù)。上式相加的兩項(xiàng)形狀不同，因此將按照廣播機(jī)制相加。把隱藏變量 $\boldsymbol{H}$ 作為輸出層的輸入，且設(shè)輸出個(gè)數(shù)為 $q$ （如分類問(wèn)題中的類別數(shù)），輸出層的輸出為

$\boldsymbol{O} = \boldsymbol{H} \boldsymbol{W}_{hq} + \boldsymbol_q,$

其中輸出變量 $\boldsymbol{O} \in \mathbb{R}^{n \times q}$ , 輸出層權(quán)重參數(shù) $\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}$ , 輸出層偏差參數(shù) $\boldsymbol_q \in \mathbb{R}^{1 \times q}$ 。如果是分類問(wèn)題，我們可以使用 $\text{softmax}(\boldsymbol{O})$ 來(lái)計(jì)算輸出類別的概率分布。

6.2.2 含隱藏狀態(tài)的循環(huán)神經(jīng)網(wǎng)絡(luò)

現(xiàn)在我們考慮輸入數(shù)據(jù)存在時(shí)間相關(guān)性的情況。假設(shè) $\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ 是序列中時(shí)間步 $t$ 的小批量輸入， $\boldsymbol{H}_t \in \mathbb{R}^{n \times h}$ 是該時(shí)間步的隱藏變量。與多層感知機(jī)不同的是，這里我們保存上一時(shí)間步的隱藏變量 $\boldsymbol{H}_{t-1}$ ，并引入一個(gè)新的權(quán)重參數(shù) $\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$ ，該參數(shù)用來(lái)描述在當(dāng)前時(shí)間步如何使用上一時(shí)間步的隱藏變量。具體來(lái)說(shuō)，時(shí)間步 $t$ 的隱藏變量的計(jì)算由當(dāng)前時(shí)間步的輸入和上一時(shí)間步的隱藏變量共同決定：

$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol_h).$

與多層感知機(jī)相比，我們?cè)谶@里添加了 $\boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ 一項(xiàng)。由上式中相鄰時(shí)間步的隱藏變量 $\boldsymbol{H}_t$ 和 $\boldsymbol{H}_{t-1}$ 之間的關(guān)系可知，這里的隱藏變量能夠捕捉截至當(dāng)前時(shí)間步的序列的歷史信息，就像是神經(jīng)網(wǎng)絡(luò)當(dāng)前時(shí)間步的狀態(tài)或記憶一樣。因此，該隱藏變量也稱為隱藏狀態(tài)。由于隱藏狀態(tài)在當(dāng)前時(shí)間步的定義使用了上一時(shí)間步的隱藏狀態(tài)，上式的計(jì)算是循環(huán)的。使用循環(huán)計(jì)算的網(wǎng)絡(luò)即循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network）。

循環(huán)神經(jīng)網(wǎng)絡(luò)有很多種不同的構(gòu)造方法。含上式所定義的隱藏狀態(tài)的循環(huán)神經(jīng)網(wǎng)絡(luò)是極為常見的一種。若無(wú)特別說(shuō)明，本章中的循環(huán)神經(jīng)網(wǎng)絡(luò)均基于上式中隱藏狀態(tài)的循環(huán)計(jì)算。在時(shí)間步 $t$ ，輸出層的輸出和多層感知機(jī)中的計(jì)算類似：

$\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol_q.$

循環(huán)神經(jīng)網(wǎng)絡(luò)的參數(shù)包括隱藏層的權(quán)重 $\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$ 、 $\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$ 和偏差 $\boldsymbol_h \in \mathbb{R}^{1 \times h}$ ，以及輸出層的權(quán)重 $\boldsymbol{W}_{hq} \in \mathbb{R}^{h \times q}$ 和偏差 $\boldsymbol_q \in \mathbb{R}^{1 \times q}$ 。值得一提的是，即便在不同時(shí)間步，循環(huán)神經(jīng)網(wǎng)絡(luò)也始終使用這些模型參數(shù)。因此，循環(huán)神經(jīng)網(wǎng)絡(luò)模型參數(shù)的數(shù)量不隨時(shí)間步的增加而增長(zhǎng)。

圖6.1展示了循環(huán)神經(jīng)網(wǎng)絡(luò)在3個(gè)相鄰時(shí)間步的計(jì)算邏輯。在時(shí)間步 $t$ ，隱藏狀態(tài)的計(jì)算可以看成是將輸入 $\boldsymbol{X}_t$ 和前一時(shí)間步隱藏狀態(tài) $\boldsymbol{H}_{t-1}$ 連結(jié)后輸入一個(gè)激活函數(shù)為 $\phi$ 的全連接層。該全連接層的輸出就是當(dāng)前時(shí)間步的隱藏狀態(tài) $\boldsymbol{H}_t$ ，且模型參數(shù)為 $\boldsymbol{W}_{xh}$ 與 $\boldsymbol{W}_{hh}$ 的連結(jié)，偏差為 $\boldsymbol_h$ 。當(dāng)前時(shí)間步 $t$ 的隱藏狀態(tài) $\boldsymbol{H}_t$ 將參與下一個(gè)時(shí)間步 $t + 1$ 的隱藏狀態(tài) $\boldsymbol{H}_{t+1}$ 的計(jì)算，并輸入到當(dāng)前時(shí)間步的全連接輸出層。

【深度學(xué)習(xí)筆記】6_2 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（recurrent neural network）,深度學(xué)習(xí),深度學(xué)習(xí),筆記,rnn

圖6.1 含隱藏狀態(tài)的循環(huán)神經(jīng)網(wǎng)絡(luò)

我們剛剛提到，隱藏狀態(tài)中 $\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ 的計(jì)算等價(jià)于 $\boldsymbol{X}_t$ 與 $\boldsymbol{H}_{t-1}$ 連結(jié)后的矩陣乘以 $\boldsymbol{W}_{xh}$ 與 $\boldsymbol{W}_{hh}$ 連結(jié)后的矩陣。接下來(lái)，我們用一個(gè)具體的例子來(lái)驗(yàn)證這一點(diǎn)。首先，我們構(gòu)造矩陣X、W_xh、H和W_hh，它們的形狀分別為(3, 1)、(1, 4)、(3, 4)和(4, 4)。將X與W_xh、H與W_hh分別相乘，再把兩個(gè)乘法運(yùn)算的結(jié)果相加，得到形狀為(3, 4)的矩陣。

import torch

X, W_xh = torch.randn(3, 1), torch.randn(1, 4)
H, W_hh = torch.randn(3, 4), torch.randn(4, 4)
torch.matmul(X, W_xh) + torch.matmul(H, W_hh)

輸出：

tensor([[ 5.2633, -3.2288,  0.6037, -1.3321],
        [ 9.4012, -6.7830,  1.0630, -0.1809],
        [ 7.0355, -2.2361,  0.7469, -3.4667]])

將矩陣X和H按列（維度1）連結(jié)，連結(jié)后的矩陣形狀為(3, 5)?？梢?，連結(jié)后矩陣在維度1的長(zhǎng)度為矩陣X和H在維度1的長(zhǎng)度之和（ $1 + 4$ ）。然后，將矩陣W_xh和W_hh按行（維度0）連結(jié)，連結(jié)后的矩陣形狀為(5, 4)。最后將兩個(gè)連結(jié)后的矩陣相乘，得到與上面代碼輸出相同的形狀為(3, 4)的矩陣。

torch.matmul(torch.cat((X, H), dim=1), torch.cat((W_xh, W_hh), dim=0))

輸出：

tensor([[ 5.2633, -3.2288,  0.6037, -1.3321],
        [ 9.4012, -6.7830,  1.0630, -0.1809],
        [ 7.0355, -2.2361,  0.7469, -3.4667]])

6.2.3 應(yīng)用：基于字符級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型

最后我們介紹如何應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建一個(gè)語(yǔ)言模型。設(shè)小批量中樣本數(shù)為1，文本序列為“想”“要”“有”“直”“升”“機(jī)”。圖6.2演示了如何使用循環(huán)神經(jīng)網(wǎng)絡(luò)基于當(dāng)前和過(guò)去的字符來(lái)預(yù)測(cè)下一個(gè)字符。在訓(xùn)練時(shí)，我們對(duì)每個(gè)時(shí)間步的輸出層輸出使用softmax運(yùn)算，然后使用交叉熵?fù)p失函數(shù)來(lái)計(jì)算它與標(biāo)簽的誤差。在圖6.2中，由于隱藏層中隱藏狀態(tài)的循環(huán)計(jì)算，時(shí)間步3的輸出 $\boldsymbol{O}_3$ 取決于文本序列“想”“要”“有”。由于訓(xùn)練數(shù)據(jù)中該序列的下一個(gè)詞為“直”，時(shí)間步3的損失將取決于該時(shí)間步基于序列“想”“要”“有”生成下一個(gè)詞的概率分布與該時(shí)間步的標(biāo)簽“直”。

【深度學(xué)習(xí)筆記】6_2 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（recurrent neural network）,深度學(xué)習(xí),深度學(xué)習(xí),筆記,rnn

圖6.2 基于字符級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型。

因?yàn)槊總€(gè)輸入詞是一個(gè)字符，因此這個(gè)模型被稱為字符級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)（character-level recurrent neural network）。因?yàn)椴煌址膫€(gè)數(shù)遠(yuǎn)小于不同詞的個(gè)數(shù)（對(duì)于英文尤其如此），所以字符級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)的計(jì)算通常更加簡(jiǎn)單。在接下來(lái)的幾節(jié)里，我們將介紹它的具體實(shí)現(xiàn)。

小結(jié)

使用循環(huán)計(jì)算的網(wǎng)絡(luò)即循環(huán)神經(jīng)網(wǎng)絡(luò)。
循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)可以捕捉截至當(dāng)前時(shí)間步的序列的歷史信息。
循環(huán)神經(jīng)網(wǎng)絡(luò)模型參數(shù)的數(shù)量不隨時(shí)間步的增加而增長(zhǎng)。
可以基于字符級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)創(chuàng)建語(yǔ)言模型。

注：除代碼外本節(jié)與原書此節(jié)基本相同，原書傳送門文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-838774.html

到了這里，關(guān)于【深度學(xué)習(xí)筆記】6_2 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（recurrent neural network）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

深度學(xué)習(xí)實(shí)戰(zhàn)——循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN、LSTM、GRU）
???? ? 憶如完整項(xiàng)目/代碼詳見github： https://github.com/yiru1225 （轉(zhuǎn)載標(biāo)明出處勿白嫖 star for projects thanks）目錄系列文章目錄一、實(shí)驗(yàn)綜述 1.實(shí)驗(yàn)工具及內(nèi)容 2.實(shí)驗(yàn)數(shù)據(jù) 3.實(shí)驗(yàn)?zāi)繕?biāo) 4.實(shí)驗(yàn)步驟二、循環(huán)神經(jīng)網(wǎng)絡(luò)綜述 1.循環(huán)神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介 1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)背景 1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2023年04月24日
瀏覽(17)
李宏毅機(jī)器學(xué)習(xí)筆記：RNN循環(huán)神經(jīng)網(wǎng)絡(luò)
例如情景補(bǔ)充的情況，根據(jù)詞匯預(yù)測(cè)該詞匯所屬的類別。這個(gè)時(shí)候的 Taipi 則屬于目的地。但是，在訂票系統(tǒng)中， Taipi 也可能會(huì)屬于出發(fā)地。到底屬于目的地，還是出發(fā)地，如果不結(jié)合上下文，則很難做出判斷。因此，使用傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)解決不了問(wèn)題，必須引入RNN。如
2024年02月10日
瀏覽(26)
深度學(xué)習(xí)-循環(huán)神經(jīng)網(wǎng)絡(luò)-RNN實(shí)現(xiàn)股價(jià)預(yù)測(cè)-LSTM自動(dòng)生成文本
基于文本內(nèi)容及其前后信息進(jìn)行預(yù)測(cè) 基于目標(biāo)不同時(shí)刻狀態(tài)進(jìn)行預(yù)測(cè) 基于數(shù)據(jù)歷史信息進(jìn)行預(yù)測(cè) 序列模型：輸入或者輸出中包含有序列數(shù)據(jù)的模型突出數(shù)據(jù)的前后序列關(guān)系兩大特點(diǎn)：輸入（輸出）元素之間是具有順序關(guān)系。不同的順序，得到的結(jié)果應(yīng)該是不同的，比如“
2024年01月24日
瀏覽(60)
【深度學(xué)習(xí)】——循環(huán)神經(jīng)網(wǎng)絡(luò)RNN及實(shí)例氣溫預(yù)測(cè)、單層lstm股票預(yù)測(cè)
? ? ? ?密集連接網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)都有主要的特點(diǎn)，那就是它們沒(méi)有記憶。它們單獨(dú)處理每個(gè)輸入，在輸入和輸入之間沒(méi)有保存任何狀態(tài)。舉個(gè)例子：當(dāng)你在閱讀一個(gè)句子的時(shí)候，你需要記住之前的內(nèi)容，我們才能動(dòng)態(tài)的了解這個(gè)句子想表達(dá)的含義。生物智能已漸進(jìn)的方
2023年04月24日
瀏覽(28)
【算法小記】深度學(xué)習(xí)——循環(huán)神經(jīng)網(wǎng)絡(luò)相關(guān)原理與RNN、LSTM算法的使用
文中程序以Tensorflow-2.6.0為例部分概念包含筆者個(gè)人理解，如有遺漏或錯(cuò)誤，歡迎評(píng)論或私信指正。卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域取得了良好的效果，卷積核憑借優(yōu)秀的特征提取能力通過(guò)深層的卷積操作可是實(shí)現(xiàn)對(duì)矩形張量的復(fù)雜計(jì)算處理。但是生活中除了圖像這樣天然以矩陣形
2024年01月25日
瀏覽(21)
Python深度學(xué)習(xí)026：基于Pytorch的典型循環(huán)神經(jīng)網(wǎng)絡(luò)模型RNN、LSTM、GRU的公式及簡(jiǎn)潔案例實(shí)現(xiàn)（官方）
循環(huán)神經(jīng)網(wǎng)絡(luò)（也有翻譯為遞歸神經(jīng)網(wǎng)絡(luò)）最典型的三種網(wǎng)絡(luò)結(jié)構(gòu)是： RNN（Recurrent Neural Network，循環(huán)神經(jīng)網(wǎng)絡(luò)） LSTM（Long Short-Term Memory，長(zhǎng)短期記憶網(wǎng)絡(luò)） GRU（Gate Recurrent Unit，門控循環(huán)單元）理解參數(shù)的含義非常重要，否則，你不知道準(zhǔn)備什么維度的輸入數(shù)據(jù)送入模型先
2023年04月22日
瀏覽(25)
人工智能：CNN(卷積神經(jīng)網(wǎng)絡(luò))、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、DNN(深度神經(jīng)網(wǎng)絡(luò))的知識(shí)梳理
卷積神經(jīng)網(wǎng)絡(luò)（CNN），也被稱為ConvNets或Convolutional Neural Networks，是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu)，主要用于處理和分析具有網(wǎng)格狀結(jié)構(gòu)的數(shù)據(jù)，特別是圖像和視頻數(shù)據(jù)。CNN 在計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出色，因?yàn)樗鼈兡軌蛴行У夭东@和識(shí)別圖像中的特征，具有平移不變性（transla
2024年02月05日
瀏覽(41)
深度學(xué)習(xí)筆記之循環(huán)神經(jīng)網(wǎng)絡(luò)(十)基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的簡(jiǎn)單示例
本節(jié)我們將前面介紹的幾種循環(huán)神經(jīng)網(wǎng)絡(luò) —— RNN,LSTM,GRU text{RNN,LSTM,GRU} RNN,LSTM,GRU 關(guān)于實(shí)例中的一個(gè)演示，但重點(diǎn)并不僅在于這些模型，這里以示例的形式對(duì) One-hot text{One-hot} One-hot 向量重新進(jìn)行認(rèn)知。自然語(yǔ)言 ( Natural?Language ) (text{Natural Language}) ( Natural?Language ) 是人類
2024年02月07日
瀏覽(39)
《動(dòng)手學(xué)深度學(xué)習(xí)》學(xué)習(xí)筆記第9章現(xiàn)代循環(huán)神經(jīng)網(wǎng)絡(luò)
書籍鏈接：動(dòng)手學(xué)深度學(xué)習(xí) 筆記是從第四章開始，前面三章為基礎(chǔ)知識(shí)，有需要的可以自己去看看關(guān)于本系列筆記：書里為了讓讀者更好的理解，有大篇幅的描述性的文字，內(nèi)容很多，筆記只保留主要內(nèi)容，同時(shí)也是對(duì)之前知識(shí)的查漏補(bǔ)缺《動(dòng)手學(xué)深度學(xué)習(xí)》學(xué)習(xí)筆記第
2024年01月18日
瀏覽(34)
【python，機(jī)器學(xué)習(xí)，nlp】RNN循環(huán)神經(jīng)網(wǎng)絡(luò)
RNN(Recurrent?Neural?Network)，中文稱作循環(huán)神經(jīng)網(wǎng)絡(luò)，它一般以序列數(shù)據(jù)為輸入，通過(guò)網(wǎng)絡(luò)內(nèi)部的結(jié)構(gòu)設(shè)計(jì)有效捕捉序列之間的關(guān)系特征，一般也是以序列形式進(jìn)行輸出。因?yàn)镽NN結(jié)構(gòu)能夠很好利用序列之間的關(guān)系，因此針對(duì)自然界具有連續(xù)性的輸入序列，如人類的語(yǔ)言，語(yǔ)音等
2024年01月18日
瀏覽(24)

<strike id="9avlr"><i id="9avlr"></i></strike>

<strike id="9avlr"></strike>