国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strong id="8z4m1"><center id="8z4m1"></center></strong>

NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】

1年前作者：深耕AI分類：Toy博客閱讀(24)違法舉報

這篇具有很好參考價值的文章主要介紹了NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

本資料是NLP核心知識點(diǎn)的ppt?。?！【文章較長，建議收藏】
本節(jié)課我們學(xué)習(xí)預(yù)訓(xùn)練模型。

前言

NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

我們在學(xué)習(xí)詞向量的時候，應(yīng)該知道了多個產(chǎn)生詞向量的方法，包括基于矩陣（詞-詞共現(xiàn)矩陣）分解的方法、基于語言模型（word2vec）的方法、以及結(jié)合二者優(yōu)點(diǎn)的Glove模型等其他產(chǎn)生詞向量的方法。
然而，他們所產(chǎn)生的的詞向量，都屬于靜態(tài)的詞向量，這是由于這些方法產(chǎn)生的詞向量表示方式，將會拿來直接作為輸入層的輸入，并且在后面的下游任務(wù)模型訓(xùn)練過程中，詞向量不會再被調(diào)整，所謂靜態(tài)是指，一經(jīng)產(chǎn)生，就不會再改變。

然而，對于一詞多義的問題，這種靜態(tài)的詞向量并不能很好的表示一個單詞的實(shí)際語義。例如，下面的兩句話：

蘋果好吃嗎？
蘋果好玩嗎？

我們知道，“蘋果”這個單詞，在第一句話中，表示水果，而在第二句話中，表示手機(jī)品牌。然而使用靜態(tài)詞向量卻無法很好的將二者語義區(qū)分開來，所以我們可以通過引入上下文信息建模更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)，從而將靜態(tài)詞向量轉(zhuǎn)換為動態(tài)詞向量。

那么有哪些模型可以實(shí)現(xiàn)動態(tài)詞向量呢？具體是如何得到的呢？

課程目錄

我們將從這幾個方面進(jìn)行講解。

NLP發(fā)展史
Attention
Transformer
BERT
ERINE

NLP發(fā)展史

NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer
2013年Mikolov提出了word2vec語言模型，解決了訓(xùn)練詞向量的方法。

2014年，循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種LSTM/GRU開始被使用，并且Seq2Seq也被提出，
它是一種循環(huán)神經(jīng)網(wǎng)絡(luò)的變種,包括編碼器 (Encoder) 和解碼器 (Decoder) 兩部分。

2015年，Attention注意力機(jī)制被引入到網(wǎng)絡(luò)中，克服了“當(dāng)輸入序列非常長時，模型難以學(xué)到合理的向量表示”這一問題。

后面的發(fā)展中，我們發(fā)現(xiàn)，Attention注意力機(jī)制發(fā)揮了重要作用。例如，2017年提出的Transformer中，就強(qiáng)調(diào)了Attention的重要性。再往后，著名的語言模型BERT、ERNIE等，Attention都是其中的核心組件。

接下來，我們就依次對Attention、Transformer、BERT、ERNIE進(jìn)行一個介紹。

Attention

NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer
如圖，是大腦中的注意力變化圖。

舉個例子，假如大家正在教室里認(rèn)真的聽老師講課，那么此時，大家的注意力肯定是放在了耳朵和眼睛上，但是如果現(xiàn)在問大家一個問題，你能感受到你現(xiàn)在穿鞋了嗎？其實(shí)大家肯定是穿了，但是問完這個問題以后，大家的注意力肯定會立馬轉(zhuǎn)移到腳上。那么左圖就是t時刻，我們大家大腦的注意力分布圖，右側(cè)就是t+1時刻，注意力轉(zhuǎn)移之后的分布圖。
NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

我們再以一個序列語句“He is eating an green apple”為例，再來看一下我們的注意力分布變化。

當(dāng)我們在看第一個詞He的時候，其實(shí)我們的注意力會更多的去看它后面兩個單詞是什么，也就是x2（is）和x3（eating）的注意力會高一些，就像圖中的實(shí)線條所示；但是當(dāng)我們讀到第三個單詞“eating”時，我們會更多的將注意力放在x1（He）和x5（apple）上，那么此時的注意力曲線就會變成虛線所示。

如果將每一個時刻的輸入x看做是一個詞向量，那么注意力大小就可以看做是一個權(quán)重。此時，在不同時刻，我們?nèi)绻谜麄€句子中的每一個詞的向量和權(quán)重去表示當(dāng)前時刻的詞向量，那么就可以使用如下公式表示：

其中i表示某一時刻，yi表示該時刻的輸出，xj表示每一個詞向量，wij表示i時刻不同單詞的權(quán)重。通過以上方式，我們其實(shí)就是在一句話中，重新表示了一個單詞的向量。這也就是動態(tài)詞向量的核心內(nèi)容。 NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

那剛才我們提到的權(quán)重，也就是注意力分布是怎么計算的呢？

在Attention機(jī)制中，我們通過相似度來計算權(quán)重。

注意力機(jī)制可以分為兩步:

計算注意力分布
根據(jù) 來計算輸入信息的加權(quán)平均

以文本序列為例，圖中，q代表query，即要查詢某個單詞的詞向量，x1，x2…xN,代表了一個序列，其中每一個xi表示不同時刻的輸入單詞（向量）。我們從下往上看這幅圖，就是依次計算了q和x的相似度（通過矩陣相乘的方式），然后再通過softmax的方式進(jìn)行歸一化操作，此時計算的結(jié)果就是注意力分布，再然后，我們將x分別與之對應(yīng)的進(jìn)行加權(quán)組合，得到最終的結(jié)果a，就是我們使用序列中所有單詞向量動態(tài)表示q的結(jié)果。

NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

剛才我們一直提到的都是注意力機(jī)制，下面我們引入另一個單詞，自注意力機(jī)制，也就是self-Attention，很明顯，自注意力機(jī)制就是自己注意自己，也就是我們將前面的q換成序列中的單詞，用該句中的所有單詞去表示每一個單詞。

以“The weather is nice today”這句話為例。

假如我們要使用這句話中所有單詞去動態(tài)表示單詞“The”，根據(jù)剛才的步驟，我們依次計算“the”的向量和句子中每個單詞的相似度，再經(jīng)過softmax函數(shù)，就得到了權(quán)重w1、w2、w3、w4、w5，最后我們用某個單詞的權(quán)重與該單詞的向量進(jìn)行加權(quán)求和，就可以得到單詞“The”在該句話中的動態(tài)表示。

NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

那剛才我們提到了attention和self-attention，他們兩個有什么特點(diǎn)嗎？這個表格就給出了一些經(jīng)驗(yàn)。

Attention：通常被應(yīng)用在output層或者state層上，用于連接兩個不同組件（例如，從Encoder到Decoder的轉(zhuǎn)換），善于尋找兩個序列之間的關(guān)系；通常而言，一個模型中，只被使用1次；也可以連接兩種不同的模態(tài)（圖片和文字）。
Self-Attention：只關(guān)注一個組件，通常是關(guān)注input層，例如bert中，用在了Encoder；一個模型中，通常使用多次（Transformer18次，bert12次），善于尋找一個序列中不同部分的關(guān)系；更多的用于同一種模態(tài)。

Transformer

NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

什么是transformer呢？
在不同的領(lǐng)域我們有不同的翻譯，例如，在動漫里，我們將其翻譯成“變形金剛”，在電力中，我們將其翻譯成“變壓器”，而我們所說的transformer，二者都不屬于，而是一種神經(jīng)網(wǎng)絡(luò)。

曾經(jīng)一段時間，有人把他翻譯成變壓器，這是由于該網(wǎng)絡(luò)的最初應(yīng)用是在語言翻譯中，而語言翻譯，就像變壓器一樣，是將一種語言翻譯成另一種語言，所以將其翻譯成變壓器，也無可厚非，但是，隨著transformer的應(yīng)用越來越廣泛，目前為止，已經(jīng)遠(yuǎn)遠(yuǎn)超過“變壓器”的含義。文章來源地址http://www.zghlxwxcb.cn/news/detail-845945.html

到了這里，關(guān)于NLP重要知識點(diǎn)：預(yù)訓(xùn)練模型【核心且詳細(xì)】的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[知識點(diǎn)整理]中科院/國科大自然語言處理nlp 期末考試知識點(diǎn)整理
本文為2022秋網(wǎng)安學(xué)院的自然語言處理課程期末復(fù)習(xí)知識點(diǎn)整理，水平有限，整理的答案可能有錯誤或遺漏，歡迎大家指正。文章的第二部分內(nèi)容參考了學(xué)校學(xué)姐的文章，文章寫的很好，大家可以關(guān)注她： (133條消息) 【一起入門NLP】中科院自然語言處理期末考試*總復(fù)習(xí)*：考
2024年02月09日
瀏覽(35)
QT C++ 中的重要知識點(diǎn)
以下是一些 QT C++ 中的重要知識點(diǎn)： 1. 信號和槽機(jī)制：QT C++ 中的信號和槽機(jī)制是一種事件處理機(jī)制，用于在對象之間傳遞消息。信號是一種特殊的函數(shù)，當(dāng)特定事件發(fā)生時，它們被發(fā)射。槽是一種普通的函數(shù)，用于響應(yīng)信號。通過連接信號和槽，可以實(shí)現(xiàn)對象之間的通信。
2024年02月05日
瀏覽(21)
藍(lán)橋杯重要知識點(diǎn)和賽題直通車
?藍(lán)橋杯軟件賽零基礎(chǔ)備賽20周第 1周(2023-10-23): 藍(lán)橋杯軟件賽介紹+官方鏈接+零基礎(chǔ)能得獎嗎？第 2周(2023-10-30): ?？贾R點(diǎn)+藍(lán)橋杯怎么判題+備賽計劃第 3周(2023-11-06): 填空題（分?jǐn)?shù)少但越來越不好做）第 4周(2023-11-13): （練習(xí)再多也不夠的）雜題1 第 5周(2023-11-20): 雜題2 第
2024年01月24日
瀏覽(23)
PyFlink核心知識點(diǎn)
四層說明備注 SteamGraph 代碼生成的最初的圖表示程序的拓?fù)浣Y(jié)構(gòu) JobGraph 將多個符合條件的節(jié)點(diǎn)，鏈接為一個節(jié)點(diǎn) 可以減少數(shù)據(jù)在節(jié)點(diǎn)之間流動所需要的序列化/反序列化/傳輸消耗 ExecutionGraph JobGraph的并行化版本是調(diào)度層最核心的數(shù)據(jù)結(jié)構(gòu) PhysicalGraph JobManager根據(jù)ExecutionGra
2024年04月27日
瀏覽(54)
Vue入門——核心知識點(diǎn)
Vue是一套用于構(gòu)建用戶界面的漸進(jìn)式 JS框架。構(gòu)建用戶界面：就是將后端返回來的數(shù)據(jù)以不同的形式(例如：列表、按鈕等)顯示在界面上。漸進(jìn)式：就是可以按需加載各種庫。簡單的應(yīng)用只需要一個核心庫即可，復(fù)雜的應(yīng)用可以按照需求引入各種Vue插件。采用組件化模式
2024年02月06日
瀏覽(19)
論文筆記--網(wǎng)絡(luò)重要節(jié)點(diǎn)排序方法綜述（概念性知識點(diǎn)）
任曉龍, 呂琳媛度中心性：節(jié)點(diǎn)的直接鄰居數(shù)目半局部中心性：節(jié)點(diǎn)四層鄰居的信息 k-shell分解：度中心性的擴(kuò)展，根據(jù)節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置來定義，越在核心的節(jié)點(diǎn)越重要 1.1度中心性（DC）節(jié)點(diǎn)的度分為入度和出度；權(quán)重為與節(jié)點(diǎn)相連的邊的權(quán)重之和優(yōu)缺點(diǎn)：優(yōu)點(diǎn)：簡單
2024年02月05日
瀏覽(23)
JavaSE核心基礎(chǔ)-循環(huán)-知識點(diǎn)
1.循環(huán)概念循環(huán)是在滿足條件的情況下，反復(fù)的做同一件事。 Java語言中的循環(huán)語句有三種，分別是for語句、while語句和do-while語句。程序中需要循環(huán)處理時，程序員要根據(jù)實(shí)際問題，選擇適當(dāng)?shù)难h(huán)語句。解決循環(huán)問題時一定要找到循環(huán)條件和循環(huán)操作。 2.for循環(huán)語句格式
2024年02月22日
瀏覽(33)
redis核心知識點(diǎn)簡略筆記
value數(shù)據(jù)類型 string 二進(jìn)制安全 list 有序、可重復(fù) set 無序、不重復(fù) hash field-value的map sorted set 不重復(fù)、通過double類型score分?jǐn)?shù)排序場景 string 計數(shù)器緩存分布式鎖訪問頻率控制分布式session hash 購物車等對象屬性靈活修改 list 定時排行榜 set 收藏 sorted set 實(shí)時排行榜持久化
2024年02月13日
瀏覽(32)
垃圾回收的核心知識點(diǎn)解析
Java運(yùn)行時內(nèi)存中的程序計數(shù)器、虛擬機(jī)棧、本地方法棧這三部分區(qū)域其生命周期與相關(guān)線程有關(guān)，隨線程而生，隨線程而滅。而程序計數(shù)器就是一個單純存地址的整數(shù)也不需要關(guān)心，因此我們GC（垃圾回收）的主要目標(biāo)就是堆（堆中存放著幾乎所有實(shí)例對象）！一個對象，如
2024年02月16日
瀏覽(26)
一文吃透Tomcat核心知識點(diǎn)
首先，看一下整個架構(gòu)圖。最全面的Java面試網(wǎng)站接下來簡單解釋一下。 Server ：服務(wù)器。Tomcat 就是一個 Server 服務(wù)器。 Service ：在服務(wù)器中可以有多個 Service，只不過在我們常用的這套 Catalina 容器的Tomcat 中只包含一個 Service，在 Service 中包含連接器和容器。一個完整的 Serv
2024年02月02日
瀏覽(35)