国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】

這篇具有很好參考價值的文章主要介紹了NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

本資料是NLP核心知識點(diǎn)的ppt?。?!【文章較長,建議收藏】
本節(jié)課我們學(xué)習(xí)預(yù)訓(xùn)練模型。

前言

NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

我們在學(xué)習(xí)詞向量的時候,應(yīng)該知道了多個產(chǎn)生詞向量的方法,包括基于矩陣(詞-詞共現(xiàn)矩陣)分解的方法、基于語言模型(word2vec)的方法、以及結(jié)合二者優(yōu)點(diǎn)的Glove模型等其他產(chǎn)生詞向量的方法。
然而,他們所產(chǎn)生的的詞向量,都屬于靜態(tài)的詞向量,這是由于這些方法產(chǎn)生的詞向量表示方式,將會拿來直接作為輸入層的輸入,并且在后面的下游任務(wù)模型訓(xùn)練過程中,詞向量不會再被調(diào)整, 所謂靜態(tài)是指,一經(jīng)產(chǎn)生,就不會再改變。

然而,對于一詞多義的問題,這種靜態(tài)的詞向量并不能很好的表示一個單詞的實(shí)際語義。例如,下面的兩句話:

蘋果好吃嗎?
蘋果好玩嗎?

我們知道,“蘋果”這個單詞,在第一句話中,表示水果,而在第二句話中,表示手機(jī)品牌。然而使用靜態(tài)詞向量卻無法很好的將二者語義區(qū)分開來,所以我們可以通過引入上下文信息建模更加復(fù)雜的神經(jīng)網(wǎng)絡(luò),從而將靜態(tài)詞向量轉(zhuǎn)換為動態(tài)詞向量。

那么有哪些模型可以實(shí)現(xiàn)動態(tài)詞向量呢?具體是如何得到的呢?

課程目錄

我們將從這幾個方面進(jìn)行講解。

NLP發(fā)展史
Attention
Transformer
BERT
ERINE

NLP發(fā)展史

NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer
2013年Mikolov提出了word2vec語言模型,解決了訓(xùn)練詞向量的方法。

2014年,循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種LSTM/GRU開始被使用,并且Seq2Seq也被提出,
它是一種循環(huán)神經(jīng)網(wǎng)絡(luò)的變種,包括編碼器 (Encoder) 和解碼器 (Decoder) 兩部分。

2015年,Attention注意力機(jī)制被引入到網(wǎng)絡(luò)中,克服了“當(dāng)輸入序列非常長時,模型難以學(xué)到合理的向量表示”這一問題。

后面的發(fā)展中,我們發(fā)現(xiàn),Attention注意力機(jī)制發(fā)揮了重要作用。例如,2017年提出的Transformer中,就強(qiáng)調(diào)了Attention的重要性。再往后,著名的語言模型BERT、ERNIE等,Attention都是其中的核心組件。

接下來,我們就依次對Attention、Transformer、BERT、ERNIE進(jìn)行一個介紹。

Attention

NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer
如圖,是大腦中的注意力變化圖。

舉個例子,假如大家正在教室里認(rèn)真的聽老師講課,那么此時,大家的注意力肯定是放在了耳朵和眼睛上,但是如果現(xiàn)在問大家一個問題,你能感受到你現(xiàn)在穿鞋了嗎?其實(shí)大家肯定是穿了,但是問完這個問題以后,大家的注意力肯定會立馬轉(zhuǎn)移到腳上。那么左圖就是t時刻,我們大家大腦的注意力分布圖,右側(cè)就是t+1時刻,注意力轉(zhuǎn)移之后的分布圖。
NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

我們再以一個序列語句“He is eating an green apple”為例,再來看一下我們的注意力分布變化。

當(dāng)我們在看第一個詞He的時候,其實(shí)我們的注意力會更多的去看它后面兩個單詞是什么,也就是x2(is)和x3(eating)的注意力會高一些,就像圖中的實(shí)線條所示;但是當(dāng)我們讀到第三個單詞“eating”時,我們會更多的將注意力放在x1(He)和x5(apple)上,那么此時的注意力曲線就會變成虛線所示。

如果將每一個時刻的輸入x看做是一個詞向量,那么注意力大小就可以看做是一個權(quán)重。此時,在不同時刻,我們?nèi)绻谜麄€句子中的每一個詞的向量和權(quán)重去表示當(dāng)前時刻的詞向量,那么就可以使用如下 公式表示:

其中i表示某一時刻,yi表示該時刻的輸出,xj表示每一個詞向量,wij表示i時刻不同單詞的權(quán)重。通過以上方式,我們其實(shí)就是在一句話中,重新表示了一個單詞的向量。這也就是動態(tài)詞向量的核心內(nèi)容。NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

那剛才我們提到的權(quán)重,也就是注意力分布是怎么計算的呢?

在Attention機(jī)制中,我們通過相似度來計算權(quán)重。

注意力機(jī)制可以分為兩步:

計算注意力分布
根據(jù) 來計算輸入信息的加權(quán)平均

以文本序列為例,圖中,q代表query,即要查詢某個單詞的詞向量,x1,x2…xN,代表了一個序列,其中每一個xi表示不同時刻的輸入單詞(向量)。我們從下往上看這幅圖,就是依次計算了q和x的相似度(通過矩陣相乘的方式),然后再通過softmax的方式進(jìn)行歸一化操作,此時計算的結(jié)果就是注意力分布 ,再然后,我們將x分別與之對應(yīng)的 進(jìn)行加權(quán)組合,得到最終的結(jié)果a,就是我們使用序列中所有單詞向量動態(tài)表示q的結(jié)果。

NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

剛才我們一直提到的都是注意力機(jī)制,下面我們引入另一個單詞,自注意力機(jī)制,也就是self-Attention,很明顯,自注意力機(jī)制就是自己注意自己,也就是我們將前面的q換成序列中的單詞,用該句中的所有單詞去表示每一個單詞。

以“The weather is nice today”這句話為例。

假如我們要使用這句話中所有單詞去動態(tài)表示單詞“The”,根據(jù)剛才的步驟,我們依次計算“the”的向量和句子中每個單詞的相似度,再經(jīng)過softmax函數(shù),就得到了權(quán)重w1、w2、w3、w4、w5,最后我們用某個單詞的權(quán)重與該單詞的向量進(jìn)行加權(quán)求和,就可以得到單詞“The”在該句話中的動態(tài)表示。

NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

那剛才我們提到了attention和self-attention,他們兩個有什么特點(diǎn)嗎?這個表格就給出了一些經(jīng)驗(yàn)。

Attention:通常被應(yīng)用在output層或者state層上,用于連接兩個不同組件(例如,從Encoder到Decoder的轉(zhuǎn)換),善于尋找兩個序列之間的關(guān)系;通常而言,一個模型中,只被使用1次;也可以連接兩種不同的模態(tài)(圖片和文字)。
Self-Attention:只關(guān)注一個組件,通常是關(guān)注input層,例如bert中,用在了Encoder;一個模型中,通常使用多次(Transformer18次,bert12次),善于尋找一個序列中不同部分的關(guān)系;更多的用于同一種模態(tài)。

Transformer

NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】,自然語言處理,預(yù)訓(xùn)練模型,bert,transformer

什么是transformer呢?
在不同的領(lǐng)域我們有不同的翻譯,例如,在動漫里,我們將其翻譯成“變形金剛”,在電力中,我們將其翻譯成“變壓器”,而我們所說的transformer,二者都不屬于,而是一種神經(jīng)網(wǎng)絡(luò)。

曾經(jīng)一段時間,有人把他翻譯成變壓器,這是由于該網(wǎng)絡(luò)的最初應(yīng)用是在語言翻譯中,而語言翻譯,就像變壓器一樣,是將一種語言翻譯成另一種語言,所以將其翻譯成變壓器,也無可厚非,但是,隨著transformer的應(yīng)用越來越廣泛,目前為止,已經(jīng)遠(yuǎn)遠(yuǎn)超過“變壓器”的含義。文章來源地址http://www.zghlxwxcb.cn/news/detail-845945.html

到了這里,關(guān)于NLP重要知識點(diǎn):預(yù)訓(xùn)練模型【核心且詳細(xì)】的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [知識點(diǎn)整理]中科院/國科大 自然語言處理nlp 期末考試知識點(diǎn)整理

    [知識點(diǎn)整理]中科院/國科大 自然語言處理nlp 期末考試知識點(diǎn)整理

    本文為2022秋網(wǎng)安學(xué)院的自然語言處理課程期末復(fù)習(xí)知識點(diǎn)整理,水平有限,整理的答案可能有錯誤或遺漏,歡迎大家指正。 文章的第二部分內(nèi)容參考了學(xué)校學(xué)姐的文章,文章寫的很好,大家可以關(guān)注她: (133條消息) 【一起入門NLP】中科院自然語言處理期末考試*總復(fù)習(xí)*:考

    2024年02月09日
    瀏覽(35)
  • QT C++ 中的重要知識點(diǎn)

    以下是一些 QT C++ 中的重要知識點(diǎn): 1. 信號和槽機(jī)制 :QT C++ 中的信號和槽機(jī)制是一種事件處理機(jī)制,用于在對象之間傳遞消息。信號是一種特殊的函數(shù),當(dāng)特定事件發(fā)生時,它們被發(fā)射。槽是一種普通的函數(shù),用于響應(yīng)信號。通過連接信號和槽,可以實(shí)現(xiàn)對象之間的通信。

    2024年02月05日
    瀏覽(21)
  • 藍(lán)橋杯重要知識點(diǎn)和賽題直通車

    藍(lán)橋杯重要知識點(diǎn)和賽題直通車

    ?藍(lán)橋杯軟件賽零基礎(chǔ)備賽20周 第 1周(2023-10-23): 藍(lán)橋杯軟件賽介紹+官方鏈接+零基礎(chǔ)能得獎嗎? 第 2周(2023-10-30): ??贾R點(diǎn)+藍(lán)橋杯怎么判題+備賽計劃 第 3周(2023-11-06): 填空題(分?jǐn)?shù)少但越來越不好做) 第 4周(2023-11-13): (練習(xí)再多也不夠的)雜題1 第 5周(2023-11-20): 雜題2 第

    2024年01月24日
    瀏覽(23)
  • PyFlink核心知識點(diǎn)

    PyFlink核心知識點(diǎn)

    四層 說明 備注 SteamGraph 代碼生成的最初的圖 表示程序的拓?fù)浣Y(jié)構(gòu) JobGraph 將多個符合條件的節(jié)點(diǎn),鏈接為一個節(jié)點(diǎn) 可以減少數(shù)據(jù)在節(jié)點(diǎn)之間流動所需要的序列化/反序列化/傳輸消耗 ExecutionGraph JobGraph的并行化版本 是調(diào)度層最核心的數(shù)據(jù)結(jié)構(gòu) PhysicalGraph JobManager根據(jù)ExecutionGra

    2024年04月27日
    瀏覽(54)
  • Vue入門——核心知識點(diǎn)

    Vue入門——核心知識點(diǎn)

    Vue是一套用于 構(gòu)建用戶界面 的 漸進(jìn)式 JS框架。 構(gòu)建用戶界面:就是將后端返回來的數(shù)據(jù)以不同的形式(例如:列表、按鈕等)顯示在界面上。 漸進(jìn)式:就是可以按需加載各種庫。簡單的應(yīng)用只需要一個核心庫即可,復(fù)雜的應(yīng)用可以按照需求引入各種Vue插件。 采用組件化模式

    2024年02月06日
    瀏覽(19)
  • 論文筆記--網(wǎng)絡(luò)重要節(jié)點(diǎn)排序方法綜述(概念性知識點(diǎn))

    任曉龍, 呂琳媛 度中心性:節(jié)點(diǎn)的直接鄰居數(shù)目 半局部中心性:節(jié)點(diǎn)四層鄰居的信息 k-shell分解:度中心性的擴(kuò)展,根據(jù)節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置來定義,越在核心的節(jié)點(diǎn)越重要 1.1度中心性(DC) 節(jié)點(diǎn)的度分為入度和出度;權(quán)重為與節(jié)點(diǎn)相連的邊的權(quán)重之和 優(yōu)缺點(diǎn): 優(yōu)點(diǎn):簡單

    2024年02月05日
    瀏覽(23)
  • JavaSE核心基礎(chǔ)-循環(huán)-知識點(diǎn)

    1.循環(huán)概念 循環(huán)是在滿足條件的情況下,反復(fù)的做同一件事。 Java語言中的循環(huán)語句有三種,分別是for語句、while語句和do-while語句。程序中需要循環(huán)處理時,程序員要根據(jù)實(shí)際問題,選擇適當(dāng)?shù)难h(huán)語句。解決循環(huán)問題時一定要找到循環(huán)條件和循環(huán)操作。 2.for循環(huán)語句格式

    2024年02月22日
    瀏覽(33)
  • redis核心知識點(diǎn)簡略筆記

    value數(shù)據(jù)類型 string 二進(jìn)制安全 list 有序、可重復(fù) set 無序、不重復(fù) hash field-value的map sorted set 不重復(fù)、通過double類型score分?jǐn)?shù)排序 場景 string 計數(shù)器 緩存 分布式鎖 訪問頻率控制 分布式session hash 購物車等對象屬性靈活修改 list 定時排行榜 set 收藏 sorted set 實(shí)時排行榜 持久化

    2024年02月13日
    瀏覽(32)
  • 垃圾回收的核心知識點(diǎn)解析

    垃圾回收的核心知識點(diǎn)解析

    Java運(yùn)行時內(nèi)存中的程序計數(shù)器、虛擬機(jī)棧、本地方法棧這三部分區(qū)域其生命周期與相關(guān)線程有關(guān),隨線程而生,隨線程而滅。而程序計數(shù)器就是一個單純存地址的整數(shù)也不需要關(guān)心,因此我們GC(垃圾回收)的主要目標(biāo)就是堆(堆中存放著幾乎所有實(shí)例對象)! 一個對象,如

    2024年02月16日
    瀏覽(26)
  • 一文吃透Tomcat核心知識點(diǎn)

    首先,看一下整個架構(gòu)圖。最全面的Java面試網(wǎng)站 接下來簡單解釋一下。 Server :服務(wù)器。Tomcat 就是一個 Server 服務(wù)器。 Service :在服務(wù)器中可以有多個 Service,只不過在我們常用的這套 Catalina 容器的Tomcat 中只包含一個 Service,在 Service 中包含連接器和容器。一個完整的 Serv

    2024年02月02日
    瀏覽(35)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包