国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT

這篇具有很好參考價(jià)值的文章主要介紹了初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

本文字?jǐn)?shù)::4024

預(yù)計(jì)閱讀時(shí)間:12分鐘

BERT是由Google提出的預(yù)訓(xùn)練語(yǔ)言模型,它基于transformer架構(gòu),被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,是當(dāng)前自然語(yǔ)言處理領(lǐng)域最流行的預(yù)訓(xùn)練模型之一。而了解BERT需要先了解注意力機(jī)制與Transformers

注意力機(jī)制

注意力機(jī)制(Attention Mechanism)是一種在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理中廣泛使用的技術(shù),它可以幫助模型在處理輸入數(shù)據(jù)時(shí)集中關(guān)注其中最重要的部分,從而提高模型的準(zhǔn)確性。

原理

注意力機(jī)制最初是從認(rèn)知神經(jīng)科學(xué)中引入到機(jī)器學(xué)習(xí)領(lǐng)域的,19世紀(jì)90年代的威廉·詹姆斯發(fā)現(xiàn)人類注意力焦點(diǎn)受到非自主性提示和自主性提示有選擇地引導(dǎo)[7]。簡(jiǎn)單來(lái)說(shuō),非自主性提示是一種無(wú)意注意,例如人會(huì)先看到最顯眼的物品,而自主性提示是一種有意注意,例如人會(huì)根據(jù)自己的需要先關(guān)注到自己需要到物品。非自主性提示與自主性提示會(huì)導(dǎo)致人類神經(jīng)網(wǎng)絡(luò)選擇性地加強(qiáng)或減弱一些特定的神經(jīng)元的活動(dòng)。

在機(jī)器學(xué)習(xí)中,注意力機(jī)制模擬了人類的這種認(rèn)知行為,采用的方式主要是通過(guò)查詢向量query模擬自主提示,鍵值向量key模擬非自主提示,二者交互形成注意力焦點(diǎn),從而有選擇的聚合了值向量value(模擬感官輸入)最終形成輸出[8]。具體的計(jì)算過(guò)程可以用下圖表示:

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

圖1 注意力得分計(jì)算示意圖

假設(shè)有一個(gè)查詢向量q∈Rq和m個(gè)“鍵—值”對(duì)(k1,v1),...,(km,vm),其中ki∈Rk,vi∈Rv。在計(jì)算注意力得分時(shí),首先通過(guò)注意力評(píng)分函數(shù)a將查詢向量q和鍵向量ki映射成標(biāo)量,不同的注意力評(píng)分函數(shù)可以產(chǎn)生不同的注意力匯聚效果,常見(jiàn)的有縮放點(diǎn)積注意力評(píng)分函數(shù)(公式1)

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

公式1

再經(jīng)過(guò)softmax運(yùn)算,得到注意力權(quán)重α(公式2),

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

公式2

而最終的輸出也就是注意力權(quán)重與值向量的加權(quán)和:

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

公式3

在實(shí)際應(yīng)用中,通常將同一組詞源輸入到注意力池化中,以便同一組詞元同時(shí)充當(dāng)querykeyvalue。具體來(lái)說(shuō),每個(gè)query都會(huì)關(guān)注所有的key-value對(duì)并產(chǎn)生一個(gè)注意力輸出。由于query、keyvalue來(lái)自同一組輸入,因此被稱為自注意力(self-attention)。

Transformer

transformers是繼MLP,RNN,CNN(第四大類模型架構(gòu)),最早被google research團(tuán)隊(duì) Ashish Vaswani 等人提出,是一種完全基于注意力機(jī)制的encoder-decoder架構(gòu),最早應(yīng)用于機(jī)器翻譯這個(gè)任務(wù)。在transformer之前,主要采用依賴神經(jīng)網(wǎng)絡(luò)的注意力模型,但是RNN、CNN等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在處理長(zhǎng)序列數(shù)據(jù)時(shí)效率較低,而自注意力機(jī)制同時(shí)具有并行計(jì)算和最大路徑長(zhǎng)度兩個(gè)優(yōu)勢(shì),而完全基于注意力機(jī)制的transformer模型解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的問(wèn)題。

Transformer的核心思想是使用注意力機(jī)制來(lái)實(shí)現(xiàn)序列中的信息交互,它將輸入序列和輸出序列中的每一個(gè)元素連接起來(lái),同時(shí)對(duì)它們進(jìn)行加權(quán)計(jì)算,以決定對(duì)于當(dāng)前元素的關(guān)注程度。這種機(jī)制將整個(gè)輸入序列通過(guò)Encoders編碼成一個(gè)編碼向量,再通過(guò)Decoders將之解碼為輸出序列,從而實(shí)現(xiàn)了序列到序列的轉(zhuǎn)換,可以用來(lái)完成機(jī)器翻譯、文本生成等任務(wù)。在實(shí)際應(yīng)用中,encodersdecoders可以單獨(dú)使用。簡(jiǎn)單的模型如下圖所示(圖2),Encoders是由6個(gè)結(jié)構(gòu)相同encoder組成,但是每個(gè)encoder參數(shù)不相同;Decoders是由6個(gè)結(jié)構(gòu)相同decoder組成,但是每個(gè)decoder參數(shù)不相同;

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)圖2 注意力模型結(jié)構(gòu)圖

Transformer的整體網(wǎng)絡(luò)架構(gòu)中的encoderdecoder都采用多層堆疊的自注意力機(jī)制。encoder將輸入序列轉(zhuǎn)換成隱藏表示,decoder將隱藏表示轉(zhuǎn)換成輸出序列。其整體架構(gòu)圖如下圖3所示,其中左邊是encoder,右邊是decoder,下面我將結(jié)合下圖詳細(xì)介紹encoderdecoder的內(nèi)部實(shí)現(xiàn)。

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

圖3 注意力模型網(wǎng)絡(luò)架構(gòu)
encoder

對(duì)于encoder,輸入數(shù)據(jù)首先通過(guò)一個(gè)嵌入層(embedding layer)將每個(gè)單詞轉(zhuǎn)化為一個(gè)向量表示,由于注意力機(jī)制不是順序讀取碼元的,所以在輸入中會(huì)加上位置編碼信息(positional encoding),位置編碼加上輸入向量就構(gòu)成了注意力機(jī)制的輸入。如上圖所示,輸入向量會(huì)分為查詢向量(query,下文簡(jiǎn)寫(xiě)為q)、鍵向量(key,下文簡(jiǎn)寫(xiě)為k)、值向量(value,下文簡(jiǎn)寫(xiě)為v)三個(gè)向量輸入到多頭注意力(Muiti-Head Attention)中,其中由輸入向量得到q、k、v的過(guò)程如下圖所示。

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

圖4 輸入向量投影示意圖

q、k、v是通過(guò)每一個(gè)輸入向量x分別投影到WQ、 WK、WV矩陣得到的,而其中WQ、 WKWV最初是隨機(jī)初始化得到,然后不斷學(xué)習(xí)更新。在多頭注意力機(jī)制中,就是通過(guò)多套WQ、?WK、WV不同的參數(shù)矩陣實(shí)現(xiàn)的,具體實(shí)現(xiàn)方式是將q、k、v投影到低維度矩陣,投影h次,也就是h頭注意力。使用多頭注意力的好處就是可以通過(guò)多角度學(xué)習(xí)輸入的信息,從而提升學(xué)習(xí)的效果。

得到q、k、v向量后,就可以根據(jù)上文介紹的注意力機(jī)制在Muiti-Head Attention中得到注意力的輸出。這里的注意力公式如下所示(公式5),該公式可由上文的2-1公式推演得出。

初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT,語(yǔ)言模型,bert,人工智能,自然語(yǔ)言處理,深度學(xué)習(xí)

公式5

其中q、k、v這三個(gè)參數(shù)由上文介紹的過(guò)程投影得出的矩陣,dk表示向量長(zhǎng)度。這里是k和q做內(nèi)積,每個(gè)詞的q與所有的詞k(包括本身)做內(nèi)積,得到每個(gè)向量的相似度,可以理解為當(dāng)前詞與整句話里所有詞的相似度。每個(gè)詞都要做一遍上述計(jì)算,然后softmax之后輸出注意力權(quán)重,得到的一套注意力權(quán)重和所有的字v做加權(quán)和(相乘再相加) ,就是當(dāng)前詞最后的輸出。在多頭注意力中,就是經(jīng)過(guò)多次注意力函數(shù),然后將輸出拼接在一起,在經(jīng)過(guò)高維度矩陣投影回來(lái),得到多頭注意力的輸出。

在多頭注意力層外,每個(gè)子層都采用了殘差連接和層規(guī)范化機(jī)制,也就是上圖2-3中的Add&Norm,這兩者是構(gòu)成深度架構(gòu)的關(guān)鍵,可以有效地避免梯度消失或爆炸問(wèn)題,提升模型性能。殘差連接是指在每個(gè)子層之后都加入了一個(gè)直接連接,將輸出與未經(jīng)過(guò)注意力機(jī)制的輸入進(jìn)行相加,使得模型可以直接學(xué)習(xí)到殘差信息。層規(guī)范化則是對(duì)于每個(gè)子層的輸出進(jìn)行標(biāo)準(zhǔn)化處理,避免了輸入項(xiàng)的數(shù)值不同而導(dǎo)致的訓(xùn)練過(guò)程中的不穩(wěn)定性。

最后,每個(gè)子層后接一個(gè)前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural network),作為最后一步轉(zhuǎn)換。前饋神經(jīng)網(wǎng)絡(luò)采用門(mén)控線性單元(gated linear unit, GLU)的形式,這樣做的目的是為了實(shí)現(xiàn)語(yǔ)義空間的轉(zhuǎn)換,有效的使用序列信息,將已經(jīng)抓取出來(lái)的序列信息映射到更想要的那個(gè)語(yǔ)義空間,增加模型的擬合能力。經(jīng)過(guò)多層堆疊的encoder會(huì)生成一個(gè)編碼向量,作為decoder的輸入。

decoder

對(duì)于decoder,可以看作是encoder的逆過(guò)程。從上圖3中可以看出encoder和decoder的不同之處主要在于decoder有兩個(gè)注意力機(jī)制,第一個(gè)是mask-attention,第二個(gè)是與encoder部分相同的多頭注意力機(jī)制。decoder的第一個(gè)mask-attention是為了防止后面信息參與計(jì)算,將后面的詞mask掉,被mask掉的詞就不參與計(jì)算,從而保留自回歸屬性。decoder第二個(gè)多頭注意力,q、k、v維度是一樣的,其中k、q來(lái)自上一層encoder的輸出,然后作用于value上,這一層的作用可以理解為encoder的輸出匯聚出想要的信息。與encoder相同,在經(jīng)過(guò)注意力機(jī)制后輸出的作為前饋神經(jīng)網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)語(yǔ)義空間的轉(zhuǎn)換,同樣decoder中的子層也被殘差連接和緊隨的層規(guī)范化圍繞。

BERT

BERT全稱Bidirectional Encoder Representations from Transformers,是Google于2018年提出的一種基于Transformer模型的預(yù)訓(xùn)練模型。BERT基于Transformer模型,通過(guò)多任務(wù)學(xué)習(xí)的方式,在大規(guī)模無(wú)標(biāo)注的語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,并對(duì)各種下游自然語(yǔ)言處理任務(wù)進(jìn)行微調(diào),取得了極好的成績(jī)。

BERT的核心原理是通過(guò)多層雙向Transformer編碼器,將輸入文本表示成高維語(yǔ)義空間中的向量,使得語(yǔ)義相近的詞或句子在向量空間內(nèi)彼此接近。與傳統(tǒng)基于語(yǔ)言學(xué)規(guī)則或統(tǒng)計(jì)方法的自然語(yǔ)言處理技術(shù)相比,BERT可以從大規(guī)模的無(wú)標(biāo)注文本中學(xué)習(xí)到更全局、更復(fù)雜的語(yǔ)義信息,取得了更好的效果。

在BERT中,與原始Transformer模型不同的是,通過(guò)雙向Transformer編碼器,BERT能夠更好地捕捉上下文的相關(guān)性,在單詞或句子級(jí)別上對(duì)文本進(jìn)行建模。此外,BERT采用了掩碼語(yǔ)言建模和下一句預(yù)測(cè)等多種預(yù)訓(xùn)練任務(wù),進(jìn)一步提高了模型的泛化能力。

具體來(lái)說(shuō),BERT通過(guò)多層堆疊的Transformer 編碼器來(lái)對(duì)輸入文本進(jìn)行建模,并采用掩碼技術(shù),讓編碼器只能看見(jiàn)輸入序列中一部分的信息,從而使得編碼器具有非常強(qiáng)的泛化能力。此外,BERT還利用了兩個(gè)新的預(yù)訓(xùn)練任務(wù),即掩碼語(yǔ)言建模和下一句預(yù)測(cè),來(lái)增強(qiáng)模型對(duì)上下文的理解。

在掩碼語(yǔ)言建模任務(wù)中,采用了一種類似于“完形填空”的思路構(gòu)建掩碼模型。BERT隨機(jī)掩蓋句子中的一些單詞具體方式是隨機(jī)把一句話中15%的token(字)替換成以下內(nèi)容:

(1)這些token有80%的幾率被替換成[MASK]

(2)有10%的幾率被替換成任意一個(gè)其它的token

(3)有10%的幾率原封不動(dòng)。完成掩碼后,再用模型預(yù)測(cè)這些掩蓋掉的單詞。

在下一句預(yù)測(cè)任務(wù)中,BERT輸入一對(duì)句子,模型判斷這兩個(gè)句子對(duì)是連續(xù)的還是隨機(jī)采樣兩個(gè)句子放在一起的。這些任務(wù)都是基于無(wú)標(biāo)注文本的,通過(guò)預(yù)訓(xùn)練讓BERT學(xué)習(xí)理解語(yǔ)言的能力,從而可以在下游任務(wù)中取得更好的效果。

BERT模型的輸入主要包括三個(gè)部分:token embedding、segment embedding和position embedding。其中,token embedding表示為每個(gè)輸入詞匯對(duì)應(yīng)的向量表示;而segment embedding和position embedding則分別表示為每個(gè)句子對(duì)應(yīng)的標(biāo)識(shí)符和每個(gè)詞在序列中的位置信息。具體來(lái)說(shuō),對(duì)于輸入句子中的每個(gè)詞匯,BERT模型都會(huì)將其轉(zhuǎn)化為一個(gè)向量表示,這個(gè)向量表示是該詞匯在BERT模型的預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)得到的。同時(shí),BERT模型還會(huì)在輸入的每個(gè)句子之前加上一個(gè)特殊的標(biāo)記[CLS],在每個(gè)句子之后加上另一個(gè)標(biāo)記[SEP],以便模型學(xué)習(xí)句子之間的關(guān)系。
在輸入數(shù)據(jù)的基礎(chǔ)上,BERT模型還需要進(jìn)行構(gòu)造數(shù)據(jù)的處理。具體來(lái)說(shuō),BERT模型會(huì)把輸入的文本序列按照一定的規(guī)則組合起來(lái),構(gòu)造成一段首尾各有一個(gè)特殊標(biāo)記的文本序列。在這個(gè)文本序列中,對(duì)于兩個(gè)句子之間的分界點(diǎn),BERT模型會(huì)用一個(gè)特殊的segment embedding進(jìn)行區(qū)分。同時(shí),對(duì)于每個(gè)詞在序列中的位置信息,BERT模型也會(huì)使用一個(gè)特殊的position embedding進(jìn)行標(biāo)記。
通過(guò)對(duì)輸入數(shù)據(jù)的處理,BERT模型可以將文本序列轉(zhuǎn)換成一個(gè)高維向量表示,這個(gè)高維向量通常被稱為上下文向量。BERT模型的輸出則主要包括上下文向量和[CLS]標(biāo)記對(duì)應(yīng)的向量。其中,上下文向量可以用來(lái)進(jìn)行各種下游任務(wù)的特征提取和計(jì)算,而[CLS]標(biāo)記對(duì)應(yīng)的向量則通常被用作整個(gè)文本序列的匯總表示,它可以用來(lái)進(jìn)行文本分類、語(yǔ)義相似度計(jì)算等任務(wù)。在語(yǔ)意相似度計(jì)算任務(wù)中,得到的語(yǔ)義向量會(huì)作為特征輸入給一個(gè)線性分類器,如邏輯回歸或支持向量機(jī)等,在此基礎(chǔ)上進(jìn)行二分類或多分類的任務(wù),從而實(shí)現(xiàn)語(yǔ)意相似度的計(jì)算。

在BERT模型中,由于使用了橫向和縱向的自注意力機(jī)制,可以充分地考慮和利用不同位置和不同上下文的信息,但也導(dǎo)致了模型對(duì)于不同維度和方向的信息處理能力不同,此外,自注意力機(jī)制無(wú)法處理一些長(zhǎng)序列的依賴關(guān)系問(wèn)題,因此在計(jì)算時(shí)會(huì)將過(guò)長(zhǎng)的文本或序列截?cái)?,這也會(huì)導(dǎo)致模型對(duì)于長(zhǎng)序列中不同方向和不同偏移量的編碼能力存在差異,這都會(huì)導(dǎo)致各項(xiàng)異性的問(wèn)題,從而進(jìn)一步影響結(jié)果的準(zhǔn)確性。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-613985.html

到了這里,關(guān)于初步了解預(yù)訓(xùn)練語(yǔ)言模型BERT的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【NLP】1、BERT | 雙向 transformer 預(yù)訓(xùn)練語(yǔ)言模型

    【NLP】1、BERT | 雙向 transformer 預(yù)訓(xùn)練語(yǔ)言模型

    論文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 出處:Google 在 BERT 之前的語(yǔ)言模型如 GPT 都是單向的模型,但 BERT 認(rèn)為雖然單向(從左到右預(yù)測(cè))預(yù)測(cè)任務(wù)符合語(yǔ)言模型的建模過(guò)程,但對(duì)一些語(yǔ)言理解任務(wù)不太友好,因?yàn)橐斫庖痪湓捳f(shuō)的是什么意思的話

    2024年02月12日
    瀏覽(18)
  • 大語(yǔ)言模型的預(yù)訓(xùn)練[1]:基本概念原理、神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型、Transformer模型原理詳解、Bert模型原理介紹

    大語(yǔ)言模型的預(yù)訓(xùn)練[1]:基本概念原理、神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型、Transformer模型原理詳解、Bert模型原理介紹

    預(yù)訓(xùn)練屬于遷移學(xué)習(xí)的范疇?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)在進(jìn)行訓(xùn)練時(shí),一般基于反向傳播(Back Propagation,BP)算法,先對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行隨機(jī)初始化,再利用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)等優(yōu)化算法不斷優(yōu)化模型參數(shù)。而預(yù)訓(xùn)練的思想是,模型參數(shù)不再是隨機(jī)初始化的

    2024年02月17日
    瀏覽(19)
  • BERT數(shù)據(jù)處理,模型,預(yù)訓(xùn)練

    首先讀取文本,每個(gè)文本必須包含兩個(gè)以上句子(為了第二個(gè)預(yù)訓(xùn)練任務(wù):判斷兩個(gè)句子,是否連續(xù))。paragraphs 其中一部分結(jié)果如下所示 上述已經(jīng)將數(shù)據(jù)處理完,最后看一下處理后的例子: 隨后就是把處理好的數(shù)據(jù),送入bert中。在 BERTEncoder 中,執(zhí)行如下代碼: 將編碼完后

    2024年02月13日
    瀏覽(17)
  • 自然語(yǔ)言處理(八):預(yù)訓(xùn)練BERT

    自然語(yǔ)言處理(八):預(yù)訓(xùn)練BERT

    BERT(Bidirectional Encoder Representations from Transformers)是一種預(yù)訓(xùn)練的自然語(yǔ)言處理模型,由Google于2018年提出。它是基于Transformer模型架構(gòu)的深度雙向(雙向指同時(shí)考慮上下文信息)表示學(xué)習(xí)模型。 BERT的目標(biāo)是通過(guò)在大規(guī)模文本語(yǔ)料上進(jìn)行自監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)通用的語(yǔ)言表示。在預(yù)

    2024年02月09日
    瀏覽(22)
  • 基于Bert+Attention+LSTM智能校園知識(shí)圖譜問(wèn)答推薦系統(tǒng)——NLP自然語(yǔ)言處理算法應(yīng)用(含Python全部工程源碼及訓(xùn)練模型)+數(shù)據(jù)集

    基于Bert+Attention+LSTM智能校園知識(shí)圖譜問(wèn)答推薦系統(tǒng)——NLP自然語(yǔ)言處理算法應(yīng)用(含Python全部工程源碼及訓(xùn)練模型)+數(shù)據(jù)集

    這個(gè)項(xiàng)目充分利用了Google的Bert模型,這是一種基于Attention的大規(guī)模語(yǔ)料預(yù)訓(xùn)練模型,以及LSTM命名實(shí)體識(shí)別網(wǎng)絡(luò)。項(xiàng)目的目標(biāo)是設(shè)計(jì)一套通用的問(wèn)答系統(tǒng)處理邏輯,以實(shí)現(xiàn)智能問(wèn)答任務(wù)。 首先,我們采用了Bert模型,這是一種在自然語(yǔ)言處理領(lǐng)域非常強(qiáng)大的預(yù)訓(xùn)練模型。它具備

    2024年02月09日
    瀏覽(39)
  • 使用Bert預(yù)訓(xùn)練模型處理序列推薦任務(wù)

    最近的工作有涉及該任務(wù),整理一下思路以及代碼細(xì)節(jié)。 總體來(lái)說(shuō)思路就是首先用預(yù)訓(xùn)練的bert模型,在訓(xùn)練集的序列上進(jìn)行CLS任務(wù)。對(duì)序列內(nèi)容(這里默認(rèn)是token id的sequence)以0.3左右的概率進(jìn)行隨機(jī)mask,然后將相應(yīng)sequence的attention mask(原來(lái)決定padding index)和label(也就是

    2024年02月14日
    瀏覽(23)
  • 帶你熟悉NLP預(yù)訓(xùn)練模型:BERT

    本文分享自華為云社區(qū)《【昇思技術(shù)公開(kāi)課筆記-大模型】Bert理論知識(shí)》,作者: JeffDing。 語(yǔ)言模型演變經(jīng)歷的幾個(gè)階段 word2vec/Glove將離散的文本數(shù)據(jù)轉(zhuǎn)換為固定長(zhǎng)度的靜態(tài)詞向量,后根據(jù)下游任務(wù)訓(xùn)練不同的語(yǔ)言模型 ELMo預(yù)訓(xùn)練模型將文本數(shù)據(jù)結(jié)合上下文信息,轉(zhuǎn)換為動(dòng)態(tài)

    2024年01月22日
    瀏覽(36)
  • [oneAPI] 基于BERT預(yù)訓(xùn)練模型的命名體識(shí)別任務(wù)

    [oneAPI] 基于BERT預(yù)訓(xùn)練模型的命名體識(shí)別任務(wù)

    比賽:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel? DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ 在本次實(shí)驗(yàn)中,我們?cè)贗ntel? DevCloud for oneAPI上搭建實(shí)驗(yàn),借助完全虛擬化的環(huán)境,專注于模型開(kāi)發(fā)與優(yōu)化,無(wú)需關(guān)心底層配置。使用Intel? Opti

    2024年02月12日
    瀏覽(22)
  • [oneAPI] 基于BERT預(yù)訓(xùn)練模型的英文文本蘊(yùn)含任務(wù)

    [oneAPI] 基于BERT預(yù)訓(xùn)練模型的英文文本蘊(yùn)含任務(wù)

    比賽:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel? DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ 我們?cè)贗ntel? DevCloud for oneAPI平臺(tái)上構(gòu)建了我們的實(shí)驗(yàn)環(huán)境,充分利用了其完全虛擬化的特性,使我們能夠?qū)W⒂谀P偷拈_(kāi)發(fā)和優(yōu)化,無(wú)需煩心底

    2024年02月11日
    瀏覽(25)
  • NLP(六十七)BERT模型訓(xùn)練后動(dòng)態(tài)量化(PTDQ)

    NLP(六十七)BERT模型訓(xùn)練后動(dòng)態(tài)量化(PTDQ)

    ??本文將會(huì)介紹BERT模型訓(xùn)練后動(dòng)態(tài)量化(Post Training Dynamic Quantization,PTDQ)。 量化 ??在深度學(xué)習(xí)中,量化(Quantization)指的是使用更少的bit來(lái)存儲(chǔ)原本以浮點(diǎn)數(shù)存儲(chǔ)的tensor,以及使用更少的bit來(lái)完成原本以浮點(diǎn)數(shù)完成的計(jì)算。這么做的好處主要有如下幾點(diǎn): 更少的模型

    2024年02月09日
    瀏覽(19)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包