分類目錄:《自然語言處理從入門到應用》總目錄
在雙向語言模型預訓練完成后,模型的編碼部分(包括輸入表示層以及多層堆疊LSTM)便可以用來計算任意文本的動態(tài)詞向量表示。最自然的做法是使用兩個LSTM的最后一層隱含層輸出作為詞的動態(tài)向量表示。然而,在ELMo模型中,不同層次的隱含層向量蘊含了不同層次或粒度的文本信息。例如,越接近頂層的LSTM隱含層表示通常編碼了更多的語義信息,而接近底層的隱含層表示(包括輸入表示
x
x
x)更偏重于詞法、句法信息。不同的下游任務,對詞表示的需求程度有所不同。例如,對于閱讀理解、自動問答這類任務,對語義信息的需求較高;而對于命名實體識別等任務,詞法、句法信息更重要。因此,ELMo采取對不同層次的向量表示進行加權平均的機制,為不同的下游任務提供更多的組合自由度。令
R
t
R_t
Rt?表示
w
t
w_t
wt?的所有中間層狀態(tài)向量表示構(gòu)成的集合,則:
R
t
=
{
x
t
,
h
t
,
j
∣
j
=
1
,
2
,
?
?
,
L
}
R_t=\{x_t, h_{t, j}|j=1, 2, \cdots, L\}
Rt?={xt?,ht,j?∣j=1,2,?,L}
式中,
h
t
,
j
=
[
h
←
t
,
j
,
h
→
t
,
j
]
h_{t, j}=[\overleftarrow{h}_{t, j}, \overrightarrow{h}_{t, j}]
ht,j?=[ht,j?,ht,j?]表示兩個多層堆疊LSTM中每一層的前向、后向隱含層輸出拼接后得到的向量。令
h
t
,
0
=
x
t
h_{t, 0}=x_t
ht,0?=xt?,則ELMo詞向量可表示為:
ELMo
t
=
f
(
R
t
,
Ψ
)
=
γ
task
∑
j
L
s
j
task
h
t
,
j
\text{ELMo}_t=f(R_t, \Psi)=\gamma^\text{task}\sum_j^Ls^\text{task}_jh_{t, j}
ELMot?=f(Rt?,Ψ)=γtaskj∑L?sjtask?ht,j?
式中, Ψ = { s task , γ task } \Psi=\{s^\text{task}, \gamma^\text{task}\} Ψ={stask,γtask}為計算ELMo向量所需的額外參數(shù); s task s^\text{task} stask表示每個向量的權重,反映每一層向量對于目標任務的重要性,可由一組參數(shù)根據(jù)Softmax函數(shù)歸一化計算得到,該權重向量可在下游任務的訓練過程中學習; γ task \gamma^\text{task} γtask系數(shù)同樣與下游任務相關,當ELMo向量與其他向量共同作用時,可以適當?shù)乜s放ELMo向量。將ELMo向量作為詞特征用于下游任務時,編碼器的參數(shù)將被“凍結(jié)”,不參與更新。綜上所述,ELMo向量表示具有以下三個特點:
- 動態(tài)(上下文相關):詞的ELMo向量表示由其當前上下文決定
- 健壯(Robust):ELMo向量表示使用字符級輸入,對于未登錄詞具有強健壯性
- 層次:ELMo詞向量由深度預訓練模型中各個層次的向量表示進行組合,為下游任務提供了較大的使用自由度。
下圖展示了ELMo模型的整體結(jié)構(gòu):
ELMo的優(yōu)缺點
ELMo實現(xiàn)了由靜態(tài)詞嵌入到動態(tài)詞嵌入,由詞嵌入到場景詞嵌入的轉(zhuǎn)換,較好地解決了一詞多義問題。但因ELMo使用Bi-LSTM,仍然屬于自動回歸問題,所以其并發(fā)能力會受到影響,在需要大量語料庫作為訓練數(shù)據(jù)的情況,這種局限也直接影響其性能和拓展性。ELMo主要有2個有點:
- 實現(xiàn)從單純的詞嵌入(Word Embedding)到情景詞嵌入(Contextualized Word Embedding)的轉(zhuǎn)變
- 實現(xiàn)預訓練模型從靜態(tài)到動態(tài)的轉(zhuǎn)變
同時,ELMo也有缺點:ELMo預訓練模型的特征提取器使用了雙向循環(huán)神經(jīng)網(wǎng)絡(如Bi-LSTM),循環(huán)神經(jīng)網(wǎng)絡的訓練需要按序列從左到右或從右到左,嚴格限制了并發(fā)處理能力。此外,ELMo的每一層會拼接兩個方向的向量,所以這種操作實際仍然屬于單向?qū)W習,無法做到同時向兩個方向?qū)W習。文章來源:http://www.zghlxwxcb.cn/news/detail-489737.html
參考文獻:
[1] 車萬翔, 崔一鳴, 郭江. 自然語言處理:基于預訓練模型的方法[M]. 電子工業(yè)出版社, 2021.
[2] 邵浩, 劉一烽. 預訓練語言模型[M]. 電子工業(yè)出版社, 2021.
[3] 何晗. 自然語言處理入門[M]. 人民郵電出版社, 2019
[4] Sudharsan Ravichandiran. BERT基礎教程:Transformer大模型實戰(zhàn)[M]. 人民郵電出版社, 2023
[5] 吳茂貴, 王紅星. 深入淺出Embedding:原理解析與應用實戰(zhàn)[M]. 機械工業(yè)出版社, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-489737.html
到了這里,關于自然語言處理從入門到應用——動態(tài)詞向量預訓練:ELMo詞向量的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!