1. 文章簡介
- 標題:GloVe: Global Vectors for Word Representation
- 作者:Jeffrey Pennington, Richard Socher, Christopher D. Manning
- 日期:2014
- 期刊:EMNLP
2. 文章概括
??文章提出了一種新的單詞表示的訓練方法:Glove。該方法結合了基于統(tǒng)計方法和基于上下文窗口方法的優(yōu)勢,在多個下游任務上超越了當下SOTA方法的表現(xiàn)。
3 文章重點技術
3.1 兩種常用的單詞向量訓練方法
??現(xiàn)有的兩類常用的單詞向量訓練方法為
- 基于矩陣分解的方法,如LSA會首先計算一個term-document矩陣,每一列表示每個文檔中各個單詞的出現(xiàn)頻率,然后進行奇異值分解;HAL則會首先計算一個term-term共現(xiàn)矩陣。但此類方法會被頻繁出現(xiàn)的the, and等單詞影響,計算相似度的時候該類對語義影響很小的單詞會占較大的比重。
- 基于上下文窗口的方法,如Word2Vec[1]。此類方法沒有用到語料中的統(tǒng)計信息,可能無法捕捉到數(shù)據(jù)中的重復現(xiàn)象。
3.2 GloVe
??為了解決上述兩種方法存在的問題,文章提出了一種Global Vectors(GloVe)單詞嵌入方法,可以直接捕獲語料中的統(tǒng)計信息。
??首先,我們計算單詞共現(xiàn)矩陣
X
X
X,其中
X
i
j
X_ij
Xi?j表示單詞
j
j
j出現(xiàn)在單詞
i
i
i的上下文的次數(shù)。令
X
i
=
∑
k
X
i
k
X_i = \sum_k X_{ik}
Xi?=∑k?Xik?表示任意單詞出現(xiàn)在單詞
i
i
i上下文的總次數(shù),則
P
i
j
=
X
i
j
X
i
P_{ij} = \frac {X_ij}{X_i}
Pij?=Xi?Xi?j?表示單詞
j
j
j出現(xiàn)在單詞
i
i
i的上下文的概率。
??為了得到每個單詞的嵌入
w
i
w_i
wi?,文章首先需要假設一種嵌入
w
i
,
w
j
w_i, w_j
wi?,wj?和共現(xiàn)矩陣之間的關系式。為此,文章給出一個示例:如下表所示,假設考慮單詞i=“ice”,j=“steam”,則k="solid"時,由于"solid"和"ice"相關性更高,所以
P
i
k
/
P
j
k
P_{ik}/P_{jk}
Pik?/Pjk?應該大一點,下表中實驗結果為8.9;如果k=“gas”,和"steam"的相關性更高,從而
P
i
k
/
P
j
k
P_{ik}/P_{jk}
Pik?/Pjk?應該小一點,下表中實驗結果為
8.5
×
1
0
?
2
8.5 \times 10^{-2}
8.5×10?2;如果k="water"和二者均相關或k="fashion"和二者均不相關,則
P
i
k
/
P
j
k
P_{ik}/P_{jk}
Pik?/Pjk?應該接近1,如下表中的
1.36
1.36
1.36和
0.96
0.96
0.96。
??為此,文章選擇通過單詞
i
,
j
i,j
i,j之間的概率比值來進行建模:
F
(
w
i
,
w
j
,
w
~
k
)
=
P
i
k
P
j
k
F(w_i, w_j, \tilde{w}_k) = \frac {P_{ik}}{P_{jk}}
F(wi?,wj?,w~k?)=Pjk?Pik??,其中
w
i
,
w
j
,
w
~
k
w_i, w_j, \tilde{w}_k
wi?,wj?,w~k?分別表示
i
,
j
,
k
i, j, k
i,j,k的詞向量,
w
~
\tilde{w}
w~也是待學習的參數(shù),和
w
w
w本質上沒有區(qū)別,只是通過不同的初始化得到的,用于區(qū)分探針單詞(
k
k
k)和共現(xiàn)單詞,類似transformer中的Q,K含義??紤]到單詞空間一般是線性的,我們用
w
i
?
w
j
w_i - w_j
wi??wj?表示向量之間的差異:
F
(
w
i
?
w
j
,
w
~
k
)
=
P
i
k
P
j
k
F(w_i- w_j, \tilde{w}_k) = \frac {P_{ik}}{P_{jk}}
F(wi??wj?,w~k?)=Pjk?Pik??,又因為上式左邊的輸入為兩個向量,右邊為標量,故我們考慮用向量的點積:
F
(
(
w
i
?
w
j
)
T
w
~
k
)
=
P
i
k
P
j
k
F((w_i -w_j)^T\tilde{w}_k) = \frac {P_{ik}}{P_{jk}}
F((wi??wj?)Tw~k?)=Pjk?Pik??。由于單詞的共現(xiàn)矩陣中,單詞和上下文單詞是任意指定的,我們可以自由交換當前單詞和上下文單詞,從而我們要保證交換
w
?
w
~
w \leftrightarrow \tilde{w}
w?w~和
X
?
X
T
X \leftrightarrow X^T
X?XT后上式仍然成立,故我們首先需要
F
F
F為一個同態(tài)映射:
F
(
(
w
i
?
w
j
)
T
w
~
k
)
=
F
(
w
i
T
w
~
k
)
F
(
w
j
T
w
~
k
)
F((w_i -w_j)^T\tilde{w}_k) = \frac {F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)}
F((wi??wj?)Tw~k?)=F(wjT?w~k?)F(wiT?w~k?)?,從而有
F
(
w
i
T
w
~
k
)
=
P
i
k
=
X
i
k
X
i
F(w_i^T\tilde{w}_k) = P_{ik} = \frac {X_{ik}}{X_i}
F(wiT?w~k?)=Pik?=Xi?Xik??。由于上式的解為
F
=
exp
?
F=\exp
F=exp,從而
exp
?
(
w
i
T
w
~
k
)
=
P
i
k
=
X
i
k
X
i
??
?
??
w
i
T
w
~
k
=
log
?
P
i
k
=
log
?
(
X
i
k
X
i
)
=
log
?
(
X
i
k
)
?
log
?
(
X
i
)
\exp (w_i^T \tilde{w}_k) = P_{ik} = \frac {X_{ik}}{X_i}\\\implies w_i^T \tilde{w}_k = \log P_{ik} = \log \left(\frac {X_{ik}}{X_i}\right) = \log(X_{ik}) - \log (X_i)
exp(wiT?w~k?)=Pik?=Xi?Xik???wiT?w~k?=logPik?=log(Xi?Xik??)=log(Xik?)?log(Xi?);其次考慮到上式的
log
?
(
X
i
)
\log (X_i)
log(Xi?)與
k
k
k無關,故可以寫作偏差
b
i
b_i
bi?,再增加
w
~
k
\tilde{w}_k
w~k?的偏差
b
~
k
\tilde_k
b~k?,我們得到
w
i
T
w
~
k
+
b
i
+
b
~
k
=
log
?
(
x
i
k
)
w_i^T \tilde{w}_k + b_i + \tilde_k = \log(x_{ik})
wiT?w~k?+bi?+b~k?=log(xik?)滿足上述對稱要求。在此基礎上增加權重函數(shù)
f
(
X
i
j
)
f(X_{ij})
f(Xij?)可以保證共現(xiàn)太頻繁的元素不會被過分的重視,且稀有的共現(xiàn)元素也不會被過分重視。這就要求
f
f
f滿足非遞減且有明確上界,如下函數(shù)滿足條件:
f
(
x
)
=
{
(
x
/
x
m
a
x
)
α
i
f
?
x
<
x
m
a
x
,
1
,
o
t
h
e
r
w
i
s
e
f(x) = \begin{cases}(x/x_{max})^{\alpha} \quad &if \ x < x_{max},\\1, \quad &otherwise \end{cases}
f(x)={(x/xmax?)α1,?if?x<xmax?,otherwise?。函數(shù)曲線如下圖所示
3.3 模型的復雜度
??文章證明,當 α = 1.25 \alpha = 1.25 α=1.25時交過較好,此時模型的復雜度為 O ( ∣ C ∣ ) \mathcal{O}(|\mathcal{C}|) O(∣C∣),其中 C \mathcal{C} C表示語料庫。相比于其他基于上下文窗口的方法復雜度 O ( V 2 ) \mathcal{O}(V^2) O(V2)更低。
4. 文章亮點
??文章提出了基于將上下文窗口和共現(xiàn)矩陣結合的詞向量嵌入方法GloVe,數(shù)值實驗表明,GloVe在單詞相似度、單詞類比和NER等任務上相比于其他SOTA方法有明顯提升。
5. 原文傳送門
[GloVe: Global Vectors for Word Representation](GloVe: Global Vectors for Word Representation)文章來源:http://www.zghlxwxcb.cn/news/detail-619043.html
6. References
[1] 論文筆記–Efficient Estimation of Word Representations in Vector Space文章來源地址http://www.zghlxwxcb.cn/news/detail-619043.html
到了這里,關于論文筆記--GloVe: Global Vectors for Word Representation的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!