總結
- 將NER視作是word-word間的 Relation Classification。 這個word-word 間的工作就很像是TPlinker那個工作,那篇工作是使用token間的 link。
- 推薦指數(shù):★★★☆☆
- 值得學習的點:
(1)用關系抽取的方法做NER抽取
(2)用空洞卷積解決詞間交互問題
(3)CLN(conditional LayerNorma)的使用
1. 動機
統(tǒng)一三類任務(flat、overlapped、nested NER)的處理
span-based 的方法 只關注邊界識別。
sequence-to-sequence 的模型有暴露偏差的影響
2. 想法
- 建模實體詞間的簡單鄰接關系(用NNW,THW-*)
- multi-granularity 2D convolutions for better refining the grid representations. (提出一個多粒度的二維卷積用于更好的refine grid 的表示)
3. 模型
3.1 方法介紹
下面先介紹本文的方法思想。
作者對統(tǒng)一的NER任務進行了介紹:
就是將三種NER統(tǒng)一成一個 token pairs 的關系抽取任務。(相當于將這個NER的任務轉換成了關系抽取的任務。)這里的關系預定義了三種:None, Next-Neighboring-Word, Tail-Head-Word-*。那么就詳細介紹一下這三種關系代表啥意思:
- None: 這兩個token之間沒有關系;
- Next-Neighboring-Word(NNW):說明這一對token pair 屬于的是同一個entity mention. gird 中行的下標的緊跟著的一個詞就是列下標中的那個詞,例如坐標(i,j) 代表i這個詞的后來者就是j這個詞。
- Tail-Head-Word-*(THW): grid 中的行所在的那個詞是這個entity mention的tail,列所在的那個詞是head。 * 代表的是實體類型的意思。
3.2 模型架構
上面講了本文的主要方法思想,下面就看下本文的提出的模型的架構:
該模型主要分成三部分:
- 第一部分:BERT+LSTM 的編碼器,用于編碼文本
- 第二部分:卷積層,用于構建、改善 word-pair grid的表示,用于后面的word-word 的關系分類。
從之前的工作中,可以看出CNN是非常適合做2D convolution的。
看下這個CLN是啥,
word-pair 的 grid是一個3維的矩陣。對于word pair
(
x
i
,
x
j
)
(x_i,x_j)
(xi?,xj?) 的表示
V
i
j
V_{ij}
Vij? 可以被認為是x_i 的表示 h_i 和 x_j 的表示的拼接。根據(jù)CLN這個方法來計算
V
i
j
V_{ij}
Vij?
這個CLN 有啥用?為啥要用這個?
受BERT的三個輸入embedding 啟發(fā),作者這里使用了是三個word embedding。其中 V 表示詞向量, E d E^d Ed表示相對位置信息(每對words), E t E^t Et表示region information 用于區(qū)分出是上三角、下三角區(qū)域。然后交由一個MLP做映射處理。
接著 Multi-Granularity Dilated Convolution
受TextCNN啟發(fā),使用多個2維空洞卷積。用于捕捉不同距離間的詞交互。文章來源:http://www.zghlxwxcb.cn/news/detail-412998.html
- 第三部分:一個co-predictor layer,(包含一個biaffine classifier 和一個multi-layer perceptron) 用于推理出所有的word pair 間的關系
4.實驗
略~文章來源地址http://www.zghlxwxcb.cn/news/detail-412998.html
關鍵參數(shù)
問題
- the kernel bottleneck of unified NER 是啥?
- Current best-performing method
到了這里,關于《論文閱讀》Unified Named Entity Recognition as Word-Word Relation Classification的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!