原文鏈接:https://arxiv.org/pdf/2112.10070.pdf
AAAI 2022
介紹
?????????NER主要包括三種類型:flat、overlap和discontinuous。目前效果最好的模型主要是:span-based和seq2seq,但前者注重于邊界的識(shí)別,后者可能存在exposure bias。
????????作者對(duì)entity words之間的相鄰關(guān)系進(jìn)行建模,將NER定義為一個(gè)word-word之間的關(guān)系分類任務(wù),一共定義三種關(guān)系NONE、Next-Neighboring-Word(NNW)、Tail-Head-Word-*(THW-S)如下圖所示:
方法
? ? ? ? 模型的整體架構(gòu)如下圖所示,主要包括三個(gè)部分:BERT和LSTM組合而成的encoder、用于建立和完善word-pair grid表征的卷積層,Biaffine和MLP聯(lián)合的分類層:
Encoder Layer
????????使用BERT+BiLSTM來作為encoder,將一個(gè)詞的pieces經(jīng)過一個(gè)max pooling來得到該詞的表征,送入到BiLSTM來進(jìn)一步獲取上下文信息,得到word表征為,表示每個(gè)word embedding的維度。
Convolution Layer?
? ? ? ? 使用CNN來優(yōu)化表征,包括三個(gè)模塊,1)condition layer,用于生成word-pair grid的表征;2)用于豐富word-pair grid表征的bert式grid表征;3)用于捕捉相鄰詞和distant word之間交互的多粒度擴(kuò)張卷積。?
Conditional Layer Normalization
????????為了預(yù)測(cè)word pairs之間的關(guān)系,將word-pair gird的表征視為3維的矩陣V,vij表示word pair(xi,xj),而不是(xj,xi),因?yàn)镹NW和THW關(guān)系是有方向的,Vij由xi和ji計(jì)算得出。如下所示:?
BERT-Style Grid Representation Build-Up?
????????BERT中的輸出由token embedding、position embedding和segment embedding組成,作者受此啟發(fā),使用(詞的信息)、(每對(duì)單詞之間的相對(duì)位置)和(區(qū)域信息,用于表示網(wǎng)格中上三角和下三角)這三種embedding進(jìn)行concate后送入MLP得到最終的網(wǎng)格表征:?
Multi-Granularity Dilated Convolution
?????????使用不同擴(kuò)張率()的二維擴(kuò)張卷積來捕獲不同距離word之間的交互,經(jīng)過多次擴(kuò)張中,得到最終word-pair的表征,
Co-Predictor Layer?
????????作者使用MLP和biaffine分別進(jìn)行預(yù)測(cè)分類(作者說是因?yàn)橹坝姓撐恼f這樣效果更好),最將兩者的結(jié)果進(jìn)行合并。不過biaffine模型是將encoder的輸出作為輸入(即圖中虛線的表示)?,使用兩個(gè)MLP分別計(jì)算xi和yj的word presentation,然后使用biaffine classifier來計(jì)算這對(duì)詞之間的關(guān)系分?jǐn)?shù)作為預(yù)測(cè)結(jié)果:
? ? ? ? 而NLP是基于word-pair grid表征,使用一個(gè)MLP來計(jì)算單詞對(duì)之間的分?jǐn)?shù),最后將兩者的結(jié)果進(jìn)行結(jié)合:
Decoder?
? ? ? ? 以上步驟后,模型的輸出可以視為一個(gè)詞的有向圖,解碼的目標(biāo)就是利用NNW在圖中找到從一個(gè)詞到另一個(gè)詞的特定路徑,每條路對(duì)應(yīng)著一個(gè)實(shí)體部分。下圖描述了4種從易到難的情況:
?????????4)僅使用NNW關(guān)系的情況下能在這個(gè)例子中找到4條路徑,如果只使用THW只能找到識(shí)別到ABCD,而不是ACD或者BCD,因此通過同時(shí)使用這兩者關(guān)系來獲得正確答案。
Learning
? ? ? ? 損失函數(shù):
????????N是句子中單詞的個(gè)數(shù),y是gold relation labels的二值向量(xi,yj),r表示集合R中預(yù)定義好的第r種關(guān)系。?
實(shí)驗(yàn)
對(duì)比試驗(yàn)
????????在英文flat NER數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如下所示:
????????在中文flat NER數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如下圖所示:
?????????在英文overlap數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如下圖所示:
????????在discontinuousNER數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如下圖所示:?
????????在中文overlapNER數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如下圖所示:
? ? ? ? 作者在只有overlap和discontinue的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),結(jié)果如下圖所示,這樣一對(duì)比就突出了W2NER模型的優(yōu)勢(shì)。
消融實(shí)驗(yàn)?
?????????在三個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如下所示:
?????????移除NNW關(guān)系時(shí),所有數(shù)據(jù)集上的F1都有所下降,特別時(shí)CADEC數(shù)據(jù)集上,F(xiàn)1下降了4.2%,這是因?yàn)镃ADEC數(shù)據(jù)種包括不連續(xù)實(shí)體,如果沒有NNW關(guān)系,discontinuedNER會(huì)被識(shí)別為連續(xù)span。文章來源:http://www.zghlxwxcb.cn/news/detail-563053.html
總結(jié)?
? ? ? ? 作者將NER問題視為詞與詞之間的關(guān)系,?這樣就能靈活的解決discontinueNER的問題,最后在discontinue的數(shù)據(jù)集上表現(xiàn)更為明顯。不過感覺作者構(gòu)建的網(wǎng)格有點(diǎn)復(fù)雜的亞子(不能用其他方式簡(jiǎn)化一下嗎?),另外,作者也提到使用兩個(gè)分類器進(jìn)行分類,對(duì)模型的效果也有一定的提升,感覺可以借鑒一下。文章來源地址http://www.zghlxwxcb.cn/news/detail-563053.html
到了這里,關(guān)于Unified Named Entity Recognition as Word-Word Relation Classification的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!