1.信息抽取概述
????????信息抽取是構(gòu)建知識(shí)圖譜的必要條件。知識(shí)圖譜中以(subject,relation,object)三元組的形式表示數(shù)據(jù)。信息抽取分為兩大部分,一部分是命名實(shí)體識(shí)別,識(shí)別出文本中的實(shí)體,另外就是關(guān)系抽取,對(duì)識(shí)別出來(lái)的實(shí)體構(gòu)建對(duì)應(yīng)的關(guān)系,兩者便是構(gòu)建三元組的基本組成。
2.關(guān)系抽取概述
????????實(shí)體關(guān)系抽?。P(guān)系抽取)是構(gòu)建知識(shí)圖譜非常重要的一環(huán),旨在識(shí)別實(shí)體之間的語(yǔ)義關(guān)系。關(guān)系抽取就是從非結(jié)構(gòu)化文本(純文本)中抽取實(shí)體關(guān)系三元組(SRO)。這里S代表頭實(shí)體,R代表關(guān)系,O代表尾實(shí)體。如下圖所示:第一句文本中,“劉翔”和“上?!眱蓚€(gè)實(shí)體之間的語(yǔ)義關(guān)系是“出生地”。 第二句文本中,“張藝謀”與“菊豆”兩個(gè)實(shí)體之間的語(yǔ)義關(guān)系是“導(dǎo)演”
3.關(guān)系抽取方法
? ? ? ??當(dāng)前關(guān)系抽取主要分為兩大類,分別是傳統(tǒng)的限定域關(guān)系抽取(傳統(tǒng)關(guān)系抽取)和開放領(lǐng)域關(guān)系抽取。
3-1?開放域關(guān)系抽?。╫pen domain)
????????不再局限于一小部分提前已知的關(guān)系,關(guān)系類型不需要提前固定,而是去抽取文本當(dāng)中各種各樣的關(guān)系。?
3-2? 限定域關(guān)系抽取(fixed domain)
????????從非結(jié)構(gòu)化文本中識(shí)別出一對(duì)實(shí)體概念和聯(lián)系,這對(duì)實(shí)體以及關(guān)系構(gòu)成的相關(guān)三元組。其schema確定后關(guān)系類型是固定的,有的關(guān)系不在提前定義好的schema中時(shí),將無(wú)法抽取,不能抽取出新的關(guān)系。 限定域關(guān)系抽取方法分為兩種,分別是:流水線學(xué)習(xí)方法(pipeline) 和聯(lián)合學(xué)習(xí)方法
3-2-1?流水線學(xué)習(xí)方法(pipeline)
????????通常先抽取句子中的實(shí)體,然后在對(duì)實(shí)體對(duì)進(jìn)行關(guān)系分類,從而找出SRO三元組。
3-2-2?聯(lián)合學(xué)習(xí)方法(joint)
????????聯(lián)合學(xué)習(xí)方法(joint) ? ? ?聯(lián)合學(xué)習(xí)方法同時(shí)進(jìn)行實(shí)體識(shí)別和實(shí)體對(duì)的關(guān)系分類兩個(gè)任務(wù)。聯(lián)合學(xué)習(xí)方法由于考慮了兩個(gè)子任務(wù)之間的信息交互,大大提升了實(shí)體關(guān)系抽取的效果,所以目前針對(duì)實(shí)體關(guān)系抽取任務(wù)的研究大多采用聯(lián)合學(xué)習(xí)方法。
????????參數(shù)共享模型: 1.主體、客體和關(guān)系抽取不是同步的。 2.整個(gè)過(guò)程可以得到三個(gè)Loss值。整個(gè)模型的Loss是各個(gè)過(guò)程的Loss值和 。
????????聯(lián)合解碼模型: 1.主體、客體和關(guān)系抽取同步進(jìn)行,通過(guò)一個(gè)模型直接得出SRO三元組。
?4.關(guān)系抽取難點(diǎn)
?4-1 ?語(yǔ)言表述難點(diǎn)
? ? ? ?由于自然語(yǔ)言表達(dá)的多樣性、靈活性,不同詞匯可表達(dá)同一關(guān)系。?在文本中找不到明確的關(guān)系表示。同一詞匯會(huì)有不同的關(guān)系。
?4-2 關(guān)系三元組重疊
?1.Normal
????????沒有重疊的部分
2.EPO(EntityPairOverlap)
????????關(guān)系兩端的實(shí)體都是一致的 。(《少林足球》,導(dǎo)演,周星馳) (《少林足球》,編劇,周星馳)
3.SEO(SingleEntityOverlap)
????????關(guān)系兩端有單個(gè)實(shí)體共享。 (劉翔,出生地,上海) (劉翔,出生時(shí)間,1983年7月13日) (阿爾弗雷德.阿德勒,出生地,奧地利) (阿爾弗雷德.阿德勒,出生地,維也納)
5.?相關(guān)論文介紹
5-1 基于流水線模式關(guān)系抽取
????????流水線學(xué)習(xí)方法是指在實(shí)體識(shí)別已經(jīng)完成的基礎(chǔ)上直接進(jìn)行實(shí)體之間關(guān)系的抽取 。
5-1-1 《A frustratingly easy approach for entity and relation extraction》
? 論文來(lái)源:? 普林斯頓 NAACL 2021
? 論文引用 :Zhong Z, Chen D. A frustratingly easy approach for entity and relation extraction[J]. arXiv preprint arXiv:2010.12812, 2020.????????????????????????????????????????????????????????????????
模型結(jié)構(gòu)圖
? ? ?
方法解讀?
兩個(gè)編碼器
????????1.實(shí)體模型: ?Span-level NER,提取所有可能的片段排列,通過(guò)SoftMax對(duì)每一個(gè)Span進(jìn)行實(shí)體類型判斷。?
????????2.關(guān)系模型: 對(duì)所有的實(shí)體pair進(jìn)行關(guān)系分類。將實(shí)體邊界和類型作為標(biāo)識(shí)符(typed marker)加入到實(shí)體Span前后,然后作為關(guān)系模型的input。對(duì)每個(gè)sub和obj的組合進(jìn)行分類,預(yù)測(cè)各實(shí)體之間的關(guān)系。
巧妙改進(jìn):學(xué)習(xí)實(shí)體對(duì)之間的依賴關(guān)系
????????S:Md和/S:Md:代表實(shí)體類型為Method的Subject,S是實(shí)體span的第一個(gè)token,/S是最后一個(gè)token; O:Md和/O:Md:代表實(shí)體類型為Method的Object,O是實(shí)體span的第一個(gè)token,/O是最后一個(gè)token;
5-2-2 《Packed Levitated Marker for Entity and Relation Extraction》
論文來(lái)源: 清華大學(xué)&微信團(tuán)隊(duì)ACL 2022
論文引用 :Ye D, Lin Y, Li P, et al. Packed Levitated Marker for Entity and Relation Extraction[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022: 4904-4917.??????????????????????????????????????????????????????????????
額外知識(shí):Span表征方式
? 1.Solid Marker(固定標(biāo)記)? ? ? ? ? ? ? ? ? ? ? ? ? ?
????????顯式的在句子中的span前后插入兩個(gè)marker。如果是關(guān)系抽取,就在subject span和object span前后分別插入。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.Levitated Marker(懸浮標(biāo)記)
????????懸浮標(biāo)記全部置于句子外面。有利于嵌套實(shí)體表示;同時(shí)有利于計(jì)算加速。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??3.Packed Levitated Marker ?
????????subject和object分別存在于句子內(nèi)部和句子外部。subject存在于句子內(nèi)部,object全部統(tǒng)一存放在句子外部。有利于凸顯object的span之間的內(nèi)在聯(lián)系。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
模型架構(gòu)圖?
Step1: Entity?
?方法解讀:
????????通過(guò)枚舉,列出所有的span 。1.設(shè)置span的最大長(zhǎng)度 ;?2.設(shè)置pack的最大長(zhǎng)度。將相鄰的span的懸浮標(biāo)記拼接在同一個(gè)樣本里面
優(yōu)點(diǎn):
?????????1.面向鄰居span的打包策略,以更好地建模實(shí)體邊界信息,借用span之間的關(guān)系。
Step2:Relation?
方法解讀:
?????????對(duì)于一個(gè)句子,以及其中的subject span和它對(duì)應(yīng)的object spans,構(gòu)成一條訓(xùn)練樣本,其中subject span采用固定標(biāo)記,也就是在句子中span單詞的前后直接插入[S]和[/S]兩個(gè)標(biāo)記,然后將它對(duì)應(yīng)的候選Object span用懸浮標(biāo)記的方式拼接在文本后面。?
優(yōu)點(diǎn):
????????1.建模具有相同subject的跨度對(duì)之間的相互關(guān)系。
5-2??聯(lián)合解碼模式關(guān)系抽取
5-2-1 《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》
論文來(lái)源: 中國(guó)科學(xué)研究院?ACL 2021
論文引用 :Zheng S, Wang F, Bao H, et al. Joint extraction of entities and relations based on a novel tagging scheme[J]. arXiv preprint arXiv:1706.05075, 2017.
模型架構(gòu)圖?
????????CF 表示關(guān)系類型Company-Founder “1”和“2”分別表示被標(biāo)注的單詞屬于當(dāng)前關(guān)系類型的頭實(shí)體和尾實(shí)體。 ??
方法解讀?
創(chuàng)新點(diǎn):采用新的標(biāo)注方案
????????? 1.首次采用序列標(biāo)注的方法實(shí)現(xiàn)聯(lián)合抽取,將聯(lián)合提取任務(wù)轉(zhuǎn)化為標(biāo)記問題 。
? ? ? ? ?2. 在原有BIES(begin、inside、end、single)標(biāo)注方案上進(jìn)行了擴(kuò)展,新的標(biāo)注中融入了關(guān)系類型和實(shí)體在關(guān)系中的角色信息。?
5-3 基于聯(lián)合模式關(guān)系抽取? ? ? ?
????????本質(zhì)上本質(zhì)上是多任務(wù)學(xué)習(xí),實(shí)體識(shí)別和關(guān)系抽取共享encoder,使用不同的decoder, 并構(gòu)建聯(lián)合loss訓(xùn)練優(yōu)化。
5-3-1 《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》
論文來(lái)源: ACL 2016
論文引用 :Miwa M , ?Bansal M . End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures:, 10.18653/v1/P16-1105[P]. 2016.
模型架構(gòu)圖
方法解讀?
屬于聯(lián)合關(guān)系抽取的開山之作,一共分為三個(gè)部分。
1.Embedding layer (word embeddings layer) ;
2.Sequence layer (word sequence based LSTM-RNN layer):用于實(shí)體檢測(cè);
3.Dependency layer (dependency subtreebased LSTM-RNN layer ):用于關(guān)系抽取。
????????兩個(gè)雙向LSTM-RNN結(jié)構(gòu)分別用于檢測(cè)實(shí)體和分類關(guān)系,它們是單獨(dú)訓(xùn)練的,但是loss是加在一起同時(shí)進(jìn)行反向傳播和更新。?
5-3-2?《Span-based joint entity and relation extraction with transformer pre-training》
論文來(lái)源: ECAI 2020
論文引用 :Eberts M, Ulges A. Span-based joint entity and relation extraction with transformer pre-training[J]. arXiv preprint arXiv:1909.07755, 2019.
模型架構(gòu)圖
?方法解讀
????????模型共分為三個(gè)部分 1.span classification 2.Span Filtering 3.relation classification,共享Encoder span classification 和 Span Filtering層對(duì)實(shí)體進(jìn)行篩選和識(shí)別,relation classification 進(jìn)行關(guān)系抽取。
(1)實(shí)體分類,這里對(duì)實(shí)體進(jìn)行分類,是一個(gè)softmax,但是考慮了實(shí)體的頭尾,實(shí)體分類模型得到的是實(shí)體的類別和實(shí)體span,也就是文本中的那些字段是實(shí)體,模型的輸入文本tokenizer, 實(shí)體span,實(shí)體mask,實(shí)體size 。
(2)對(duì)實(shí)體進(jìn)行過(guò)濾span filter,對(duì)實(shí)體模型的結(jié)果進(jìn)行過(guò)濾,保留有實(shí)體,根據(jù)保留的實(shí)體構(gòu)建關(guān)系負(fù)樣本。
(3)關(guān)系分類,輸入是實(shí)體,實(shí)體間連續(xù)文本特征max-pooling,實(shí)體寬度矩陣,經(jīng)過(guò)一個(gè)線性層,得到關(guān)系分類的結(jié)果。
5-3-3 《A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》
論文來(lái)源: 吉林大學(xué) ACL 2020
論文引用 :?Wei Z , ?Su J , ?Wang Y , et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020.
模型架構(gòu)圖
方法解讀?
Casrel共分為兩個(gè)步驟:
????????1.識(shí)別出句子中的subject
????????2.根據(jù)subject識(shí)別出所有可能的relation和object
模型分為三個(gè)部分:
????????1.BERT-based encoder module
? ? ? ? 這部分的就是對(duì)句子編碼,獲取每個(gè)詞的隱層表示,可以采用 BERT 的任意一層。另外這部分是可以替換的,例如用 LSTM 替換 BERT。
????????2.subject tagging module
????????目的是識(shí)別出句子中的 subject。這部分的主要作用是對(duì) BERT Encoder 獲取到的詞的隱層表示解碼。構(gòu)建兩個(gè)二分類分類器預(yù)測(cè) subject 的 start 和 end 索引位置,對(duì)每一個(gè)詞計(jì)算其作為 start 和 end 的一個(gè)概率,并根據(jù)某個(gè)閾值,大于則標(biāo)記為1,否則標(biāo)記為0
????????(1)利用一個(gè)線性層?一個(gè)sigmoid激活函數(shù)判斷每個(gè)token是不是頭實(shí)體的開始token或結(jié)束token;
????????(2)利用最近匹配原則將識(shí)別到的start和end配對(duì)獲得候選頭實(shí)體集合。
????????3.relation-specific object tagging module
????????根據(jù) subject,尋找可能的 relation 和 object。這部分會(huì)同時(shí)識(shí)別出 subject 的 relation 和相關(guān)的 object。 解碼的時(shí)候比 Subject Tagger 不僅僅考慮了 BERT 編碼的隱層向量, 還考慮了識(shí)別出來(lái)的 subject 特征。vsub 代表 subject 特征向量,若存在多個(gè)詞,將其取向量平均,hn 代表 BERT 編碼向量。 對(duì)于識(shí)別出來(lái)的每一個(gè) subject, 對(duì)應(yīng)的每一種關(guān)系會(huì)解碼出其 object 的 start 和 end 索引位置,與 Subject Tagger 類似。
?????????對(duì)于第一個(gè)subject ,Jackie R. Brown,在關(guān)系 Birth_place 中識(shí)別出了兩個(gè) object,即 Washington 和 United States Of America,而在其他的關(guān)系中未曾識(shí)別出相應(yīng)的 object。 對(duì)第二個(gè)subject, Washington 這個(gè) subject 解碼時(shí),僅僅在 Capital_of 的關(guān)系中識(shí)別出 對(duì)應(yīng)的 object: United States Of America。
公式解讀
?6 總結(jié)
基本方法 |
先抽取實(shí)體、再抽取關(guān)系 |
聯(lián)合抽取 |
優(yōu)點(diǎn) |
1.兩個(gè)模型,靈活度高 2.實(shí)體模型和關(guān)系模型可以使用獨(dú)立的數(shù)據(jù)集 |
1.統(tǒng)一使用給一個(gè)模型編碼 2.兩個(gè)任務(wù)的表征有交互 |
缺點(diǎn) |
1.誤差積累:實(shí)體抽取的錯(cuò)誤會(huì)影響下一步關(guān)系抽取性能 2.交互缺失:忽略兩個(gè)任務(wù)之間的聯(lián)系和依賴關(guān)系 |
2.同一個(gè)模型需要更為復(fù)雜的結(jié)構(gòu)或者是標(biāo)注語(yǔ)料文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-761086.html 2.統(tǒng)一編碼器提取特征可能會(huì)使得模型學(xué)習(xí)混亂文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-761086.html |
到了這里,關(guān)于【深度學(xué)習(xí)】關(guān)系抽取概念及相關(guān)論文解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!