ACE2005數(shù)據(jù)集介紹、預(yù)處理及事件抽取
參考鏈接:https://www.jianshu.com/p/71ed0d780210(感謝作者鮮芋牛奶西米愛solo,這篇博客介紹的非常詳細(xì))
https://zhuanlan.zhihu.com/p/89297862
ACE語料庫的獲取鏈接:https://catalog.ldc.upenn.edu/LDC2006T06(收費(fèi))
有關(guān)ACE英文語料庫注釋準(zhǔn)則的詳細(xì)內(nèi)容可參考:https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/english-events-guidelines-v5.4.3.pdf(該路徑的上一目錄下也可查看到其他語言的注釋規(guī)則解釋)。
ACE2005數(shù)據(jù)集預(yù)處理的參考代碼鏈接:
(1)英文:https://github.com/nlpcl-lab/ace2005-preprocessing
(2)中文:https://github.com/ll0ruc/ace2005chinese_preprocess
https://github.com/yujunhuics/ace2005_Chinese_Processing
使用預(yù)訓(xùn)練模型對Ace2005數(shù)據(jù)集進(jìn)行事件抽取的參考代碼鏈接:
(1)https://github.com/nlpcl-lab/bert-event-extraction
(2)https://github.com/Hanlard/Transformer-based-pretrained-model-for-event-extraction
1、介紹
???? ACE2005語料庫是語言數(shù)據(jù)聯(lián)盟(LDC)發(fā)布的由實(shí)體,關(guān)系和事件注釋組成的各種類型的數(shù)據(jù),包括英語,阿拉伯語和中文培訓(xùn)數(shù)據(jù),目標(biāo)是開發(fā)自動(dòng)內(nèi)容提取技術(shù),支持以文本形式自動(dòng)處理人類語言。ACE語料解決了五個(gè)子任務(wù)的識別:entities、values、temporal expressions、relations and events。這些任務(wù)要求系統(tǒng)處理文檔中的語言數(shù)據(jù),然后為每個(gè)文檔輸出有關(guān)其中提到或討論的實(shí)體,值,時(shí)間表達(dá)式,關(guān)系和事件的信息。
2、ACE2005數(shù)據(jù)集目錄結(jié)構(gòu)如下:
ace_2005_td_v7/
├── data
├── Arabic
├── bn
├── adj
├── NTV20001002.1530.0534.ag.xml
├── NTV20001002.1530.0534.apf.xml
├── NTV20001002.1530.0534.sgm
├── NTV20001002.1530.0534.tab
├── ......
├── fp1
├── NTV20001002.1530.0534.ag.xml
├── NTV20001002.1530.0534.apf.xml
├── NTV20001002.1530.0534.sgm
├── NTV20001002.1530.0534.tab
├── ......
├── fp2
├── NTV20001002.1530.0534.ag.xml
├── NTV20001002.1530.0534.apf.xml
├── NTV20001002.1530.0534.sgm
├── NTV20001002.1530.0534.tab
├── ......
├── FileList
├── nw
├── wl
├── Chinese
├── bn
├── adj
├── CBS20001001.1000.0041.ag.xml
├── CBS20001001.1000.0041.apf.xml
├── CBS20001001.1000.0041.sgm
├── CBS20001001.1000.0041.tab
├── ......
├── fp1
├── CBS20001001.1000.0041.ag.xml
├── CBS20001001.1000.0041.apf.xml
├── CBS20001001.1000.0041.sgm
├── CBS20001001.1000.0041.tab
├── ......
├── fp2
├── CBS20001001.1000.0041.ag.xml
├── CBS20001001.1000.0041.apf.xml
├── CBS20001001.1000.0041.sgm
├── CBS20001001.1000.0041.tab
├── ......
├── FileList
├── nw
├── wl
├── English
├── bc
├── adj
├── CNN_CF_20030303.1900.00.ag.xml
├── CNN_CF_20030303.1900.00.apf.xml
├── CNN_CF_20030303.1900.00.apf.xml.score
├── CNN_CF_20030303.1900.00.sgm
├── CNN_CF_20030303.1900.00.tab
├── ......
├── fp1
├── fp2
├── timex2norm
├── CNN_CF_20030303.1900.00.ag.xml
├── CNN_CF_20030303.1900.00.apf.xml
├── CNN_CF_20030303.1900.00.sgm
├── CNN_CF_20030303.1900.00.tab
├── ......
├── FileList
├── bn
├── cts
├── nw
├── un
├── wl
├── docs
├── file.tbl
├── README
├── dtd
├── ace-source-sgml.v1.0.2.dtd
├── ag-1.1.dtd
├── apf.v5.1.1.dtd
└── index.html
????以ace_2005_td_v7\data\Chinese\bn\adj\目錄下的內(nèi)容為例,說明其文件格式。
????每個(gè)注釋文件對應(yīng)四個(gè)版本:
(1)原文本文件(.sgm):
????所有源文件(包括中文文件)都以UTF-8編碼,這些文件使用UNIX樣式的行尾。 僅評估開始文本標(biāo)記
(2)ACE程序格式(APF)文件(.apf.xml):
????采用官方ACE注釋文件格式;ACE Pilot格式是XML對齊注釋的一種形式。有關(guān)ACE程序格式的定義鏈接已失效,若需查找更多相關(guān)內(nèi)容可查看:http://xml.coverpages.org/acePilot.html。
(3)AG 文件(.ag.xml):
????LDC注釋圖格式, LDC的ACE內(nèi)部注釋文件格式,可以使用LDC注釋工具包創(chuàng)建的注釋文件。
(4)TABLE文件(.tab):
????存儲(chǔ)以ID識別的ag.xml文件及其對應(yīng)的apf.xml文件之間映射表。
3、ACE2005的訓(xùn)練集和測試集的詳細(xì)統(tǒng)計(jì)數(shù)據(jù):
????可以對照第二節(jié)中目錄結(jié)構(gòu) ace_2005_td_v7/data/ 進(jìn)行了解。
????簡單查看一下在ace_2005_td_v7\data\Chinese下的數(shù)據(jù)來源情況:可以看到只有NW、BN以及WL有數(shù)據(jù),而BC、UN、CTD沒有數(shù)據(jù)。
????所有的訓(xùn)練數(shù)據(jù)文件由兩個(gè)獨(dú)立的注釋器完成雙重注釋。第一遍完整注釋產(chǎn)生fp1,雙重第一遍完整注釋產(chǎn)生dual(也就是fp2)。單個(gè)注釋器完成文件的所有任務(wù)(實(shí)體,值,關(guān)系和事件)。之后,由注釋人裁定每個(gè)文件的fp1和fp2版本之間的差異,產(chǎn)生高質(zhì)量的黃金標(biāo)準(zhǔn)文件,稱為adj。判定后,以TIMEX2值進(jìn)行標(biāo)準(zhǔn)化(在此只針對英語語料,Chinese和Arabic下沒有),稱為timex2norm。該流程可描述為如下:
????以英語版本為例,目錄下對應(yīng)的文件名稱分別為bc,bn,cts,nw,un,wl。這些數(shù)據(jù)源繼而被分類成adj,fp1(即第一遍注釋的1p),fp2(即dual),timex2norm。英語數(shù)據(jù)源的注釋狀態(tài):
4、ACE數(shù)據(jù)集任務(wù)目標(biāo)
????ACE注釋任務(wù)對應(yīng)于三個(gè)研究目標(biāo):實(shí)體檢測和跟蹤(EDT),關(guān)系檢測和表征(RDC)以及事件檢測和表征(EDC)。第四個(gè)注釋任務(wù),實(shí)體鏈接(LNK),將對單個(gè)實(shí)體及其所有屬性的所有引用分組到一個(gè)復(fù)合實(shí)體中。
(1)實(shí)體檢測和跟蹤(EDT)
????核心注釋任務(wù),為所有剩余任務(wù)提供基礎(chǔ)。后來的ACE任務(wù)確定了七種類型的實(shí)體:人員,組織,位置,設(shè)施,武器,車輛和地緣政治實(shí)體(GPE)。每種類型進(jìn)一步分為子類型(例如,組織子類型包括政府,商業(yè),教育,非營利,其他)。注釋器標(biāo)記了文檔中每個(gè)實(shí)體的所有提及,無論是命名,名義還是代名詞。對于每一次提及,注釋器都識別出代表實(shí)體的字符串的最大范圍,并標(biāo)記每個(gè)提及的頭部。嵌套提及也被捕獲。每個(gè)實(shí)體根據(jù)其類型和子類型進(jìn)行分類,并根據(jù)其特定類別,通用,屬性,負(fù)面量化或未指定類別進(jìn)一步標(biāo)記。在LNK注釋任務(wù)期間,注釋器審查整個(gè)文檔,以便將同一實(shí)體的提及分組在一起; 他們還標(biāo)記了轉(zhuǎn)喻的案例,其中一個(gè)實(shí)體的名稱用于指代與其相關(guān)的另一個(gè)實(shí)體。
(2)關(guān)系檢測和表征(RDC)
????涉及實(shí)體之間關(guān)系的識別。此任務(wù)已添加到ACE的第2階段。RDC針對物理關(guān)系,包括位置,近處和部分整體; 社會(huì)/個(gè)人關(guān)系,包括商業(yè),家庭和其他; 一系列的就業(yè)或會(huì)員關(guān)系; 工件與代理商之間的關(guān)系(包括所有權(quán)); 從屬關(guān)系,如種族; 人與GPE之間的關(guān)系,如公民身份; 最后是話語關(guān)系。對于每個(gè)關(guān)系,注釋器都識別出兩個(gè)主要參數(shù)(即,鏈接的兩個(gè)ACE實(shí)體)以及關(guān)系的時(shí)間屬性。由明確的文本證據(jù)支持的關(guān)系與那些依賴于讀者的語境推理的關(guān)系不同。
(3)事件檢測和表征(EDC)
????在EDC中,注釋器識別并描述了EDT實(shí)體參與的五種類型的事件。目標(biāo)類型包括交互,移動(dòng),轉(zhuǎn)移,創(chuàng)建和銷毀事件。注釋器為每個(gè)事件標(biāo)記文本提及或錨點(diǎn),并按類型和子類型對其進(jìn)行分類。他們根據(jù)特定類型的模板進(jìn)一步確定了事件參數(shù)(代理,對象,源和目標(biāo))和屬性(時(shí)間,位置以及其他類似工具或目的)。
5、ACE數(shù)據(jù)集任務(wù)詳細(xì)介紹
(1)實(shí)體檢測與識別
????實(shí)體提及的每個(gè)文檔都需要實(shí)體輸出。此輸出包括實(shí)體的屬性和提及的信息。實(shí)體屬性當(dāng)前僅限于實(shí)體類型,實(shí)體子類型,實(shí)體類以及用于引用實(shí)體的名稱。每個(gè)實(shí)體提及的輸出包括提及類型,其頭部的位置和范圍,以及可選的提及角色和提及風(fēng)格(文字或轉(zhuǎn)喻,該屬性以apf文件格式編碼為名為“metonymy_mention”,為true表示“轉(zhuǎn)喻風(fēng)格”的引用,false表示“文字”引用,默認(rèn)為文字),table1與table2列出了ACE實(shí)體類型,子類型和類。table3列出了提及類型。
(2)時(shí)間檢測與識別
????ACE時(shí)間表達(dá)識別和規(guī)范化任務(wù)(TERN)根據(jù)“TIDES 2005標(biāo)準(zhǔn)的時(shí)間表達(dá)注釋”來檢測和識別源語言數(shù)據(jù)中提到的某些時(shí)間表達(dá)式(以時(shí)間x2格式)。要識別的時(shí)間表達(dá)包括絕對表達(dá)式和相對表達(dá)式。 此外,還要識別持續(xù)時(shí)間,事件錨定表達(dá)式和時(shí)間集。 此信息包含在timex2屬性集中。 表5列出了2005年要評估的ACE timex2屬性。
(3)關(guān)系檢測與識別
????ACE關(guān)系檢測和識別任務(wù)(RDR)要求檢測源語言數(shù)據(jù)中提到的某些指定類型的關(guān)系,并且識別關(guān)于這些關(guān)系的所選信息并將其合并為每個(gè)檢測到的關(guān)系的統(tǒng)一表示。
????關(guān)系提及的輸出包括有關(guān)關(guān)系屬性,關(guān)系參數(shù)和關(guān)系提及的信息。 關(guān)系屬性是關(guān)系類型,子類型,模態(tài)和時(shí)態(tài)。關(guān)系參數(shù)由唯一ID和角色標(biāo)識。相關(guān)的兩個(gè)實(shí)體的角色是“Arg-1”和“Arg-2”,除了對稱關(guān)系(表6中標(biāo)識)之外,將這些角色正確分配給它們各自的參數(shù)是很重要的??赡苤挥幸粋€(gè)Arg-1實(shí)體和一個(gè)Arg-2實(shí)體。除了兩個(gè)主要實(shí)體參數(shù)之外,還可能存在一個(gè)或多個(gè)temporal(timex2)參數(shù),并且在關(guān)系中包含這些參數(shù)以便為關(guān)系接收完整值。關(guān)系提及是表達(dá)關(guān)系的句子或短語,必須包含兩個(gè)相關(guān)實(shí)體的提及。表6中列出了2005年的ACE關(guān)系類型和子類型。關(guān)系可能只有一種類型和一種子類型。文章來源:http://www.zghlxwxcb.cn/news/detail-488793.html
(4) 事件檢測與識別
????ACE事件檢測和識別任務(wù)(VDR)要求檢測源語言數(shù)據(jù)中提到的某些指定類型的事件,并且識別關(guān)于這些事件的所選信息并將其合并為每個(gè)檢測到的事件的統(tǒng)一表示。
????提及事件的每個(gè)文檔都需要事件輸出。此輸出包括有關(guān)事件屬性,事件參數(shù)和事件提及的信息。事件屬性是事件類型,子類型,模態(tài),極性,通用性和時(shí)態(tài)。table7中列出了2005年的ACE事件類型和子類型。事件可能只有一種類型和一種子類型。????每個(gè)事件參數(shù)由唯一ID和角色標(biāo)識。與僅允許Arg-1和Arg-2角色中的一個(gè)參數(shù)的關(guān)系不同,事件允許同一角色中的多個(gè)參數(shù)。事件提及是提及事件的句子或短語,事件提及的范圍被定義為提及事件的整個(gè)句子。雖然未評估事件提及的識別,但它是允許系統(tǒng)輸出事件映射到參考事件的方式之一。因此,正確識別事件提及可能有助于評估。文章來源地址http://www.zghlxwxcb.cn/news/detail-488793.html
到了這里,關(guān)于ACE2005數(shù)據(jù)集介紹、預(yù)處理及事件抽取的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!