一、摘要
知識(shí)圖譜是一種用圖模型來描述知識(shí)和建模世界萬物之間關(guān)聯(lián)關(guān)系的大規(guī)模語義網(wǎng)絡(luò),是大數(shù)據(jù)時(shí)代知識(shí)表示的重要方式之一。而大型語言模型,如OpenAI發(fā)布的GPT-4 ,通過在大量文本等數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,展示出了極其強(qiáng)大的通識(shí)知識(shí)和問題解決能力[1][2][3][4]。知識(shí)圖譜可以為大型語言模型提供精準(zhǔn)的結(jié)構(gòu)化的知識(shí),助力和改善模型的推理效果和生成質(zhì)量,并提供對知識(shí)的精準(zhǔn)操作和分析能力。
目前,諸多領(lǐng)域仍缺乏足夠精準(zhǔn)和完備的知識(shí)圖譜,那么GPT-4等大模型是否能為高效知識(shí)圖譜構(gòu)建帶來便利?我們對GPT-4的知識(shí)抽取能力進(jìn)行了分析,探究的主要內(nèi)容有:
1.?GPT-4對不同類型知識(shí)如事實(shí)、事件及不同領(lǐng)域如通用、垂直知識(shí)的抽取能力分析
2. GPT-4 和ChatGPT抽取能力對比及錯(cuò)誤案例分析
3. GPT-4抽取未見知識(shí)的泛化能力分析
4. 展望大模型時(shí)代知識(shí)圖譜構(gòu)建的新思路
二、知識(shí)抽取能力分析
因還未申請到GPT-4的API,我們基于ChatGPT-plus的交互式界面并通過隨機(jī)采樣測試集/驗(yàn)證集樣本的方式,評測了GPT-4在實(shí)體、關(guān)系、事件等知識(shí)上的Zero-shot以及One-shot抽取能力,并和ChatGPT及全監(jiān)督基線模型的結(jié)果進(jìn)行了對比。我們選取了DuIE2.0[5]、RE-TACRED[6]、MAVEN[7]以及SciERC[8]作為本次實(shí)驗(yàn)的數(shù)據(jù)集。因?yàn)椴糠謹(jǐn)?shù)據(jù)集并未提供實(shí)體類型,所以我們在指令提示(Prompt)中統(tǒng)一設(shè)置為只提供待抽取的關(guān)系/事件類型,且不顯式指定待抽取的實(shí)體類型。
通過隨機(jī)采樣測試,我們發(fā)現(xiàn),無論在Zero-shot還是One-shot的情況下,GPT-4在多個(gè)學(xué)術(shù)基準(zhǔn)抽取數(shù)據(jù)集上均取得了相對較好的性能,且比ChatGPT取得了一定程度的進(jìn)步。同時(shí),One-shot的引入也使模型在Zero-shot上的性能得到了進(jìn)一步提升。這在一定程度上說明了GPT-4具備著對不同類型、不同領(lǐng)域知識(shí)的抽取能力。然而,我們也發(fā)現(xiàn)目前GPT-4仍不如全監(jiān)督小模型。這也與前人的相關(guān)工作發(fā)現(xiàn)一致[2][4]。特別注意的是,該結(jié)果為隨機(jī)采樣測試集并通過交互界面(非API)測試結(jié)果,可能會(huì)受到測試集數(shù)據(jù)分布和采樣樣本的影響。
此外,提示的設(shè)計(jì)和數(shù)據(jù)集本身的復(fù)雜程度也對本次實(shí)驗(yàn)的結(jié)果有較大的影響。具體地,我們發(fā)現(xiàn)在四種數(shù)據(jù)集上ChatGPT和GPT-4評估結(jié)果可能受到如下幾種原因的影響:
數(shù)據(jù)集:存在噪音且部分?jǐn)?shù)據(jù)集類型不夠明晰(如未提供頭尾實(shí)體類型、語境復(fù)雜等)
指令提示(Prompt):語義不夠豐富的指令會(huì)影響抽取性能(如加入相關(guān)樣本In-Context Learning[9]可以提升性能;Code4Struct[10]發(fā)現(xiàn)基于代碼結(jié)構(gòu)可促進(jìn)結(jié)構(gòu)化信息抽?。?。需要指出的是,由于部分?jǐn)?shù)據(jù)集存在無頭尾實(shí)體類型的情況,此處為了橫向公平對比不同模型在數(shù)據(jù)集上的能力,實(shí)驗(yàn)在提示指令中并未指明抽取的實(shí)體類型,這也會(huì)在一定程度上影響實(shí)驗(yàn)的結(jié)果。
評估方式:現(xiàn)有的評估方式可能不太適用于大模型如ChatGPT與GPT-4抽取能力的評估。如數(shù)據(jù)集中所給標(biāo)簽并未完全覆蓋正確答案,部分超出答案的結(jié)果仍可能是正確的(存在同義詞等)。
具體內(nèi)容我們將在下一章節(jié)進(jìn)行詳細(xì)分析。
三、能力對比與錯(cuò)誤案例分析
我們進(jìn)一步針對選取的四個(gè)數(shù)據(jù)集中的部分案例進(jìn)行了分析(由于實(shí)驗(yàn)中使用的Prompt較長,在這里只展示部分重要信息)。
(一) DuIE2.0
1. Zero-shot
ChatGPT VS GPT-4
在SPO三元組的抽取過程中,我們注意到在使用相同的Prompt的情況下,GPT-4更能理解Prompt所提供的指令并理解待抽取樣本的上下文信息,執(zhí)行符合條件的三元組抽取。如圖所示,ChatGPT雖然能夠理解句子的大意,給出[作者,是 , 岑葉明]的結(jié)果,但與答案[昔年一起走過的路 , 作者 , 岑葉明]仍存在較大差距。相較于GPT-4在此條樣本上的表現(xiàn),ChatGPT在謂詞的抽取上以及主語賓語的選擇上顯得不夠精煉準(zhǔn)確。
?GPT-4
在上圖中,我們讓GPT-4完成對句子“然而近日,網(wǎng)友通過不少陳年舊照發(fā)現(xiàn),張小斐其實(shí)并非喜劇曲藝出身,而是畢業(yè)于2005屆北京電影學(xué)院的表演系本科專業(yè),與現(xiàn)今大紅大紫的內(nèi)地花旦楊冪、袁姍姍等曾同窗為友,怪不得每次出場氣質(zhì)逼人”的三元組抽取。數(shù)據(jù)集中給出的正確答案為[楊冪 , 畢業(yè)院校 , 北京電影學(xué)院]、[楊冪 , 畢業(yè)院校 , 2005屆北京電影學(xué)院?]。由圖可知,GPT-4并沒有成功抽取出這兩組信息。究其原因可能是數(shù)據(jù)集本身的信息指向性不夠明確,導(dǎo)致GPT-4所關(guān)注的信息產(chǎn)生偏差。但只關(guān)注GPT-4本身給出的答案,我們?nèi)钥梢栽谝欢ǔ潭壬险J(rèn)為GPT-4在三元組抽取上具有不錯(cuò)的表現(xiàn)。
2. One-shot
ChatGPT VS GPT-4
與Zero-shot的情況類似,One-shot實(shí)驗(yàn)條件下,GPT-4所給出的結(jié)果與ChatGPT相比都更為完善。同時(shí)GPT-4也注意到了更多的信息。如圖所示,例句“國家隊(duì)生涯喬治·威爾康姆在2008年入選洪都拉斯國家隊(duì),他隨隊(duì)參加了2009年中北美及加勒比海地區(qū)金杯賽”中,對應(yīng)的三元組應(yīng)為[喬治·威爾康姆 , 國籍 , 洪都拉斯],此條信息并沒有在文本中提及,卻被GPT-4成功抽取出。我們也傾向于認(rèn)為這是GPT-4知識(shí)儲(chǔ)備豐富的帶來的結(jié)果。(如從喬治·威爾康姆入選國家隊(duì)的事實(shí)中推斷出他的國籍)
3. Zero-shot vs One-shot
ChatGPT和GPT-4的性能均在One-shot設(shè)置下得到了提升,而ChatGPT的增幅尤為明顯。
ChatGPT
圖. Zero-shot(上)One-shot(下)
針對同一條樣本,ChatGPT在One-shot的情況下的結(jié)果更為準(zhǔn)確(樣本對應(yīng)的答案為[史奎英 , 丈夫 , 蔣潔敏]、[蔣潔敏 , 妻子 , 史奎英]、[中石油 , 董事長 , 蔣潔敏]),同時(shí)ChatGPT給出答案的模式也更符合Prompt的要求。
GPT-4
圖. Zero-shot(上)One-shot(下)
如圖,此例句對應(yīng)的三元組應(yīng)為[劉愷威, 妻子, 楊冪], [楊冪, 丈夫, 劉愷威],示例樣本的引入,使得GPT-4能夠更好的完成關(guān)系的抽取,給出更符合語義的答案。
(二)MAVEN
1. Zero-shot
ChatGPT VS GPT-4
在例句“Now an established member of the line-up, he agreed to sing it more often.”中ChatGPT得到的結(jié)果是Becoming_a_member,而GPT-4得到Becoming_a_member, Agree_or_refuse_to_act, Performing,三種事件類型。由結(jié)果可知,與ChatGPT相比,GPT-4提供的信息更為完整,除了關(guān)注到member 這個(gè)詞之外,GPT-4也關(guān)注到了agree觸發(fā)詞得到了“Agree_or_refuse_to_act”這一事件類型。同時(shí)值得說明的是,在本次實(shí)驗(yàn)中,我們發(fā)現(xiàn)ChatGPT給出的答案往往只有一種事件類型,而GPT-4獲取上下文信息的能力更強(qiáng),得到的答案更具多樣性,故而在MAVEN數(shù)據(jù)集中的效果更好(MAVEN數(shù)據(jù)集本身包含的句子可能存在一種或多種關(guān)系)。
GPT-4
在這項(xiàng)抽取任務(wù)中的例句:“The final medal tally was led by Indonesia, followed by Thailand and host Philippines.”中,數(shù)據(jù)集中給出此條樣本的事件類型為“Process_end”以及“Come_together”。但此處GPT-4給出了“Comparison, Earnings_and_losses, Ranking”這三個(gè)結(jié)果。GPT-4在完成任務(wù)的過程中,確實(shí)注意到了句子中所提及“印尼在最終的獎(jiǎng)牌榜上居首,泰國和東道主菲律賓緊隨其后”中隱藏的關(guān)于排名與比較的信息,但是忽略了觸發(fā)詞final對應(yīng)的“Process_end”以及觸發(fā)詞host對應(yīng)的“Come_together”類型。我們認(rèn)為可能是因?yàn)閿?shù)據(jù)集中給出的類型在例句中不算明晰,同時(shí),一個(gè)句子中存在多個(gè)事件類型也使此類事件抽取變得更加復(fù)雜,從而導(dǎo)致抽取效果不佳。
2. One-shot
ChatGPT VS GPT-4
在One-shot的實(shí)驗(yàn)過程中,我們發(fā)現(xiàn),相較于ChatGPT,GPT-4的答案依舊保持著數(shù)量的優(yōu)勢,從而也取得了較高的正確率。如上圖,例句應(yīng)當(dāng)對應(yīng)6 種事件類型:Process_end , Catastrophe , Damaging , Name_conferral , Causation 以及GiveUp。但ChatGPT只答對了1種類型(Name_conferral),而GPT-4提供了四個(gè)符合條件的答案(Catastrophe, Damaging, Process_end, Name_conferral,)。
3. Zero-shot vs One-shot
通過對比處于Zero-shot和One-shot不同條件下兩種模型在樣本上的表現(xiàn),我們發(fā)現(xiàn),ChatGPT和GPT-4的性能都獲得了一定程度的改進(jìn)。
ChatGPT
圖. Zero-shot(上)One-shot(下)
針對同一條樣本,ChatGPT在One-shot的情況下糾正了在Zero-shot下做出“Social_event”的錯(cuò)誤判斷,改為了正確答案之一的“Competition”。
GPT-4
對比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),GPT-4在Zero-shot下無法正確識(shí)別類型的樣本,在One-shot下依舊無法正常識(shí)別,但是它會(huì)給出更多的答案,這也在一定程度上導(dǎo)致了GPT-4在樣本上的表現(xiàn)變差。如前述在本節(jié)Zero-shot分析GPT-4的樣例中,GPT-4給出了“Comparison, Earnings_and_losses, Ranking”這三個(gè)結(jié)果,而在One-shot情況下,它的事件類型變?yōu)榱宋宸N。我們推測這可能依舊與測試樣本本身的含義指向不明確有關(guān)。但不可否認(rèn)的是,GPT-4給出的答案具有著一定的合理性。
(三)SciERC
1. Zero-shot
ChatGPT VS GPT-4
從實(shí)驗(yàn)的結(jié)果來看,我們看到ChatGPT和GPT-4在SciERC數(shù)據(jù)集上的表現(xiàn)相差不大,并且GPT-4并沒有體現(xiàn)出在前述實(shí)驗(yàn)中展現(xiàn)的優(yōu)勢。這可能是因?yàn)镻rompt的設(shè)計(jì)欠佳,模型無法有效的獲取待抽取三元組的更多有效信息。但通過上圖所示的例子,我們?nèi)钥梢钥闯?,就SciERC數(shù)據(jù)集而言,雖然兩個(gè)模型的性能均較差,但相比ChatGPT,GPT-4在頭尾實(shí)體抽取方面的能力有著較為明顯的提升。
GPT-4
同時(shí),在實(shí)驗(yàn)的過程中,我們推測GPT-4在SciERC上在關(guān)系類型的理解上可能存在一定問題——在一些情況下存在頭尾實(shí)體抽取正確但是關(guān)系提供異常的情況。這或許與Prompt設(shè)計(jì)不完備以及與數(shù)據(jù)集本身的專業(yè)性強(qiáng)、復(fù)雜度高等因素有關(guān)。
在上圖中,“The result theoretically justifies the effectiveness of features in robust PCA. ”(該結(jié)果從理論上證明了穩(wěn)健PCA中特征的有效性)此句中含有的關(guān)系-實(shí)體三元組為[features, FEATURE-OF, robust PCA],但GPT-4中給出的關(guān)系類型為USED-OF。
例句“Hitherto , smooth motion has been encouraged using a trajectory basis , yielding a hard combinatorial problem with time complexity growing exponentially in the number of frames .”(迄今為止,一直鼓勵(lì)使用軌跡基礎(chǔ)的平滑運(yùn)動(dòng),產(chǎn)生了一個(gè)硬的組合問題,其時(shí)間復(fù)雜性在幀數(shù)上呈指數(shù)增長)中含有的關(guān)系-實(shí)體三元組為[time complexity, EVALUATE-FOR, hard combinatorial problem],但GPT-4給出的答案為[hard combinatorial problem, FEATURE-OF, time complexity]。
2. One-shot
ChatGPT VS GPT-4
在One-shot設(shè)置下,我們發(fā)現(xiàn)GPT-4與ChatGPT仍存在上述對關(guān)系類型區(qū)分不足的問題,在此就不作詳細(xì)展示說明。而在實(shí)驗(yàn)中GPT-4性能較差的原因可能是“在錯(cuò)誤的方向上做出了更多的努力”。如上圖所示,在相同的測試樣本上,GPT-4雖然給出了比ChatGPT更完備的答案,卻并沒有“答對”。我們認(rèn)為這也可能和評價(jià)指標(biāo)的選取有關(guān),一個(gè)更加完備的評價(jià)指標(biāo)可能更加適合大模型對此類任務(wù)的評測。
3. Zero-shot vs One-shot
在One-shot設(shè)置下,我們發(fā)現(xiàn)ChatGPT與GPT-4給出答案的規(guī)范性得到了明顯的提高。
ChatGPT
?
圖. Zero-shot(左)One-shot(右)
如上圖,One-shot的設(shè)置可以在一定程度上提高ChatGPT抽取時(shí)答案的凝練精簡程度。但答案數(shù)目的減少也會(huì)造成有效答案的缺失。
GPT-4
而One-shot帶給GPT-4的變化則不甚明顯,我們推測是由于單個(gè)訓(xùn)練樣本的引入不足以彌補(bǔ)GPT-4對于SciERC這個(gè)數(shù)據(jù)集認(rèn)知的缺失。這可能是由數(shù)據(jù)集本身所決定的,因此如果想要進(jìn)一步的提高GPT-4在該數(shù)據(jù)集上的效果,可以考慮引入多個(gè)示例樣本等方式來擴(kuò)大訓(xùn)練樣本的集合。
(四) RE-TACRED
1. Zero--shot
ChatGPT VS GPT-4
在例句“The two projects -- a trachoma prevention plan and a cooking oil plan -- are jointly organized by the New York-based Helen Keller International -LRB- HKI -RRB- , the United Nations Children 's Fund and the World Health Organization , the spokesman said , adding that the HKI will implement the two programs using funds donated by Taiwan . ”(發(fā)言人說,這兩個(gè)項(xiàng)目--沙眼預(yù)防計(jì)劃和食用油計(jì)劃--是由總部設(shè)在紐約的海倫-凱勒國際組織、聯(lián)合國兒童基金會(huì)和世界衛(wèi)生組織聯(lián)合舉辦的,并補(bǔ)充說,香港國際組織將利用臺(tái)灣捐贈(zèng)的資金實(shí)施這兩個(gè)項(xiàng)目)中,[Helen Keller International, org:alternate_names, HKI],為句子中所關(guān)注的三元組,但可能由于此項(xiàng)例子中頭尾實(shí)體距離較近且謂詞不明晰,ChatGPT并沒有將此類關(guān)系抽取出。而相反,GPT-4則補(bǔ)全了頭尾實(shí)體之間的"org:alternate_names "并成功抽取出了三元組。這也在一定程度上表明了GPT-4語言理解(閱讀)能力方面相對于ChatGPT的提升。
GPT-4
同時(shí),我們也在RE-TACRED數(shù)據(jù)集上的實(shí)驗(yàn)中發(fā)現(xiàn),GPT-4在有關(guān)復(fù)雜句式的三元組識(shí)別中表現(xiàn)欠佳。如上圖,例句“The footprint was found on a bathroom rug in the house in Perugia , central Italy , where Meredith Kercher was killed in November 2007 .”中存在的關(guān)系三元組應(yīng)為:[Meredith Kercher, per:country_of_death, Italy],但GPT-4無法成功抽取出Meredith Kercher與Italy的關(guān)系country_of_death。這部分實(shí)驗(yàn)結(jié)果很大一部分受輸入的Prompt影響,我們認(rèn)為如果在Prompt中引入待抽取頭尾實(shí)體的類型,那么此類誤判則大部分可以得到規(guī)避。
2. One-shot
ChatGPT VS GPT-4
在Re-TACRED數(shù)據(jù)集的實(shí)驗(yàn)中,ChatGPT和GPT-4在測試樣本上得到正確三元組的數(shù)目相差不多,但與SciERC中實(shí)驗(yàn)不同的是,ChatGPT和 GPT-4在性能上的差異主要來自于ChatGPT給出預(yù)測結(jié)果數(shù)量上的增多。具體情況將在下一部分說明。
3. Zero-shot vs One-shot
ChatGPT
圖. Zero-shot(上)One-shot(下)
在實(shí)驗(yàn)過程中,我們注意到ChatGPT在One-shot上給出的答案普遍比Zero-shot多,如圖中的例子,Zero-shot條件下給的答案數(shù)是3條,而One-shot則給出了27條答案(圖中已省略)。所以雖然在答對數(shù)目變多的情況下,One-shot的性能仍比Zero-shot低,這可能是與數(shù)據(jù)集本身的難易程度有關(guān)。同時(shí)我們也認(rèn)為未來可以在Prompt的設(shè)計(jì)上進(jìn)行研究,這可能會(huì)使模型在數(shù)據(jù)集上的性能得到進(jìn)一步提升。
GPT-4
在One-shot設(shè)置下,我們發(fā)現(xiàn),GPT-4成功抽取出了前述例句 “The footprint was found on a bathroom rug in the house in Perugia , central Italy , where Meredith Kercher was killed in November 2007 .”中的三元組[Meredith Kercher, per:country_of_death, Italy]。這可能也在一定程度上說明單訓(xùn)練樣本的加入確實(shí)幫助GPT-4獲取到更多有效信息,從而得以解決Zero-shot中存在的問題。
總的來說,GPT-4的強(qiáng)大抽取能力可以顯著降低知識(shí)圖譜構(gòu)建的成本,進(jìn)而提高知識(shí)圖譜分析應(yīng)用的效率。那么GPT-4強(qiáng)大的抽取能力是因?yàn)槠湟娺^海量的實(shí)體、關(guān)系知識(shí),還是其本身因指令學(xué)習(xí)[11]和人類反饋而具備極強(qiáng)的泛化能力呢?我們進(jìn)一步進(jìn)行了未見知識(shí)抽取的泛化能力分析。
四、未見知識(shí)抽取的泛化能力分析
我們設(shè)計(jì)了一種虛擬知識(shí)抽取評測來分析未見知識(shí)的抽取泛化能力,通過使用隨機(jī)數(shù)的方式構(gòu)建虛擬實(shí)體知識(shí)(GPT-4的數(shù)據(jù)截止到2021年9月),并構(gòu)建了自然界不存在的實(shí)體類型和關(guān)系類型組成知識(shí)三元組,通過指令告訴模型抽取該類型知識(shí),以檢驗(yàn)知識(shí)抽取的泛化能力。我們對隨機(jī)的10個(gè)句子進(jìn)行了實(shí)體、關(guān)系抽取評估,發(fā)現(xiàn)ChatGPT不具備對虛擬知識(shí)的抽取能力,而GPT-4能夠準(zhǔn)確根據(jù)指令抽取完全沒有見過的實(shí)體和關(guān)系知識(shí)。因此,我們可以初步得出結(jié)論,GPT-4在一定程度上具備較強(qiáng)的泛化能力,可以通過指令快速具備新知識(shí)的抽取能力而非記憶了相關(guān)的知識(shí)(相關(guān)工作[12]已實(shí)證發(fā)現(xiàn)大模型具備極強(qiáng)的指令泛化能力)。
虛擬實(shí)體抽取
虛擬關(guān)系抽取
如上圖所示,在給予一定的虛擬知識(shí)的時(shí)候,GPT-4能夠在大部分情況下完成對于虛擬實(shí)體及關(guān)系的抽?。ㄗⅲ?0次實(shí)驗(yàn)中僅有兩次無法完成抽取任務(wù))。如上圖的虛擬實(shí)體抽取任務(wù)中,我們給GPT-4一些虛擬實(shí)體及相應(yīng)虛擬類型如(“macccocha”,“OO”)、(“zaeenprvk”,“OO”),它能夠完成對句子中“kffitubuw”這一虛擬實(shí)體的識(shí)別。與此同時(shí),在上圖對應(yīng)的虛擬關(guān)系抽取任務(wù)中,我們提供了虛擬關(guān)系類型和虛擬頭尾實(shí)體形成的三元組(“emvhes”,“Jancshrg”,“azqca”)等信息,也指定了頭尾實(shí)體的虛擬類型“SKZ”,以及需要提取的關(guān)系類型“Jancshrg”,從結(jié)果來看,在給定相關(guān)信息的情況下,GPT-4也能完成對虛擬三元組的抽取。
五、大模型時(shí)代知識(shí)圖譜構(gòu)建的思路
鑒于大模型強(qiáng)大的可泛化抽取和大量的“參數(shù)知識(shí)”存儲(chǔ)能力,我們簡單測試了直接通過輸入指令(GPT-4)和一小段文本構(gòu)建知識(shí)圖譜。
如圖所示,我們發(fā)現(xiàn)GPT-4不僅精準(zhǔn)地抽取了輸入文本的中的事實(shí)知識(shí),還生成和補(bǔ)全了一些不存在于文本中的知識(shí)(如:發(fā)行時(shí)間、演員等),也就是大模型GPT-4根據(jù)參數(shù)空間習(xí)得的知識(shí)腦補(bǔ)事實(shí)(經(jīng)檢查大部分都是正確的),進(jìn)而構(gòu)建了一個(gè)信息更豐富的知識(shí)圖譜。也就是說,基于合適的輸入指令,我們可以基于大模型(如通過EasyInstruct [13]等工具),同時(shí)從文本語料和參數(shù)空間抽取知識(shí),構(gòu)建更加精準(zhǔn)、完備、個(gè)性化的知識(shí)圖譜。
六、總結(jié)
本文對基于大模型的一部分知識(shí)圖譜構(gòu)建任務(wù)進(jìn)行了評估,通過實(shí)驗(yàn)發(fā)現(xiàn):
1. GPT-4在學(xué)術(shù)標(biāo)準(zhǔn)數(shù)據(jù)集上測試性能雖然仍弱于全監(jiān)督小模型(該結(jié)果為初步探究,仍需通過更大規(guī)模數(shù)據(jù)集及更完備評估方式驗(yàn)證),但其具備較強(qiáng)的泛化能力,可以抽取新的和較為復(fù)雜的知識(shí),且可以通過文本指令的優(yōu)化不斷提高性能,這給快速構(gòu)建領(lǐng)域知識(shí)圖譜帶來了福音。
2. GPT-4可能在一定程度上并非依靠記憶實(shí)現(xiàn)知識(shí)抽取,而是通過指令學(xué)習(xí)和人類反饋具備了較強(qiáng)的可泛化知識(shí)抽取能力。
3. 基于大模型指令可以同時(shí)從文本語料和參數(shù)空間抽取知識(shí),進(jìn)而提供了大模型時(shí)代構(gòu)建知識(shí)圖譜的新思路,可以降低知識(shí)圖譜構(gòu)建成本,也為通過知識(shí)圖譜增強(qiáng)大模型(如結(jié)合Llama-Index等檢索增強(qiáng)工具)提供了便利。
4. 由于GPT-4的多模態(tài)接口目前未開放,因此本文未評測多模態(tài)知識(shí)抽取,但GPT-4給少樣本多模態(tài)知識(shí)抽取與推理帶來了新的機(jī)遇與挑戰(zhàn)。
參考文獻(xiàn):
[1] Reasoning with Language Model Prompting: A Survey 2022
[2] Zero-Shot Information Extraction via Chatting with ChatGPT 2023
[3] Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! 2023
[4] Exploring the Feasibility of ChatGPT for Event Extraction 2023
[5] DuIE: A large-scale chinese dataset for information extraction NLPCC2019
[6] Re-tacred: Addressing shortcomings of the tacred dataset AAAI2021
[7] MAVEN: A Massive General Domain Event Detection Dataset EMNLP2020
[8] Multi-Task Identification of Entities, Relations, and Coreferencefor Scientific Knowledge Graph Construction EMNLP2018
[9] A Survey for In-context Learning 2022
[10] Code4Struct: Code Generation for Few-Shot Structured Prediction from Natural Language 2022
[11] Training language models to follow instructions with human feedback NeurIPS2022
[12] Larger Language Models Do In-Context Learning Differently
[13] https://github.com/zjunlp/EasyInstruct
OpenKG
OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。文章來源:http://www.zghlxwxcb.cn/news/detail-608468.html
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
文章來源地址http://www.zghlxwxcb.cn/news/detail-608468.html
到了這里,關(guān)于技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!