国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測

這篇具有很好參考價(jià)值的文章主要介紹了技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、摘要

知識(shí)圖譜是一種用圖模型來描述知識(shí)和建模世界萬物之間關(guān)聯(lián)關(guān)系的大規(guī)模語義網(wǎng)絡(luò),是大數(shù)據(jù)時(shí)代知識(shí)表示的重要方式之一。而大型語言模型,如OpenAI發(fā)布的GPT-4 ,通過在大量文本等數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,展示出了極其強(qiáng)大的通識(shí)知識(shí)和問題解決能力[1][2][3][4]。知識(shí)圖譜可以為大型語言模型提供精準(zhǔn)的結(jié)構(gòu)化的知識(shí),助力和改善模型的推理效果和生成質(zhì)量,并提供對知識(shí)的精準(zhǔn)操作和分析能力。

目前,諸多領(lǐng)域仍缺乏足夠精準(zhǔn)和完備的知識(shí)圖譜,那么GPT-4等大模型是否能為高效知識(shí)圖譜構(gòu)建帶來便利?我們對GPT-4的知識(shí)抽取能力進(jìn)行了分析,探究的主要內(nèi)容有:

1.?GPT-4對不同類型知識(shí)如事實(shí)、事件及不同領(lǐng)域如通用、垂直知識(shí)的抽取能力分析

2. GPT-4 和ChatGPT抽取能力對比及錯(cuò)誤案例分析

3. GPT-4抽取未見知識(shí)的泛化能力分析

4. 展望大模型時(shí)代知識(shí)圖譜構(gòu)建的新思路

二、知識(shí)抽取能力分析

因還未申請到GPT-4的API,我們基于ChatGPT-plus的交互式界面并通過隨機(jī)采樣測試集/驗(yàn)證集樣本的方式,評測了GPT-4在實(shí)體、關(guān)系、事件等知識(shí)上的Zero-shot以及One-shot抽取能力,并和ChatGPT及全監(jiān)督基線模型的結(jié)果進(jìn)行了對比。我們選取了DuIE2.0[5]、RE-TACRED[6]、MAVEN[7]以及SciERC[8]作為本次實(shí)驗(yàn)的數(shù)據(jù)集。因?yàn)椴糠謹(jǐn)?shù)據(jù)集并未提供實(shí)體類型,所以我們在指令提示(Prompt)中統(tǒng)一設(shè)置為只提供待抽取的關(guān)系/事件類型,且不顯式指定待抽取的實(shí)體類型。

通過隨機(jī)采樣測試,我們發(fā)現(xiàn),無論在Zero-shot還是One-shot的情況下,GPT-4在多個(gè)學(xué)術(shù)基準(zhǔn)抽取數(shù)據(jù)集上均取得了相對較好的性能,且比ChatGPT取得了一定程度的進(jìn)步。同時(shí),One-shot的引入也使模型在Zero-shot上的性能得到了進(jìn)一步提升。這在一定程度上說明了GPT-4具備著對不同類型、不同領(lǐng)域知識(shí)的抽取能力。然而,我們也發(fā)現(xiàn)目前GPT-4仍不如全監(jiān)督小模型。這也與前人的相關(guān)工作發(fā)現(xiàn)一致[2][4]。特別注意的是,該結(jié)果為隨機(jī)采樣測試集并通過交互界面(非API)測試結(jié)果,可能會(huì)受到測試集數(shù)據(jù)分布和采樣樣本的影響。

此外,提示的設(shè)計(jì)和數(shù)據(jù)集本身的復(fù)雜程度也對本次實(shí)驗(yàn)的結(jié)果有較大的影響。具體地,我們發(fā)現(xiàn)在四種數(shù)據(jù)集上ChatGPT和GPT-4評估結(jié)果可能受到如下幾種原因的影響:

  • 數(shù)據(jù)集:存在噪音且部分?jǐn)?shù)據(jù)集類型不夠明晰(如未提供頭尾實(shí)體類型、語境復(fù)雜等)

  • 指令提示(Prompt):語義不夠豐富的指令會(huì)影響抽取性能(如加入相關(guān)樣本In-Context Learning[9]可以提升性能;Code4Struct[10]發(fā)現(xiàn)基于代碼結(jié)構(gòu)可促進(jìn)結(jié)構(gòu)化信息抽?。?。需要指出的是,由于部分?jǐn)?shù)據(jù)集存在無頭尾實(shí)體類型的情況,此處為了橫向公平對比不同模型在數(shù)據(jù)集上的能力,實(shí)驗(yàn)在提示指令中并未指明抽取的實(shí)體類型,這也會(huì)在一定程度上影響實(shí)驗(yàn)的結(jié)果。

  • 評估方式:現(xiàn)有的評估方式可能不太適用于大模型如ChatGPT與GPT-4抽取能力的評估。如數(shù)據(jù)集中所給標(biāo)簽并未完全覆蓋正確答案,部分超出答案的結(jié)果仍可能是正確的(存在同義詞等)。

具體內(nèi)容我們將在下一章節(jié)進(jìn)行詳細(xì)分析。

三、能力對比與錯(cuò)誤案例分析

我們進(jìn)一步針對選取的四個(gè)數(shù)據(jù)集中的部分案例進(jìn)行了分析(由于實(shí)驗(yàn)中使用的Prompt較長,在這里只展示部分重要信息)。

(一) DuIE2.0

1. Zero-shot

  • ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在SPO三元組的抽取過程中,我們注意到在使用相同的Prompt的情況下,GPT-4更能理解Prompt所提供的指令并理解待抽取樣本的上下文信息,執(zhí)行符合條件的三元組抽取。如圖所示,ChatGPT雖然能夠理解句子的大意,給出[作者,是 , 岑葉明]的結(jié)果,但與答案[昔年一起走過的路 , 作者 , 岑葉明]仍存在較大差距。相較于GPT-4在此條樣本上的表現(xiàn),ChatGPT在謂詞的抽取上以及主語賓語的選擇上顯得不夠精煉準(zhǔn)確。

  • ?GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在上圖中,我們讓GPT-4完成對句子“然而近日,網(wǎng)友通過不少陳年舊照發(fā)現(xiàn),張小斐其實(shí)并非喜劇曲藝出身,而是畢業(yè)于2005屆北京電影學(xué)院的表演系本科專業(yè),與現(xiàn)今大紅大紫的內(nèi)地花旦楊冪、袁姍姍等曾同窗為友,怪不得每次出場氣質(zhì)逼人”的三元組抽取。數(shù)據(jù)集中給出的正確答案為[楊冪 , 畢業(yè)院校 , 北京電影學(xué)院]、[楊冪 , 畢業(yè)院校 , 2005屆北京電影學(xué)院?]。由圖可知,GPT-4并沒有成功抽取出這兩組信息。究其原因可能是數(shù)據(jù)集本身的信息指向性不夠明確,導(dǎo)致GPT-4所關(guān)注的信息產(chǎn)生偏差。但只關(guān)注GPT-4本身給出的答案,我們?nèi)钥梢栽谝欢ǔ潭壬险J(rèn)為GPT-4在三元組抽取上具有不錯(cuò)的表現(xiàn)。

2. One-shot

  • ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

與Zero-shot的情況類似,One-shot實(shí)驗(yàn)條件下,GPT-4所給出的結(jié)果與ChatGPT相比都更為完善。同時(shí)GPT-4也注意到了更多的信息。如圖所示,例句“國家隊(duì)生涯喬治·威爾康姆在2008年入選洪都拉斯國家隊(duì),他隨隊(duì)參加了2009年中北美及加勒比海地區(qū)金杯賽”中,對應(yīng)的三元組應(yīng)為[喬治·威爾康姆 , 國籍 , 洪都拉斯],此條信息并沒有在文本中提及,卻被GPT-4成功抽取出。我們也傾向于認(rèn)為這是GPT-4知識(shí)儲(chǔ)備豐富的帶來的結(jié)果。(如從喬治·威爾康姆入選國家隊(duì)的事實(shí)中推斷出他的國籍)

3. Zero-shot vs One-shot

ChatGPT和GPT-4的性能均在One-shot設(shè)置下得到了提升,而ChatGPT的增幅尤為明顯。

  • ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot(上)One-shot(下)

針對同一條樣本,ChatGPT在One-shot的情況下的結(jié)果更為準(zhǔn)確(樣本對應(yīng)的答案為[史奎英 , 丈夫 , 蔣潔敏]、[蔣潔敏 , 妻子 , 史奎英]、[中石油 , 董事長 , 蔣潔敏]),同時(shí)ChatGPT給出答案的模式也更符合Prompt的要求

  • GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot(上)One-shot(下)

如圖,此例句對應(yīng)的三元組應(yīng)為[劉愷威, 妻子, 楊冪], [楊冪, 丈夫, 劉愷威],示例樣本的引入,使得GPT-4能夠更好的完成關(guān)系的抽取,給出更符合語義的答案。

(二)MAVEN

1. Zero-shot

  • ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在例句“Now an established member of the line-up, he agreed to sing it more often.”中ChatGPT得到的結(jié)果是Becoming_a_member,而GPT-4得到Becoming_a_member, Agree_or_refuse_to_act, Performing,三種事件類型。由結(jié)果可知,與ChatGPT相比,GPT-4提供的信息更為完整,除了關(guān)注到member 這個(gè)詞之外,GPT-4也關(guān)注到了agree觸發(fā)詞得到了“Agree_or_refuse_to_act”這一事件類型。同時(shí)值得說明的是,在本次實(shí)驗(yàn)中,我們發(fā)現(xiàn)ChatGPT給出的答案往往只有一種事件類型,而GPT-4獲取上下文信息的能力更強(qiáng),得到的答案更具多樣性,故而在MAVEN數(shù)據(jù)集中的效果更好(MAVEN數(shù)據(jù)集本身包含的句子可能存在一種或多種關(guān)系)。

  • GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在這項(xiàng)抽取任務(wù)中的例句:“The final medal tally was led by Indonesia, followed by Thailand and host Philippines.”中,數(shù)據(jù)集中給出此條樣本的事件類型為“Process_end”以及“Come_together”。但此處GPT-4給出了“Comparison, Earnings_and_losses, Ranking”這三個(gè)結(jié)果。GPT-4在完成任務(wù)的過程中,確實(shí)注意到了句子中所提及“印尼在最終的獎(jiǎng)牌榜上居首,泰國和東道主菲律賓緊隨其后”中隱藏的關(guān)于排名與比較的信息,但是忽略了觸發(fā)詞final對應(yīng)的“Process_end”以及觸發(fā)詞host對應(yīng)的“Come_together”類型。我們認(rèn)為可能是因?yàn)閿?shù)據(jù)集中給出的類型在例句中不算明晰,同時(shí),一個(gè)句子中存在多個(gè)事件類型也使此類事件抽取變得更加復(fù)雜,從而導(dǎo)致抽取效果不佳。

2. One-shot

  • ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在One-shot的實(shí)驗(yàn)過程中,我們發(fā)現(xiàn),相較于ChatGPT,GPT-4的答案依舊保持著數(shù)量的優(yōu)勢,從而也取得了較高的正確率。如上圖,例句應(yīng)當(dāng)對應(yīng)6 種事件類型:Process_end , Catastrophe , Damaging , Name_conferral , Causation 以及GiveUp。但ChatGPT只答對了1種類型(Name_conferral),而GPT-4提供了四個(gè)符合條件的答案(Catastrophe, Damaging, Process_end, Name_conferral,)。

3. Zero-shot vs One-shot

通過對比處于Zero-shot和One-shot不同條件下兩種模型在樣本上的表現(xiàn),我們發(fā)現(xiàn),ChatGPT和GPT-4的性能都獲得了一定程度的改進(jìn)。

  • ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot(上)One-shot(下)

針對同一條樣本,ChatGPT在One-shot的情況下糾正了在Zero-shot下做出“Social_event”的錯(cuò)誤判斷,改為了正確答案之一的“Competition”。

  • GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

對比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),GPT-4在Zero-shot下無法正確識(shí)別類型的樣本,在One-shot下依舊無法正常識(shí)別,但是它會(huì)給出更多的答案,這也在一定程度上導(dǎo)致了GPT-4在樣本上的表現(xiàn)變差。如前述在本節(jié)Zero-shot分析GPT-4的樣例中,GPT-4給出了“Comparison, Earnings_and_losses, Ranking”這三個(gè)結(jié)果,而在One-shot情況下,它的事件類型變?yōu)榱宋宸N。我們推測這可能依舊與測試樣本本身的含義指向不明確有關(guān)。但不可否認(rèn)的是,GPT-4給出的答案具有著一定的合理性。

(三)SciERC

1. Zero-shot

  • ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

從實(shí)驗(yàn)的結(jié)果來看,我們看到ChatGPT和GPT-4在SciERC數(shù)據(jù)集上的表現(xiàn)相差不大,并且GPT-4并沒有體現(xiàn)出在前述實(shí)驗(yàn)中展現(xiàn)的優(yōu)勢。這可能是因?yàn)镻rompt的設(shè)計(jì)欠佳,模型無法有效的獲取待抽取三元組的更多有效信息。但通過上圖所示的例子,我們?nèi)钥梢钥闯?,就SciERC數(shù)據(jù)集而言,雖然兩個(gè)模型的性能均較差,但相比ChatGPT,GPT-4在頭尾實(shí)體抽取方面的能力有著較為明顯的提升。

  • GPT-4

同時(shí),在實(shí)驗(yàn)的過程中,我們推測GPT-4在SciERC上在關(guān)系類型的理解上可能存在一定問題——在一些情況下存在頭尾實(shí)體抽取正確但是關(guān)系提供異常的情況。這或許與Prompt設(shè)計(jì)不完備以及與數(shù)據(jù)集本身的專業(yè)性強(qiáng)、復(fù)雜度高等因素有關(guān)。

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在上圖中,“The result theoretically justifies the effectiveness of features in robust PCA. ”(該結(jié)果從理論上證明了穩(wěn)健PCA中特征的有效性)此句中含有的關(guān)系-實(shí)體三元組為[features, FEATURE-OF, robust PCA],但GPT-4中給出的關(guān)系類型為USED-OF

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

例句“Hitherto , smooth motion has been encouraged using a trajectory basis , yielding a hard combinatorial problem with time complexity growing exponentially in the number of frames .”(迄今為止,一直鼓勵(lì)使用軌跡基礎(chǔ)的平滑運(yùn)動(dòng),產(chǎn)生了一個(gè)硬的組合問題,其時(shí)間復(fù)雜性在幀數(shù)上呈指數(shù)增長)中含有的關(guān)系-實(shí)體三元組為[time complexity, EVALUATE-FOR, hard combinatorial problem],但GPT-4給出的答案為[hard combinatorial problem, FEATURE-OF, time complexity]

2. One-shot

  • ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在One-shot設(shè)置下,我們發(fā)現(xiàn)GPT-4與ChatGPT仍存在上述對關(guān)系類型區(qū)分不足的問題,在此就不作詳細(xì)展示說明。而在實(shí)驗(yàn)中GPT-4性能較差的原因可能是“在錯(cuò)誤的方向上做出了更多的努力”。如上圖所示,在相同的測試樣本上,GPT-4雖然給出了比ChatGPT更完備的答案,卻并沒有“答對”。我們認(rèn)為這也可能和評價(jià)指標(biāo)的選取有關(guān),一個(gè)更加完備的評價(jià)指標(biāo)可能更加適合大模型對此類任務(wù)的評測。

3. Zero-shot vs One-shot

在One-shot設(shè)置下,我們發(fā)現(xiàn)ChatGPT與GPT-4給出答案的規(guī)范性得到了明顯的提高。

  • ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能?技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot(左)One-shot(右)

如上圖,One-shot的設(shè)置可以在一定程度上提高ChatGPT抽取時(shí)答案的凝練精簡程度。但答案數(shù)目的減少也會(huì)造成有效答案的缺失。

  • GPT-4

而One-shot帶給GPT-4的變化則不甚明顯,我們推測是由于單個(gè)訓(xùn)練樣本的引入不足以彌補(bǔ)GPT-4對于SciERC這個(gè)數(shù)據(jù)集認(rèn)知的缺失。這可能是由數(shù)據(jù)集本身所決定的,因此如果想要進(jìn)一步的提高GPT-4在該數(shù)據(jù)集上的效果,可以考慮引入多個(gè)示例樣本等方式來擴(kuò)大訓(xùn)練樣本的集合。

(四) RE-TACRED

1. Zero--shot

  • ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在例句“The two projects -- a trachoma prevention plan and a cooking oil plan -- are jointly organized by the New York-based Helen Keller International -LRB- HKI -RRB- , the United Nations Children 's Fund and the World Health Organization , the spokesman said , adding that the HKI will implement the two programs using funds donated by Taiwan . ”(發(fā)言人說,這兩個(gè)項(xiàng)目--沙眼預(yù)防計(jì)劃和食用油計(jì)劃--是由總部設(shè)在紐約的海倫-凱勒國際組織、聯(lián)合國兒童基金會(huì)和世界衛(wèi)生組織聯(lián)合舉辦的,并補(bǔ)充說,香港國際組織將利用臺(tái)灣捐贈(zèng)的資金實(shí)施這兩個(gè)項(xiàng)目)中,[Helen Keller International, org:alternate_names, HKI],為句子中所關(guān)注的三元組,但可能由于此項(xiàng)例子中頭尾實(shí)體距離較近且謂詞不明晰,ChatGPT并沒有將此類關(guān)系抽取出。而相反,GPT-4則補(bǔ)全了頭尾實(shí)體之間的"org:alternate_names "并成功抽取出了三元組。這也在一定程度上表明了GPT-4語言理解(閱讀)能力方面相對于ChatGPT的提升。

  • GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

同時(shí),我們也在RE-TACRED數(shù)據(jù)集上的實(shí)驗(yàn)中發(fā)現(xiàn),GPT-4在有關(guān)復(fù)雜句式的三元組識(shí)別中表現(xiàn)欠佳。如上圖,例句“The footprint was found on a bathroom rug in the house in Perugia , central Italy , where Meredith Kercher was killed in November 2007 .”中存在的關(guān)系三元組應(yīng)為:[Meredith Kercher, per:country_of_death, Italy],但GPT-4無法成功抽取出Meredith Kercher與Italy的關(guān)系country_of_death。這部分實(shí)驗(yàn)結(jié)果很大一部分受輸入的Prompt影響,我們認(rèn)為如果在Prompt中引入待抽取頭尾實(shí)體的類型,那么此類誤判則大部分可以得到規(guī)避。

2. One-shot

  • ChatGPT VS GPT-4

在Re-TACRED數(shù)據(jù)集的實(shí)驗(yàn)中,ChatGPT和GPT-4在測試樣本上得到正確三元組的數(shù)目相差不多,但與SciERC中實(shí)驗(yàn)不同的是,ChatGPT和 GPT-4在性能上的差異主要來自于ChatGPT給出預(yù)測結(jié)果數(shù)量上的增多。具體情況將在下一部分說明。

3. Zero-shot vs One-shot

  • ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot(上)One-shot(下)

在實(shí)驗(yàn)過程中,我們注意到ChatGPT在One-shot上給出的答案普遍比Zero-shot多,如圖中的例子,Zero-shot條件下給的答案數(shù)是3條,而One-shot則給出了27條答案(圖中已省略)。所以雖然在答對數(shù)目變多的情況下,One-shot的性能仍比Zero-shot低,這可能是與數(shù)據(jù)集本身的難易程度有關(guān)。同時(shí)我們也認(rèn)為未來可以在Prompt的設(shè)計(jì)上進(jìn)行研究,這可能會(huì)使模型在數(shù)據(jù)集上的性能得到進(jìn)一步提升。

  • GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在One-shot設(shè)置下,我們發(fā)現(xiàn),GPT-4成功抽取出了前述例句 “The footprint was found on a bathroom rug in the house in Perugia , central Italy , where Meredith Kercher was killed in November 2007 .”中的三元組[Meredith Kercher, per:country_of_death, Italy]。這可能也在一定程度上說明單訓(xùn)練樣本的加入確實(shí)幫助GPT-4獲取到更多有效信息,從而得以解決Zero-shot中存在的問題。

總的來說,GPT-4的強(qiáng)大抽取能力可以顯著降低知識(shí)圖譜構(gòu)建的成本,進(jìn)而提高知識(shí)圖譜分析應(yīng)用的效率。那么GPT-4強(qiáng)大的抽取能力是因?yàn)槠湟娺^海量的實(shí)體、關(guān)系知識(shí),還是其本身因指令學(xué)習(xí)[11]和人類反饋而具備極強(qiáng)的泛化能力呢?我們進(jìn)一步進(jìn)行了未見知識(shí)抽取的泛化能力分析。

四、未見知識(shí)抽取的泛化能力分析

我們設(shè)計(jì)了一種虛擬知識(shí)抽取評測來分析未見知識(shí)的抽取泛化能力,通過使用隨機(jī)數(shù)的方式構(gòu)建虛擬實(shí)體知識(shí)(GPT-4的數(shù)據(jù)截止到2021年9月),并構(gòu)建了自然界不存在的實(shí)體類型和關(guān)系類型組成知識(shí)三元組,通過指令告訴模型抽取該類型知識(shí),以檢驗(yàn)知識(shí)抽取的泛化能力。我們對隨機(jī)的10個(gè)句子進(jìn)行了實(shí)體、關(guān)系抽取評估,發(fā)現(xiàn)ChatGPT不具備對虛擬知識(shí)的抽取能力,而GPT-4能夠準(zhǔn)確根據(jù)指令抽取完全沒有見過的實(shí)體和關(guān)系知識(shí)。因此,我們可以初步得出結(jié)論,GPT-4在一定程度上具備較強(qiáng)的泛化能力,可以通過指令快速具備新知識(shí)的抽取能力而非記憶了相關(guān)的知識(shí)(相關(guān)工作[12]已實(shí)證發(fā)現(xiàn)大模型具備極強(qiáng)的指令泛化能力)。

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

虛擬實(shí)體抽取

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

虛擬關(guān)系抽取

如上圖所示,在給予一定的虛擬知識(shí)的時(shí)候,GPT-4能夠在大部分情況下完成對于虛擬實(shí)體及關(guān)系的抽?。ㄗⅲ?0次實(shí)驗(yàn)中僅有兩次無法完成抽取任務(wù))。如上圖的虛擬實(shí)體抽取任務(wù)中,我們給GPT-4一些虛擬實(shí)體及相應(yīng)虛擬類型如(“macccocha”,“OO”)、(“zaeenprvk”,“OO”),它能夠完成對句子中“kffitubuw”這一虛擬實(shí)體的識(shí)別。與此同時(shí),在上圖對應(yīng)的虛擬關(guān)系抽取任務(wù)中,我們提供了虛擬關(guān)系類型和虛擬頭尾實(shí)體形成的三元組(“emvhes”,“Jancshrg”,“azqca”)等信息,也指定了頭尾實(shí)體的虛擬類型“SKZ”,以及需要提取的關(guān)系類型“Jancshrg”,從結(jié)果來看,在給定相關(guān)信息的情況下,GPT-4也能完成對虛擬三元組的抽取。

五、大模型時(shí)代知識(shí)圖譜構(gòu)建的思路

鑒于大模型強(qiáng)大的可泛化抽取和大量的“參數(shù)知識(shí)”存儲(chǔ)能力,我們簡單測試了直接通過輸入指令(GPT-4)和一小段文本構(gòu)建知識(shí)圖譜。

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

如圖所示,我們發(fā)現(xiàn)GPT-4不僅精準(zhǔn)地抽取了輸入文本的中的事實(shí)知識(shí),還生成和補(bǔ)全了一些不存在于文本中的知識(shí)(如:發(fā)行時(shí)間、演員等),也就是大模型GPT-4根據(jù)參數(shù)空間習(xí)得的知識(shí)腦補(bǔ)事實(shí)(經(jīng)檢查大部分都是正確的),進(jìn)而構(gòu)建了一個(gè)信息更豐富的知識(shí)圖譜。也就是說,基于合適的輸入指令,我們可以基于大模型(如通過EasyInstruct [13]等工具),同時(shí)從文本語料和參數(shù)空間抽取知識(shí),構(gòu)建更加精準(zhǔn)、完備、個(gè)性化的知識(shí)圖譜。

六、總結(jié)

本文對基于大模型的一部分知識(shí)圖譜構(gòu)建任務(wù)進(jìn)行了評估,通過實(shí)驗(yàn)發(fā)現(xiàn):

1. GPT-4在學(xué)術(shù)標(biāo)準(zhǔn)數(shù)據(jù)集上測試性能雖然仍弱于全監(jiān)督小模型(該結(jié)果為初步探究,仍需通過更大規(guī)模數(shù)據(jù)集及更完備評估方式驗(yàn)證),但其具備較強(qiáng)的泛化能力,可以抽取新的和較為復(fù)雜的知識(shí),且可以通過文本指令的優(yōu)化不斷提高性能,這給快速構(gòu)建領(lǐng)域知識(shí)圖譜帶來了福音。

2. GPT-4可能在一定程度上并非依靠記憶實(shí)現(xiàn)知識(shí)抽取,而是通過指令學(xué)習(xí)和人類反饋具備了較強(qiáng)的可泛化知識(shí)抽取能力。

3. 基于大模型指令可以同時(shí)從文本語料和參數(shù)空間抽取知識(shí),進(jìn)而提供了大模型時(shí)代構(gòu)建知識(shí)圖譜的新思路,可以降低知識(shí)圖譜構(gòu)建成本,也為通過知識(shí)圖譜增強(qiáng)大模型(如結(jié)合Llama-Index等檢索增強(qiáng)工具)提供了便利。

4. 由于GPT-4的多模態(tài)接口目前未開放,因此本文未評測多模態(tài)知識(shí)抽取,但GPT-4給少樣本多模態(tài)知識(shí)抽取與推理帶來了新的機(jī)遇與挑戰(zhàn)。

參考文獻(xiàn):

[1] Reasoning with Language Model Prompting: A Survey 2022

[2] Zero-Shot Information Extraction via Chatting with ChatGPT 2023

[3] Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! 2023

[4] Exploring the Feasibility of ChatGPT for Event Extraction 2023

[5] DuIE: A large-scale chinese dataset for information extraction NLPCC2019

[6] Re-tacred: Addressing shortcomings of the tacred dataset AAAI2021

[7] MAVEN: A Massive General Domain Event Detection Dataset EMNLP2020

[8] Multi-Task Identification of Entities, Relations, and Coreferencefor Scientific Knowledge Graph Construction EMNLP2018

[9] A Survey for In-context Learning 2022

[10] Code4Struct: Code Generation for Few-Shot Structured Prediction from Natural Language 2022

[11] Training language models to follow instructions with human feedback NeurIPS2022

[12] Larger Language Models Do In-Context Learning Differently
[13] https://github.com/zjunlp/EasyInstruct


OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
文章來源地址http://www.zghlxwxcb.cn/news/detail-608468.html

到了這里,關(guān)于技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 知識(shí)圖譜實(shí)戰(zhàn)應(yīng)用9-基于neo4j的知識(shí)圖譜框架設(shè)計(jì)與類模型構(gòu)建

    大家好,我是微學(xué)AI,今天給大家介紹一下知識(shí)圖譜實(shí)戰(zhàn)應(yīng)用9-基于neo4j的知識(shí)圖譜框架設(shè)計(jì)與類模型構(gòu)建。我將構(gòu)建KnowledgeGraphs的類,用于操作Neo4j圖數(shù)據(jù)庫中的知識(shí)圖譜數(shù)據(jù)。方便管理整個(gè)知識(shí)圖譜操作。創(chuàng)建KnowledgeGraphs類可以使操作數(shù)據(jù)的代碼更加模塊化和可復(fù)用。使用

    2024年02月07日
    瀏覽(26)
  • 從零開始的知識(shí)圖譜生活,構(gòu)建一個(gè)百科知識(shí)圖譜,完成基于Deepdive的知識(shí)抽取、基于ES的簡單語義搜索、基于 REfO 的簡單KBQA

    從零開始的知識(shí)圖譜生活,構(gòu)建一個(gè)百科知識(shí)圖譜,完成基于Deepdive的知識(shí)抽取、基于ES的簡單語義搜索、基于 REfO 的簡單KBQA

    項(xiàng)目設(shè)計(jì)集合(人工智能方向):助力新人快速實(shí)戰(zhàn)掌握技能、自主完成項(xiàng)目設(shè)計(jì)升級(jí),提升自身的硬實(shí)力(不僅限NLP、知識(shí)圖譜、計(jì)算機(jī)視覺等領(lǐng)域) :匯總有意義的項(xiàng)目設(shè)計(jì)集合,助力新人快速實(shí)戰(zhàn)掌握技能,助力用戶更好利用 CSDN 平臺(tái),自主完成項(xiàng)目設(shè)計(jì)升級(jí),提升自

    2024年02月15日
    瀏覽(25)
  • 從0到1構(gòu)建一個(gè)基于知識(shí)圖譜的智能問答系統(tǒng)

    從0到1構(gòu)建一個(gè)基于知識(shí)圖譜的智能問答系統(tǒng)

    基于知識(shí)圖譜的問答系統(tǒng)(Knowledge-Based Question Answering system: KBQA )在以下場景下比較有優(yōu)勢: 對于領(lǐng)域類型是結(jié)構(gòu)化數(shù)據(jù)場景:電商、醫(yī)藥、系統(tǒng)運(yùn)維(微服務(wù)、服務(wù)器、事件)、產(chǎn)品支持系統(tǒng)等,其中作為問答系統(tǒng)的參考對象已經(jīng)是結(jié)構(gòu)化數(shù)據(jù); 問題的解答過程涉及多跳

    2024年01月25日
    瀏覽(22)
  • 中文人物關(guān)系知識(shí)圖譜(含碼源):中文人物關(guān)系圖譜構(gòu)建、數(shù)據(jù)回標(biāo)、基于遠(yuǎn)程監(jiān)督人物關(guān)系抽取、知識(shí)問答等應(yīng)用.

    中文人物關(guān)系知識(shí)圖譜(含碼源):中文人物關(guān)系圖譜構(gòu)建、數(shù)據(jù)回標(biāo)、基于遠(yuǎn)程監(jiān)督人物關(guān)系抽取、知識(shí)問答等應(yīng)用.

    項(xiàng)目設(shè)計(jì)集合(人工智能方向):助力新人快速實(shí)戰(zhàn)掌握技能、自主完成項(xiàng)目設(shè)計(jì)升級(jí),提升自身的硬實(shí)力(不僅限NLP、知識(shí)圖譜、計(jì)算機(jī)視覺等領(lǐng)域) :匯總有意義的項(xiàng)目設(shè)計(jì)集合,助力新人快速實(shí)戰(zhàn)掌握技能,助力用戶更好利用 CSDN 平臺(tái),自主完成項(xiàng)目設(shè)計(jì)升級(jí),提升自

    2024年02月15日
    瀏覽(19)
  • 通義千問, 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力評測

    通義千問, 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力評測

    “克隆 dev 環(huán)境到 test 環(huán)境,等所有服務(wù)運(yùn)行正常之后,把訪問地址告訴我”,“檢查所有項(xiàng)目,告訴我有哪些服務(wù)不正常,給出異常原因和修復(fù)建議”,在過去的工程師生涯中,也曾幻想過能夠通過這樣的自然語言指令來完成運(yùn)維任務(wù),如今 AI 助手 Appilot 利用 LLM 蘊(yùn)藏的神

    2024年02月05日
    瀏覽(27)
  • Neo4j圖數(shù)據(jù)庫實(shí)踐——基于知識(shí)圖譜方法開發(fā)構(gòu)建豬類養(yǎng)殖疾病問答查詢系統(tǒng)

    Neo4j圖數(shù)據(jù)庫實(shí)踐——基于知識(shí)圖譜方法開發(fā)構(gòu)建豬類養(yǎng)殖疾病問答查詢系統(tǒng)

    Neo4j是一個(gè)開源的、高性能的圖形數(shù)據(jù)庫。它被設(shè)計(jì)用于存儲(chǔ)、檢索和處理具有復(fù)雜關(guān)系的大規(guī)模數(shù)據(jù)。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不同,Neo4j使用圖形結(jié)構(gòu)來表示數(shù)據(jù),其中節(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體之間的關(guān)系。這使得Neo4j在處理關(guān)系密集型數(shù)據(jù)時(shí)非常強(qiáng)大和高效。 以下是Ne

    2024年02月07日
    瀏覽(31)
  • 圖論|知識(shí)圖譜——詳解自下而上構(gòu)建知識(shí)圖譜全過程

    圖論|知識(shí)圖譜——詳解自下而上構(gòu)建知識(shí)圖譜全過程

    導(dǎo)讀:知識(shí)圖譜的構(gòu)建技術(shù)主要有自頂向下和自底向上兩種。其中自頂向下構(gòu)建是指借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識(shí)庫里。而自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度

    2024年02月04日
    瀏覽(20)
  • 知識(shí)圖譜實(shí)戰(zhàn)應(yīng)用1-知識(shí)圖譜的構(gòu)建與可視化應(yīng)用

    知識(shí)圖譜實(shí)戰(zhàn)應(yīng)用1-知識(shí)圖譜的構(gòu)建與可視化應(yīng)用

    大家好,今天給大家?guī)碇R(shí)圖譜實(shí)戰(zhàn)應(yīng)用1-知識(shí)圖譜的構(gòu)建與可視化應(yīng)用。知識(shí)圖譜是一種概念模型,用于表示和組織實(shí)體之間的關(guān)系,從而實(shí)現(xiàn)大規(guī)模的語義查詢和推理。 一、知識(shí)圖譜的應(yīng)用領(lǐng)域 1. 搜索引擎 :知識(shí)圖譜可以幫助搜索引擎更好地理解用戶的搜索查詢,提

    2024年02月10日
    瀏覽(30)
  • Quivr 基于GPT和開源LLMs構(gòu)建本地知識(shí)庫 (更新篇)

    Quivr 基于GPT和開源LLMs構(gòu)建本地知識(shí)庫 (更新篇)

    自從大模型被炒的越來越火之后,似乎國內(nèi)涌現(xiàn)出很多希望基于大模型構(gòu)建本地知識(shí)庫的需求,大概在5月底的時(shí)候,當(dāng)時(shí)Quivr發(fā)布了第一個(gè)0.0.1版本,第一個(gè)版本僅僅只是使用LangChain技術(shù)結(jié)合OpenAI的GPT模型實(shí)現(xiàn)了一個(gè)最基本的架子,功能并不夠完善,但可以研究研究思路,當(dāng)

    2024年02月12日
    瀏覽(25)
  • GPT模型與知識(shí)圖譜的融合之旅

    隨著人工智能技術(shù)的飛速發(fā)展,知識(shí)圖譜已經(jīng)成為了連接數(shù)據(jù)與智能決策的橋梁。它不僅能夠?yàn)闄C(jī)器學(xué)習(xí)提供豐富的語義信息,還能夠?yàn)槿祟愄峁└又庇^的知識(shí)結(jié)構(gòu)。在這一背景下,GPT(Generative Pre-trained Transformer)模型以其卓越的自然語言處理能力,成為了構(gòu)建知識(shí)圖譜的

    2024年04月13日
    瀏覽(14)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包