国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測

2年前作者：開放知識(shí)圖譜分類：Toy博客閱讀(14)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、摘要

知識(shí)圖譜是一種用圖模型來描述知識(shí)和建模世界萬物之間關(guān)聯(lián)關(guān)系的大規(guī)模語義網(wǎng)絡(luò)，是大數(shù)據(jù)時(shí)代知識(shí)表示的重要方式之一。而大型語言模型，如OpenAI發(fā)布的GPT-4 ，通過在大量文本等數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，展示出了極其強(qiáng)大的通識(shí)知識(shí)和問題解決能力[1][2][3][4]。知識(shí)圖譜可以為大型語言模型提供精準(zhǔn)的結(jié)構(gòu)化的知識(shí)，助力和改善模型的推理效果和生成質(zhì)量，并提供對知識(shí)的精準(zhǔn)操作和分析能力。

目前，諸多領(lǐng)域仍缺乏足夠精準(zhǔn)和完備的知識(shí)圖譜，那么GPT-4等大模型是否能為高效知識(shí)圖譜構(gòu)建帶來便利？我們對GPT-4的知識(shí)抽取能力進(jìn)行了分析，探究的主要內(nèi)容有：

1.?GPT-4對不同類型知識(shí)如事實(shí)、事件及不同領(lǐng)域如通用、垂直知識(shí)的抽取能力分析

2. GPT-4 和ChatGPT抽取能力對比及錯(cuò)誤案例分析

3. GPT-4抽取未見知識(shí)的泛化能力分析

4. 展望大模型時(shí)代知識(shí)圖譜構(gòu)建的新思路

二、知識(shí)抽取能力分析

因還未申請到GPT-4的API，我們基于ChatGPT-plus的交互式界面并通過隨機(jī)采樣測試集/驗(yàn)證集樣本的方式，評測了GPT-4在實(shí)體、關(guān)系、事件等知識(shí)上的Zero-shot以及One-shot抽取能力，并和ChatGPT及全監(jiān)督基線模型的結(jié)果進(jìn)行了對比。我們選取了DuIE2.0[5]、RE-TACRED[6]、MAVEN[7]以及SciERC[8]作為本次實(shí)驗(yàn)的數(shù)據(jù)集。因?yàn)椴糠謹(jǐn)?shù)據(jù)集并未提供實(shí)體類型，所以我們在指令提示(Prompt)中統(tǒng)一設(shè)置為只提供待抽取的關(guān)系/事件類型，且不顯式指定待抽取的實(shí)體類型。

通過隨機(jī)采樣測試，我們發(fā)現(xiàn)，無論在Zero-shot還是One-shot的情況下，GPT-4在多個(gè)學(xué)術(shù)基準(zhǔn)抽取數(shù)據(jù)集上均取得了相對較好的性能，且比ChatGPT取得了一定程度的進(jìn)步。同時(shí)，One-shot的引入也使模型在Zero-shot上的性能得到了進(jìn)一步提升。這在一定程度上說明了GPT-4具備著對不同類型、不同領(lǐng)域知識(shí)的抽取能力。然而，我們也發(fā)現(xiàn)目前GPT-4仍不如全監(jiān)督小模型。這也與前人的相關(guān)工作發(fā)現(xiàn)一致[2][4]。特別注意的是，該結(jié)果為隨機(jī)采樣測試集并通過交互界面（非API）測試結(jié)果，可能會(huì)受到測試集數(shù)據(jù)分布和采樣樣本的影響。

此外，提示的設(shè)計(jì)和數(shù)據(jù)集本身的復(fù)雜程度也對本次實(shí)驗(yàn)的結(jié)果有較大的影響。具體地，我們發(fā)現(xiàn)在四種數(shù)據(jù)集上ChatGPT和GPT-4評估結(jié)果可能受到如下幾種原因的影響：

數(shù)據(jù)集：存在噪音且部分?jǐn)?shù)據(jù)集類型不夠明晰（如未提供頭尾實(shí)體類型、語境復(fù)雜等）
指令提示(Prompt)：語義不夠豐富的指令會(huì)影響抽取性能（如加入相關(guān)樣本In-Context Learning[9]可以提升性能；Code4Struct[10]發(fā)現(xiàn)基于代碼結(jié)構(gòu)可促進(jìn)結(jié)構(gòu)化信息抽?。?。需要指出的是，由于部分?jǐn)?shù)據(jù)集存在無頭尾實(shí)體類型的情況，此處為了橫向公平對比不同模型在數(shù)據(jù)集上的能力，實(shí)驗(yàn)在提示指令中并未指明抽取的實(shí)體類型，這也會(huì)在一定程度上影響實(shí)驗(yàn)的結(jié)果。
評估方式：現(xiàn)有的評估方式可能不太適用于大模型如ChatGPT與GPT-4抽取能力的評估。如數(shù)據(jù)集中所給標(biāo)簽并未完全覆蓋正確答案，部分超出答案的結(jié)果仍可能是正確的（存在同義詞等）。

具體內(nèi)容我們將在下一章節(jié)進(jìn)行詳細(xì)分析。

三、能力對比與錯(cuò)誤案例分析

我們進(jìn)一步針對選取的四個(gè)數(shù)據(jù)集中的部分案例進(jìn)行了分析（由于實(shí)驗(yàn)中使用的Prompt較長，在這里只展示部分重要信息）。

（一） DuIE2.0

1. Zero-shot

ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在SPO三元組的抽取過程中，我們注意到在使用相同的Prompt的情況下，GPT-4更能理解Prompt所提供的指令并理解待抽取樣本的上下文信息，執(zhí)行符合條件的三元組抽取。如圖所示，ChatGPT雖然能夠理解句子的大意，給出[作者，是 , 岑葉明]的結(jié)果，但與答案[昔年一起走過的路 , 作者 , 岑葉明]仍存在較大差距。相較于GPT-4在此條樣本上的表現(xiàn)，ChatGPT在謂詞的抽取上以及主語賓語的選擇上顯得不夠精煉準(zhǔn)確。

?GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在上圖中，我們讓GPT-4完成對句子“然而近日，網(wǎng)友通過不少陳年舊照發(fā)現(xiàn)，張小斐其實(shí)并非喜劇曲藝出身，而是畢業(yè)于2005屆北京電影學(xué)院的表演系本科專業(yè)，與現(xiàn)今大紅大紫的內(nèi)地花旦楊冪、袁姍姍等曾同窗為友，怪不得每次出場氣質(zhì)逼人”的三元組抽取。數(shù)據(jù)集中給出的正確答案為[楊冪 , 畢業(yè)院校 , 北京電影學(xué)院]、[楊冪 , 畢業(yè)院校 , 2005屆北京電影學(xué)院?]。由圖可知，GPT-4并沒有成功抽取出這兩組信息。究其原因可能是數(shù)據(jù)集本身的信息指向性不夠明確，導(dǎo)致GPT-4所關(guān)注的信息產(chǎn)生偏差。但只關(guān)注GPT-4本身給出的答案，我們?nèi)钥梢栽谝欢ǔ潭壬险J(rèn)為GPT-4在三元組抽取上具有不錯(cuò)的表現(xiàn)。

2. One-shot

ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

與Zero-shot的情況類似，One-shot實(shí)驗(yàn)條件下，GPT-4所給出的結(jié)果與ChatGPT相比都更為完善。同時(shí)GPT-4也注意到了更多的信息。如圖所示，例句“國家隊(duì)生涯喬治·威爾康姆在2008年入選洪都拉斯國家隊(duì)，他隨隊(duì)參加了2009年中北美及加勒比海地區(qū)金杯賽”中，對應(yīng)的三元組應(yīng)為[喬治·威爾康姆 , 國籍 , 洪都拉斯]，此條信息并沒有在文本中提及，卻被GPT-4成功抽取出。我們也傾向于認(rèn)為這是GPT-4知識(shí)儲(chǔ)備豐富的帶來的結(jié)果。（如從喬治·威爾康姆入選國家隊(duì)的事實(shí)中推斷出他的國籍）

3. Zero-shot vs One-shot

ChatGPT和GPT-4的性能均在One-shot設(shè)置下得到了提升，而ChatGPT的增幅尤為明顯。

ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot（上）One-shot（下）

針對同一條樣本，ChatGPT在One-shot的情況下的結(jié)果更為準(zhǔn)確（樣本對應(yīng)的答案為[史奎英 , 丈夫 , 蔣潔敏]、[蔣潔敏 , 妻子 , 史奎英]、[中石油 , 董事長 , 蔣潔敏]），同時(shí)ChatGPT給出答案的模式也更符合Prompt的要求。

GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot（上）One-shot（下）

如圖，此例句對應(yīng)的三元組應(yīng)為[劉愷威, 妻子, 楊冪], [楊冪, 丈夫, 劉愷威]，示例樣本的引入，使得GPT-4能夠更好的完成關(guān)系的抽取，給出更符合語義的答案。

（二）MAVEN

1. Zero-shot

ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在例句“Now an established member of the line-up, he agreed to sing it more often.”中ChatGPT得到的結(jié)果是Becoming_a_member，而GPT-4得到Becoming_a_member, Agree_or_refuse_to_act, Performing，三種事件類型。由結(jié)果可知，與ChatGPT相比，GPT-4提供的信息更為完整，除了關(guān)注到member 這個(gè)詞之外，GPT-4也關(guān)注到了agree觸發(fā)詞得到了“Agree_or_refuse_to_act”這一事件類型。同時(shí)值得說明的是，在本次實(shí)驗(yàn)中，我們發(fā)現(xiàn)ChatGPT給出的答案往往只有一種事件類型，而GPT-4獲取上下文信息的能力更強(qiáng)，得到的答案更具多樣性，故而在MAVEN數(shù)據(jù)集中的效果更好（MAVEN數(shù)據(jù)集本身包含的句子可能存在一種或多種關(guān)系）。

GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在這項(xiàng)抽取任務(wù)中的例句：“The final medal tally was led by Indonesia, followed by Thailand and host Philippines.”中，數(shù)據(jù)集中給出此條樣本的事件類型為“Process_end”以及“Come_together”。但此處GPT-4給出了“Comparison, Earnings_and_losses, Ranking”這三個(gè)結(jié)果。GPT-4在完成任務(wù)的過程中，確實(shí)注意到了句子中所提及“印尼在最終的獎(jiǎng)牌榜上居首，泰國和東道主菲律賓緊隨其后”中隱藏的關(guān)于排名與比較的信息，但是忽略了觸發(fā)詞final對應(yīng)的“Process_end”以及觸發(fā)詞host對應(yīng)的“Come_together”類型。我們認(rèn)為可能是因?yàn)閿?shù)據(jù)集中給出的類型在例句中不算明晰，同時(shí)，一個(gè)句子中存在多個(gè)事件類型也使此類事件抽取變得更加復(fù)雜，從而導(dǎo)致抽取效果不佳。

2. One-shot

ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在One-shot的實(shí)驗(yàn)過程中，我們發(fā)現(xiàn)，相較于ChatGPT，GPT-4的答案依舊保持著數(shù)量的優(yōu)勢，從而也取得了較高的正確率。如上圖，例句應(yīng)當(dāng)對應(yīng)6 種事件類型：Process_end , Catastrophe , Damaging , Name_conferral , Causation 以及GiveUp。但ChatGPT只答對了1種類型（Name_conferral），而GPT-4提供了四個(gè)符合條件的答案（Catastrophe, Damaging, Process_end, Name_conferral,）。

3. Zero-shot vs One-shot

通過對比處于Zero-shot和One-shot不同條件下兩種模型在樣本上的表現(xiàn)，我們發(fā)現(xiàn)，ChatGPT和GPT-4的性能都獲得了一定程度的改進(jìn)。

ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot（上）One-shot（下）

針對同一條樣本，ChatGPT在One-shot的情況下糾正了在Zero-shot下做出“Social_event”的錯(cuò)誤判斷，改為了正確答案之一的“Competition”。

GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

對比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，GPT-4在Zero-shot下無法正確識(shí)別類型的樣本，在One-shot下依舊無法正常識(shí)別，但是它會(huì)給出更多的答案，這也在一定程度上導(dǎo)致了GPT-4在樣本上的表現(xiàn)變差。如前述在本節(jié)Zero-shot分析GPT-4的樣例中，GPT-4給出了“Comparison, Earnings_and_losses, Ranking”這三個(gè)結(jié)果，而在One-shot情況下，它的事件類型變?yōu)榱宋宸N。我們推測這可能依舊與測試樣本本身的含義指向不明確有關(guān)。但不可否認(rèn)的是，GPT-4給出的答案具有著一定的合理性。

（三）SciERC

1. Zero-shot

ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

從實(shí)驗(yàn)的結(jié)果來看，我們看到ChatGPT和GPT-4在SciERC數(shù)據(jù)集上的表現(xiàn)相差不大，并且GPT-4并沒有體現(xiàn)出在前述實(shí)驗(yàn)中展現(xiàn)的優(yōu)勢。這可能是因?yàn)镻rompt的設(shè)計(jì)欠佳，模型無法有效的獲取待抽取三元組的更多有效信息。但通過上圖所示的例子，我們?nèi)钥梢钥闯?，就SciERC數(shù)據(jù)集而言，雖然兩個(gè)模型的性能均較差，但相比ChatGPT，GPT-4在頭尾實(shí)體抽取方面的能力有著較為明顯的提升。

GPT-4

同時(shí)，在實(shí)驗(yàn)的過程中，我們推測GPT-4在SciERC上在關(guān)系類型的理解上可能存在一定問題——在一些情況下存在頭尾實(shí)體抽取正確但是關(guān)系提供異常的情況。這或許與Prompt設(shè)計(jì)不完備以及與數(shù)據(jù)集本身的專業(yè)性強(qiáng)、復(fù)雜度高等因素有關(guān)。

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在上圖中，“The result theoretically justifies the effectiveness of features in robust PCA. ”（該結(jié)果從理論上證明了穩(wěn)健PCA中特征的有效性）此句中含有的關(guān)系-實(shí)體三元組為[features, FEATURE-OF, robust PCA]，但GPT-4中給出的關(guān)系類型為USED-OF。

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

例句“Hitherto , smooth motion has been encouraged using a trajectory basis , yielding a hard combinatorial problem with time complexity growing exponentially in the number of frames .”（迄今為止，一直鼓勵(lì)使用軌跡基礎(chǔ)的平滑運(yùn)動(dòng)，產(chǎn)生了一個(gè)硬的組合問題，其時(shí)間復(fù)雜性在幀數(shù)上呈指數(shù)增長）中含有的關(guān)系-實(shí)體三元組為[time complexity, EVALUATE-FOR, hard combinatorial problem]，但GPT-4給出的答案為[hard combinatorial problem, FEATURE-OF, time complexity]。

2. One-shot

ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在One-shot設(shè)置下，我們發(fā)現(xiàn)GPT-4與ChatGPT仍存在上述對關(guān)系類型區(qū)分不足的問題，在此就不作詳細(xì)展示說明。而在實(shí)驗(yàn)中GPT-4性能較差的原因可能是“在錯(cuò)誤的方向上做出了更多的努力”。如上圖所示，在相同的測試樣本上，GPT-4雖然給出了比ChatGPT更完備的答案，卻并沒有“答對”。我們認(rèn)為這也可能和評價(jià)指標(biāo)的選取有關(guān)，一個(gè)更加完備的評價(jià)指標(biāo)可能更加適合大模型對此類任務(wù)的評測。

3. Zero-shot vs One-shot

在One-shot設(shè)置下，我們發(fā)現(xiàn)ChatGPT與GPT-4給出答案的規(guī)范性得到了明顯的提高。

ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能 ?

圖. Zero-shot（左）One-shot（右）

如上圖，One-shot的設(shè)置可以在一定程度上提高ChatGPT抽取時(shí)答案的凝練精簡程度。但答案數(shù)目的減少也會(huì)造成有效答案的缺失。

GPT-4

而One-shot帶給GPT-4的變化則不甚明顯，我們推測是由于單個(gè)訓(xùn)練樣本的引入不足以彌補(bǔ)GPT-4對于SciERC這個(gè)數(shù)據(jù)集認(rèn)知的缺失。這可能是由數(shù)據(jù)集本身所決定的，因此如果想要進(jìn)一步的提高GPT-4在該數(shù)據(jù)集上的效果，可以考慮引入多個(gè)示例樣本等方式來擴(kuò)大訓(xùn)練樣本的集合。

（四） RE-TACRED

1. Zero--shot

ChatGPT VS GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在例句“The two projects -- a trachoma prevention plan and a cooking oil plan -- are jointly organized by the New York-based Helen Keller International -LRB- HKI -RRB- , the United Nations Children 's Fund and the World Health Organization , the spokesman said , adding that the HKI will implement the two programs using funds donated by Taiwan . ”（發(fā)言人說，這兩個(gè)項(xiàng)目--沙眼預(yù)防計(jì)劃和食用油計(jì)劃--是由總部設(shè)在紐約的海倫-凱勒國際組織、聯(lián)合國兒童基金會(huì)和世界衛(wèi)生組織聯(lián)合舉辦的，并補(bǔ)充說，香港國際組織將利用臺(tái)灣捐贈(zèng)的資金實(shí)施這兩個(gè)項(xiàng)目）中，[Helen Keller International, org:alternate_names, HKI]，為句子中所關(guān)注的三元組，但可能由于此項(xiàng)例子中頭尾實(shí)體距離較近且謂詞不明晰，ChatGPT并沒有將此類關(guān)系抽取出。而相反，GPT-4則補(bǔ)全了頭尾實(shí)體之間的"org:alternate_names "并成功抽取出了三元組。這也在一定程度上表明了GPT-4語言理解（閱讀）能力方面相對于ChatGPT的提升。

GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

同時(shí)，我們也在RE-TACRED數(shù)據(jù)集上的實(shí)驗(yàn)中發(fā)現(xiàn)，GPT-4在有關(guān)復(fù)雜句式的三元組識(shí)別中表現(xiàn)欠佳。如上圖，例句“The footprint was found on a bathroom rug in the house in Perugia , central Italy , where Meredith Kercher was killed in November 2007 .”中存在的關(guān)系三元組應(yīng)為：[Meredith Kercher, per:country_of_death, Italy]，但GPT-4無法成功抽取出Meredith Kercher與Italy的關(guān)系country_of_death。這部分實(shí)驗(yàn)結(jié)果很大一部分受輸入的Prompt影響，我們認(rèn)為如果在Prompt中引入待抽取頭尾實(shí)體的類型，那么此類誤判則大部分可以得到規(guī)避。

2. One-shot

ChatGPT VS GPT-4

在Re-TACRED數(shù)據(jù)集的實(shí)驗(yàn)中，ChatGPT和GPT-4在測試樣本上得到正確三元組的數(shù)目相差不多，但與SciERC中實(shí)驗(yàn)不同的是，ChatGPT和 GPT-4在性能上的差異主要來自于ChatGPT給出預(yù)測結(jié)果數(shù)量上的增多。具體情況將在下一部分說明。

3. Zero-shot vs One-shot

ChatGPT

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

圖. Zero-shot（上）One-shot（下）

在實(shí)驗(yàn)過程中，我們注意到ChatGPT在One-shot上給出的答案普遍比Zero-shot多，如圖中的例子，Zero-shot條件下給的答案數(shù)是3條，而One-shot則給出了27條答案（圖中已省略）。所以雖然在答對數(shù)目變多的情況下，One-shot的性能仍比Zero-shot低，這可能是與數(shù)據(jù)集本身的難易程度有關(guān)。同時(shí)我們也認(rèn)為未來可以在Prompt的設(shè)計(jì)上進(jìn)行研究，這可能會(huì)使模型在數(shù)據(jù)集上的性能得到進(jìn)一步提升。

GPT-4

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

在One-shot設(shè)置下，我們發(fā)現(xiàn)，GPT-4成功抽取出了前述例句 “The footprint was found on a bathroom rug in the house in Perugia , central Italy , where Meredith Kercher was killed in November 2007 .”中的三元組[Meredith Kercher, per:country_of_death, Italy]。這可能也在一定程度上說明單訓(xùn)練樣本的加入確實(shí)幫助GPT-4獲取到更多有效信息，從而得以解決Zero-shot中存在的問題。

總的來說，GPT-4的強(qiáng)大抽取能力可以顯著降低知識(shí)圖譜構(gòu)建的成本，進(jìn)而提高知識(shí)圖譜分析應(yīng)用的效率。那么GPT-4強(qiáng)大的抽取能力是因?yàn)槠湟娺^海量的實(shí)體、關(guān)系知識(shí)，還是其本身因指令學(xué)習(xí)[11]和人類反饋而具備極強(qiáng)的泛化能力呢？我們進(jìn)一步進(jìn)行了未見知識(shí)抽取的泛化能力分析。

四、未見知識(shí)抽取的泛化能力分析

我們設(shè)計(jì)了一種虛擬知識(shí)抽取評測來分析未見知識(shí)的抽取泛化能力，通過使用隨機(jī)數(shù)的方式構(gòu)建虛擬實(shí)體知識(shí)（GPT-4的數(shù)據(jù)截止到2021年9月），并構(gòu)建了自然界不存在的實(shí)體類型和關(guān)系類型組成知識(shí)三元組，通過指令告訴模型抽取該類型知識(shí)，以檢驗(yàn)知識(shí)抽取的泛化能力。我們對隨機(jī)的10個(gè)句子進(jìn)行了實(shí)體、關(guān)系抽取評估，發(fā)現(xiàn)ChatGPT不具備對虛擬知識(shí)的抽取能力，而GPT-4能夠準(zhǔn)確根據(jù)指令抽取完全沒有見過的實(shí)體和關(guān)系知識(shí)。因此，我們可以初步得出結(jié)論，GPT-4在一定程度上具備較強(qiáng)的泛化能力，可以通過指令快速具備新知識(shí)的抽取能力而非記憶了相關(guān)的知識(shí)（相關(guān)工作[12]已實(shí)證發(fā)現(xiàn)大模型具備極強(qiáng)的指令泛化能力）。

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

虛擬實(shí)體抽取

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

虛擬關(guān)系抽取

如上圖所示，在給予一定的虛擬知識(shí)的時(shí)候，GPT-4能夠在大部分情況下完成對于虛擬實(shí)體及關(guān)系的抽?。ㄗⅲ?0次實(shí)驗(yàn)中僅有兩次無法完成抽取任務(wù)）。如上圖的虛擬實(shí)體抽取任務(wù)中，我們給GPT-4一些虛擬實(shí)體及相應(yīng)虛擬類型如（“macccocha”，“OO”）、（“zaeenprvk”，“OO”），它能夠完成對句子中“kffitubuw”這一虛擬實(shí)體的識(shí)別。與此同時(shí)，在上圖對應(yīng)的虛擬關(guān)系抽取任務(wù)中，我們提供了虛擬關(guān)系類型和虛擬頭尾實(shí)體形成的三元組（“emvhes”,“Jancshrg”,“azqca”）等信息，也指定了頭尾實(shí)體的虛擬類型“SKZ”，以及需要提取的關(guān)系類型“Jancshrg”，從結(jié)果來看，在給定相關(guān)信息的情況下，GPT-4也能完成對虛擬三元組的抽取。

五、大模型時(shí)代知識(shí)圖譜構(gòu)建的思路

鑒于大模型強(qiáng)大的可泛化抽取和大量的“參數(shù)知識(shí)”存儲(chǔ)能力，我們簡單測試了直接通過輸入指令（GPT-4）和一小段文本構(gòu)建知識(shí)圖譜。

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測,知識(shí)圖譜,人工智能

如圖所示，我們發(fā)現(xiàn)GPT-4不僅精準(zhǔn)地抽取了輸入文本的中的事實(shí)知識(shí)，還生成和補(bǔ)全了一些不存在于文本中的知識(shí)（如：發(fā)行時(shí)間、演員等），也就是大模型GPT-4根據(jù)參數(shù)空間習(xí)得的知識(shí)腦補(bǔ)事實(shí)（經(jīng)檢查大部分都是正確的），進(jìn)而構(gòu)建了一個(gè)信息更豐富的知識(shí)圖譜。也就是說，基于合適的輸入指令，我們可以基于大模型（如通過EasyInstruct [13]等工具），同時(shí)從文本語料和參數(shù)空間抽取知識(shí)，構(gòu)建更加精準(zhǔn)、完備、個(gè)性化的知識(shí)圖譜。

六、總結(jié)

本文對基于大模型的一部分知識(shí)圖譜構(gòu)建任務(wù)進(jìn)行了評估，通過實(shí)驗(yàn)發(fā)現(xiàn)：

1. GPT-4在學(xué)術(shù)標(biāo)準(zhǔn)數(shù)據(jù)集上測試性能雖然仍弱于全監(jiān)督小模型（該結(jié)果為初步探究，仍需通過更大規(guī)模數(shù)據(jù)集及更完備評估方式驗(yàn)證），但其具備較強(qiáng)的泛化能力，可以抽取新的和較為復(fù)雜的知識(shí)，且可以通過文本指令的優(yōu)化不斷提高性能，這給快速構(gòu)建領(lǐng)域知識(shí)圖譜帶來了福音。

2. GPT-4可能在一定程度上并非依靠記憶實(shí)現(xiàn)知識(shí)抽取，而是通過指令學(xué)習(xí)和人類反饋具備了較強(qiáng)的可泛化知識(shí)抽取能力。

3. 基于大模型指令可以同時(shí)從文本語料和參數(shù)空間抽取知識(shí)，進(jìn)而提供了大模型時(shí)代構(gòu)建知識(shí)圖譜的新思路，可以降低知識(shí)圖譜構(gòu)建成本，也為通過知識(shí)圖譜增強(qiáng)大模型（如結(jié)合Llama-Index等檢索增強(qiáng)工具）提供了便利。

4. 由于GPT-4的多模態(tài)接口目前未開放，因此本文未評測多模態(tài)知識(shí)抽取，但GPT-4給少樣本多模態(tài)知識(shí)抽取與推理帶來了新的機(jī)遇與挑戰(zhàn)。

參考文獻(xiàn)：

[1] Reasoning with Language Model Prompting: A Survey 2022

[2] Zero-Shot Information Extraction via Chatting with ChatGPT 2023

[3] Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! 2023

[4] Exploring the Feasibility of ChatGPT for Event Extraction 2023

[5] DuIE: A large-scale chinese dataset for information extraction NLPCC2019

[6] Re-tacred: Addressing shortcomings of the tacred dataset AAAI2021

[7] MAVEN: A Massive General Domain Event Detection Dataset EMNLP2020

[8] Multi-Task Identification of Entities, Relations, and Coreferencefor Scientific Knowledge Graph Construction EMNLP2018

[9] A Survey for In-context Learning 2022

[10] Code4Struct: Code Generation for Few-Shot Structured Prediction from Natural Language 2022

[11] Training language models to follow instructions with human feedback NeurIPS2022

[12] Larger Language Models Do In-Context Learning Differently
[13] https://github.com/zjunlp/EasyInstruct

OpenKG

OpenKG（中文開放知識(shí)圖譜）旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包，并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。
文章來源地址http://www.zghlxwxcb.cn/news/detail-608468.html

到了這里，關(guān)于技術(shù)動(dòng)態(tài) | 基于GPT-4的知識(shí)圖譜構(gòu)建能力評測的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

知識(shí)圖譜實(shí)戰(zhàn)應(yīng)用9-基于neo4j的知識(shí)圖譜框架設(shè)計(jì)與類模型構(gòu)建
大家好，我是微學(xué)AI，今天給大家介紹一下知識(shí)圖譜實(shí)戰(zhàn)應(yīng)用9-基于neo4j的知識(shí)圖譜框架設(shè)計(jì)與類模型構(gòu)建。我將構(gòu)建KnowledgeGraphs的類，用于操作Neo4j圖數(shù)據(jù)庫中的知識(shí)圖譜數(shù)據(jù)。方便管理整個(gè)知識(shí)圖譜操作。創(chuàng)建KnowledgeGraphs類可以使操作數(shù)據(jù)的代碼更加模塊化和可復(fù)用。使用
2024年02月07日
瀏覽(26)
從零開始的知識(shí)圖譜生活，構(gòu)建一個(gè)百科知識(shí)圖譜，完成基于Deepdive的知識(shí)抽取、基于ES的簡單語義搜索、基于 REfO 的簡單KBQA
項(xiàng)目設(shè)計(jì)集合（人工智能方向）：助力新人快速實(shí)戰(zhàn)掌握技能、自主完成項(xiàng)目設(shè)計(jì)升級(jí)，提升自身的硬實(shí)力（不僅限NLP、知識(shí)圖譜、計(jì)算機(jī)視覺等領(lǐng)域）：匯總有意義的項(xiàng)目設(shè)計(jì)集合，助力新人快速實(shí)戰(zhàn)掌握技能，助力用戶更好利用 CSDN 平臺(tái)，自主完成項(xiàng)目設(shè)計(jì)升級(jí)，提升自
2024年02月15日
瀏覽(25)
從0到1構(gòu)建一個(gè)基于知識(shí)圖譜的智能問答系統(tǒng)
基于知識(shí)圖譜的問答系統(tǒng)（Knowledge-Based Question Answering system: KBQA ）在以下場景下比較有優(yōu)勢：對于領(lǐng)域類型是結(jié)構(gòu)化數(shù)據(jù)場景：電商、醫(yī)藥、系統(tǒng)運(yùn)維（微服務(wù)、服務(wù)器、事件）、產(chǎn)品支持系統(tǒng)等，其中作為問答系統(tǒng)的參考對象已經(jīng)是結(jié)構(gòu)化數(shù)據(jù)；問題的解答過程涉及多跳
2024年01月25日
瀏覽(22)
中文人物關(guān)系知識(shí)圖譜（含碼源）：中文人物關(guān)系圖譜構(gòu)建、數(shù)據(jù)回標(biāo)、基于遠(yuǎn)程監(jiān)督人物關(guān)系抽取、知識(shí)問答等應(yīng)用.
項(xiàng)目設(shè)計(jì)集合（人工智能方向）：助力新人快速實(shí)戰(zhàn)掌握技能、自主完成項(xiàng)目設(shè)計(jì)升級(jí)，提升自身的硬實(shí)力（不僅限NLP、知識(shí)圖譜、計(jì)算機(jī)視覺等領(lǐng)域）：匯總有意義的項(xiàng)目設(shè)計(jì)集合，助力新人快速實(shí)戰(zhàn)掌握技能，助力用戶更好利用 CSDN 平臺(tái)，自主完成項(xiàng)目設(shè)計(jì)升級(jí)，提升自
2024年02月15日
瀏覽(19)
通義千問, 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力評測
“克隆 dev 環(huán)境到 test 環(huán)境，等所有服務(wù)運(yùn)行正常之后，把訪問地址告訴我”，“檢查所有項(xiàng)目，告訴我有哪些服務(wù)不正常，給出異常原因和修復(fù)建議”，在過去的工程師生涯中，也曾幻想過能夠通過這樣的自然語言指令來完成運(yùn)維任務(wù)，如今 AI 助手 Appilot 利用 LLM 蘊(yùn)藏的神
2024年02月05日
瀏覽(27)
Neo4j圖數(shù)據(jù)庫實(shí)踐——基于知識(shí)圖譜方法開發(fā)構(gòu)建豬類養(yǎng)殖疾病問答查詢系統(tǒng)
Neo4j是一個(gè)開源的、高性能的圖形數(shù)據(jù)庫。它被設(shè)計(jì)用于存儲(chǔ)、檢索和處理具有復(fù)雜關(guān)系的大規(guī)模數(shù)據(jù)。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不同，Neo4j使用圖形結(jié)構(gòu)來表示數(shù)據(jù)，其中節(jié)點(diǎn)表示實(shí)體，邊表示實(shí)體之間的關(guān)系。這使得Neo4j在處理關(guān)系密集型數(shù)據(jù)時(shí)非常強(qiáng)大和高效。以下是Ne
2024年02月07日
瀏覽(31)
圖論|知識(shí)圖譜——詳解自下而上構(gòu)建知識(shí)圖譜全過程
導(dǎo)讀：知識(shí)圖譜的構(gòu)建技術(shù)主要有自頂向下和自底向上兩種。其中自頂向下構(gòu)建是指借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源，從高質(zhì)量數(shù)據(jù)中提取本體和模式信息，加入到知識(shí)庫里。而自底向上構(gòu)建，則是借助一定的技術(shù)手段，從公開采集的數(shù)據(jù)中提取出資源模式，選擇其中置信度
2024年02月04日
瀏覽(20)
知識(shí)圖譜實(shí)戰(zhàn)應(yīng)用1-知識(shí)圖譜的構(gòu)建與可視化應(yīng)用
大家好，今天給大家?guī)碇R(shí)圖譜實(shí)戰(zhàn)應(yīng)用1-知識(shí)圖譜的構(gòu)建與可視化應(yīng)用。知識(shí)圖譜是一種概念模型，用于表示和組織實(shí)體之間的關(guān)系，從而實(shí)現(xiàn)大規(guī)模的語義查詢和推理。一、知識(shí)圖譜的應(yīng)用領(lǐng)域 1. 搜索引擎：知識(shí)圖譜可以幫助搜索引擎更好地理解用戶的搜索查詢，提
2024年02月10日
瀏覽(30)
Quivr 基于GPT和開源LLMs構(gòu)建本地知識(shí)庫（更新篇）
自從大模型被炒的越來越火之后，似乎國內(nèi)涌現(xiàn)出很多希望基于大模型構(gòu)建本地知識(shí)庫的需求，大概在5月底的時(shí)候，當(dāng)時(shí)Quivr發(fā)布了第一個(gè)0.0.1版本，第一個(gè)版本僅僅只是使用LangChain技術(shù)結(jié)合OpenAI的GPT模型實(shí)現(xiàn)了一個(gè)最基本的架子，功能并不夠完善，但可以研究研究思路，當(dāng)
2024年02月12日
瀏覽(25)
GPT模型與知識(shí)圖譜的融合之旅
隨著人工智能技術(shù)的飛速發(fā)展，知識(shí)圖譜已經(jīng)成為了連接數(shù)據(jù)與智能決策的橋梁。它不僅能夠?yàn)闄C(jī)器學(xué)習(xí)提供豐富的語義信息，還能夠?yàn)槿祟愄峁└又庇^的知識(shí)結(jié)構(gòu)。在這一背景下，GPT（Generative Pre-trained Transformer）模型以其卓越的自然語言處理能力，成為了構(gòu)建知識(shí)圖譜的
2024年04月13日
瀏覽(14)