講在前面,chatgpt出來的時候就想過將其利用在信息抽取方面,后續(xù)也發(fā)現(xiàn)了不少基于這種大語言模型的信息抽取的論文,比如之前收集過的:
https://github.com/cocacola-lab/GPT4IE https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction https://github.com/cocacola-lab/ChatIE Unified Text Structuralization with Instruction-tuned Language Models
接下來繼續(xù)介紹另一篇論文。
GPT-NER:通過大型語言模型的命名實體識別
GPT-NER: Named Entity Recognition via Large Language Models
https://arxiv.org/pdf/2304.10428v1.pdf
https://github.com/ShuheWang1998/GPT-NER
Part1前言
為什么使用大語言模型在NER上的表現(xiàn)仍然明顯低于普遍的基線?
由于NER和LLMs這兩個任務(wù)之間的差距:前者本質(zhì)上是一個序列標(biāo)記任務(wù),而后者是一個文本生成模型。
怎么解決上述的問題呢?
GPT-NER通過將序列標(biāo)簽任務(wù)轉(zhuǎn)換 為一個可以被LLMs輕松適應(yīng)的生成任務(wù)來彌補(bǔ)這一差距,例如, 在輸入文本Columbus是一個城市中尋找位置實體的任務(wù)被轉(zhuǎn)換為生成文本序列@@Columbus##是一個城市,其中特殊標(biāo)記@@##標(biāo)志著要提取的實體。 為了有效地解決LLMs的幻覺問題,即LLMs有一個強(qiáng)烈的傾向,即過度自信地將NULL輸入標(biāo)記為實體,我們提出了一個自我驗證策略,即提示LLMs詢問自己所提取的實體是否符合標(biāo)記的實體標(biāo)簽。
Part2介紹
GPTNER遵循語境學(xué)習(xí)的一般范式,可以分解為三個步驟:
(1)構(gòu)建提示:對于一個給定的輸入句子X,我們?yōu)閄構(gòu)建一個提示(用Prompt(X) 來表示); (2)將提示輸入到大語言模型得到生成的文本序列W = {w1 ,..., wn }; (3)將文本序列W轉(zhuǎn)化為實體標(biāo)簽序列,以獲得最終的結(jié)果。
如圖所示:第一句話:你是一個優(yōu)秀的語言學(xué)家;第二句話:任務(wù)是從給定的句子中標(biāo)記xxx實體。接下來是一些例子,然后給樹了一些例子。最后再輸入自己想要提取實體的句子得到結(jié)果。很容易發(fā)現(xiàn),每次只能提取一種實體,因此要提取出所有的實體,必須遍歷實體列表。例如GPT-3,對提示的長度有 一個硬性的限制(例如GPT-3的4096個tokens)。鑒于這種有限的標(biāo)記數(shù)量,我們不可能在一個提示中包括對所有實體類型的描述和演示。
1怎么提供實例樣本?
如圖所示:
1、一個已經(jīng)訓(xùn)練好的ner模型提取訓(xùn)練數(shù)據(jù)中的實體,并為每一個實體構(gòu)建(實體,句子)對。 2、將句子輸入的模型中并獲取實體的表示。 3、通過knn找到和實體向量最接近的幾個鄰居,將得到的句子視為樣例。
2怎么進(jìn)行自我驗證?
Prompt:
I?am?an?excellent?linguist.?The?task?is?to?label?location?entities?in?the?given?sentence.
Below?are?some?examples.
Input:Columbus?is?a?city
Output:@@Columbus##?is?a?city
Input:Rare?Hendrix?song?sells?for?$17
Output:
GPT-3?Output:
Rare?@@Hendrix##?song?sells?for?$17
過度預(yù)測是指將不是實體的預(yù)測為實體。如上面的例子:Hendrix被識別為一個location實體,這顯然是不對的。自我驗證策略:給定一個由LLM提取的實體,我們要求LLM進(jìn)一步驗證該提取的實體是否正確,用是或否回答。比如:
“The?task?is?to?verify?whether?the?word?is?a?location?entity?extracted?from?the?given?sentence”
(1)?“The?input?sentence:?Only?France?and?Britain?backed?Fischler’s?proposal”,
(2)?“Is?the?word?"France"?in?the?input?sentence?a?location?entity??Please?answer?with?yes?or?no”.
(3)?Yes
同樣的,也是根據(jù)之前的策略選擇樣例。文章來源:http://www.zghlxwxcb.cn/news/detail-420381.html
Part3實驗
模型:GPT-3 (Brown et al., 2020) (davinci-003) 最大長度:512 溫度:0 top_p:1 frequency_penalty:0 presence_penalty:0 best_of:1
總結(jié)一下,利用大語言模型進(jìn)行信息抽取,大多數(shù)都是采用這種類似問答的方式進(jìn)行的,也就是分為多個步驟。文章來源地址http://www.zghlxwxcb.cn/news/detail-420381.html
到了這里,關(guān)于GPT-NER:通過大型語言模型的命名實體識別的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!