1. chatgpt 效果評估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness
文章簡介
論文是從開放域和限定域兩個角度對chatGPT的**performance、可解釋性、校準(zhǔn)性(calibration)和可信性(faithfulness)**進(jìn)行了評估(assessment)。(performance、explainability、calibration、faithfulness四個維度進(jìn)行測評的)
以上評估是雜7個細(xì)粒度知識抽取任務(wù)中進(jìn)行的。
四個維度:
- performance(表現(xiàn)):chatgpt在不同任務(wù)下的性能表現(xiàn)。
- explainability(可解釋性):chatgpt在self-check和human-check下的可解釋性。
ChatGPT和領(lǐng)域?qū)<腋叨日J(rèn)可ChatGPT給出的理由,大多數(shù)數(shù)據(jù)集在Standard-IE和OpenIE設(shè)置中獲得了超過90%的合理分?jǐn)?shù)
與人的評價相比,ChatGPT在為其預(yù)測提供的理由方面顯示出很高的信心。ChatGPT displays a high level of confidence in the reasons provided for its predictions when compared with human evaluation
當(dāng)ChatGPT為一個預(yù)測提供了合理的解釋時,ChatGPT和人類的評價之間有很高的一致性。
- calibration(校準(zhǔn)性):校準(zhǔn)性是用來判斷chatgpt性能的不確定性的評價手段。一個好的calibratedclassifier是應(yīng)該能夠預(yù)測模型給出的判斷的準(zhǔn)確性(A properly calibrated classifier should have predictive scores that accurately reflect the probability of correctness)
雖然ChatGPT在標(biāo)準(zhǔn)-IE設(shè)置中的表現(xiàn)比基于BERT的同類產(chǎn)品差,但它在正確和錯誤的預(yù)測中都表現(xiàn)出過度自信。
ChatGPT傾向于產(chǎn)生不容易代表真實概率的置信度。ChatGPT tends to produce confidences that do not represent true probabilities easily.
- faithfulness(可信性):ChatGPT的解釋的忠實性對于確保其可信度非常重要 (The faithfulness of ChatGPT’s explanation is important to ensure its trustworthine)。
ChatGPT’s decision-making process primarily relies on the input of the original text. ChatGPT的決策過程主要依賴于原文的輸入.
7個知識抽取任務(wù)
實體類型判斷 命名實體識別 關(guān)系分類 關(guān)系抽取 事件檢測 事件論元抽取 事件抽取
文章結(jié)論
- 在standard IE情況下,ChatGPT的性能在大多數(shù)情況下無法與基線模型和SOTA方法相比。
- ChatGPT在相對簡單的IE任務(wù)中(實體類型判斷)表現(xiàn)良好,但在更復(fù)雜和具有挑戰(zhàn)性的任務(wù)中(關(guān)系抽取、事件抽?。﹨s很吃力。
- chatgpt在standard IE知識抽取任務(wù)中,表現(xiàn)略差于在openIE任務(wù)中的表現(xiàn)。
- chatgpt可以用來輔助標(biāo)注工作。(我們的研究結(jié)果表明,ChatGPT是一個合格的答案候選生成器,適用于標(biāo)準(zhǔn)-IE設(shè)置下的特定任務(wù)。Our findings suggest that ChatGPT is a competent answer candidate generator for a given task under the Standard-IE setting.)
2. 事件抽?。?OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction
論文核心
論文將event extraction轉(zhuǎn)化為了word-word relation recognition任務(wù)。(參考了relation extraction任務(wù)的方法)
論文面向任務(wù)是EE: EE任務(wù)的核心是需要抽取出trigger和event的arguments。
在解決EE任務(wù)時,將可能的關(guān)系定義為了以下幾類:
S-T 表示head和tail boundary words of a trigger.
S-A 表示head和tail boundary words of a argument
R-S, R-O, R-T, and R-P 表示 trigger Word和argument Word之間的關(guān)系。(S表示subject、O表示object、T表示target、P表示proportion)——也就是事件論元和事件trigger之間的關(guān)系。
論文方法
方法上還是以tagging scheme 為主,是以table filling方式實現(xiàn)的event extraction。
注意公式中的字的寫法
第一步是使用bert 得到sentence 的embedding
第二步使用attention module和 gate module 得到每種event type的contextual representation. (一個由注意模塊和兩個門融合模塊組成的自適應(yīng)事件融合層被用來為每個事件類型獲得偶發(fā)的環(huán)境表征。)文章來源:http://www.zghlxwxcb.cn/news/detail-510289.html
- 先使用attention mechanism 得到了每個Word的 event type下的embedding。E表示event type的embedding。
- 融合target event type的embedding和last gate module的output。
第三步,使用table filling實現(xiàn)relation的classification。是將argument和trigger作為的span,然后做了一次span 分類。然后,對argument做了span的分類,判斷argument的role。 在計算Word-Word pair之間的關(guān)系得分時,使用的是** dot product**.
文章來源地址http://www.zghlxwxcb.cn/news/detail-510289.html
到了這里,關(guān)于論文筆記——chatgpt評估+的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!