国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記——chatgpt評估+

這篇具有很好參考價值的文章主要介紹了論文筆記——chatgpt評估+。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1. chatgpt 效果評估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

文章簡介

論文是從開放域和限定域兩個角度對chatGPT的**performance、可解釋性、校準(zhǔn)性(calibration)和可信性(faithfulness)**進(jìn)行了評估(assessment)。(performance、explainability、calibration、faithfulness四個維度進(jìn)行測評的)
以上評估是雜7個細(xì)粒度知識抽取任務(wù)中進(jìn)行的。

四個維度:

  1. performance(表現(xiàn)):chatgpt在不同任務(wù)下的性能表現(xiàn)。
  2. explainability(可解釋性):chatgpt在self-check和human-check下的可解釋性。

ChatGPT和領(lǐng)域?qū)<腋叨日J(rèn)可ChatGPT給出的理由,大多數(shù)數(shù)據(jù)集在Standard-IE和OpenIE設(shè)置中獲得了超過90%的合理分?jǐn)?shù)
與人的評價相比,ChatGPT在為其預(yù)測提供的理由方面顯示出很高的信心。ChatGPT displays a high level of confidence in the reasons provided for its predictions when compared with human evaluation
當(dāng)ChatGPT為一個預(yù)測提供了合理的解釋時,ChatGPT和人類的評價之間有很高的一致性。

  1. calibration(校準(zhǔn)性):校準(zhǔn)性是用來判斷chatgpt性能的不確定性的評價手段。一個好的calibratedclassifier是應(yīng)該能夠預(yù)測模型給出的判斷的準(zhǔn)確性(A properly calibrated classifier should have predictive scores that accurately reflect the probability of correctness)

雖然ChatGPT在標(biāo)準(zhǔn)-IE設(shè)置中的表現(xiàn)比基于BERT的同類產(chǎn)品差,但它在正確和錯誤的預(yù)測中都表現(xiàn)出過度自信。
ChatGPT傾向于產(chǎn)生不容易代表真實概率的置信度。ChatGPT tends to produce confidences that do not represent true probabilities easily.

  1. faithfulness(可信性):ChatGPT的解釋的忠實性對于確保其可信度非常重要 (The faithfulness of ChatGPT’s explanation is important to ensure its trustworthine)。

ChatGPT’s decision-making process primarily relies on the input of the original text. ChatGPT的決策過程主要依賴于原文的輸入.

7個知識抽取任務(wù)

實體類型判斷 命名實體識別 關(guān)系分類 關(guān)系抽取 事件檢測 事件論元抽取 事件抽取

文章結(jié)論

  1. 在standard IE情況下,ChatGPT的性能在大多數(shù)情況下無法與基線模型和SOTA方法相比。
  2. ChatGPT在相對簡單的IE任務(wù)中(實體類型判斷)表現(xiàn)良好,但在更復(fù)雜和具有挑戰(zhàn)性的任務(wù)中(關(guān)系抽取、事件抽?。﹨s很吃力。
  3. chatgpt在standard IE知識抽取任務(wù)中,表現(xiàn)略差于在openIE任務(wù)中的表現(xiàn)。
  4. chatgpt可以用來輔助標(biāo)注工作。(我們的研究結(jié)果表明,ChatGPT是一個合格的答案候選生成器,適用于標(biāo)準(zhǔn)-IE設(shè)置下的特定任務(wù)。Our findings suggest that ChatGPT is a competent answer candidate generator for a given task under the Standard-IE setting.)

2. 事件抽?。?OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

論文核心

論文將event extraction轉(zhuǎn)化為了word-word relation recognition任務(wù)。(參考了relation extraction任務(wù)的方法)

論文面向任務(wù)是EE: EE任務(wù)的核心是需要抽取出trigger和event的arguments。
在解決EE任務(wù)時,將可能的關(guān)系定義為了以下幾類:
S-T 表示head和tail boundary words of a trigger.
S-A 表示head和tail boundary words of a argument
R-S, R-O, R-T, and R-P 表示 trigger Word和argument Word之間的關(guān)系。(S表示subject、O表示object、T表示target、P表示proportion)——也就是事件論元和事件trigger之間的關(guān)系。

論文方法

方法上還是以tagging scheme 為主,是以table filling方式實現(xiàn)的event extraction。
論文筆記——chatgpt評估+
注意公式中的字的寫法

第一步是使用bert 得到sentence 的embedding

論文筆記——chatgpt評估+

第二步使用attention module和 gate module 得到每種event type的contextual representation. (一個由注意模塊和兩個門融合模塊組成的自適應(yīng)事件融合層被用來為每個事件類型獲得偶發(fā)的環(huán)境表征。)

  1. 先使用attention mechanism 得到了每個Word的 event type下的embedding。E表示event type的embedding。論文筆記——chatgpt評估+
  2. 融合target event type的embedding和last gate module的output。
    論文筆記——chatgpt評估+
    論文筆記——chatgpt評估+

第三步,使用table filling實現(xiàn)relation的classification。是將argument和trigger作為的span,然后做了一次span 分類。然后,對argument做了span的分類,判斷argument的role。 在計算Word-Word pair之間的關(guān)系得分時,使用的是** dot product**.
論文筆記——chatgpt評估+文章來源地址http://www.zghlxwxcb.cn/news/detail-510289.html

到了這里,關(guān)于論文筆記——chatgpt評估+的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 召回:效果評估

    最好肯定是線上ab,但是ps資源和線上流量都有限。 首先auc高并不代表召回的好,實際上好的召回可能auc低一些,但是會召回出更符合真實分布的內(nèi)容,實際工作中auc當(dāng)作參考就好。 拿Top K召回結(jié)果與用戶實際點擊做交集并計算precision/recall,感覺現(xiàn)在大多都是用的這個方法,

    2023年04月26日
    瀏覽(18)
  • [論文筆記] chatgpt DeepSpeed-chat 簡介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub ?? DeepSpeed-Chat:簡單,快速和負(fù)擔(dān)得起的RLHF訓(xùn)練的類chatgpt模型 ?? 一個快速、經(jīng)濟(jì)、可擴(kuò)展和開放的系統(tǒng)框架,用于實現(xiàn)端到端的強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練體驗,以在所有尺度上生成高質(zhì)量的類chat

    2024年02月02日
    瀏覽(18)
  • Visual ChatGPT原理解讀——大模型論文閱讀筆記四

    Visual ChatGPT原理解讀——大模型論文閱讀筆記四

    論文:https://arxiv.org/abs/2303.04671 代碼:https://github.com/microsoft/TaskMatrix 如圖所示,用戶上傳一張黃花的圖像并輸入一個復(fù)雜的語言指令“請根據(jù)該圖像的預(yù)測深度生成一朵紅花,然后逐步使其像卡通一樣”。 在交互管理器的幫助下,Visual ChatGPT 開始了相關(guān)視覺基礎(chǔ)模型的執(zhí)行

    2024年02月09日
    瀏覽(19)
  • [論文筆記] chatgpt——PPO算法(Proximal Policy Optimization)

    [論文筆記] chatgpt——PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO) ????????避免較多的策略更新。 根據(jù)經(jīng)驗,訓(xùn)練期間較小的策略更新更有可能收斂到最優(yōu)解決方案。 在策略更新中,太大的一步可能會導(dǎo)致“掉下懸崖”(得到一個糟糕的策略),并且有很長時間甚至沒有可能恢復(fù)。 ????????所以在PPO中,我們

    2024年02月01日
    瀏覽(45)
  • MATLAB - 評估擬合優(yōu)度、評價擬合效果

    MATLAB - 評估擬合優(yōu)度、評價擬合效果

    用一個或多個模型擬合數(shù)據(jù)后,您應(yīng)該評估擬合的好壞。第一步應(yīng)該是目測 \\\"曲線擬合器 \\\"應(yīng)用程序中顯示的擬合曲線。除此之外,工具箱還提供了這些方法來評估線性和非線性參數(shù)擬合的擬合優(yōu)度: 擬合優(yōu)度統(tǒng)計 殘差分析 置信度和預(yù)測邊界 正如統(tǒng)計文獻(xiàn)中常見的那樣,\\\"擬

    2024年03月28日
    瀏覽(18)
  • [論文筆記] chatgpt系列 2.1 DeepSpeed-chat 簡介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub ?? DeepSpeed-Chat:簡單,快速和負(fù)擔(dān)得起的RLHF訓(xùn)練的類chatgpt模型 ?? 一個快速、經(jīng)濟(jì)、可擴(kuò)展和開放的系統(tǒng)框架,用于實現(xiàn)端到端的強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練體驗,以在所有尺度上生成高質(zhì)量的類chat

    2024年02月09日
    瀏覽(16)
  • 【論文筆記】——從transformer、bert、GPT-1、2、3到ChatGPT

    【論文筆記】——從transformer、bert、GPT-1、2、3到ChatGPT

    18年有bert和gpt這兩個語言模型,分別源自transformer的編碼器和解碼器,都是無監(jiān)督方式訓(xùn)練的 GPT-1用的是無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào) GPT-2用的是純無監(jiān)督預(yù)訓(xùn)練。提升了網(wǎng)絡(luò)層數(shù)和訓(xùn)練數(shù)據(jù)量 GPT-3沿用了GPT-2的純無監(jiān)督預(yù)訓(xùn)練,但是數(shù)據(jù)大了好幾個量級 InstructGPT在GPT-3上用來自人

    2024年02月09日
    瀏覽(18)
  • [論文筆記] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

    [論文筆記] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO) ????????避免較多的策略更新。 根據(jù)經(jīng)驗,訓(xùn)練期間較小的策略更新更有可能收斂到最優(yōu)解決方案。 在策略更新中,太大的一步可能會導(dǎo)致“掉下懸崖”(得到一個糟糕的策略),并且有很長時間甚至沒有可能恢復(fù)。 ????????所以在PPO中,我們

    2024年02月03日
    瀏覽(22)
  • 論文筆記:AugGPT: Leveraging ChatGPT for Text Data Augmentation

    論文筆記:AugGPT: Leveraging ChatGPT for Text Data Augmentation

    文本數(shù)據(jù)增強(qiáng)是克服許多自然語言處理(NLP)任務(wù)中樣本量有限的挑戰(zhàn)的有效策略。這一挑戰(zhàn)在小樣本學(xué)習(xí)場景中尤為突出,其中目標(biāo)域中的數(shù)據(jù)通常更加稀缺且質(zhì)量較低。緩解此類挑戰(zhàn)的一種自然且廣泛使用的策略是執(zhí)行數(shù)據(jù)增強(qiáng),以更好地捕獲數(shù)據(jù)不變性并增加樣本量。

    2024年02月11日
    瀏覽(18)
  • Chatgpt論文筆記——GPT1詳細(xì)解讀與可運行的代碼

    Chatgpt論文筆記——GPT1詳細(xì)解讀與可運行的代碼

    論文:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 時間:2018年6月 貢獻(xiàn): 提出了大規(guī)模數(shù)據(jù)上無監(jiān)督預(yù)訓(xùn)練然后在目標(biāo)任務(wù)上有監(jiān)督finetune的范式。 當(dāng)時由于NLP領(lǐng)域不存在像圖像領(lǐng)域中ImageNet那樣百萬級別標(biāo)注的數(shù)據(jù)(并且圖像的像素包含了比句子

    2024年02月11日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包