国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記——chatgpt評估+

2年前作者：YingJingh分類：Toy博客閱讀(10)違法舉報

這篇具有很好參考價值的文章主要介紹了論文筆記——chatgpt評估+。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1. chatgpt 效果評估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

文章簡介

論文是從開放域和限定域兩個角度對chatGPT的**performance、可解釋性、校準(zhǔn)性（calibration）和可信性（faithfulness）**進(jìn)行了評估（assessment）。（performance、explainability、calibration、faithfulness四個維度進(jìn)行測評的）
以上評估是雜7個細(xì)粒度知識抽取任務(wù)中進(jìn)行的。

四個維度：

performance(表現(xiàn))：chatgpt在不同任務(wù)下的性能表現(xiàn)。
explainability(可解釋性)：chatgpt在self-check和human-check下的可解釋性。

ChatGPT和領(lǐng)域?qū)＜腋叨日J(rèn)可ChatGPT給出的理由，大多數(shù)數(shù)據(jù)集在Standard-IE和OpenIE設(shè)置中獲得了超過90%的合理分?jǐn)?shù)
與人的評價相比，ChatGPT在為其預(yù)測提供的理由方面顯示出很高的信心。ChatGPT displays a high level of confidence in the reasons provided for its predictions when compared with human evaluation
當(dāng)ChatGPT為一個預(yù)測提供了合理的解釋時，ChatGPT和人類的評價之間有很高的一致性。

calibration（校準(zhǔn)性）：校準(zhǔn)性是用來判斷chatgpt性能的不確定性的評價手段。一個好的calibratedclassifier是應(yīng)該能夠預(yù)測模型給出的判斷的準(zhǔn)確性（A properly calibrated classifier should have predictive scores that accurately reflect the probability of correctness）

雖然ChatGPT在標(biāo)準(zhǔn)-IE設(shè)置中的表現(xiàn)比基于BERT的同類產(chǎn)品差，但它在正確和錯誤的預(yù)測中都表現(xiàn)出過度自信。
ChatGPT傾向于產(chǎn)生不容易代表真實概率的置信度。ChatGPT tends to produce confidences that do not represent true probabilities easily.

faithfulness(可信性）：ChatGPT的解釋的忠實性對于確保其可信度非常重要（The faithfulness of ChatGPT’s explanation is important to ensure its trustworthine）。

ChatGPT’s decision-making process primarily relies on the input of the original text. ChatGPT的決策過程主要依賴于原文的輸入.

7個知識抽取任務(wù)

實體類型判斷命名實體識別關(guān)系分類關(guān)系抽取事件檢測事件論元抽取事件抽取

文章結(jié)論

在standard IE情況下，ChatGPT的性能在大多數(shù)情況下無法與基線模型和SOTA方法相比。
ChatGPT在相對簡單的IE任務(wù)中（實體類型判斷）表現(xiàn)良好，但在更復(fù)雜和具有挑戰(zhàn)性的任務(wù)中（關(guān)系抽取、事件抽?。﹨s很吃力。
chatgpt在standard IE知識抽取任務(wù)中，表現(xiàn)略差于在openIE任務(wù)中的表現(xiàn)。
chatgpt可以用來輔助標(biāo)注工作。（我們的研究結(jié)果表明，ChatGPT是一個合格的答案候選生成器，適用于標(biāo)準(zhǔn)-IE設(shè)置下的特定任務(wù)。Our findings suggest that ChatGPT is a competent answer candidate generator for a given task under the Standard-IE setting.）

2. 事件抽?。?OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

論文核心

論文將event extraction轉(zhuǎn)化為了word-word relation recognition任務(wù)。（參考了relation extraction任務(wù)的方法）

論文面向任務(wù)是EE： EE任務(wù)的核心是需要抽取出trigger和event的arguments。
在解決EE任務(wù)時，將可能的關(guān)系定義為了以下幾類：
S-T 表示head和tail boundary words of a trigger.
S-A 表示head和tail boundary words of a argument
R-S, R-O, R-T, and R-P 表示 trigger Word和argument Word之間的關(guān)系。（S表示subject、O表示object、T表示target、P表示proportion）——也就是事件論元和事件trigger之間的關(guān)系。

論文方法

方法上還是以tagging scheme 為主，是以table filling方式實現(xiàn)的event extraction。
論文筆記——chatgpt評估+
注意公式中的字的寫法

第一步是使用bert 得到sentence 的embedding

論文筆記——chatgpt評估+

第二步使用attention module和 gate module 得到每種event type的contextual representation. (一個由注意模塊和兩個門融合模塊組成的自適應(yīng)事件融合層被用來為每個事件類型獲得偶發(fā)的環(huán)境表征。)

先使用attention mechanism 得到了每個Word的 event type下的embedding。E表示event type的embedding。
融合target event type的embedding和last gate module的output。

第三步，使用table filling實現(xiàn)relation的classification。是將argument和trigger作為的span，然后做了一次span 分類。然后，對argument做了span的分類，判斷argument的role。在計算Word-Word pair之間的關(guān)系得分時，使用的是** dot product**.
文章來源地址http://www.zghlxwxcb.cn/news/detail-510289.html

到了這里，關(guān)于論文筆記——chatgpt評估+的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

召回：效果評估
最好肯定是線上ab，但是ps資源和線上流量都有限。首先auc高并不代表召回的好，實際上好的召回可能auc低一些，但是會召回出更符合真實分布的內(nèi)容，實際工作中auc當(dāng)作參考就好。拿Top K召回結(jié)果與用戶實際點擊做交集并計算precision/recall，感覺現(xiàn)在大多都是用的這個方法，
2023年04月26日
瀏覽(18)
[論文筆記] chatgpt DeepSpeed-chat 簡介
DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub ?? DeepSpeed-Chat:簡單，快速和負(fù)擔(dān)得起的RLHF訓(xùn)練的類chatgpt模型 ?? 一個快速、經(jīng)濟(jì)、可擴(kuò)展和開放的系統(tǒng)框架，用于實現(xiàn)端到端的強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練體驗，以在所有尺度上生成高質(zhì)量的類chat
2024年02月02日
瀏覽(18)
Visual ChatGPT原理解讀——大模型論文閱讀筆記四
論文：https://arxiv.org/abs/2303.04671 代碼：https://github.com/microsoft/TaskMatrix 如圖所示，用戶上傳一張黃花的圖像并輸入一個復(fù)雜的語言指令“請根據(jù)該圖像的預(yù)測深度生成一朵紅花，然后逐步使其像卡通一樣”。在交互管理器的幫助下，Visual ChatGPT 開始了相關(guān)視覺基礎(chǔ)模型的執(zhí)行
2024年02月09日
瀏覽(19)
[論文筆記] chatgpt——PPO算法(Proximal Policy Optimization)
Proximal Policy Optimization (PPO) ????????避免較多的策略更新。根據(jù)經(jīng)驗，訓(xùn)練期間較小的策略更新更有可能收斂到最優(yōu)解決方案。在策略更新中，太大的一步可能會導(dǎo)致“掉下懸崖”(得到一個糟糕的策略)，并且有很長時間甚至沒有可能恢復(fù)。 ????????所以在PPO中，我們
2024年02月01日
瀏覽(45)
MATLAB - 評估擬合優(yōu)度、評價擬合效果
用一個或多個模型擬合數(shù)據(jù)后，您應(yīng)該評估擬合的好壞。第一步應(yīng)該是目測 \\\"曲線擬合器 \\\"應(yīng)用程序中顯示的擬合曲線。除此之外，工具箱還提供了這些方法來評估線性和非線性參數(shù)擬合的擬合優(yōu)度：擬合優(yōu)度統(tǒng)計殘差分析置信度和預(yù)測邊界正如統(tǒng)計文獻(xiàn)中常見的那樣，\\\"擬
2024年03月28日
瀏覽(18)
[論文筆記] chatgpt系列 2.1 DeepSpeed-chat 簡介
DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub ?? DeepSpeed-Chat:簡單，快速和負(fù)擔(dān)得起的RLHF訓(xùn)練的類chatgpt模型 ?? 一個快速、經(jīng)濟(jì)、可擴(kuò)展和開放的系統(tǒng)框架，用于實現(xiàn)端到端的強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練體驗，以在所有尺度上生成高質(zhì)量的類chat
2024年02月09日
瀏覽(16)
【論文筆記】——從transformer、bert、GPT-1、2、3到ChatGPT
18年有bert和gpt這兩個語言模型，分別源自transformer的編碼器和解碼器，都是無監(jiān)督方式訓(xùn)練的 GPT-1用的是無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào) GPT-2用的是純無監(jiān)督預(yù)訓(xùn)練。提升了網(wǎng)絡(luò)層數(shù)和訓(xùn)練數(shù)據(jù)量 GPT-3沿用了GPT-2的純無監(jiān)督預(yù)訓(xùn)練，但是數(shù)據(jù)大了好幾個量級 InstructGPT在GPT-3上用來自人
2024年02月09日
瀏覽(18)
[論文筆記] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)
Proximal Policy Optimization (PPO) ????????避免較多的策略更新。根據(jù)經(jīng)驗，訓(xùn)練期間較小的策略更新更有可能收斂到最優(yōu)解決方案。在策略更新中，太大的一步可能會導(dǎo)致“掉下懸崖”(得到一個糟糕的策略)，并且有很長時間甚至沒有可能恢復(fù)。 ????????所以在PPO中，我們
2024年02月03日
瀏覽(22)
論文筆記：AugGPT: Leveraging ChatGPT for Text Data Augmentation
文本數(shù)據(jù)增強(qiáng)是克服許多自然語言處理（NLP）任務(wù)中樣本量有限的挑戰(zhàn)的有效策略。這一挑戰(zhàn)在小樣本學(xué)習(xí)場景中尤為突出，其中目標(biāo)域中的數(shù)據(jù)通常更加稀缺且質(zhì)量較低。緩解此類挑戰(zhàn)的一種自然且廣泛使用的策略是執(zhí)行數(shù)據(jù)增強(qiáng)，以更好地捕獲數(shù)據(jù)不變性并增加樣本量。
2024年02月11日
瀏覽(18)
Chatgpt論文筆記——GPT1詳細(xì)解讀與可運行的代碼
論文：https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 時間：2018年6月貢獻(xiàn)：提出了大規(guī)模數(shù)據(jù)上無監(jiān)督預(yù)訓(xùn)練然后在目標(biāo)任務(wù)上有監(jiān)督finetune的范式。當(dāng)時由于NLP領(lǐng)域不存在像圖像領(lǐng)域中ImageNet那樣百萬級別標(biāo)注的數(shù)據(jù)（并且圖像的像素包含了比句子
2024年02月11日
瀏覽(19)