国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD

這篇具有很好參考價值的文章主要介紹了論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

iclr 2024 spotlight reviewer 評分 5668

1 intro

  • 由大型語言模型驅(qū)動的對話代理(ChatGPT,Claude 2,Bard,Bing Chat)
    • 他們的開發(fā)流程通常包括三個主要階段
      • 預訓練語言模型
      • 在被稱為“指令調(diào)優(yōu)”數(shù)據(jù)集上進行微調(diào),以使模型的行為與人類偏好保持一致
      • 可選地應用基于人類反饋的強化學習(RLHF),以進一步優(yōu)化模型的響應
    • 雖然基礎模型訓練數(shù)據(jù)豐富且容易獲得,但關鍵的指令調(diào)優(yōu)數(shù)據(jù)集往往是專有的,這導致希望推進該領域的研究人員在可訪問性上存在差距
  • 現(xiàn)有的用戶-聊天機器人互動數(shù)據(jù)集主要有兩種類型
    • 自然使用案例
      • 包括實際用戶互動,大多是專有的
    • 專家策劃的集合
      • 研究人員通常不得不依賴專家策劃的數(shù)據(jù)集
      • 這些數(shù)據(jù)集在分布上通常與現(xiàn)實世界的互動不同,而且通常限于單輪對話
  • 為了彌補這一差距,本文介紹了(INTHE)WILDCHAT數(shù)據(jù)集
    • 一個全面的多輪、多語種數(shù)據(jù)集
    • 包括通過ChatGPT和GPT-4 API支持的聊天機器人服務收集的570,000次完整對話,涵蓋超過150萬次互動輪次
  • WILDCHAT服務于多個研究目的
    • 提供了比現(xiàn)有聊天機器人數(shù)據(jù)集更接近現(xiàn)實世界的多輪、多語種用戶-聊天機器人互動的近似,填補了研究社區(qū)可用資源的重要空白
    • 分析表明,WILDCHAT在語言和語義方面比現(xiàn)有數(shù)據(jù)集更具多樣性
    • 在這個數(shù)據(jù)集中發(fā)現(xiàn)了令人驚訝的高水平的毒性——超過10%的互動
    • 展示了該數(shù)據(jù)集用于指令調(diào)優(yōu)聊天機器人的有效性——僅在原始數(shù)據(jù)集上進行微調(diào)的語言模型就超過了最先進的開源聊天機器人

2 數(shù)據(jù)收集

2.1?收集方法

  • 為了收集WILDCHAT數(shù)據(jù)集,論文部署了兩個聊天機器人服務,一個基于GPT-3.5-turbo API,另一個基于GPT-4 API
  • 這兩個服務都托管在Hugging Face Spaces上,并向公眾開放

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

2.2?用戶同意機制

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

2.3?數(shù)據(jù)預處理

  • 上述數(shù)據(jù)收集步驟產(chǎn)生了1,543,271條對話日志,其中包括部分對話和完整對話。
  • 為了識別并移除部分對話,論文檢查一個對話日志是否是任何其他對話日志的前綴;
    • 這一處理步驟產(chǎn)生了586,031條完整對話。
  • 然后論文盡最大努力移除對話中的個人身份信息(PII)。
  • 論文還過濾掉了13,638條對話,這些對話中要么是用戶連續(xù)發(fā)言,要么是助手連續(xù)發(fā)言,以保持一致的用戶-助手輪換格式。
  • ——>這些預處理步驟共留下了572,393條對話。

3 數(shù)據(jù)分析

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

4? 毒性分析

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

5 使用WILDCHAT進行instruction tuning

在WILDCHAT上訓練了一個Llama-2 7B模型,從而產(chǎn)生了一個稱為WILDLLAMA的新模型

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD,論文筆記,chatgpt,人工智能

第6章 局限性

6.1 用戶人口統(tǒng)計學

鑒于聊天機器人服務托管在Hugging Face Spaces上,與之交互的大多數(shù)用戶可能是開發(fā)者或與IT社區(qū)密切相關的人士。這一人群可能并不反映一般人口,并且可能也解釋了數(shù)據(jù)集中出現(xiàn)的特定類型的對話,如編程問題。

6.2 毒性選擇偏見

用戶使用論文提供的聊天機器人服務的一個潛在原因是它提供匿名性。論文懷疑,這些用戶可能更傾向于產(chǎn)生他們在需要賬戶注冊的平臺上不會分享的內(nèi)容。作為一個典型的例子,如Hacker News中的討論所示,匿名平臺有時可能吸引更多毒性質(zhì)的內(nèi)容。然而,我們服務的匿名性使得更詳細地分析我們用戶群的人口統(tǒng)計學變得具有挑戰(zhàn)性。文章來源地址http://www.zghlxwxcb.cn/news/detail-854343.html

到了這里,關于論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 3D Clothed Human Reconstruction in the Wild論文筆記

    3D Clothed Human Reconstruction in the Wild論文筆記

    論文地址:https://arxiv.org/pdf/2207.10053.pdf 作者:Moon, Gyeongsik, Nam, Hyeongjin, Shiratori, Takaak 發(fā)表:CVPR 2022 鏈接:https://github.com/hygenie1228/ClothWild_RELEASE 最近的大多數(shù)三維人體重建方法都需要三維掃描來進行訓練;因此,它們是在合成數(shù)據(jù)集上訓練的,這些數(shù)據(jù)集由3D掃描和從掃描中渲

    2024年01月19日
    瀏覽(23)
  • 論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文鏈接:https://www.researchgate.net/publication/371661341_Social_bot_detection_in_the_age_of_ChatGPT_Challenges_and_opportunities 目錄 摘要: 引言 1.1. Background on social bots and their role in society 1.2. The rise of AI-generated chatbots like ChatGPT 1.3. The importance of social bot detection 1.4. Scope and objectives of the paper? 2. T

    2024年02月14日
    瀏覽(18)
  • [論文筆記]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE

    這是論文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的閱讀筆記。本篇論文提出了通過Pre-LN的方式可以省掉Warm-up環(huán)節(jié),并且可以加快Transformer的訓練速度。 通常訓練Transformer需要一個仔細設計的學習率warm-up(預熱)階段:在訓練開始階段學習率需要設成一個極小的值,然后在一些

    2024年02月12日
    瀏覽(35)
  • 論文筆記--Distilling the Knowledge in a Neural Network

    論文筆記--Distilling the Knowledge in a Neural Network

    標題:Distilling the Knowledge in a Neural Network 作者:Hinton, Geoffrey, Oriol Vinyals, Jeff Dean 日期:2015 期刊:arxiv ??文章提出了一種將大模型壓縮的新的思路:蒸餾distillation。通過蒸餾,可以將很大的模型壓縮為輕量級的模型,從而提升推理階段的速率。 ??隨著模型的參數(shù)量越來越

    2024年02月15日
    瀏覽(31)
  • Cross-modal Moment Localization in Videos論文筆記

    Cross-modal Moment Localization in Videos論文筆記

    2018年 Cross-modal Moment Localization in Videos 一種稱為“語言-時間注意力網(wǎng)絡”的方法,該方法利用視頻中的時間上下文信息學習單詞的注意力。因此,我們的模型可以自動選擇“聽哪些單詞”以定位所需的瞬間。 以一個具有代表性的查詢來說:一個摩天輪首先進入視野。之前的模

    2024年02月09日
    瀏覽(17)
  • 【時間序列綜述】Transformer in Time Series:A Survey 論文筆記

    【時間序列綜述】Transformer in Time Series:A Survey 論文筆記

    文章全名:Transformers in Time Series: A Survey 文章鏈接:[論文地址]([2202.07125v2] Transformers in Time Series: A Survey (arxiv.org)) 來源:IJCAI 2023 完成單位:阿里巴巴達摩院、上海交通大學 Transformer在自然語言處理和計算機視覺領域都取得了諸多成果,Transformer的捕獲長距離依賴和交互的能力

    2024年04月26日
    瀏覽(25)
  • 論文筆記——chatgpt評估+

    論文筆記——chatgpt評估+

    論文是從 開放域和限定域 兩個角度對chatGPT的**performance、可解釋性、校準性(calibration)和可信性(faithfulness)**進行了評估(assessment)。(performance、explainability、calibration、faithfulness四個維度進行測評的) 以上評估是雜7個細粒度知識抽取任務中進行的。 四個維度: perfo

    2024年02月11日
    瀏覽(10)
  • 【論文閱讀筆記】Endoscopic navigation in the absence of CT imaging

    ??上一篇的導航導論,是需要先驗,也就是需要事先拍攝堆疊的圖片(比如CT圖等),在體外構建相應的3D模型,再與內(nèi)窺鏡圖像進行實時匹配。對于很多情況來說,是無法擁有如此充足的先驗的。所以,本文探索的是沒有額外CT圖像的一個內(nèi)窺鏡導航算法,應用場景是鼻腔

    2024年02月11日
    瀏覽(25)
  • 【論文精讀】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

    【論文精讀】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

    一篇大規(guī)模語言模型的指南,指南介紹詳細且會隨著大模型的發(fā)展不斷更新,相信初入大模型的朋友一定能有所收獲。 本文為LLM的從業(yè)者或者其下游任務用戶提供了一個全面而實用的指南。首先對現(xiàn)有的LLM進行介紹和總結,其次討論了預訓練數(shù)據(jù)、訓練數(shù)據(jù)和測試數(shù)據(jù)的影響

    2024年02月05日
    瀏覽(23)
  • 論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS

    論文筆記:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS

    iclr 2024 spotlight? reviewer 評分 6668 在CV領域,很多Vision-language Model 會把來自圖像的Embedding輸入給LLM,并讓LLM 作為Decoder 輸出文字、類別、檢測框等 但是在這些模型中,LLM并不會直接處理來自圖像的Token,需要和語言進行交互才可以 ——論文探索的是:LLMs能否有效地直接處理完

    2024年04月13日
    瀏覽(16)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包