iclr 2024 spotlight reviewer 評分 5668
1 intro
- 由大型語言模型驅(qū)動的對話代理(ChatGPT,Claude 2,Bard,Bing Chat)
- 他們的開發(fā)流程通常包括三個主要階段
- 預訓練語言模型
- 在被稱為“指令調(diào)優(yōu)”數(shù)據(jù)集上進行微調(diào),以使模型的行為與人類偏好保持一致
- 可選地應用基于人類反饋的強化學習(RLHF),以進一步優(yōu)化模型的響應
- 雖然基礎模型訓練數(shù)據(jù)豐富且容易獲得,但關鍵的指令調(diào)優(yōu)數(shù)據(jù)集往往是專有的,這導致希望推進該領域的研究人員在可訪問性上存在差距
- 他們的開發(fā)流程通常包括三個主要階段
- 現(xiàn)有的用戶-聊天機器人互動數(shù)據(jù)集主要有兩種類型
- 自然使用案例
- 包括實際用戶互動,大多是專有的
- 專家策劃的集合
- 研究人員通常不得不依賴專家策劃的數(shù)據(jù)集
- 這些數(shù)據(jù)集在分布上通常與現(xiàn)實世界的互動不同,而且通常限于單輪對話
- 自然使用案例
- 為了彌補這一差距,本文介紹了(INTHE)WILDCHAT數(shù)據(jù)集
- 一個全面的多輪、多語種數(shù)據(jù)集
- 包括通過ChatGPT和GPT-4 API支持的聊天機器人服務收集的570,000次完整對話,涵蓋超過150萬次互動輪次
- WILDCHAT服務于多個研究目的
- 提供了比現(xiàn)有聊天機器人數(shù)據(jù)集更接近現(xiàn)實世界的多輪、多語種用戶-聊天機器人互動的近似,填補了研究社區(qū)可用資源的重要空白
- 分析表明,WILDCHAT在語言和語義方面比現(xiàn)有數(shù)據(jù)集更具多樣性
- 在這個數(shù)據(jù)集中發(fā)現(xiàn)了令人驚訝的高水平的毒性——超過10%的互動
- 展示了該數(shù)據(jù)集用于指令調(diào)優(yōu)聊天機器人的有效性——僅在原始數(shù)據(jù)集上進行微調(diào)的語言模型就超過了最先進的開源聊天機器人
2 數(shù)據(jù)收集
2.1?收集方法
- 為了收集WILDCHAT數(shù)據(jù)集,論文部署了兩個聊天機器人服務,一個基于GPT-3.5-turbo API,另一個基于GPT-4 API
- 這兩個服務都托管在Hugging Face Spaces上,并向公眾開放
2.2?用戶同意機制
2.3?數(shù)據(jù)預處理
- 上述數(shù)據(jù)收集步驟產(chǎn)生了1,543,271條對話日志,其中包括部分對話和完整對話。
- 為了識別并移除部分對話,論文檢查一個對話日志是否是任何其他對話日志的前綴;
- 這一處理步驟產(chǎn)生了586,031條完整對話。
- 然后論文盡最大努力移除對話中的個人身份信息(PII)。
- 論文還過濾掉了13,638條對話,這些對話中要么是用戶連續(xù)發(fā)言,要么是助手連續(xù)發(fā)言,以保持一致的用戶-助手輪換格式。
- ——>這些預處理步驟共留下了572,393條對話。
3 數(shù)據(jù)分析
4? 毒性分析
5 使用WILDCHAT進行instruction tuning
在WILDCHAT上訓練了一個Llama-2 7B模型,從而產(chǎn)生了一個稱為WILDLLAMA的新模型
第6章 局限性
6.1 用戶人口統(tǒng)計學
鑒于聊天機器人服務托管在Hugging Face Spaces上,與之交互的大多數(shù)用戶可能是開發(fā)者或與IT社區(qū)密切相關的人士。這一人群可能并不反映一般人口,并且可能也解釋了數(shù)據(jù)集中出現(xiàn)的特定類型的對話,如編程問題。文章來源:http://www.zghlxwxcb.cn/news/detail-854343.html
6.2 毒性選擇偏見
用戶使用論文提供的聊天機器人服務的一個潛在原因是它提供匿名性。論文懷疑,這些用戶可能更傾向于產(chǎn)生他們在需要賬戶注冊的平臺上不會分享的內(nèi)容。作為一個典型的例子,如Hacker News中的討論所示,匿名平臺有時可能吸引更多毒性質(zhì)的內(nèi)容。然而,我們服務的匿名性使得更詳細地分析我們用戶群的人口統(tǒng)計學變得具有挑戰(zhàn)性。文章來源地址http://www.zghlxwxcb.cn/news/detail-854343.html
到了這里,關于論文筆記:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!