国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus

這篇具有很好參考價值的文章主要介紹了解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

LLM Agent中間插個隊,總結下指令微調、對齊數(shù)據相關的方案,已經湊夠7篇論文可以召喚神龍啦!論文都是以優(yōu)化指令樣本為核心,Data-Centric的觀點比較一致:指令微調也就是對齊階段的數(shù)據質量>>數(shù)量,少量+多樣+高質量的對齊數(shù)據,就能讓你快速擁有效果杠杠的模型。注意以上三者是充分必要關系,不是說數(shù)據越少越好,是三者的有機統(tǒng)一。

如果你對指令微調還不甚了解,建議先看看下解密Prompt系列4. 升級Instruction Tuning。

當前對指令微調部分的普遍認知有兩個思路

  • 抽象派:把模型輸出和人類偏好進行對齊
  • 務實派:賦予模型任務指令的理解和完成能力

兩個思路其實殊途同歸,重心落在任務+對齊,既基于用戶指令應該召回模型預訓練學習的哪些知識,以及把這些知識用什么樣的格式和風格進行輸出,類似于把預訓練學習的知識重新排列組合并輸出??梢灶惐忍綔yBert Finetune對向量空間的影響,只不過指令微調調整的高維空間更加細分多樣。

于是才有本章的討論,那我們構建質量更高,覆蓋范圍更廣的數(shù)據,是否比隨機造大量的指令數(shù)據效果要更好。畢竟你抖音刷1000條雜七雜八的中醫(yī)養(yǎng)生小知識,可能比不上精讀黃帝內經+神農本草不是~

LIMA

  • 論文:LIMA: Less Is More for Alignment
  • 要點:人工構建1K高質量樣本用于對齊,高質量主要指輸出的風格一致性,以及輸入的多樣性

LIMA是比較早提出Quality Over Quantity觀點的論文。論文提出一個假設是模型的知識和能力幾乎全部是預訓練階段注入的。而指令微調階段的對齊只是學習和人類交互的回答形式。因此一個輸入多樣輸出形式一致的高質量指令數(shù)據集能幫模型快速學到回答形式。

指令數(shù)據集的構建方式是人工從Stack Exchange, wikiHow和Reddit里面分類篩選更高質量的問題和回答,來構建指令樣本集。我們具體說下Stack Exchange樣本的構建,其他兩個思路是一致的

  1. 分類采樣: 為了保證多樣性,把Stack的分成75個科學類別和99個其他類別,從每個類別中采樣200個問題
  2. 篩選:為了保證質量,在以上每個類別中篩選問題評分最高的,再篩選該問題中回答得分最高的
  3. 過濾:為了保證輸出的一致性,過濾太長(4096字符)/太短(1200字符)的回答,過濾以第一人稱回答,或者引用了其他回答的內容。以及對內容進行清洗只保留代碼和文本部分。
  4. 樣本構建:隨機使用問題的標題或者描述作為輸入,使用回答做為輸出。

除了使用已有的QA數(shù)據,幾位作者還人工構建了200條基于個人偏好隨機創(chuàng)建的prompt,以及編寫的回答,在回答編寫過程中核心是注意回答風格的一致性。重要的事情說三遍,一致性,一致性,一致性。論文反復強調一致的回答風格可以加速模型收斂。

論文使用的是65B的LLAMA模型,1000條樣本,微調了15個epoch,lr=1e-5, batch=32, max_seq_len =2048。最終是人工在驗證集打分上,選擇了5-10個epoch之間的checkpoint。

論文針對數(shù)據集的質量,數(shù)量和多樣性進行了消融實驗,如下圖

解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus

  • 多樣性:相似質量和數(shù)量,輸入指令多樣性更高的stack exchange的效果優(yōu)于輸入相對單一的wikiHow數(shù)據集
  • 質量:同等量級上過濾后質量更高的stack Exchange數(shù)據集微調的效果更好
  • 數(shù)量:從質量過濾后單一的stack exchange中采樣更高量級的訓練樣本,并不能顯著帶來效果提升。之前公認的樣本數(shù)量越多越好,可能更多是數(shù)量提升帶來的指令多樣性提升。

當然論文選擇的樣本數(shù)本身并無非常大的參考意義,因為這個選擇的基座模型,模型大小,數(shù)據本身的多樣性都相關,所以需要具體模型具體分析。

ALPAGASUS

  • 論文:AlpaGasus: Training A Better Alpaca with Fewer Data
  • 代碼:https://lichang-chen.github.io/AlpaGasus/
  • 數(shù)據: https://github.com/gururise/AlpacaDataCleaned/
  • 要點:模型自動化篩選高質量指令微調樣本

論文起名終于從和動物糾纏不清,到開始上天入地,模型起名AlpaGasus=Alpaca+Pegasus,故名飛天羊駝,哈哈最近總會讓人不由自主想到飛天茅臺

解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus

對比LIMA,ALPAGASUS沒有對什么是高質量進行很明確的定義,但是提出了自動化樣本過濾的方案,成本更低,更簡單粗暴。從原始52K的ALPACA樣本中使用大模型自動篩選高質量的9K樣本進行模型微調。

論文在以下4個測試集上進行評估,使用GPT-4給原始Alpaca和飛天羊駝進行偏好打分,勝率如下,在不同量級的訓練樣本上,飛天羊駝以80%+的勝率超越Alpaca,當訓練樣本在9K左右的時候,勝率最高~

解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus

自動樣本過濾機制比較簡單,就是使用如下Prompt,讓Chatgpt給(instruction, input, response)的三元組樣本進行打分,并根據最終的打分分布,選定4.5分作為閾值,篩選打分>4.5的9K樣本用于下游模型微調。

解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus

論文還進行了消融實驗,對比了不同的篩選閾值得到的不同訓練樣本量的影響,3k/6k/9k中9K的樣本量級,模型效果最好,但超過后模型效果會有下降。延伸下大概就是高質量的數(shù)據越多越好,但低質量的數(shù)據越少越好。同時對比了隨機采樣9K作為作為對照組,效果是顯著差于使用模型打分篩選出的9K樣本。

自動化數(shù)據篩選看起來非常美好且夢幻,但筆者本人有一個疑問,論文使用chatgpt來篩選樣本,又用GPT4作為評估,是否會引入bias,這個bias主要來自chatgpt和gpt4相對一致的偏好。這一點除非引入人工評估,或者多個大模型例如Claude之類同時進行最終的評估打分,否則個人感覺可能出現(xiàn)媽媽看自己的孩子咋看都好看的情況......

LTD

  • 論文:Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning
  • 要點:聚類過濾相似度高的樣本,篩選多樣性樣本用于對齊

LTD的樣本篩選中心放在多樣性,在任務微調上只使用0.5%的訓練樣本,還比原有效果提升了2%。論文對多樣性給出了更形象的描述就是用最少的樣本,去近似刻畫當前全部指令集的空間分布。這么一描述,其實答案已經呼之欲出了,跑不了cluster,KNN,k-center這些方案,論文實現(xiàn)如下

解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus

具體分成3個步驟

  1. Sample embedding: 把指令樣向量化,這里論文是把指令+回答一同輸入BERT模型進行編碼,并且做了l2正則化,這樣后續(xù)聚類計算距離就可以直接使用cosine距離
  2. Clustering:作者使用K-Means對所有指令樣本進行聚類,不過個人更偏好aggolomerative clustering,畢竟k-means是密度聚類,而層次聚類是基于距離的,在文本聚類中距離是有明確含義的,可以更好保證不同cluster直接的粒度相對一致
  3. Corest Sampling:基于聚類結果選擇有代表性的樣本來構建指令集。我本以為論文會直接從每個cluster動進行隨機采樣,意料之外的是論文采用了貪心的K-center算法來選取更有代表性的數(shù)據點,算法如下。目標是找到K的中心點,使得所有點到距離最近的中心點的距離之和最小化。實現(xiàn)是先用聚類中心點作為起始中心點,遍歷所有其他點找到離所有起始點距離最遠的點,把這個點也加入中心點,然后多次重復以上過程。

解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus

除了以上介紹的論文之外,還有幾篇論文思想也或有相似,包括以下Reference中的

  • InstructionGPT-4:把多樣性和質量進行綜合打分的多模態(tài)微調模型
  • Instruction Minning: 使用指令評估集推理Loss來對指令數(shù)據進行高質量篩選的
  • Polite Flamingo:通過改寫和重構構建高質量多模態(tài)模型輸出數(shù)據
  • Textbooks:編程任務上構建教科書級別質量的預訓練數(shù)據,和對應的習題集數(shù)據用于微調效果顯著超越StarCoder

想看更全的大模型相關論文梳理·微調及預訓練數(shù)據和框架·AIGC應用,移步Github >> DecryPrompt文章來源地址http://www.zghlxwxcb.cn/news/detail-711740.html


Refernece

  1. InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4
  2. Instruction Mining: High-Quality Instruction Data Selection for Large Language Models
  3. Visual Instruction Tuning with Polite Flamingo
  4. Textbooks are all you need
  5. K-center Greedy算法的論文,Active Learning for Convolutional Neural Networks: A Core-Set Approach

到了這里,關于解密Prompt系列16. LLM對齊經驗之數(shù)據越少越好?LTD & LIMA & AlpaGasus的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 解密Prompt系列13. LLM Agent-指令微調方案: Toolformer & Gorilla

    解密Prompt系列13. LLM Agent-指令微調方案: Toolformer & Gorilla

    上一章我們介紹了基于Prompt范式的工具調用方案,這一章介紹基于模型微調,支持任意多工具組合調用,復雜調用的方案。多工具調用核心需要解決3個問題,在哪個位置進行工具調用(where), 從眾多工具中選擇哪一個(Which), 工具的輸入是什么(What)。Where + Which + What,我稱之為

    2024年02月12日
    瀏覽(15)
  • 解密Prompt系列12. LLM Agent零微調范式 ReAct & Self Ask

    解密Prompt系列12. LLM Agent零微調范式 ReAct & Self Ask

    前三章我們分別介紹了思維鏈的使用,原理和在小模型上的使用。這一章我們正式進入應用層面,聊聊如何把思維鏈和工具使用結合得到人工智能代理。 要回答我們?yōu)槭裁葱枰狝I代理?代理可以解決哪些問題?可以有以下兩個視角 首先是我們賦能模型,如果說 LLM是大腦,那

    2024年02月15日
    瀏覽(15)
  • 解密Prompt系列14. LLM Agent之搜索應用設計:WebGPT & WebGLM & WebCPM

    解密Prompt系列14. LLM Agent之搜索應用設計:WebGPT & WebGLM & WebCPM

    前兩章,我們分別介紹了基于微調和prompt的工具調用方案,核心都是如何讓大模型和工具進行交互,包括生成工具調用語句和處理工具調用請求。不過在實際應用中,想要設計一個可以落地的LLM Agent,需要更全面整體的系統(tǒng)設計。本章我們以搜索工具為例,介紹如何更好和搜

    2024年02月10日
    瀏覽(22)
  • 解密Prompt系列20. LLM Agent之再談RAG的召回多樣性優(yōu)化

    解密Prompt系列20. LLM Agent之再談RAG的召回多樣性優(yōu)化

    幾個月前我們就聊過RAG的經典方案解密Prompt系列14. LLM Agent之搜索應用設計。前幾天剛看完openAI在DevDay閉門會議上介紹的RAG相關的經驗,有些新的感悟,借此機會再梳理下RAG相關的優(yōu)化方案。推薦直接看原視頻(外網)A Survey of Techniques for Maximizing LLM Performance RAG最關鍵的一環(huán)其

    2024年02月05日
    瀏覽(23)
  • 解密Prompt系列22. LLM Agent之RAG的反思:放棄了壓縮還是智能么?

    解密Prompt系列22. LLM Agent之RAG的反思:放棄了壓縮還是智能么?

    已經嘮了三章的RAG,是時候回頭反思一下,當前的RAG是解決幻覺的終點么?我給不出直接的答案,不過感覺當前把RAG當作傳統(tǒng)搜索框架在大模型時代下的改良,這個思路的天花板高度有限~ 反思來源于對RAG下模型回答的直觀感受,最初我們被ChatGPT的能力所震驚,并不是它能背

    2024年02月03日
    瀏覽(32)
  • 解密Prompt系列8. 無需訓練讓LLM支持超長輸入:知識庫 & unlimiformer & PCW & NBCE

    解密Prompt系列8. 無需訓練讓LLM支持超長輸入:知識庫 & unlimiformer & PCW & NBCE

    這一章我們聊聊有哪些方案可以不用微調直接讓大模型支持超長文本輸入,注意這里主要針對無限輸入場景。之前在BERT系列中我們就介紹過稀疏注意力和片段遞歸的一些長文本建模方案長文本建模 BigBird Longformer Reformer Performer,不過以上方案無一例外都需要在訓練階段引入。

    2024年02月08日
    瀏覽(27)
  • 解密Prompt7. 偏好對齊RLHF-OpenAI·DeepMind·Anthropic對比分析

    解密Prompt7. 偏好對齊RLHF-OpenAI·DeepMind·Anthropic對比分析

    前三章都圍繞指令微調,這一章來嘮嘮RLHF。何為優(yōu)秀的人工智能?抽象說是可以幫助人類解決問題的AI, 也可以簡化成3H原則:Helpful + Honesty + Harmless。面向以上1個或多個原則,RLHF只是其中一種對齊方案,把模型輸出和人類偏好進行對齊。大體分成3個步驟 人類偏好數(shù)據的標注

    2024年02月06日
    瀏覽(43)
  • 解密Prompt系列10. 思維鏈COT原理探究

    解密Prompt系列10. 思維鏈COT原理探究

    前一章思維鏈基礎和進階玩法我們介紹了如何寫Chain-of-thought Prompt來激活生成逐步推理,并提高模型解決復雜問題的能力,這一章我們追本溯源,討論下COT的哪些元素是提升模型表現(xiàn)的核心? 要進行因果分析,需要把思維鏈中的不同元素拆解開來,然后通過控制變量實驗,來

    2024年02月11日
    瀏覽(23)
  • 【LLM系列之指令微調】長話短說大模型指令微調的“Prompt”

    【LLM系列之指令微調】長話短說大模型指令微調的“Prompt”

    1 指令微調數(shù)據集形式“花樣”太多 大家有沒有分析過 prompt對模型訓練或者推理的影響?之前推理的時候,發(fā)現(xiàn)不加訓練的時候prompt,直接輸入模型性能會變差的,這個倒是可以理解。假如不加prompt直接訓練,是不是測試的時候不加prompt也可以?還有一個就是多輪prompt和單輪

    2024年02月14日
    瀏覽(23)
  • 解密prompt系列26. 人類思考vs模型思考:抽象和發(fā)散思維

    解密prompt系列26. 人類思考vs模型思考:抽象和發(fā)散思維

    在Chain of Thought出來后,出現(xiàn)過許多的優(yōu)化方案例如Tree of thought, Graph of Thought, Algorithm of Thought等等,不過這些優(yōu)化的出發(fā)點都更加\\\"Machine Like\\\",而非\\\"Human Like\\\", 哈哈不是說機器化不好,僅僅是對AGI的一些個人偏好而已。 所以如果我們從人類思考的角度出發(fā),能否把當前模型的思

    2024年03月10日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包