Vicuna和StableVicuna都是LLaMA的微調(diào)版本,均遵循CC BY-NC-SA-4.0協(xié)議,性能方面Stable版本更好些。
CC BY-NC-SA-4.0是一種知識共享許可協(xié)議,其全稱為"署名-非商業(yè)性使用-相同方式共享 4.0 國際"。
即 用的時候要署名原作者,不能商用,下游使用也必須是相同的共享原則。
Vicuna
Vicuna(小羊駝、駱馬)是LLaMA的指令微調(diào)版本模型,來自UC伯克利,代表模型為Vicuna-13B。
- 博客:Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality
- 項目代碼:https://github.com/lm-sys/FastChat
- 評估方法Paper:https://arxiv.org/pdf/2306.05685.pdf
訓(xùn)練過程
用ShareGPT網(wǎng)站的用戶分享的ChatGPT對話記錄,70k條對話數(shù)據(jù)對 LLaMA進行監(jiān)督質(zhì)量微調(diào)訓(xùn)練,性能超越了LLaMa和Stanford Alpaca,達到了與ChatGPT相似的水平。
- 從ShareGPT上扒了70k對話語料,將HTML數(shù)據(jù)轉(zhuǎn)化為markdown并對不合適、低質(zhì)量的樣本進行了過濾,同時對比較長的數(shù)據(jù)進行了切分,來適應(yīng)模型的上下文長度;
- 用Alpaca的代碼進行多輪對話訓(xùn)練,使用8-A100,基于Pytorch FSDP訓(xùn)練框架訓(xùn)一天;
- **多輪對話訓(xùn)練:**任務(wù)還是next token prediction,同時loss只計算文本中chatbot輸出的部分;
- **顯存優(yōu)化:**將最大上下文長度從alpac的512調(diào)整為2048,然后用 [gradient checkpointing](https://lmsys.org/blog/2023-03-30-vicuna/#:~:text=gradient checkpointing) 和 flash attention 進行了顯存節(jié)省。
- 省錢:作者使用SkyPilot的算力計算的,就使用了SkyPilot managed spot來降低成本,利用更便宜的spot實例來自動恢復(fù)搶占和自動區(qū)域切換。13B模型能從$1K節(jié)省到$300。
- 在評估模型方面,之前的評估方式對現(xiàn)在的對話模型不再適用了,作者用MT-Betch一個多輪對話數(shù)據(jù)集和ChatBot Arena(聊天機器人競技場)的眾包平臺進行評估。眾包平臺上是真實的用戶來進行打分,另外因為GPT-4是基于強化學(xué)習(xí)與人類反饋(RLHF)訓(xùn)練出來的模型,具有較好的與人對齊的能力,所以作者用GPT-4也代替人對其他模型進行評判,從而節(jié)省成本。具體可作者論文 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena。
現(xiàn)有不足
- 推理能力、數(shù)學(xué)能力不足;
- 自我感知能力不夠、幻覺問題仍然存在;
- 模型本身可能存在潛在的偏見(比如某些言論不正確,畢竟數(shù)據(jù)集決定了模型的立場)
Stable Vicuna
Stable Vicuna: https://github.com/Stability-AI/StableLM文章來源:http://www.zghlxwxcb.cn/news/detail-512699.html
基于 Vicuna-13B v0 的RLHF微調(diào)版本,由StabilityAI發(fā)布。沒有訓(xùn)練細節(jié)紕漏,但應(yīng)該比 Vicuna 要更優(yōu)一些。文章來源地址http://www.zghlxwxcb.cn/news/detail-512699.html
到了這里,關(guān)于LLaMA模型微調(diào)版本 Vicuna 和 Stable Vicuna 解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!