自從Meta公司發(fā)布LLaMA以來,圍繞它微調(diào)和開發(fā)的模型越來越多,這得益于它的性能和效果,2023年3月份發(fā)布的草泥馬(Alpaca)是由Meta的LLaMA 7B微調(diào)而來的全新模型,僅用了52k數(shù)據(jù),性能約等于GPT-3.5。斯坦福發(fā)布了一個由LLaMA 7B微調(diào)的模型Alpaca(羊駝),訓(xùn)練3小時,性能比肩GPT-3.5
最近,UC伯克利學(xué)者聯(lián)手CMU、斯坦福等,再次推出一個全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」(駱馬)。
代碼:https://github.com/lm-sys/FastChat
在線體驗地址:https://chat.lmsys.org/
Vicuna介紹
Vicuna目前已經(jīng)發(fā)布了兩個版本:Vicuna-13B和Vicuna-7B.
Vicuna-13B是一款開源聊天機(jī)器人,通過對從ShareGPT(目前已禁止爬?。┦占挠脩?0K共享對話進(jìn)行LLaMA微調(diào)來訓(xùn)練。使用GPT-4作為評判標(biāo)準(zhǔn)的初步評估顯示,Vicuna-13B在OpenAI ChatGPT和Google Bard的質(zhì)量方面達(dá)到了90%以上,而在90%以上的情況下優(yōu)于LLaMA和Stanford Alpaca等其他模型。訓(xùn)練Vicuna-13B的費用約為300美元。
模型的整理架構(gòu)如下圖2所示:
首先,研究人員從ChatGPT對話分享網(wǎng)站ShareGPT上,收集了大約70K對話;
接下來,研究人員優(yōu)化了Alpaca提供的訓(xùn)練腳本,使模型能夠更好地處理多輪對話和長序列;
之后利用PyTorch FSDP在8個A100 GPU上進(jìn)行了一天的訓(xùn)練;
Alpaca VS?Vicuna
Vicuna的效果到底如何呢?下面使用一個測試案例進(jìn)行對比,并且使用GPT-4進(jìn)行評估。
問:寫一篇關(guān)于最近去夏威夷旅行的有趣的旅游博客文章,強(qiáng)調(diào)文化體驗和必看景點。
Alpaca的回答可以說是一個濃縮版,短短幾行就寫完了,沒有按照要求完成任務(wù)。它僅是提到了自己寫了一篇博客,并對博客內(nèi)容做了一個概述。
然而Vicuna撰寫了一篇詳細(xì)且引人入勝的旅行博客文章,不僅內(nèi)容有趣,還詳細(xì)地介紹了夏威夷的文化體驗和必看景點。
Vicuna模型訓(xùn)練
Vicuna是通過使用來自ShareGPT公共API收集的約70K用戶分享對話數(shù)據(jù)微調(diào)創(chuàng)建的。為了確保數(shù)據(jù)質(zhì)量,研究人員將HTML轉(zhuǎn)換回markdown,并過濾掉一些不適當(dāng)或質(zhì)量較低的樣本。另外,研究人員將較長的對話劃分為較小的片段,以適應(yīng)模型的最大上下文長度。
Vicuna的訓(xùn)練方法建立在斯坦福的Alpaca基礎(chǔ)上,并進(jìn)行了以下改進(jìn):
-
內(nèi)存優(yōu)化:
為了使Vicuna能夠理解長上下文,將最大上下文長度從Alpaca的512擴(kuò)展到2048,這大大增加了GPU內(nèi)存需求。在此,研究人員通過使用梯度檢查點和閃存注意力來解決內(nèi)存壓力。
-
多輪對話:
通過調(diào)整訓(xùn)練損失以考慮多輪對話,并僅在聊天機(jī)器人的輸出上計算微調(diào)損失。
-
通過Spot實例降低成本:
40倍的數(shù)據(jù)集和4倍的序列長度對訓(xùn)練帶來了相當(dāng)大的挑戰(zhàn)。研究人員采用SkyPilot托管的Spot實例來降低成本,通過利用自動恢復(fù)搶占與自動區(qū)域切換進(jìn)而減少成本。這種解決方案將7B模型的訓(xùn)練成本從500美元降低到約140美元,將13B模型的訓(xùn)練成本從約1000美元降低到300美元。
Vicuna模型評估
評估AI聊天機(jī)器人是一項具有挑戰(zhàn)性的任務(wù),因為它需要檢查語言理解、推理和上下文意識。隨著AI聊天機(jī)器人變得越來越先進(jìn),現(xiàn)有的開放基準(zhǔn)可能不再足夠。例如,斯坦福Alpaca中使用的評估數(shù)據(jù)集self-instruct,可以被SOTA聊天機(jī)器人有效地回答,這使得人類難以分辨性能差異。更多的限制包括訓(xùn)練/測試數(shù)據(jù)污染和創(chuàng)建新基準(zhǔn)的潛在高成本。為了解決這些問題,研究人員提出了一個基于GPT-4的評估框架,從而實現(xiàn)對聊天機(jī)器人性能的自動評估。
首先,通過精心設(shè)計的提示,讓GPT-4能夠生成多樣化且具有挑戰(zhàn)性的問題。并利用8個不同類別共80道題,如角色扮演、編碼/數(shù)學(xué)任務(wù)等,來測試這些模型(LLaMA、Alpaca、ChatGPT、Bard和Vicuna)在不同領(lǐng)域上表現(xiàn)出的性能。然后,研究人員要求GPT-4根據(jù)幫助程度、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)對答案的質(zhì)量進(jìn)行評分。結(jié)果顯示,GPT-4不僅可以產(chǎn)生相對一致的分?jǐn)?shù),還可以提供詳細(xì)的解釋來說明為什么給出這樣的分?jǐn)?shù)。但是,GPT-4并不擅長評判編碼/數(shù)學(xué)任務(wù)。
基于GPT-4的初步評估,如圖1所示,表明Vicuna達(dá)到了Bard/ChatGPT的90%的能力。
圖3顯示了所有baselines?和Vicuna之間的比較結(jié)果。在90%以上的問題中,GPT-4更喜歡Vicuna,而不是最先進(jìn)的開源模型(LLaMA、Alpaca),并且它實現(xiàn)了與專有模型(ChatGPT、Bard)相比具有競爭力的性能。在45%的問題中,GPT-4認(rèn)為Vicuna的回答優(yōu)于或等于ChatGPT的回答。由于GPT-4以10為尺度為每個回答分配定量分?jǐn)?shù),我們通過將每個模型在80個問題上獲得的分?jǐn)?shù)相加來計算每個(基線,Vicuna)比較對的總分。如表2所示,Vicuna的總分為ChatGPT的92%。盡管最近取得了進(jìn)步,但這些聊天機(jī)器人仍然面臨著局限性,例如難以解決基本的數(shù)學(xué)問題或編碼能力有限。
服務(wù)部署
研究人員構(gòu)建了一個服務(wù)系統(tǒng),能夠為具有分布式工作者的多個模型提供服務(wù)。它支持來自內(nèi)部部署集群和云的GPU工作人員的靈活插件。通過利用SkyPilot中的容錯控制器和托管點功能,該服務(wù)系統(tǒng)可以很好地與來自多個云的更便宜的點實例一起工作,以降低服務(wù)成本。參考論文:《AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving》
Vicuna模型局限性
研究人員指出,與其他大語言模型類似,Vicuna也存在著一定的局限性。比如,Vicuna在涉及編程、推理、數(shù)學(xué)以及事實準(zhǔn)確性的任務(wù)上表現(xiàn)不佳。此外,它也沒有經(jīng)過充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。為解決安全方面的問題,研究人員在demo中采用了OpenAI的審查API來過濾掉不適當(dāng)?shù)挠脩糨斎搿?/p>
怎么使用Vicuna
安裝
方法一:使用pip安裝
# Install FastChat
pip3 install fschat
# Install the latest main branch of huggingface/transformers
pip3 install git+https://github.com/huggingface/transformers
方法二:從源碼安裝???????
git clone https://github.com/lm-sys/FastChat.git
cd FastChat
# mac使用如下安裝命令,否則跳過此行代碼
brew install rust cmake
# 安裝包
pip3 install --upgrade pip # enable PEP 660 support
pip3?install?-e?.
獲取模型權(quán)重
根據(jù)LLaMA模型的許可,權(quán)重將以delta的形式發(fā)布。只需將其加到原來的LLaMA權(quán)重上,就可以獲得最終的Vicuna權(quán)重。
1. 按照huggingface上的說明,獲得原始的LLaMA權(quán)重
2. 通過腳本,自動從團(tuán)隊的Hugging Face賬戶上下載delta權(quán)重???????
# 大約 60 GB 的 CPU RAM 如果內(nèi)存不足,可以創(chuàng)建一個大型交換文件,
# 使操作系統(tǒng)能夠自動將磁盤用作虛擬內(nèi)存。
python3 -m fastchat.model.apply_delta \
--base /path/to/llama-13b \
--target /output/path/to/vicuna-13b \
--delta lmsys/vicuna-13b-delta-v0
?????
# 大約 30 GB 的 CPU RAM 如果內(nèi)存不足,可以創(chuàng)建一個大型交換文件,
# 使操作系統(tǒng)能夠自動將磁盤用作虛擬內(nèi)存。
python3 -m fastchat.model.apply_delta \
--base /path/to/llama-7b \
--target /output/path/to/vicuna-7b \
--delta lmsys/vicuna-7b-delta-v0
· 單個GPU
Vicuna-13B需要大約28GB的GPU顯存。
python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights
· 多個GPU
如果沒有足夠的顯存,則可以使用模型并行來聚合同一臺機(jī)器上多個GPU的顯存。
python3?-m?fastchat.serve.cli?--model-name?/path/to/vicuna/weights?--num-gpus?2
· 僅用CPU
如果想在CPU上運行,則需要大約60GB的內(nèi)存。
python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --device cpu
·?Metal Backend (Mac Computers with Apple Silicon or AMD GPUs)
使用--device mps參數(shù)可以GPU加速(torch版本需要大于2.0),--load-8bit參數(shù)可以量化8bit
python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --device mps --load-8bit
啟動WEB UI
使用web UI提供服務(wù),需要三個主要組件:1)與用戶接口的web服務(wù)器;2)托管一個或多個模型的模型worker;3)協(xié)調(diào)web服務(wù)器和模型worker的控制器。操作步驟如下:
· 啟動控制器
python3 -m fastchat.serve.controller
· 啟動model worker
python3 -m fastchat.serve.model_worker --model-path /path/to/vicuna/weights
當(dāng)進(jìn)程完成模型的加載后,會看到「Uvicorn running on ...」。
· 發(fā)送測試消息
python3 -m fastchat.serve.test_message --model-name vicuna-13b
· 啟動gradio網(wǎng)絡(luò)服務(wù)器
python3 -m fastchat.serve.gradio_web_server
現(xiàn)在,就可以打開瀏覽器和模型聊天了。
模型微調(diào)
· 數(shù)據(jù)
Vicuna是通過使用從ShareGPT收集到的大約7萬個用戶共享的對話與公共API來微調(diào)一個LLaMA基礎(chǔ)模型而創(chuàng)建的。
為了確保數(shù)據(jù)質(zhì)量,團(tuán)隊將HTML轉(zhuǎn)換回markdown,并過濾掉一些不合適或低質(zhì)量的樣本。此外,團(tuán)隊還將冗長的對話分成較小的片段,以符合模型的最大上下文長度。
· 代碼和超參數(shù)
團(tuán)隊使用斯坦福大學(xué)Alpaca的代碼對模型進(jìn)行微調(diào),并做了一些修改以支持梯度檢查點和Flash注意力。此外,團(tuán)隊也使用與斯坦福Alpaca相似的超參數(shù)。
· 用SkyPilot在云服務(wù)上進(jìn)行微調(diào)
SkyPilot是由加州大學(xué)伯克利分校建立的一個框架,可以在任何與一個云服務(wù)(AWS、GCP、Azure、Lambda等)上輕松、經(jīng)濟(jì)地運行ML工作負(fù)載。
安裝說明:https://skypilot.readthedocs.io/en/latest/getting-started/installation.html???????
# Install skypilot from the master branch
pip install git+https://github.com/skypilot-org/skypilot.git
Vicuna可以在8個擁有80GB內(nèi)存的A100 GPU上進(jìn)行訓(xùn)練。下面的命令將自動啟動一個滿足要求的節(jié)點,在上面設(shè)置并運行訓(xùn)練作業(yè)。
sky launch -c vicuna -s scripts/train-vicuna.yaml --env WANDB_API_KEY
對于Alpaca來說,訓(xùn)練作業(yè)會在具有4個A100-80GB GPU的單一節(jié)點上啟動。
sky launch -c alpaca -s scripts/train-alpaca.yaml --env WANDB_API_KEY
· 使用本地GPU進(jìn)行微調(diào)
Vicuna也可以用以下代碼在8個A100 GPU上訓(xùn)練,顯存為80GB。
如果要在更少的GPU上訓(xùn)練,則可以減少per_device_train_batch_size,并相應(yīng)地增加gradient_accumulation_steps,以保持全局批大小不變。要設(shè)置環(huán)境,可以參見scripts/train-vicuna.yaml中的設(shè)置部分。???????
torchrun --nnodes=1 --nproc_per_node=8 --master_port=<your_random_port> \
fastchat/train/train_mem.py \
--model_name_or_path <path-to-llama-model-weight> \
--data_path <path-to-data> \
--bf16 True \
--output_dir ./checkpoints \
--num_train_epochs 3 \
--per_device_train_batch_size 4 \
--per_device_eval_batch_size 4 \
--gradient_accumulation_steps 1 \
--evaluation_strategy "no" \
--save_strategy "steps" \
--save_steps 1200 \
--save_total_limit 100 \
--learning_rate 2e-5 \
--weight_decay 0. \
--warmup_ratio 0.03 \
--lr_scheduler_type "cosine" \
--logging_steps 1 \
--fsdp "full_shard auto_wrap" \
--fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \
--tf32 True \
--model_max_length 2048 \
--gradient_checkpointing True \
--lazy_preprocess True
模型評估
使用GPT-4進(jìn)行評估,參考文檔:https://github.com/lm-sys/FastChat/blob/main/fastchat/eval
評估步驟如下:
Step1:從不同的模型生成答案:對于ChatGPT或者特定的checkpoint運行qa_baseline_gpt35.py;對于Vicuna 或者其他模型,運行g(shù)et_model_answer.py
Step2:使用GPT-4生成review結(jié)果;
Step3:生成可視化數(shù)據(jù):運行g(shù)enerate_webpage_data_from_table.py生成數(shù)據(jù)的統(tǒng)計結(jié)果;
Step4:可視化數(shù)據(jù):在webpage目錄下運行命令python3 -m http.server啟動靜態(tài)服務(wù);
評估數(shù)據(jù)格式是JSON格式,具體參考:
[1] https://github.com/lm-sys/FastChat/blob/main/fastchat/eval/table文章來源:http://www.zghlxwxcb.cn/news/detail-499635.html
[2]?https://github.com/lm-sys/FastChat/blob/main/fastchat/eval文章來源地址http://www.zghlxwxcb.cn/news/detail-499635.html
到了這里,關(guān)于Vicuna:斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!