国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<listing id="s89pm"></listing>

<strong id="s89pm"></strong>

<strong id="s89pm"></strong>

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

2年前作者：wshzd分類：Toy博客閱讀(16)違法舉報

這篇具有很好參考價值的文章主要介紹了Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

自從Meta公司發(fā)布LLaMA以來，圍繞它微調(diào)和開發(fā)的模型越來越多，這得益于它的性能和效果，2023年3月份發(fā)布的草泥馬（Alpaca）是由Meta的LLaMA 7B微調(diào)而來的全新模型，僅用了52k數(shù)據(jù)，性能約等于GPT-3.5。斯坦福發(fā)布了一個由LLaMA 7B微調(diào)的模型Alpaca（羊駝），訓(xùn)練3小時，性能比肩GPT-3.5

最近，UC伯克利學(xué)者聯(lián)手CMU、斯坦福等，再次推出一個全新模型——130億參數(shù)的Vicuna，俗稱「小羊駝」（駱馬）。

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

代碼：https://github.com/lm-sys/FastChat

在線體驗地址：https://chat.lmsys.org/

Vicuna介紹

Vicuna目前已經(jīng)發(fā)布了兩個版本：Vicuna-13B和Vicuna-7B.

Vicuna-13B是一款開源聊天機(jī)器人，通過對從ShareGPT（目前已禁止爬?。┦占挠脩?0K共享對話進(jìn)行LLaMA微調(diào)來訓(xùn)練。使用GPT-4作為評判標(biāo)準(zhǔn)的初步評估顯示，Vicuna-13B在OpenAI ChatGPT和Google Bard的質(zhì)量方面達(dá)到了90%以上，而在90%以上的情況下優(yōu)于LLaMA和Stanford Alpaca等其他模型。訓(xùn)練Vicuna-13B的費用約為300美元。

模型的整理架構(gòu)如下圖2所示：

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

首先，研究人員從ChatGPT對話分享網(wǎng)站ShareGPT上，收集了大約70K對話；

接下來，研究人員優(yōu)化了Alpaca提供的訓(xùn)練腳本，使模型能夠更好地處理多輪對話和長序列；

之后利用PyTorch FSDP在8個A100 GPU上進(jìn)行了一天的訓(xùn)練；

Alpaca VS?Vicuna

Vicuna的效果到底如何呢？下面使用一個測試案例進(jìn)行對比，并且使用GPT-4進(jìn)行評估。

問：寫一篇關(guān)于最近去夏威夷旅行的有趣的旅游博客文章，強(qiáng)調(diào)文化體驗和必看景點。

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

Alpaca的回答可以說是一個濃縮版，短短幾行就寫完了，沒有按照要求完成任務(wù)。它僅是提到了自己寫了一篇博客，并對博客內(nèi)容做了一個概述。

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

然而Vicuna撰寫了一篇詳細(xì)且引人入勝的旅行博客文章，不僅內(nèi)容有趣，還詳細(xì)地介紹了夏威夷的文化體驗和必看景點。

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

Vicuna模型訓(xùn)練

Vicuna是通過使用來自ShareGPT公共API收集的約70K用戶分享對話數(shù)據(jù)微調(diào)創(chuàng)建的。為了確保數(shù)據(jù)質(zhì)量，研究人員將HTML轉(zhuǎn)換回markdown，并過濾掉一些不適當(dāng)或質(zhì)量較低的樣本。另外，研究人員將較長的對話劃分為較小的片段，以適應(yīng)模型的最大上下文長度。

Vicuna的訓(xùn)練方法建立在斯坦福的Alpaca基礎(chǔ)上，并進(jìn)行了以下改進(jìn)：

內(nèi)存優(yōu)化：

為了使Vicuna能夠理解長上下文，將最大上下文長度從Alpaca的512擴(kuò)展到2048，這大大增加了GPU內(nèi)存需求。在此，研究人員通過使用梯度檢查點和閃存注意力來解決內(nèi)存壓力。

多輪對話：

通過調(diào)整訓(xùn)練損失以考慮多輪對話，并僅在聊天機(jī)器人的輸出上計算微調(diào)損失。

通過Spot實例降低成本：

40倍的數(shù)據(jù)集和4倍的序列長度對訓(xùn)練帶來了相當(dāng)大的挑戰(zhàn)。研究人員采用SkyPilot托管的Spot實例來降低成本，通過利用自動恢復(fù)搶占與自動區(qū)域切換進(jìn)而減少成本。這種解決方案將7B模型的訓(xùn)練成本從500美元降低到約140美元，將13B模型的訓(xùn)練成本從約1000美元降低到300美元。

Vicuna模型評估

評估AI聊天機(jī)器人是一項具有挑戰(zhàn)性的任務(wù)，因為它需要檢查語言理解、推理和上下文意識。隨著AI聊天機(jī)器人變得越來越先進(jìn)，現(xiàn)有的開放基準(zhǔn)可能不再足夠。例如，斯坦福Alpaca中使用的評估數(shù)據(jù)集self-instruct，可以被SOTA聊天機(jī)器人有效地回答，這使得人類難以分辨性能差異。更多的限制包括訓(xùn)練/測試數(shù)據(jù)污染和創(chuàng)建新基準(zhǔn)的潛在高成本。為了解決這些問題，研究人員提出了一個基于GPT-4的評估框架，從而實現(xiàn)對聊天機(jī)器人性能的自動評估。

首先，通過精心設(shè)計的提示，讓GPT-4能夠生成多樣化且具有挑戰(zhàn)性的問題。并利用8個不同類別共80道題，如角色扮演、編碼/數(shù)學(xué)任務(wù)等，來測試這些模型（LLaMA、Alpaca、ChatGPT、Bard和Vicuna）在不同領(lǐng)域上表現(xiàn)出的性能。然后，研究人員要求GPT-4根據(jù)幫助程度、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)對答案的質(zhì)量進(jìn)行評分。結(jié)果顯示，GPT-4不僅可以產(chǎn)生相對一致的分?jǐn)?shù)，還可以提供詳細(xì)的解釋來說明為什么給出這樣的分?jǐn)?shù)。但是，GPT-4并不擅長評判編碼/數(shù)學(xué)任務(wù)。

基于GPT-4的初步評估，如圖1所示，表明Vicuna達(dá)到了Bard/ChatGPT的90%的能力。

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

圖3顯示了所有baselines?和Vicuna之間的比較結(jié)果。在90%以上的問題中，GPT-4更喜歡Vicuna，而不是最先進(jìn)的開源模型（LLaMA、Alpaca），并且它實現(xiàn)了與專有模型（ChatGPT、Bard）相比具有競爭力的性能。在45%的問題中，GPT-4認(rèn)為Vicuna的回答優(yōu)于或等于ChatGPT的回答。由于GPT-4以10為尺度為每個回答分配定量分?jǐn)?shù)，我們通過將每個模型在80個問題上獲得的分?jǐn)?shù)相加來計算每個（基線，Vicuna）比較對的總分。如表2所示，Vicuna的總分為ChatGPT的92%。盡管最近取得了進(jìn)步，但這些聊天機(jī)器人仍然面臨著局限性，例如難以解決基本的數(shù)學(xué)問題或編碼能力有限。

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

服務(wù)部署

研究人員構(gòu)建了一個服務(wù)系統(tǒng)，能夠為具有分布式工作者的多個模型提供服務(wù)。它支持來自內(nèi)部部署集群和云的GPU工作人員的靈活插件。通過利用SkyPilot中的容錯控制器和托管點功能，該服務(wù)系統(tǒng)可以很好地與來自多個云的更便宜的點實例一起工作，以降低服務(wù)成本。參考論文：《AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving》

Vicuna模型局限性

研究人員指出，與其他大語言模型類似，Vicuna也存在著一定的局限性。比如，Vicuna在涉及編程、推理、數(shù)學(xué)以及事實準(zhǔn)確性的任務(wù)上表現(xiàn)不佳。此外，它也沒有經(jīng)過充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。為解決安全方面的問題，研究人員在demo中采用了OpenAI的審查API來過濾掉不適當(dāng)?shù)挠脩糨斎搿?/p>

怎么使用Vicuna

安裝

方法一：使用pip安裝

# Install FastChatpip3 install fschat
# Install the latest main branch of huggingface/transformerspip3 install git+https://github.com/huggingface/transformers

方法二：從源碼安裝???????

git clone https://github.com/lm-sys/FastChat.gitcd FastChat# mac使用如下安裝命令，否則跳過此行代碼brew install rust cmake# 安裝包pip3 install --upgrade pip  # enable PEP 660 supportpip3?install?-e?.

獲取模型權(quán)重

根據(jù)LLaMA模型的許可，權(quán)重將以delta的形式發(fā)布。只需將其加到原來的LLaMA權(quán)重上，就可以獲得最終的Vicuna權(quán)重。

1. 按照huggingface上的說明，獲得原始的LLaMA權(quán)重

2. 通過腳本，自動從團(tuán)隊的Hugging Face賬戶上下載delta權(quán)重???????

# 大約 60 GB 的 CPU RAM 如果內(nèi)存不足，可以創(chuàng)建一個大型交換文件，# 使操作系統(tǒng)能夠自動將磁盤用作虛擬內(nèi)存。python3 -m fastchat.model.apply_delta \    --base /path/to/llama-13b \    --target /output/path/to/vicuna-13b \    --delta lmsys/vicuna-13b-delta-v0?????

# 大約 30 GB 的 CPU RAM 如果內(nèi)存不足，可以創(chuàng)建一個大型交換文件，# 使操作系統(tǒng)能夠自動將磁盤用作虛擬內(nèi)存。python3 -m fastchat.model.apply_delta \    --base /path/to/llama-7b \    --target /output/path/to/vicuna-7b \    --delta lmsys/vicuna-7b-delta-v0

· 單個GPU

Vicuna-13B需要大約28GB的GPU顯存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights

· 多個GPU

如果沒有足夠的顯存，則可以使用模型并行來聚合同一臺機(jī)器上多個GPU的顯存。

python3?-m?fastchat.serve.cli?--model-name?/path/to/vicuna/weights?--num-gpus?2

· 僅用CPU

如果想在CPU上運行，則需要大約60GB的內(nèi)存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --device cpu

·?Metal Backend (Mac Computers with Apple Silicon or AMD GPUs)

使用--device mps參數(shù)可以GPU加速（torch版本需要大于2.0），--load-8bit參數(shù)可以量化8bit

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --device mps --load-8bit

啟動WEB UI

使用web UI提供服務(wù)，需要三個主要組件：1）與用戶接口的web服務(wù)器；2）托管一個或多個模型的模型worker；3）協(xié)調(diào)web服務(wù)器和模型worker的控制器。操作步驟如下：

· 啟動控制器

python3 -m fastchat.serve.controller

· 啟動model worker

python3 -m fastchat.serve.model_worker --model-path /path/to/vicuna/weights

當(dāng)進(jìn)程完成模型的加載后，會看到「Uvicorn running on ...」。

· 發(fā)送測試消息

python3 -m fastchat.serve.test_message --model-name vicuna-13b

· 啟動gradio網(wǎng)絡(luò)服務(wù)器

python3 -m fastchat.serve.gradio_web_server

現(xiàn)在，就可以打開瀏覽器和模型聊天了。

模型微調(diào)

· 數(shù)據(jù)

Vicuna是通過使用從ShareGPT收集到的大約7萬個用戶共享的對話與公共API來微調(diào)一個LLaMA基礎(chǔ)模型而創(chuàng)建的。

為了確保數(shù)據(jù)質(zhì)量，團(tuán)隊將HTML轉(zhuǎn)換回markdown，并過濾掉一些不合適或低質(zhì)量的樣本。此外，團(tuán)隊還將冗長的對話分成較小的片段，以符合模型的最大上下文長度。

· 代碼和超參數(shù)

團(tuán)隊使用斯坦福大學(xué)Alpaca的代碼對模型進(jìn)行微調(diào)，并做了一些修改以支持梯度檢查點和Flash注意力。此外，團(tuán)隊也使用與斯坦福Alpaca相似的超參數(shù)。

Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人

· 用SkyPilot在云服務(wù)上進(jìn)行微調(diào)

SkyPilot是由加州大學(xué)伯克利分校建立的一個框架，可以在任何與一個云服務(wù)（AWS、GCP、Azure、Lambda等）上輕松、經(jīng)濟(jì)地運行ML工作負(fù)載。

安裝說明：https://skypilot.readthedocs.io/en/latest/getting-started/installation.html???????

# Install skypilot from the master branchpip install git+https://github.com/skypilot-org/skypilot.git

Vicuna可以在8個擁有80GB內(nèi)存的A100 GPU上進(jìn)行訓(xùn)練。下面的命令將自動啟動一個滿足要求的節(jié)點，在上面設(shè)置并運行訓(xùn)練作業(yè)。

sky launch -c vicuna -s scripts/train-vicuna.yaml --env WANDB_API_KEY

對于Alpaca來說，訓(xùn)練作業(yè)會在具有4個A100-80GB GPU的單一節(jié)點上啟動。

sky launch -c alpaca -s scripts/train-alpaca.yaml --env WANDB_API_KEY

· 使用本地GPU進(jìn)行微調(diào)

Vicuna也可以用以下代碼在8個A100 GPU上訓(xùn)練，顯存為80GB。

如果要在更少的GPU上訓(xùn)練，則可以減少per_device_train_batch_size，并相應(yīng)地增加gradient_accumulation_steps，以保持全局批大小不變。要設(shè)置環(huán)境，可以參見scripts/train-vicuna.yaml中的設(shè)置部分。???????

torchrun --nnodes=1 --nproc_per_node=8 --master_port=<your_random_port> \    fastchat/train/train_mem.py \    --model_name_or_path <path-to-llama-model-weight> \    --data_path <path-to-data> \    --bf16 True \    --output_dir ./checkpoints \    --num_train_epochs 3 \    --per_device_train_batch_size 4 \    --per_device_eval_batch_size 4 \    --gradient_accumulation_steps 1 \    --evaluation_strategy "no" \    --save_strategy "steps" \    --save_steps 1200 \    --save_total_limit 100 \    --learning_rate 2e-5 \    --weight_decay 0. \    --warmup_ratio 0.03 \    --lr_scheduler_type "cosine" \    --logging_steps 1 \    --fsdp "full_shard auto_wrap" \    --fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \    --tf32 True \    --model_max_length 2048 \    --gradient_checkpointing True \    --lazy_preprocess True

模型評估

使用GPT-4進(jìn)行評估，參考文檔：https://github.com/lm-sys/FastChat/blob/main/fastchat/eval

評估步驟如下：

Step1：從不同的模型生成答案：對于ChatGPT或者特定的checkpoint運行qa_baseline_gpt35.py；對于Vicuna 或者其他模型，運行g(shù)et_model_answer.py

Step2：使用GPT-4生成review結(jié)果；

Step3：生成可視化數(shù)據(jù)：運行g(shù)enerate_webpage_data_from_table.py生成數(shù)據(jù)的統(tǒng)計結(jié)果；

Step4：可視化數(shù)據(jù)：在webpage目錄下運行命令python3 -m http.server啟動靜態(tài)服務(wù)；

評估數(shù)據(jù)格式是JSON格式，具體參考：

[1] https://github.com/lm-sys/FastChat/blob/main/fastchat/eval/table

[2]?https://github.com/lm-sys/FastChat/blob/main/fastchat/eval文章來源地址http://www.zghlxwxcb.cn/news/detail-499635.html

到了這里，關(guān)于Vicuna：斯坦福開源一個性能相當(dāng)于90%ChatGPT的聊天機(jī)器人的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

LLaMA模型微調(diào)版本：斯坦福 Alpaca 詳解
項目代碼：https://github.com/tatsu-lab/stanford_alpaca 博客介紹：https://crfm.stanford.edu/2023/03/13/alpaca.html Alpaca 是 LLaMA-7B 的微調(diào)版本，使用Self-instruct[2]方式借用text-davinct-003構(gòu)建了52K的數(shù)據(jù)，同時在其構(gòu)建策略上做了一些修改。性能上作者對Alpaca進(jìn)行了評估，與openai的text-davinct-003模型在
2024年02月16日
瀏覽(30)
斯坦福JSKarel編程機(jī)器人使用介紹
為了避免被編程語言固有的復(fù)雜性所困擾，有一個被稱為卡雷爾（Karel）機(jī)器人的微型世界（microworld）的簡化環(huán)境，可以讓編程初學(xué)者從中學(xué)習(xí)理解編程的基本概念，而不必掌握大量無關(guān)的細(xì)節(jié)，讓編程初學(xué)者更容易理解編程的要點和思維方式。斯坦福Karel是一門面向初學(xué)者
2024年02月05日
瀏覽(25)
斯坦福人生設(shè)計課——簡略筆記（未完待更新）
來源： ?爾 · 博內(nèi)特戴夫 · 伊萬斯著圖書《人生設(shè)計課》目錄一、認(rèn)清當(dāng)下的情況，從四個維度觀察自己的人生二、平衡人生，但不要走入誤區(qū) 2.1 記錄你的“美好時光日志”： 2.1.1 記錄內(nèi)容： 2.1.2 輔助反思的方法：AEIOU方法 2.1.3 一個小TIPS： 2.1.4 如果你發(fā)現(xiàn)自己當(dāng)下
2024年02月11日
瀏覽(21)
自驅(qū)力超強(qiáng)的羊駝？斯坦福微調(diào)LLaMa
大型“指令調(diào)優(yōu)”語言模型在新任務(wù)上展現(xiàn)了Zero-shot的卓越能力，但嚴(yán)重依賴于人類編寫的指令數(shù)據(jù)，而這些數(shù)據(jù)在數(shù)量、多樣性和創(chuàng)造性方面都是有限的。斯坦?？蒲腥藛T引入了self-instruction框架，提高指令遵循能力來自我迭代進(jìn)化，與InstructGPT的性能相當(dāng)，相比原始GPT3提
2024年02月09日
瀏覽(20)
【LLM系列】00：斯坦福 Alpaca 模型介紹及其復(fù)現(xiàn)
西風(fēng)吹老洞庭波，一夜湘君白發(fā)多。醉后不知天在水，滿船清夢壓星河。小伙伴好，我是微信公眾號《小窗幽記機(jī)器學(xué)習(xí)》的小編：賣核彈的小女孩。更多、更新文章歡迎關(guān)注微信公眾號：小窗幽記機(jī)器學(xué)習(xí)。后續(xù)會持續(xù)輸出模型推理加速、工程部署、LLM、AI藝術(shù)等系列，敬
2024年02月13日
瀏覽(21)
斯坦福| ChatGPT用于生成式搜索引擎的可行性
文｜智商掉了一地隨著 ChatGPT 在文本生成領(lǐng)域邁出了重要一步，Bing 瀏覽器也接入了聊天機(jī)器人功能，因此如何保證 Bing Chat 等搜索引擎結(jié)果的精確率和真實性也成為了搜索領(lǐng)域的熱門話題之一。當(dāng)我們使用搜索引擎時，往往希望搜索結(jié)果能夠真實準(zhǔn)確地反映我們的需求。然
2024年02月06日
瀏覽(16)
斯坦福2023【FrugalGPT】減少大模型的商業(yè)化應(yīng)用成本
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance 這篇文章主要是要解決如何降低調(diào)用大語言模型的成本(ChatGPT)。大模型API調(diào)用成本主要是三方面的：1. prompt cost(輸入的prompt)；2. generation cost(輸出的部分)；3. 每次調(diào)用的固定開銷(網(wǎng)費等)。不用的模型之前的
2024年02月06日
瀏覽(22)
斯坦福Dan Boneh密碼學(xué)——02 計算密碼與語義安全
語義安全這塊內(nèi)容實在是被書繞暈了，雖然模型就那么一個，但有各種各樣的數(shù)學(xué)符號交織證明，還有官方深奧的語言表述。第一次看是一知半解的，后面勢必還要再返回來精讀幾遍完善筆記。以篇幅來看，語義安全是密碼學(xué)中非常重要的一個版塊。計算密碼與語義安全我
2024年02月08日
瀏覽(22)
斯坦福 Stats60：21 世紀(jì)的統(tǒng)計學(xué)：前言到第四章
原文： statsthinking21.github.io/statsthinking21-core-site/index.html 譯者：飛龍協(xié)議：CC BY-NC-SA 4.0 這本書的目標(biāo)是講述統(tǒng)計學(xué)的故事，以及它如何被全球的研究人員所使用。這是一個與大多數(shù)統(tǒng)計學(xué)入門書籍中講述的故事不同的故事，后者側(cè)重于教授如何使用一套工具來實現(xiàn)非常具體的
2024年01月18日
瀏覽(17)
斯坦福發(fā)布最新 GPT 模型排行榜 AlpacaEval【AI工具免費使用】
官網(wǎng)地址：https://www.tomchat.fun ?? 支持gpt4 / gpt-3.5 / claude /code-llm ?? 支持 AI繪畫 ?? 每天十次免費使用機(jī)會 ?? 無需魔法 GPT-4 登頂商用模型微軟 WizardLM 登頂開源模型 AlpacaEva 是來自斯坦福的團(tuán)隊發(fā)布的一款大語言模型自動評測系統(tǒng)，它是一種基于 LLM 的全自動評估基準(zhǔn)，且
2024年02月02日
瀏覽(62)

<option id="zk837"><pre id="zk837"></pre></option>