Llama2通過llama.cpp模型量化 Windows&Linux本地部署
什么是LLaMA 1 and 2
LLaMA,它是一組基礎(chǔ)語言模型,參數(shù)范圍從7B到65B。在數(shù)萬億的tokens上訓練的模型,并表明可以專門使用公開可用的數(shù)據(jù)集來訓練最先進的模型,而無需求助于專有和不可訪問的數(shù)據(jù)集。特別是,LLaMA-13B在大多數(shù)基準測試中都優(yōu)于GPT-3(175B),并且LLaMA65B與最好的型號Chinchilla-70B和PaLM-540B具有競爭力。
Meta 出品的 Llama 續(xù)作 Llama2,一系列模型(7b、13b、70b)均開源可商用。Llama2 在各個榜單上精度全面超過 Llama1,同時也超過此前所有開源模型。
但是對于本機部署大模型,LLaMA要求相對于還是偏高,因此本次使用開源方案llama.cpp進行模型量化,在Windows平臺進行CPU量化版本測試,Linux平臺進行GPU量化版本測試。
注:以下所有下載步驟均需要科學上網(wǎng),否則會很折磨。
實驗設(shè)備詳情(供參考)
Windows平臺
為筆記本平臺,拯救者Y9000P
- CPU: 13th Intel i9-13900HX × \times × 1
- GPU: NVIDIA GeForce RTX4060 (8GB) × \times × 1
- 內(nèi)存: 32GB
運行情況:CPU流暢運行l(wèi)lama2-13B-chat 8Bit量化版本,卡頓運行16Bit量化版本。GPU版本加速超級快,相當于文心一言或者Chatgpt的生成速度。
運行情況:
Linux平臺
實驗室服務器
- COU: 9th Intel? Core? i9-9940X CPU @ 3.30GHz × \times × 14
- GPU: NVIDIA GeForce RTX2080Ti (11GB) × \times × 4
- 內(nèi)存: 64GB
運行情況:13B和7B都運行十分流程,但70B的不知道為啥突然下載不了了,沒法測試。
模型部署詳細步驟
下載并配置llama庫
-
下載llama
git clone https://github.com/facebookresearch/llama.git
-
配置環(huán)境
創(chuàng)建虛擬環(huán)境,防止之前其他環(huán)境安裝的包導致的沖突
conda create -n llama python=3.10
進入虛擬環(huán)境
conda activate llama
進入工程目錄
cd llama
安裝環(huán)境依賴
pip install -e .
-
申請模型下載鏈接
進入該鏈接:Mete website申請下載模型,內(nèi)容如實填寫,為了盡快通過,可以填寫美國機構(gòu)和學校,應該會快一些,當時沒敢試國內(nèi)的,怕被拒(被OpenAI搞怕了)
之后會來如下郵件,復制馬賽克部分的網(wǎng)址:
-
下載模型
-
Windows平臺
sh download.sh
-
Linux平臺
bash download.sh
之后跟著流程將之前復制的鏈接粘貼進入即可,然后選擇需要下載的模型,關(guān)于模型的區(qū)別可以自行Bing,chat版本的這里更加推薦,參數(shù)量方面7B的一般大部分設(shè)備都可以跑,我使用13B版本的也可以正常運行,根據(jù)個人所需進行選擇。
-
注:Windows平臺在下載的時候,可能會面臨wget: command not found錯誤,跟下述鏈接進行即可
關(guān)于在Windows10環(huán)境下運行.sh文件報錯 wget: command not found的解決辦法
-
下載并配置llama.cpp庫
-
下載llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
-
編譯 Build
-
Linux平臺
直接進入工程目錄make即可:
make
我在autodl服務器和實驗室服務器實測都沒有問題
-
Windows平臺
Windows平臺需要安裝cmake和gcc,這個我本機此前有安裝好,如果有沒有安裝的請自行百度安裝
編譯:
mkdir build
cd build
cmake ..
cmake --build . --config Release
-
-
CUDA加速版編譯,添加一部分指令即可
-
Linux平臺
make LLAMA_CUBLAS=1
-
Windows平臺
mkdir build cd build cmake .. -DLLAMA_CUBLAS=ON cmake --build . --config Release
-
模型量化
-
準備數(shù)據(jù)
將llama中下載好的數(shù)據(jù) (llama-2-7B-chat) 拷貝到llama.cpp中的./models中,同時將llama主目錄中的tokenizer_checklist.chk和tokenizer.model也復制到./models中。
參考以下:
G:. │ .editorconfig │ ggml-vocab-aquila.gguf │ ggml-vocab-baichuan.gguf │ ggml-vocab-falcon.gguf │ ggml-vocab-gpt-neox.gguf │ ggml-vocab-llama.gguf │ ggml-vocab-mpt.gguf │ ggml-vocab-refact.gguf │ ggml-vocab-starcoder.gguf │ tokenizer.model │ tokenizer_checklist.chk │ └─13B checklist.chk consolidated.00.pth consolidated.01.pth params.json
-
進行量化
進入虛擬環(huán)境,安裝依賴
cd llama.cpp
conda activate llama
安裝依賴
pip install -r requirements.txt
進行16Bit轉(zhuǎn)換
python convert.py models/13B/
這一步如果報錯。修改./models/(模型存放文件夾)/params.json
將最后"vocab_size":中的值改為32000即可-
Linux 4 or 8 bit量化
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0
路徑根據(jù)自己的路徑進行調(diào)整,如果進行8bit量化,將命令中的q4_0改為q8_0:
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q8_0.gguf q8_0
8bit肯定比4bit好,但根據(jù)設(shè)備情況量力而行
-
Windows 4 or 8 bit量化
.\build\bin\Release\quantize.exe .\models\13B\ggml-model-f16.gguf .\models\13B\7B\ggml-model-q4_0.gguf q4_0
更改bit也參考上述
-
加載并啟動模型
CPU版本
-
Windows平臺
.\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt
-
Linux平臺
./main -m ./models/13B/ggml-model-q8_0.gguf -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt
GPU加速
只需在命令中加上加上-ngl 1
其中可以對數(shù)量進行修改,最大為35,我在4060上實測20達到最佳
-
Windows平臺
.\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt -ngl 20
-
Linux平臺
./main -m ./models/13B/ggml-model-q8_0.gguf -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f ./prompts/chat-with-bob.txt -ngl 20
在提示符 >
之后輸入你的prompt,cmd/ctrl+c
中斷輸出,多行信息以\
作為行尾。如需查看幫助和參數(shù)說明,請執(zhí)行./main -h
命令。下面介紹一些常用的參數(shù):文章來源:http://www.zghlxwxcb.cn/news/detail-754151.html
-c 控制上下文的長度,值越大越能參考更長的對話歷史(默認:512)
-ins 啟動類ChatGPT對話交流的instruction運行模式
-f 指定prompt模板,alpaca模型請加載prompts/alpaca.txt
-n 控制回復生成的最大長度(默認:128)
-b 控制batch size(默認:8),可適當增加
-t 控制線程數(shù)量(默認:4),可適當增加
--repeat_penalty 控制生成回復中對重復文本的懲罰力度
--temp 溫度系數(shù),值越低回復的隨機性越小,反之越大
--top_p, top_k 控制解碼采樣的相關(guān)參數(shù)
具體信息參考:https://github.com/ggerganov/llama.cpp/tree/master/examples/main文章來源地址http://www.zghlxwxcb.cn/news/detail-754151.html
到了這里,關(guān)于Llama2通過llama.cpp模型量化 Windows&Linux本地部署的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!