国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<dl id="ksoer"></dl>

Llama2通過llama.cpp模型量化 Windows&Linux本地部署

2年前作者：早安不安分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了Llama2通過llama.cpp模型量化 Windows&Linux本地部署。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Llama2通過llama.cpp模型量化 Windows&Linux本地部署

什么是LLaMA 1 and 2

LLaMA，它是一組基礎(chǔ)語言模型，參數(shù)范圍從7B到65B。在數(shù)萬億的tokens上訓練的模型，并表明可以專門使用公開可用的數(shù)據(jù)集來訓練最先進的模型，而無需求助于專有和不可訪問的數(shù)據(jù)集。特別是，LLaMA-13B在大多數(shù)基準測試中都優(yōu)于GPT-3（175B），并且LLaMA65B與最好的型號Chinchilla-70B和PaLM-540B具有競爭力。

Meta 出品的 Llama 續(xù)作 Llama2，一系列模型（7b、13b、70b）均開源可商用。Llama2 在各個榜單上精度全面超過 Llama1，同時也超過此前所有開源模型。

但是對于本機部署大模型，LLaMA要求相對于還是偏高，因此本次使用開源方案llama.cpp進行模型量化，在Windows平臺進行CPU量化版本測試，Linux平臺進行GPU量化版本測試。

注：以下所有下載步驟均需要科學上網(wǎng)，否則會很折磨。

實驗設(shè)備詳情（供參考）

Windows平臺

為筆記本平臺，拯救者Y9000P

CPU: 13th Intel i9-13900HX $\times$ 1
GPU: NVIDIA GeForce RTX4060 (8GB) $\times$ 1
內(nèi)存: 32GB

運行情況：CPU流暢運行l(wèi)lama2-13B-chat 8Bit量化版本，卡頓運行16Bit量化版本。GPU版本加速超級快，相當于文心一言或者Chatgpt的生成速度。

運行情況：
Llama2通過llama.cpp模型量化 Windows&Linux本地部署,llama,windows,linux,LLM,模型量化

Linux平臺

實驗室服務器

COU: 9th Intel? Core? i9-9940X CPU @ 3.30GHz $\times$ 14
GPU: NVIDIA GeForce RTX2080Ti (11GB) $\times$ 4
內(nèi)存: 64GB

運行情況：13B和7B都運行十分流程，但70B的不知道為啥突然下載不了了，沒法測試。

模型部署詳細步驟

下載并配置llama庫

下載llama

git clone https://github.com/facebookresearch/llama.git

配置環(huán)境

創(chuàng)建虛擬環(huán)境，防止之前其他環(huán)境安裝的包導致的沖突
```
conda create -n llama python=3.10
```
進入虛擬環(huán)境
```
conda activate llama
```
進入工程目錄
```
cd llama
```
安裝環(huán)境依賴
```
pip install -e .
```
申請模型下載鏈接

進入該鏈接：Mete website申請下載模型，內(nèi)容如實填寫，為了盡快通過，可以填寫美國機構(gòu)和學校，應該會快一些，當時沒敢試國內(nèi)的，怕被拒（被OpenAI搞怕了）

之后會來如下郵件，復制馬賽克部分的網(wǎng)址：
下載模型
- Windows平臺
```
sh download.sh
```
- Linux平臺
```
bash download.sh
```
之后跟著流程將之前復制的鏈接粘貼進入即可，然后選擇需要下載的模型，關(guān)于模型的區(qū)別可以自行Bing，chat版本的這里更加推薦，參數(shù)量方面7B的一般大部分設(shè)備都可以跑，我使用13B版本的也可以正常運行，根據(jù)個人所需進行選擇。
- 注：Windows平臺在下載的時候，可能會面臨wget: command not found錯誤，跟下述鏈接進行即可
  
  關(guān)于在Windows10環(huán)境下運行.sh文件報錯 wget: command not found的解決辦法

下載并配置llama.cpp庫

下載llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git

cd llama.cpp

編譯 Build
- Linux平臺
  
  直接進入工程目錄make即可：
```
make
```
  我在autodl服務器和實驗室服務器實測都沒有問題
- Windows平臺
  
  Windows平臺需要安裝cmake和gcc，這個我本機此前有安裝好，如果有沒有安裝的請自行百度安裝
  
  編譯：
```
mkdir build
```
```
cd build
```
```
cmake ..
```
```
cmake --build . --config Release
```

CUDA加速版編譯，添加一部分指令即可

Linux平臺
```
make LLAMA_CUBLAS=1
```

Windows平臺

mkdir build
cd build
cmake .. -DLLAMA_CUBLAS=ON
cmake --build . --config Release

模型量化

準備數(shù)據(jù)

將llama中下載好的數(shù)據(jù) (llama-2-7B-chat) 拷貝到llama.cpp中的./models中，同時將llama主目錄中的tokenizer_checklist.chk和tokenizer.model也復制到./models中。

參考以下：

G:.
│  .editorconfig
│  ggml-vocab-aquila.gguf
│  ggml-vocab-baichuan.gguf
│  ggml-vocab-falcon.gguf
│  ggml-vocab-gpt-neox.gguf
│  ggml-vocab-llama.gguf
│  ggml-vocab-mpt.gguf
│  ggml-vocab-refact.gguf
│  ggml-vocab-starcoder.gguf
│  tokenizer.model
│  tokenizer_checklist.chk
│
└─13B
        checklist.chk
        consolidated.00.pth
        consolidated.01.pth
        params.json

進行量化

進入虛擬環(huán)境，安裝依賴
```
cd llama.cpp
```
```
conda activate llama
```
安裝依賴
```
pip install -r requirements.txt
```
進行16Bit轉(zhuǎn)換
```
python convert.py models/13B/
```
這一步如果報錯。修改./models/(模型存放文件夾)/params.json
將最后"vocab_size":中的值改為32000即可
- Linux 4 or 8 bit量化
```
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0
```
  路徑根據(jù)自己的路徑進行調(diào)整，如果進行8bit量化，將命令中的q4_0改為q8_0:
```
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q8_0.gguf q8_0
```
  8bit肯定比4bit好，但根據(jù)設(shè)備情況量力而行
- Windows 4 or 8 bit量化
```
.\build\bin\Release\quantize.exe .\models\13B\ggml-model-f16.gguf .\models\13B\7B\ggml-model-q4_0.gguf q4_0
```
  更改bit也參考上述

加載并啟動模型

CPU版本

Windows平臺

.\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt

Linux平臺

./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt

GPU加速

只需在命令中加上加上-ngl 1

其中可以對數(shù)量進行修改，最大為35，我在4060上實測20達到最佳

Windows平臺

.\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt -ngl 20

Linux平臺

./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f ./prompts/chat-with-bob.txt -ngl 20

在提示符 > 之后輸入你的prompt，cmd/ctrl+c中斷輸出，多行信息以\作為行尾。如需查看幫助和參數(shù)說明，請執(zhí)行./main -h命令。下面介紹一些常用的參數(shù)：

-c 控制上下文的長度，值越大越能參考更長的對話歷史（默認：512）
-ins 啟動類ChatGPT對話交流的instruction運行模式
-f 指定prompt模板，alpaca模型請加載prompts/alpaca.txt
-n 控制回復生成的最大長度（默認：128）
-b 控制batch size（默認：8），可適當增加
-t 控制線程數(shù)量（默認：4），可適當增加
--repeat_penalty 控制生成回復中對重復文本的懲罰力度
--temp 溫度系數(shù)，值越低回復的隨機性越小，反之越大
--top_p, top_k 控制解碼采樣的相關(guān)參數(shù)

具體信息參考：https://github.com/ggerganov/llama.cpp/tree/master/examples/main文章來源地址http://www.zghlxwxcb.cn/news/detail-754151.html

到了這里，關(guān)于Llama2通過llama.cpp模型量化 Windows&Linux本地部署的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

大模型部署手記（10）LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中英文對話
組織機構(gòu)：Meta（Facebook）代碼倉：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：llama-2-7b、llama-2-7b-chat（后來證明無法實現(xiàn)中文轉(zhuǎn)換）、Chinese-LLaMA-Plus-7B（chinese_llama_plus_lora_7b） ? 下載：使用download.sh下載硬件環(huán)境：暗影精靈7Plus Windows版本：Windows 11家庭中文版
2024年02月04日
瀏覽(23)
llama.cpp一種在本地CPU上部署的量化模型（超低配推理llama）
前不久，Meta前腳發(fā)布完開源大語言模型LLaMA，隨后就被網(wǎng)友“泄漏”，直接放了一個磁力鏈接下載鏈接。然而那些手頭沒有頂級顯卡的朋友們，就只能看看而已了但是 Georgi Gerganov 開源了一個項目llama.cpp ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com) 次項目的牛逼
2023年04月23日
瀏覽(22)
llama.cpp LLM模型 windows cpu安裝部署；運行LLaMA-7B模型測試
參考： https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考：https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載： 2、編譯 3、測試運行參考： https://zhuanlan.zhihu.com/p/638427280 模型下載： https://huggingface.co/nya
2024年02月15日
瀏覽(17)
大模型部署手記（13）LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+LangChain+摘要問答
組織機構(gòu)：Meta（Facebook）代碼倉：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：chinese-alpaca-2-7b-hf、text2vec-large-chinese 下載：使用百度網(wǎng)盤和huggingface.co下載硬件環(huán)境：暗影精靈7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡：Nvidia GTX 3080 Laptop
2024年02月04日
瀏覽(20)
Windows11下私有化部署大語言模型實戰(zhàn) langchain+llama2
CPU：銳龍5600X 顯卡：GTX3070 內(nèi)存：32G 注：硬件配置僅為博主的配置，不是最低要求配置，也不是推薦配置。該配置下計算速度約為40tokens/s。實測核顯筆記本（i7-1165g7）也能跑，速度3tokens/s。 Windows系統(tǒng)版本：Win11專業(yè)版23H2 Python版本：3.11 Cuda版本：12.3.2 VS版本：VS2022 17.8.3 lan
2024年02月03日
瀏覽(1177)
llama.cpp LLM模型 windows cpu安裝部署
參考： https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考：https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載： 2、編譯 3、測試運行參考： https://zhuanlan.zhihu.com/p/638427280 模型下載： https://huggingface.co/nya
2024年02月11日
瀏覽(22)
【AI實戰(zhàn)】llama.cpp 量化部署 llama-33B
量化模型是將模型中的高精度浮點數(shù)轉(zhuǎn)化成低精度的int或其他類型得到的新的，花銷更小，運行更快的模型。 Inference of LLaMA model in pure C/C++。 llama.cpp 運行期占用內(nèi)存更小，推斷速度也更快，同樣的模型，7B 基礎(chǔ)模型舉例，32位浮點數(shù)的模型占用空間 27G，llama.cpp 量化后占用內(nèi)
2024年02月16日
瀏覽(23)
在Linux系統(tǒng)下部署Llama2（MetaAI）大模型教程
Llama2 是Meta最新開源的語言大模型，訓練數(shù)據(jù)集2萬億token，上下文長度是由Llama的2048擴展到4096，可以理解和生成更長的文本，包括7B、13B和70B三個模型，在各種基準集的測試上表現(xiàn)突出，最重要的是，該模型可用于研究和商業(yè)用途。 1、本文選擇部署的模型是 Llama2-chat-13B-Chi
2024年02月03日
瀏覽(21)
AI-windows下使用llama.cpp部署本地Chinese-LLaMA-Alpaca-2模型
生成的文件在 .buildbin ，我們要用的是 main.exe ， binmain.exe -h 查看使用幫助本項目基于Meta發(fā)布的可商用大模型Llama-2開發(fā)，是中文LLaMAAlpaca大模型的第二期項目，開源了中文LLaMA-2基座模型和Alpaca-2指令精調(diào)大模型。這些模型在原版Llama-2的基礎(chǔ)上擴充并優(yōu)化了中文詞表，使用
2024年04月25日
瀏覽(33)
使用GGML和LangChain在CPU上運行量化的llama2
Meta AI 在本周二發(fā)布了最新一代開源大模型 Llama 2。對比于今年 2 月發(fā)布的 Llama 1，訓練所用的 token 翻了一倍，已經(jīng)達到了 2 萬億，對于使用大模型最重要的上下文長度限制，Llama 2 也翻了一倍。在本文，我們將緊跟趨勢介紹如何在本地CPU推理上運行量化版本的開源Llama 2。我
2024年02月16日
瀏覽(21)

<address id="hbjsy"><tr id="hbjsy"><progress id="hbjsy"></progress></tr></address>

<track id="hbjsy"><abbr id="hbjsy"><dfn id="hbjsy"></dfn></abbr></track>

<tr id="hbjsy"><del id="hbjsy"></del></tr>

<tr id="hbjsy"></tr>