不推薦小白,環(huán)境配置比較復雜
全部流程
- 下載原始模型:Chinese-LLaMA-Alpaca-2
- linux部署llamacpp環(huán)境
- 使用llamacpp將Chinese-LLaMA-Alpaca-2模型轉(zhuǎn)換為gguf模型
- windows部署Text generation web UI 環(huán)境
- 使用Text generation web UI 加載模型并進行對話
準備工作
-
筆記本環(huán)境:
- 操作系統(tǒng):win11
- CPU:AMD R7535HS
- GPU:筆記本4060顯卡
- CUDA版本:11.8
- VM虛擬機:Ubuntu16
-
下載模型和部署環(huán)境全程需要掛梯子
下載原始模型
原項目鏈接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2
模型名稱 | 類型 | 大小 | 下載地址 |
---|---|---|---|
Chinese-LLaMA-2-13B | 基座模型 | 24.7 GB | [百度] [Google] [??HF] |
Chinese-LLaMA-2-7B | 基座模型 | 12.9 GB | [百度] [Google] [??HF] |
Chinese-Alpaca-2-13B | 指令模型 | 24.7 GB | [百度] [Google] [??HF] |
Chinese-Alpaca-2-7B | 指令模型 | 12.9 GB | [百度] [Google] [??HF] |
下載Chinese-Alpaca-2-7B模型即可,百度網(wǎng)盤不需要掛梯子,其他都需要梯子
linux部署llamacpp環(huán)境
原項目鏈接:https://github.com/ggerganov/llama.cpp
原文檔鏈接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh
Step 1: 安裝python3.10
sudo apt update
sudo apt install python3.10
Step 2: 克隆和編譯llama.cpp
-
拉取最新版llama.cpp倉庫代碼
# 要安裝git+梯子 git clone https://github.com/ggerganov/llama.cpp
或者
#瀏覽器掛梯子打開https://github.com/ggerganov/llama.cpp #下載項目 #解壓縮項目到本地
-
對llama.cpp項目進行編譯,生成./main(用于推理)和./quantize(用于量化)二進制文件
cd 解壓縮項目路徑 make
Step 3: 生成量化版本模型
-
創(chuàng)建目錄并拷貝模型到項目目錄:zh-models/7B/
-
將Chinese-LLaMA-Alpaca-2模型轉(zhuǎn)換為gguf模型
#根目錄 python convert.py zh-models/7B/
-
將生成的fp16格式的gguf模型進行4-bit量化
./quantize ./zh-models/7B/ggml-model-f16.gguf ./zh-models/7B/ggml-model-q4_0.gguf q4_0
Step 4: 加載并啟動模型
到這一步其實可以用llama.cpp的加載模型方式對話了
但我用的虛擬機,性能有限,故而使用Text generation web UI 加載模型,具體如何加載建議看原文檔和項目說明
windows部署Text generation web UI 環(huán)境
原項目:https://github.com/oobabooga/text-generation-webui
Step 1: 下載安裝Miniconda3_py310
鏈接:https://repo.anaconda.com/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe文章來源:http://www.zghlxwxcb.cn/news/detail-719512.html
Step 2: 克隆項目到本地
git clone https://github.com/oobabooga/text-generation-webui
Step 3: 打開Miniconda3命令行,建立新conda環(huán)境
conda create -n textgen
Step 4: 下載安裝相關(guān)的python各類環(huán)境庫
有g(shù)ithub鏈接的必須手動下載whl,再pip安裝whl的絕對位置文章來源地址http://www.zghlxwxcb.cn/news/detail-719512.html
conda activate textgen
cd 項目位置
pip install env/bitsandbytes-0.41.1-py3-none-win_amd64.whl
pip install E:\AI\環(huán)境第三方庫\auto_gptq-0.4.2+cu117-cp310-cp310-win_amd64.whl
https://github.com/jllllll/exllama/releases/download/0.0.17/exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\環(huán)境第三方庫\exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl
pip install llama-cpp-python==0.1.84
https://github.com/jllllll/llama-cpp-python-cuBLAS-wheels/releases/download/textgen-webui/llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\環(huán)境第三方庫\llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl
https://github.com/jllllll/GPTQ-for-LLaMa-CUDA/releases/download/0.1.0/gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\環(huán)境第三方庫\gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl
https://github.com/jllllll/ctransformers-cuBLAS-wheels/releases/download/AVX2/ctransformers-0.2.25+cu117-py3-none-any.whl
pip install E:\AI\環(huán)境第三方庫\ctransformers-0.2.25+cu117-py3-none-any.whl
pip install -r requirements.txt -i 換源
Step 5: 啟動web服務(wù)
conda activate textgen
cd E:/AI/項目/text-generation-webui-main
python server.py
使用Text generation web UI 加載模型并進行對話
- 打開生成的url網(wǎng)址
- 加載本地模型
- 對話即可
到了這里,關(guān)于【個人筆記本】本地化部署詳細流程 LLaMA中文模型:Chinese-LLaMA-Alpaca-2的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!