首先進(jìn)入這里
https://github.com/facebookresearch/llama
?點(diǎn)擊下載
填寫注冊信息
?接受后繼續(xù)
?上面的按鈕點(diǎn)擊后,應(yīng)該郵箱就收到鏈接了,幾乎是很快的
把下面的鏈接復(fù)制后備用,注意24小時后會失效
提前先了解一下有3種模型
7b? 13b? 70b??
7b就是有70億參數(shù),文件夾里面有3個文件
其中最大的是模型文件有13G
外面還有分詞器清單和分詞器模型文件
?如果下載全部的話體積特別大,注意啦354GB
?所以我只下載了7B,它占用磁盤13GB的空間
?我們再把開頭的倉庫地址復(fù)制后克隆
在ubuntu 20.04環(huán)境下面克隆llama倉庫
git clone https://github.com/facebookresearch/llama.git
?安裝python依賴
pip install -e .
?執(zhí)行download.sh
注意要把剛剛復(fù)制的url貼上去
第二步,看看下面帥氣的男人,我們要再下載一個倉庫啦
?就是llama.cpp
執(zhí)行命令??git clone https://github.com/ggerganov/llama.cpp.git
在里面make -j
?安裝python依賴
先在models文件夾里面創(chuàng)建7B的文件夾
?再拷貝模型文件,參考下面的命令? ?
?使用python3 convert.py models/7B/
將7B模型轉(zhuǎn)換為ggml FP32格式
轉(zhuǎn)換成功后變成了f32.bin文件? (ggml FP16格式)
它的大小是27GB
?將模型量化為 4 位(使用 q4_0 方法)
./quantize ./models/7B/ggml-model-f32.bin ./models/7B/ggml-model-q4_0.bin q4_0
?量化為 4 位之后模型就變小成4G了
?最后就可以推理了
./examples/chat.sh
文章來源:http://www.zghlxwxcb.cn/news/detail-687906.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-687906.html
到了這里,關(guān)于llama.cpp 部署 llama-2-7b 測試 Llama 2的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!