国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Llama2通過llama.cpp模型量化 Windows&Linux本地部署

這篇具有很好參考價值的文章主要介紹了Llama2通過llama.cpp模型量化 Windows&Linux本地部署。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Llama2通過llama.cpp模型量化 Windows&Linux本地部署

什么是LLaMA 1 and 2

LLaMA,它是一組基礎(chǔ)語言模型,參數(shù)范圍從7B到65B。在數(shù)萬億的tokens上訓練的模型,并表明可以專門使用公開可用的數(shù)據(jù)集來訓練最先進的模型,而無需求助于專有和不可訪問的數(shù)據(jù)集。特別是,LLaMA-13B在大多數(shù)基準測試中都優(yōu)于GPT-3(175B),并且LLaMA65B與最好的型號Chinchilla-70B和PaLM-540B具有競爭力。

Meta 出品的 Llama 續(xù)作 Llama2,一系列模型(7b、13b、70b)均開源可商用。Llama2 在各個榜單上精度全面超過 Llama1,同時也超過此前所有開源模型。

但是對于本機部署大模型,LLaMA要求相對于還是偏高,因此本次使用開源方案llama.cpp進行模型量化,在Windows平臺進行CPU量化版本測試,Linux平臺進行GPU量化版本測試。

注:以下所有下載步驟均需要科學上網(wǎng),否則會很折磨。

實驗設(shè)備詳情(供參考)

Windows平臺

為筆記本平臺,拯救者Y9000P

  • CPU: 13th Intel i9-13900HX × \times × 1
  • GPU: NVIDIA GeForce RTX4060 (8GB) × \times × 1
  • 內(nèi)存: 32GB

運行情況:CPU流暢運行l(wèi)lama2-13B-chat 8Bit量化版本,卡頓運行16Bit量化版本。GPU版本加速超級快,相當于文心一言或者Chatgpt的生成速度。

運行情況:
Llama2通過llama.cpp模型量化 Windows&Linux本地部署,llama,windows,linux,LLM,模型量化
Llama2通過llama.cpp模型量化 Windows&Linux本地部署,llama,windows,linux,LLM,模型量化

Linux平臺

實驗室服務器

  • COU: 9th Intel? Core? i9-9940X CPU @ 3.30GHz × \times × 14
  • GPU: NVIDIA GeForce RTX2080Ti (11GB) × \times × 4
  • 內(nèi)存: 64GB

運行情況:13B和7B都運行十分流程,但70B的不知道為啥突然下載不了了,沒法測試。

模型部署詳細步驟

下載并配置llama庫

  • 下載llama

    git clone https://github.com/facebookresearch/llama.git
    
  • 配置環(huán)境

    創(chuàng)建虛擬環(huán)境,防止之前其他環(huán)境安裝的包導致的沖突

    conda create -n llama python=3.10
    

    進入虛擬環(huán)境

    conda activate llama
    

    進入工程目錄

    cd llama
    

    安裝環(huán)境依賴

    pip install -e .
    
  • 申請模型下載鏈接

    進入該鏈接:Mete website申請下載模型,內(nèi)容如實填寫,為了盡快通過,可以填寫美國機構(gòu)和學校,應該會快一些,當時沒敢試國內(nèi)的,怕被拒(被OpenAI搞怕了)

    之后會來如下郵件,復制馬賽克部分的網(wǎng)址:
    Llama2通過llama.cpp模型量化 Windows&Linux本地部署,llama,windows,linux,LLM,模型量化

  • 下載模型

    • Windows平臺

      sh download.sh
      
    • Linux平臺

      bash download.sh
      

    之后跟著流程將之前復制的鏈接粘貼進入即可,然后選擇需要下載的模型,關(guān)于模型的區(qū)別可以自行Bing,chat版本的這里更加推薦,參數(shù)量方面7B的一般大部分設(shè)備都可以跑,我使用13B版本的也可以正常運行,根據(jù)個人所需進行選擇。

    • 注:Windows平臺在下載的時候,可能會面臨wget: command not found錯誤,跟下述鏈接進行即可

      關(guān)于在Windows10環(huán)境下運行.sh文件報錯 wget: command not found的解決辦法

下載并配置llama.cpp庫

  • 下載llama.cpp

    git clone https://github.com/ggerganov/llama.cpp.git
    
    cd llama.cpp
    
  • 編譯 Build

    • Linux平臺

      直接進入工程目錄make即可:

      make
      

      我在autodl服務器和實驗室服務器實測都沒有問題

    • Windows平臺

      Windows平臺需要安裝cmake和gcc,這個我本機此前有安裝好,如果有沒有安裝的請自行百度安裝

      編譯:

      mkdir build
      
      cd build
      
      cmake ..
      
      cmake --build . --config Release
      
  • CUDA加速版編譯,添加一部分指令即可

    • Linux平臺

      make LLAMA_CUBLAS=1
      
    • Windows平臺

      mkdir build
      cd build
      cmake .. -DLLAMA_CUBLAS=ON
      cmake --build . --config Release
      

模型量化

  • 準備數(shù)據(jù)

    將llama中下載好的數(shù)據(jù) (llama-2-7B-chat) 拷貝到llama.cpp中的./models中,同時將llama主目錄中的tokenizer_checklist.chk和tokenizer.model也復制到./models中。

    參考以下:

    G:.
    │  .editorconfig
    │  ggml-vocab-aquila.gguf
    │  ggml-vocab-baichuan.gguf
    │  ggml-vocab-falcon.gguf
    │  ggml-vocab-gpt-neox.gguf
    │  ggml-vocab-llama.gguf
    │  ggml-vocab-mpt.gguf
    │  ggml-vocab-refact.gguf
    │  ggml-vocab-starcoder.gguf
    │  tokenizer.model
    │  tokenizer_checklist.chk
    │
    └─13B
            checklist.chk
            consolidated.00.pth
            consolidated.01.pth
            params.json
    
  • 進行量化

    進入虛擬環(huán)境,安裝依賴

    cd llama.cpp
    
    conda activate llama
    

    安裝依賴

    pip install -r requirements.txt
    

    進行16Bit轉(zhuǎn)換

    python convert.py models/13B/
    

    這一步如果報錯。修改./models/(模型存放文件夾)/params.json
    將最后"vocab_size":中的值改為32000即可

    • Linux 4 or 8 bit量化

      ./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0
      

      路徑根據(jù)自己的路徑進行調(diào)整,如果進行8bit量化,將命令中的q4_0改為q8_0:

      ./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q8_0.gguf q8_0
      

      8bit肯定比4bit好,但根據(jù)設(shè)備情況量力而行

    • Windows 4 or 8 bit量化

      .\build\bin\Release\quantize.exe .\models\13B\ggml-model-f16.gguf .\models\13B\7B\ggml-model-q4_0.gguf q4_0
      

      更改bit也參考上述

加載并啟動模型

CPU版本

  • Windows平臺

    .\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt
    
  • Linux平臺

    ./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt
    

GPU加速

只需在命令中加上加上-ngl 1

其中可以對數(shù)量進行修改,最大為35,我在4060上實測20達到最佳

  • Windows平臺

    .\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt -ngl 20
    
  • Linux平臺

    ./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f ./prompts/chat-with-bob.txt -ngl 20
    

在提示符 > 之后輸入你的prompt,cmd/ctrl+c中斷輸出,多行信息以\作為行尾。如需查看幫助和參數(shù)說明,請執(zhí)行./main -h命令。下面介紹一些常用的參數(shù):

-c 控制上下文的長度,值越大越能參考更長的對話歷史(默認:512)
-ins 啟動類ChatGPT對話交流的instruction運行模式
-f 指定prompt模板,alpaca模型請加載prompts/alpaca.txt
-n 控制回復生成的最大長度(默認:128)
-b 控制batch size(默認:8),可適當增加
-t 控制線程數(shù)量(默認:4),可適當增加
--repeat_penalty 控制生成回復中對重復文本的懲罰力度
--temp 溫度系數(shù),值越低回復的隨機性越小,反之越大
--top_p, top_k 控制解碼采樣的相關(guān)參數(shù)

具體信息參考:https://github.com/ggerganov/llama.cpp/tree/master/examples/main文章來源地址http://www.zghlxwxcb.cn/news/detail-754151.html

到了這里,關(guān)于Llama2通過llama.cpp模型量化 Windows&Linux本地部署的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • 大模型部署手記(10)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中英文對話

    大模型部署手記(10)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中英文對話

    組織機構(gòu):Meta(Facebook) 代碼倉:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:llama-2-7b、llama-2-7b-chat( 后來證明無法實現(xiàn)中文轉(zhuǎn)換 )、Chinese-LLaMA-Plus-7B(chinese_llama_plus_lora_7b) ? 下載:使用download.sh下載 硬件環(huán)境:暗影精靈7Plus Windows版本:Windows 11家庭中文版

    2024年02月04日
    瀏覽(23)
  • llama.cpp一種在本地CPU上部署的量化模型(超低配推理llama)

    llama.cpp一種在本地CPU上部署的量化模型(超低配推理llama)

    前不久,Meta前腳發(fā)布完開源大語言模型LLaMA, 隨后就被網(wǎng)友“泄漏”,直接放了一個磁力鏈接下載鏈接。 然而那些手頭沒有頂級顯卡的朋友們,就只能看看而已了 但是 Georgi Gerganov 開源了一個項目llama.cpp ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com) 次項目的牛逼

    2023年04月23日
    瀏覽(22)
  • llama.cpp LLM模型 windows cpu安裝部署;運行LLaMA-7B模型測試

    llama.cpp LLM模型 windows cpu安裝部署;運行LLaMA-7B模型測試

    參考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載: 2、編譯 3、測試運行 參考: https://zhuanlan.zhihu.com/p/638427280 模型下載: https://huggingface.co/nya

    2024年02月15日
    瀏覽(17)
  • 大模型部署手記(13)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+LangChain+摘要問答

    大模型部署手記(13)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+LangChain+摘要問答

    組織機構(gòu):Meta(Facebook) 代碼倉:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:chinese-alpaca-2-7b-hf、text2vec-large-chinese 下載:使用百度網(wǎng)盤和huggingface.co下載 硬件環(huán)境:暗影精靈7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡:Nvidia GTX 3080 Laptop

    2024年02月04日
    瀏覽(20)
  • Windows11下私有化部署大語言模型實戰(zhàn) langchain+llama2

    Windows11下私有化部署大語言模型實戰(zhàn) langchain+llama2

    CPU:銳龍5600X 顯卡:GTX3070 內(nèi)存:32G 注:硬件配置僅為博主的配置,不是最低要求配置,也不是推薦配置。該配置下計算速度約為40tokens/s。實測核顯筆記本(i7-1165g7)也能跑,速度3tokens/s。 Windows系統(tǒng)版本:Win11專業(yè)版23H2 Python版本:3.11 Cuda版本:12.3.2 VS版本:VS2022 17.8.3 lan

    2024年02月03日
    瀏覽(1177)
  • llama.cpp LLM模型 windows cpu安裝部署

    llama.cpp LLM模型 windows cpu安裝部署

    參考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載: 2、編譯 3、測試運行 參考: https://zhuanlan.zhihu.com/p/638427280 模型下載: https://huggingface.co/nya

    2024年02月11日
    瀏覽(22)
  • 【AI實戰(zhàn)】llama.cpp 量化部署 llama-33B

    【AI實戰(zhàn)】llama.cpp 量化部署 llama-33B

    量化模型是將模型中的高精度浮點數(shù)轉(zhuǎn)化成低精度的int或其他類型得到的新的,花銷更小,運行更快的模型。 Inference of LLaMA model in pure C/C++。 llama.cpp 運行期占用內(nèi)存更小,推斷速度也更快,同樣的模型,7B 基礎(chǔ)模型舉例,32位浮點數(shù)的模型占用空間 27G,llama.cpp 量化后占用內(nèi)

    2024年02月16日
    瀏覽(23)
  • 在Linux系統(tǒng)下部署Llama2(MetaAI)大模型教程

    在Linux系統(tǒng)下部署Llama2(MetaAI)大模型教程

    Llama2 是Meta最新開源的語言大模型,訓練數(shù)據(jù)集2萬億token,上下文長度是由Llama的2048擴展到4096,可以理解和生成更長的文本,包括7B、13B和70B三個模型,在各種基準集的測試上表現(xiàn)突出,最重要的是,該模型可用于研究和商業(yè)用途。 1、本文選擇部署的模型是 Llama2-chat-13B-Chi

    2024年02月03日
    瀏覽(21)
  • AI-windows下使用llama.cpp部署本地Chinese-LLaMA-Alpaca-2模型

    生成的文件在 .buildbin ,我們要用的是 main.exe , binmain.exe -h 查看使用幫助 本項目基于Meta發(fā)布的可商用大模型Llama-2開發(fā),是中文LLaMAAlpaca大模型的第二期項目,開源了中文LLaMA-2基座模型和Alpaca-2指令精調(diào)大模型。這些模型在原版Llama-2的基礎(chǔ)上擴充并優(yōu)化了中文詞表,使用

    2024年04月25日
    瀏覽(33)
  • 使用GGML和LangChain在CPU上運行量化的llama2

    使用GGML和LangChain在CPU上運行量化的llama2

    Meta AI 在本周二發(fā)布了最新一代開源大模型 Llama 2。對比于今年 2 月發(fā)布的 Llama 1,訓練所用的 token 翻了一倍,已經(jīng)達到了 2 萬億,對于使用大模型最重要的上下文長度限制,Llama 2 也翻了一倍。 在本文,我們將緊跟趨勢介紹如何在本地CPU推理上運行量化版本的開源Llama 2。 我

    2024年02月16日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包