国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

llama.cpp模型推理之界面篇

這篇具有很好參考價值的文章主要介紹了llama.cpp模型推理之界面篇。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

前言

一、llama.cpp 目錄結(jié)構(gòu)

二、llama.cpp 之 server 學(xué)習(xí)

1. 介紹

2. 編譯部署

3. 啟動服務(wù)

4、擴(kuò)展或構(gòu)建其他的?Web 前端

5、其他


前言

在《基于llama.cpp學(xué)習(xí)開源LLM本地部署》這篇中介紹了基于llama.cpp學(xué)習(xí)開源LLM本地部署。在最后簡單介紹了API 的調(diào)用方式。不習(xí)慣命令行的同鞋,也可以試試?llama.cpp 界面的交互方式,本章就詳細(xì)介紹一下server。


一、llama.cpp 目錄結(jié)構(gòu)

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

整個目錄比較簡潔,沒多少東西,以最少的代碼實現(xiàn)最全的功能,值得學(xué)習(xí)。文檔都很全,基本上在學(xué)習(xí)該推理框架時遇到或者沒有想到,你都能在根目錄或子目錄的README.md 找到。

本章主要講 server的界面??梢栽趀xamples/server下看看README?;蛘咧苯臃礁夸浵麓蜷_README.md. 找到如下點擊:

?llama.cpp模型推理之界面篇,學(xué)習(xí),llama

二、llama.cpp 之 server 學(xué)習(xí)

1. 介紹

?llama.cpp 的 server 服務(wù)是基于 httplib 搭建的一個簡單的HTTP API服務(wù)和與llama.cpp交互的簡單web前端。

server命令參數(shù):

  • --threads N,?-t N: 設(shè)置生成時要使用的線程數(shù).
  • -tb N, --threads-batch N: 設(shè)置批處理和提示處理期間使用的線程數(shù)。如果未指定,則線程數(shù)將設(shè)置為用于生成的線程數(shù)
  • -m FNAME,?--model FNAME: 指定 LLaMA 模型文件的路徑(例如,models/7B/ggml-model.gguf).
  • -a ALIAS,?--alias ALIAS: 設(shè)置模型的別名。別名將在 API 響應(yīng)中返回.
  • -c N,?--ctx-size N: 設(shè)置提示上下文的大小。默認(rèn)值為 512,但 LLaMA 模型是在 2048 的上下文中構(gòu)建的,這將為更長的輸入/推理提供更好的結(jié)果。其他模型的大小可能有所不同,例如,百川模型是在上下文為 4096 的情況下構(gòu)建的.
  • -ngl N,?--n-gpu-layers N: 當(dāng)使用適當(dāng)?shù)闹С郑壳盀?CLBlast 或 cuBLAS)進(jìn)行編譯時,此選項允許將某些層卸載到 GPU 進(jìn)行計算。通常會導(dǎo)致性能提高.
  • -mg i, --main-gpu i: 使用多個 GPU 時,此選項控制哪個 GPU 用于小張量,對于這些張量,在所有 GPU 之間拆分計算的開銷是不值得的。有問題的 GPU 將使用稍多的 VRAM 來存儲暫存緩沖區(qū)以獲得臨時結(jié)果。默認(rèn)情況下,使用 GPU 0。需要 cuBLAS.
  • -ts SPLIT, --tensor-split SPLIT: 使用多個 GPU 時,此選項控制應(yīng)在所有 GPU 之間拆分多大的張量。SPLIT 是一個以逗號分隔的非負(fù)值列表,用于分配每個 GPU 應(yīng)按順序獲取的數(shù)據(jù)比例。例如,“3,2”會將 60% 的數(shù)據(jù)分配給 GPU 0,將 40% 分配給 GPU 1。默認(rèn)情況下,數(shù)據(jù)按 VRAM 比例拆分,但這可能不是性能的最佳選擇。需要 cuBLAS.
  • -b N,?--batch-size N: 設(shè)置用于提示處理的批大小。默認(rèn)值:512.
  • --memory-f32: 使用 32 位浮點數(shù)而不是 16 位浮點數(shù)來表示內(nèi)存鍵 + 值。不推薦.
  • --mlock: 將模型鎖定在內(nèi)存中,防止在內(nèi)存映射時將其換出.
  • --no-mmap: 不要對模型進(jìn)行內(nèi)存映射。默認(rèn)情況下,模型映射到內(nèi)存中,這允許系統(tǒng)根據(jù)需要僅加載模型的必要部分.
  • --numa: 嘗試對某些 NUMA 系統(tǒng)有幫助的優(yōu)化.
  • --lora FNAME: 將 LoRA(低秩適配)適配器應(yīng)用于模型(隱含 --no-mmap)。這允許您使預(yù)訓(xùn)練模型適應(yīng)特定任務(wù)或領(lǐng)域.
  • --lora-base FNAME: 可選模型,用作 LoRA 適配器修改的層的基礎(chǔ)。此標(biāo)志與 --lora 標(biāo)志結(jié)合使用,并指定適配的基本模型.
  • -to N,?--timeout N: 服務(wù)器讀/寫超時(以秒為單位)。默認(rèn)值:600.
  • --host: 設(shè)置要偵聽的主機(jī)名或 IP 地址. 默認(rèn)?127.0.0.1.
  • --port: 將端口設(shè)置為偵聽。默認(rèn)值:8080
  • --path: 從中提供靜態(tài)文件的路徑?(default examples/server/public)
  • --embedding: 啟用嵌入提取,默認(rèn)值:禁用.
  • -np N,?--parallel N: 設(shè)置進(jìn)程請求的槽數(shù)(默認(rèn)值:1)
  • -cb,?--cont-batching: 啟用連續(xù)批處理(又名動態(tài)批處理)(默認(rèn):禁用)
  • -spf FNAME,?--system-prompt-file FNAME?:將文件設(shè)置為加載“系統(tǒng)提示符(所有插槽的初始提示符)”,這對于聊天應(yīng)用程序很有用.?
  • --mmproj MMPROJ_FILE: LLaVA 的多模態(tài)投影儀文件的路徑.

2. 編譯部署

? ? 編譯部署請參考《基于llama.cpp學(xué)習(xí)開源LLM本地部署》。會在跟目錄下生成 ./server

3. 啟動服務(wù)

./server -m ../models/NousResearch/Llama-2-7b-chat-hf/ggml-model-q4_0.gguf -c 2048

服務(wù)啟動成功后,如下:

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

點擊或者在瀏覽器中輸入:http://127.0.0.1:8080

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

?可以看到:交互模式,提示詞、用戶名、提示詞模板還有模型參數(shù)等設(shè)置。打開“更多選型”,如下:

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

這些參數(shù)默認(rèn)就行,也可以根據(jù)實際情況調(diào)整。

在最下面輸入一些內(nèi)容,點擊“send”,就能與模型進(jìn)行聊天了。

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

從學(xué)習(xí)的角度來看,是不是很方面。不用敲命令,也不用單獨搭建前端。直接就能體驗大模型,也能學(xué)習(xí)里面機(jī)制與原理。

4、擴(kuò)展或構(gòu)建其他的?Web 前端

web靜態(tài)文件的默認(rèn)位置是“examples/server/public”。您可以通過運(yùn)行./server并將“--path”設(shè)置為“./your-directory”并導(dǎo)入“/completion.js”來訪問 llamaComplete() 方法來擴(kuò)展前端。

A simple example is below:

<html>
  <body>
    <pre>
      <script type="module">
        import { llama } from '/completion.js'

        const prompt = `### Instruction:
Write dad jokes, each one paragraph.
You can use html formatting if needed.

### Response:`

        for await (const chunk of llama(prompt)) {
          document.write(chunk.data.content)
        }
      </script>
    </pre>
  </body>
</html>

5、其他

更多功能和參數(shù),詳見llama.cpp/examples/server/README.md。文章來源地址http://www.zghlxwxcb.cn/news/detail-805910.html


到了這里,關(guān)于llama.cpp模型推理之界面篇的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • llama.cpp LLM模型 windows cpu安裝部署;運(yùn)行LLaMA2模型測試

    llama.cpp LLM模型 windows cpu安裝部署;運(yùn)行LLaMA2模型測試

    參考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載: 2、編譯 3、測試運(yùn)行 參考: https://zhuanlan.zhihu.com/p/638427280 模型下載: https://huggingface.co/nya

    2024年02月16日
    瀏覽(29)
  • 用 llama.cpp 跑通 mixtral MoE 模型

    這里是 用 llama.cpp 跑通 mixtral MoE 模型 視頻的筆記哦。 安裝 huggingface_hub: pip install huggingface_hub -U 下載模型 huggingface-cli download TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf —local_dir $PWD —local_dir_use_symlinks=False 編譯 llama.cpp LLAMA_CUBLAS=1 make -j10 運(yùn)行 ./main -m ~/auto

    2024年02月03日
    瀏覽(19)
  • Llama2通過llama.cpp模型量化 Windows&Linux本地部署

    Llama2通過llama.cpp模型量化 Windows&Linux本地部署

    LLaMA ,它是一組基礎(chǔ)語言模型,參數(shù)范圍從7B到65B。在數(shù)萬億的tokens上訓(xùn)練的模型,并表明可以專門使用公開可用的數(shù)據(jù)集來訓(xùn)練最先進(jìn)的模型,而無需求助于專有和不可訪問的數(shù)據(jù)集。特別是, LLaMA-13B在大多數(shù)基準(zhǔn)測試中都優(yōu)于GPT-3(175B) ,并且LLaMA65B與最好的型號Chinch

    2024年02月05日
    瀏覽(17)
  • 大模型部署手記(8)LLaMa2+Windows+llama.cpp+英文文本補(bǔ)齊

    大模型部署手記(8)LLaMa2+Windows+llama.cpp+英文文本補(bǔ)齊

    組織機(jī)構(gòu):Meta(Facebook) 代碼倉:https://github.com/facebookresearch/llama 模型:llama-2-7b 下載:使用download.sh下載 硬件環(huán)境:暗影精靈7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡:Nvidia GTX 3080 Laptop (16G) 下載llama.cpp的代碼倉: git clone https://github.com/ggergan

    2024年02月03日
    瀏覽(50)
  • llama.cpp LLM模型 windows cpu安裝部署

    llama.cpp LLM模型 windows cpu安裝部署

    參考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載: 2、編譯 3、測試運(yùn)行 參考: https://zhuanlan.zhihu.com/p/638427280 模型下載: https://huggingface.co/nya

    2024年02月11日
    瀏覽(22)
  • 使用llama.cpp在本地搭建vicuna 13B語言模型

    使用llama.cpp在本地搭建vicuna 13B語言模型

    有人做了windows下的腳本放到github上了,直接運(yùn)行就可以了。我在本機(jī)試了一下13B的模型能運(yùn)行,但生成速度非常慢,回復(fù)一個問題基本上要花5分鐘以上的時間。我的機(jī)器配置 3900X?32G內(nèi)存。 https://github.com/mps256/vicuna.ps1

    2024年02月11日
    瀏覽(23)
  • Llama 3大模型發(fā)布!快速體驗推理及微調(diào)

    Llama 3大模型發(fā)布!快速體驗推理及微調(diào)

    ????????Meta,一家全球知名的科技和社交媒體巨頭,在其官方網(wǎng)站上正式宣布了一款開源的大型預(yù)訓(xùn)練語言模型——Llama-3。 ????據(jù)了解,Llama-3模型提供了兩種不同參數(shù)規(guī)模的版本,分別是80億參數(shù)和700億參數(shù)。這兩種版本分別針對基礎(chǔ)的預(yù)訓(xùn)練任務(wù)以及指令微調(diào)任務(wù)進(jìn)

    2024年04月26日
    瀏覽(27)
  • 開源大模型框架llama.cpp使用C++ api開發(fā)入門

    llama.cpp是一個C++編寫的輕量級開源類AIGC大模型框架,可以支持在消費(fèi)級普通設(shè)備上本地部署運(yùn)行大模型,以及作為依賴庫集成的到應(yīng)用程序中提供類GPT的功能。 以下基于llama.cpp的源碼利用C++ api來開發(fā)實例demo演示加載本地模型文件并提供GPT文本生成。 CMakeLists.txt main.cpp 注:

    2024年02月03日
    瀏覽(26)
  • 大模型在cpu上使用llama_cpp部署無法加載模型的問題

    大模型在cpu上使用llama_cpp部署無法加載模型的問題

    錯誤:gguf_init_from_file: invalid magic characters \\\'tjgg\\\'等,也就是無法加載模型 因為最新版的llama-cpp-python不支持ggml文件格式了 解決方案: 1、降低版本(最簡單): pip install llama-cpp-python==0.1.78 2、直接下載對應(yīng)GGUF的模型 3、利用llama.cpp內(nèi)部轉(zhuǎn)換函數(shù)進(jìn)行轉(zhuǎn)換 參考出處:TheBloke/Llam

    2024年01月20日
    瀏覽(26)
  • 最新開源!更擅長推理的LLaMA大模型,支持中文

    最新開源!更擅長推理的LLaMA大模型,支持中文

    ?PaperWeekly 原創(chuàng) ·?作者 |? 李忠利 研究方向 |? 自然語言處理 跟大家介紹一下自己最近訓(xùn)練的 LLaMA 模型——BiLLa: A?Bilingual?LLaMA with Enhanced Reasoning Ability. Github 地址:? https://github.com/Neutralzz/BiLLa? HuggingFace 模型: ? https://huggingface.co/Neutralzz/BiLLa-7B-LLM(語言模型 BiLLa-7B-LLM)?

    2024年02月09日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包