国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

llama.cpp模型推理之界面篇

2年前作者：joimson分類：Toy博客閱讀(20)違法舉報

這篇具有很好參考價值的文章主要介紹了llama.cpp模型推理之界面篇。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

目錄

前言

一、llama.cpp 目錄結(jié)構(gòu)

二、llama.cpp 之 server 學(xué)習(xí)

1. 介紹

2. 編譯部署

3. 啟動服務(wù)

4、擴(kuò)展或構(gòu)建其他的?Web 前端

5、其他

前言

在《基于llama.cpp學(xué)習(xí)開源LLM本地部署》這篇中介紹了基于llama.cpp學(xué)習(xí)開源LLM本地部署。在最后簡單介紹了API 的調(diào)用方式。不習(xí)慣命令行的同鞋，也可以試試?llama.cpp 界面的交互方式，本章就詳細(xì)介紹一下server。

一、llama.cpp 目錄結(jié)構(gòu)

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

整個目錄比較簡潔，沒多少東西，以最少的代碼實現(xiàn)最全的功能，值得學(xué)習(xí)。文檔都很全，基本上在學(xué)習(xí)該推理框架時遇到或者沒有想到，你都能在根目錄或子目錄的README.md 找到。

本章主要講 server的界面?？梢栽趀xamples/server下看看README?；蛘咧苯臃礁夸浵麓蜷_README.md. 找到如下點擊：

? llama.cpp模型推理之界面篇,學(xué)習(xí),llama

二、llama.cpp 之 server 學(xué)習(xí)

1. 介紹

?llama.cpp 的 server 服務(wù)是基于 httplib 搭建的一個簡單的HTTP API服務(wù)和與llama.cpp交互的簡單web前端。

server命令參數(shù)：

--threads N,?-t N: 設(shè)置生成時要使用的線程數(shù).
-tb N, --threads-batch N: 設(shè)置批處理和提示處理期間使用的線程數(shù)。如果未指定，則線程數(shù)將設(shè)置為用于生成的線程數(shù)
-m FNAME,?--model FNAME: 指定 LLaMA 模型文件的路徑（例如，models/7B/ggml-model.gguf）.
-a ALIAS,?--alias ALIAS: 設(shè)置模型的別名。別名將在 API 響應(yīng)中返回.
-c N,?--ctx-size N: 設(shè)置提示上下文的大小。默認(rèn)值為 512，但 LLaMA 模型是在 2048 的上下文中構(gòu)建的，這將為更長的輸入/推理提供更好的結(jié)果。其他模型的大小可能有所不同，例如，百川模型是在上下文為 4096 的情況下構(gòu)建的.
-ngl N,?--n-gpu-layers N: 當(dāng)使用適當(dāng)?shù)闹С郑壳盀?CLBlast 或 cuBLAS）進(jìn)行編譯時，此選項允許將某些層卸載到 GPU 進(jìn)行計算。通常會導(dǎo)致性能提高.
-mg i, --main-gpu i: 使用多個 GPU 時，此選項控制哪個 GPU 用于小張量，對于這些張量，在所有 GPU 之間拆分計算的開銷是不值得的。有問題的 GPU 將使用稍多的 VRAM 來存儲暫存緩沖區(qū)以獲得臨時結(jié)果。默認(rèn)情況下，使用 GPU 0。需要 cuBLAS.
-ts SPLIT, --tensor-split SPLIT: 使用多個 GPU 時，此選項控制應(yīng)在所有 GPU 之間拆分多大的張量。SPLIT 是一個以逗號分隔的非負(fù)值列表，用于分配每個 GPU 應(yīng)按順序獲取的數(shù)據(jù)比例。例如，“3,2”會將 60% 的數(shù)據(jù)分配給 GPU 0，將 40% 分配給 GPU 1。默認(rèn)情況下，數(shù)據(jù)按 VRAM 比例拆分，但這可能不是性能的最佳選擇。需要 cuBLAS.
-b N,?--batch-size N: 設(shè)置用于提示處理的批大小。默認(rèn)值：512.
--memory-f32: 使用 32 位浮點數(shù)而不是 16 位浮點數(shù)來表示內(nèi)存鍵 + 值。不推薦.
--mlock: 將模型鎖定在內(nèi)存中，防止在內(nèi)存映射時將其換出.
--no-mmap: 不要對模型進(jìn)行內(nèi)存映射。默認(rèn)情況下，模型映射到內(nèi)存中，這允許系統(tǒng)根據(jù)需要僅加載模型的必要部分.
--numa: 嘗試對某些 NUMA 系統(tǒng)有幫助的優(yōu)化.
--lora FNAME: 將 LoRA（低秩適配）適配器應(yīng)用于模型（隱含 --no-mmap）。這允許您使預(yù)訓(xùn)練模型適應(yīng)特定任務(wù)或領(lǐng)域.
--lora-base FNAME: 可選模型，用作 LoRA 適配器修改的層的基礎(chǔ)。此標(biāo)志與 --lora 標(biāo)志結(jié)合使用，并指定適配的基本模型.
-to N,?--timeout N: 服務(wù)器讀/寫超時（以秒為單位）。默認(rèn)值：600.
--host: 設(shè)置要偵聽的主機(jī)名或 IP 地址. 默認(rèn)?127.0.0.1.
--port: 將端口設(shè)置為偵聽。默認(rèn)值：8080
--path: 從中提供靜態(tài)文件的路徑?(default examples/server/public)
--embedding: 啟用嵌入提取，默認(rèn)值：禁用.
-np N,?--parallel N: 設(shè)置進(jìn)程請求的槽數(shù)（默認(rèn)值：1）
-cb,?--cont-batching: 啟用連續(xù)批處理（又名動態(tài)批處理）（默認(rèn)：禁用）
-spf FNAME,?--system-prompt-file FNAME?:將文件設(shè)置為加載“系統(tǒng)提示符（所有插槽的初始提示符）”，這對于聊天應(yīng)用程序很有用.?
--mmproj MMPROJ_FILE: LLaVA 的多模態(tài)投影儀文件的路徑.

2. 編譯部署

? ? 編譯部署請參考《基于llama.cpp學(xué)習(xí)開源LLM本地部署》。會在跟目錄下生成 ./server

3. 啟動服務(wù)

./server -m ../models/NousResearch/Llama-2-7b-chat-hf/ggml-model-q4_0.gguf -c 2048

服務(wù)啟動成功后，如下：

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

點擊或者在瀏覽器中輸入：http://127.0.0.1:8080

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

?可以看到：交互模式，提示詞、用戶名、提示詞模板還有模型參數(shù)等設(shè)置。打開“更多選型”，如下：

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

這些參數(shù)默認(rèn)就行，也可以根據(jù)實際情況調(diào)整。

在最下面輸入一些內(nèi)容，點擊“send”，就能與模型進(jìn)行聊天了。

llama.cpp模型推理之界面篇,學(xué)習(xí),llama

從學(xué)習(xí)的角度來看，是不是很方面。不用敲命令，也不用單獨搭建前端。直接就能體驗大模型，也能學(xué)習(xí)里面機(jī)制與原理。

4、擴(kuò)展或構(gòu)建其他的?Web 前端

web靜態(tài)文件的默認(rèn)位置是“examples/server/public”。您可以通過運(yùn)行./server并將“--path”設(shè)置為“./your-directory”并導(dǎo)入“/completion.js”來訪問 llamaComplete（）方法來擴(kuò)展前端。

A simple example is below:

<html>
  <body>
    <pre>
      <script type="module">
        import { llama } from '/completion.js'

        const prompt = `### Instruction:
Write dad jokes, each one paragraph.
You can use html formatting if needed.

### Response:`

        for await (const chunk of llama(prompt)) {
          document.write(chunk.data.content)
        }
      </script>
    </pre>
  </body>
</html>

5、其他

更多功能和參數(shù)，詳見llama.cpp/examples/server/README.md。文章來源地址http://www.zghlxwxcb.cn/news/detail-805910.html

到了這里，關(guān)于llama.cpp模型推理之界面篇的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

llama.cpp LLM模型 windows cpu安裝部署；運(yùn)行LLaMA2模型測試
參考： https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考：https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載： 2、編譯 3、測試運(yùn)行參考： https://zhuanlan.zhihu.com/p/638427280 模型下載： https://huggingface.co/nya
2024年02月16日
瀏覽(29)
用 llama.cpp 跑通 mixtral MoE 模型
這里是用 llama.cpp 跑通 mixtral MoE 模型視頻的筆記哦。安裝 huggingface_hub: pip install huggingface_hub -U 下載模型 huggingface-cli download TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf —local_dir $PWD —local_dir_use_symlinks=False 編譯 llama.cpp LLAMA_CUBLAS=1 make -j10 運(yùn)行 ./main -m ~/auto
2024年02月03日
瀏覽(19)
Llama2通過llama.cpp模型量化 Windows&Linux本地部署
LLaMA ，它是一組基礎(chǔ)語言模型，參數(shù)范圍從7B到65B。在數(shù)萬億的tokens上訓(xùn)練的模型，并表明可以專門使用公開可用的數(shù)據(jù)集來訓(xùn)練最先進(jìn)的模型，而無需求助于專有和不可訪問的數(shù)據(jù)集。特別是， LLaMA-13B在大多數(shù)基準(zhǔn)測試中都優(yōu)于GPT-3（175B），并且LLaMA65B與最好的型號Chinch
2024年02月05日
瀏覽(17)
大模型部署手記（8）LLaMa2+Windows+llama.cpp+英文文本補(bǔ)齊
組織機(jī)構(gòu)：Meta（Facebook）代碼倉：https://github.com/facebookresearch/llama 模型：llama-2-7b 下載：使用download.sh下載硬件環(huán)境：暗影精靈7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 內(nèi)存 32G GPU顯卡：Nvidia GTX 3080 Laptop （16G）下載llama.cpp的代碼倉： git clone https://github.com/ggergan
2024年02月03日
瀏覽(50)
llama.cpp LLM模型 windows cpu安裝部署
參考： https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考：https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載： 2、編譯 3、測試運(yùn)行參考： https://zhuanlan.zhihu.com/p/638427280 模型下載： https://huggingface.co/nya
2024年02月11日
瀏覽(22)
使用llama.cpp在本地搭建vicuna 13B語言模型
有人做了windows下的腳本放到github上了，直接運(yùn)行就可以了。我在本機(jī)試了一下13B的模型能運(yùn)行，但生成速度非常慢，回復(fù)一個問題基本上要花5分鐘以上的時間。我的機(jī)器配置 3900X?32G內(nèi)存。 https://github.com/mps256/vicuna.ps1
2024年02月11日
瀏覽(23)
Llama 3大模型發(fā)布！快速體驗推理及微調(diào)
????????Meta，一家全球知名的科技和社交媒體巨頭，在其官方網(wǎng)站上正式宣布了一款開源的大型預(yù)訓(xùn)練語言模型——Llama-3。 ????據(jù)了解，Llama-3模型提供了兩種不同參數(shù)規(guī)模的版本，分別是80億參數(shù)和700億參數(shù)。這兩種版本分別針對基礎(chǔ)的預(yù)訓(xùn)練任務(wù)以及指令微調(diào)任務(wù)進(jìn)
2024年04月26日
瀏覽(27)
開源大模型框架llama.cpp使用C++ api開發(fā)入門
llama.cpp是一個C++編寫的輕量級開源類AIGC大模型框架，可以支持在消費(fèi)級普通設(shè)備上本地部署運(yùn)行大模型，以及作為依賴庫集成的到應(yīng)用程序中提供類GPT的功能。以下基于llama.cpp的源碼利用C++ api來開發(fā)實例demo演示加載本地模型文件并提供GPT文本生成。 CMakeLists.txt main.cpp 注：
2024年02月03日
瀏覽(26)
大模型在cpu上使用llama_cpp部署無法加載模型的問題
錯誤：gguf_init_from_file: invalid magic characters \\\'tjgg\\\'等，也就是無法加載模型因為最新版的llama-cpp-python不支持ggml文件格式了解決方案： 1、降低版本（最簡單）： pip install llama-cpp-python==0.1.78 2、直接下載對應(yīng)GGUF的模型 3、利用llama.cpp內(nèi)部轉(zhuǎn)換函數(shù)進(jìn)行轉(zhuǎn)換參考出處：TheBloke/Llam
2024年01月20日
瀏覽(26)
最新開源！更擅長推理的LLaMA大模型，支持中文
?PaperWeekly 原創(chuàng) ·?作者 |? 李忠利研究方向 |? 自然語言處理跟大家介紹一下自己最近訓(xùn)練的 LLaMA 模型——BiLLa: A?Bilingual?LLaMA with Enhanced Reasoning Ability. Github 地址：? https://github.com/Neutralzz/BiLLa? HuggingFace 模型： ? https://huggingface.co/Neutralzz/BiLLa-7B-LLM（語言模型 BiLLa-7B-LLM）?
2024年02月09日
瀏覽(26)

<optgroup id="x2nw2"></optgroup>

<tfoot id="x2nw2"></tfoot>