国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【大模型】大模型 CPU 推理之 llama.cpp

這篇具有很好參考價值的文章主要介紹了【大模型】大模型 CPU 推理之 llama.cpp。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

llama.cpp

  • 描述

    The main goal of llama.cpp is to enable LLM inference with minimal setup and state-of-the-art performance on a wide variety of hardware - locally and in the cloud.

    • Plain C/C++ implementation without any dependencies
    • Apple silicon is a first-class citizen - optimized via ARM NEON, Accelerate and Metal frameworks
    • AVX, AVX2 and AVX512 support for x86 architectures
    • 1.5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, and 8-bit integer quantization for faster inference and reduced memory use
    • Custom CUDA kernels for running LLMs on NVIDIA GPUs (support for AMD GPUs via HIP)
    • Vulkan, SYCL, and (partial) OpenCL backend support
    • CPU+GPU hybrid inference to partially accelerate models larger than the total VRAM capacity
  • 官網(wǎng)
    https://github.com/ggerganov/llama.cpp

  • Supported platforms:

     Mac OS
     Linux
     Windows (via CMake)
     Docker
     FreeBSD
    
  • Supported models:

    • Typically finetunes of the base models below are supported as well.

    LLaMA ??
    LLaMA 2 ????
    Mistral 7B
    Mixtral MoE
    Falcon
    Chinese LLaMA / Alpaca and Chinese LLaMA-2 / Alpaca-2
    Vigogne (French)
    Koala
    Baichuan 1 & 2 + derivations
    Aquila 1 & 2
    Starcoder models
    Refact
    Persimmon 8B
    MPT
    Bloom
    Yi models
    StableLM models
    Deepseek models
    Qwen models
    PLaMo-13B
    Phi models
    GPT-2
    Orion 14B
    InternLM2
    CodeShell
    Gemma
    Mamba
    Xverse
    Command-R

    • Multimodal models:

    LLaVA 1.5 models, LLaVA 1.6 models
    BakLLaVA
    Obsidian
    ShareGPT4V
    MobileVLM 1.7B/3B models
    Yi-VL

安裝llama.cpp

  • 下載代碼
    git clone https://github.com/ggerganov/llama.cpp
    
    
  • Build
    On Linux or MacOS:
    cd llama.cpp
    
    make
    
    其他編譯方法參考官網(wǎng)https://github.com/ggerganov/llama.cpp

Memory/Disk Requirements

【大模型】大模型 CPU 推理之 llama.cpp,大語言模型,人工智能,大模型,人工智能,llama.cpp

Quantization

【大模型】大模型 CPU 推理之 llama.cpp,大語言模型,人工智能,大模型,人工智能,llama.cpp

測試推理

下載模型

快速下載模型,參考: 無需 VPN 即可急速下載 huggingface 上的 LLM 模型
我這里下 qwen/Qwen1.5-1.8B-Chat-GGUF 進行測試

huggingface-cli download --resume-download  qwen/Qwen1.5-1.8B-Chat-GGUF  --local-dir  qwen/Qwen1.5-1.8B-Chat-GGUF

測試

cd ./llama.cpp

./main -m /your/path/qwen/Qwen1.5-1.8B-Chat-GGUF/qwen1_5-1_8b-chat-q4_k_m.gguf -n 512 --color -i -cml -f ./prompts/chat-with-qwen.txt

需要修改提示語,可以編輯 ./prompts/chat-with-qwen.txt 進行修改。

加載模型輸出信息:

llama.cpp# ./main -m /mnt/data/llm/Qwen1.5-1.8B-Chat-GGUF/qwen1_5-1_8b-chat-q4_k_m.gguf -n 512 --color -i -cml -f ./prompts/chat-with-qwen
.txt
Log start
main: build = 2527 (ad3a0505)
main: built with cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0 for x86_64-linux-gnu
main: seed  = 1711760850
llama_model_loader: loaded meta data with 21 key-value pairs and 291 tensors from /mnt/data/llm/Qwen1.5-1.8B-Chat-GGUF/qwen1_5-1_8b-chat-q4_k_m.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = qwen2
llama_model_loader: - kv   1:                               general.name str              = Qwen1.5-1.8B-Chat-AWQ-fp16
llama_model_loader: - kv   2:                          qwen2.block_count u32              = 24
llama_model_loader: - kv   3:                       qwen2.context_length u32              = 32768
llama_model_loader: - kv   4:                     qwen2.embedding_length u32              = 2048
llama_model_loader: - kv   5:                  qwen2.feed_forward_length u32              = 5504
llama_model_loader: - kv   6:                 qwen2.attention.head_count u32              = 16
llama_model_loader: - kv   7:              qwen2.attention.head_count_kv u32              = 16
llama_model_loader: - kv   8:     qwen2.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv   9:                       qwen2.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  10:                qwen2.use_parallel_residual bool             = true
llama_model_loader: - kv  11:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  12:                      tokenizer.ggml.tokens arr[str,151936]  = ["!", "\"", "#", "$", "%", "&", "'", ...
llama_model_loader: - kv  13:                  tokenizer.ggml.token_type arr[i32,151936]  = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  14:                      tokenizer.ggml.merges arr[str,151387]  = ["? ?", "?? ??", "i n", "? t",...
llama_model_loader: - kv  15:                tokenizer.ggml.eos_token_id u32              = 151645
llama_model_loader: - kv  16:            tokenizer.ggml.padding_token_id u32              = 151643
llama_model_loader: - kv  17:                tokenizer.ggml.bos_token_id u32              = 151643
llama_model_loader: - kv  18:                    tokenizer.chat_template str              = {% for message in messages %}{{'<|im_...
llama_model_loader: - kv  19:               general.quantization_version u32              = 2
llama_model_loader: - kv  20:                          general.file_type u32              = 15
llama_model_loader: - type  f32:  121 tensors
llama_model_loader: - type q5_0:   12 tensors
llama_model_loader: - type q8_0:   12 tensors
llama_model_loader: - type q4_K:  133 tensors
llama_model_loader: - type q6_K:   13 tensors
llm_load_vocab: special tokens definition check successful ( 293/151936 ).
llm_load_print_meta: format           = GGUF V3 (latest)
llm_load_print_meta: arch             = qwen2
llm_load_print_meta: vocab type       = BPE
llm_load_print_meta: n_vocab          = 151936
llm_load_print_meta: n_merges         = 151387
llm_load_print_meta: n_ctx_train      = 32768
llm_load_print_meta: n_embd           = 2048
llm_load_print_meta: n_head           = 16
llm_load_print_meta: n_head_kv        = 16
llm_load_print_meta: n_layer          = 24
llm_load_print_meta: n_rot            = 128
llm_load_print_meta: n_embd_head_k    = 128
llm_load_print_meta: n_embd_head_v    = 128
llm_load_print_meta: n_gqa            = 1
llm_load_print_meta: n_embd_k_gqa     = 2048
llm_load_print_meta: n_embd_v_gqa     = 2048
llm_load_print_meta: f_norm_eps       = 0.0e+00
llm_load_print_meta: f_norm_rms_eps   = 1.0e-06
llm_load_print_meta: f_clamp_kqv      = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: f_logit_scale    = 0.0e+00
llm_load_print_meta: n_ff             = 5504
llm_load_print_meta: n_expert         = 0
llm_load_print_meta: n_expert_used    = 0
llm_load_print_meta: causal attn      = 1
llm_load_print_meta: pooling type     = 0
llm_load_print_meta: rope type        = 2
llm_load_print_meta: rope scaling     = linear
llm_load_print_meta: freq_base_train  = 1000000.0
llm_load_print_meta: freq_scale_train = 1
llm_load_print_meta: n_yarn_orig_ctx  = 32768
llm_load_print_meta: rope_finetuned   = unknown
llm_load_print_meta: ssm_d_conv       = 0
llm_load_print_meta: ssm_d_inner      = 0
llm_load_print_meta: ssm_d_state      = 0
llm_load_print_meta: ssm_dt_rank      = 0
llm_load_print_meta: model type       = 1B
llm_load_print_meta: model ftype      = Q4_K - Medium
llm_load_print_meta: model params     = 1.84 B
llm_load_print_meta: model size       = 1.13 GiB (5.28 BPW)
llm_load_print_meta: general.name     = Qwen1.5-1.8B-Chat-AWQ-fp16
llm_load_print_meta: BOS token        = 151643 '<|endoftext|>'
llm_load_print_meta: EOS token        = 151645 '<|im_end|>'
llm_load_print_meta: PAD token        = 151643 '<|endoftext|>'
llm_load_print_meta: LF token         = 148848 '??'
llm_load_tensors: ggml ctx size =    0.11 MiB
llm_load_tensors:        CPU buffer size =  1155.67 MiB
...................................................................
llama_new_context_with_model: n_ctx      = 512
llama_new_context_with_model: n_batch    = 512
llama_new_context_with_model: n_ubatch   = 512
llama_new_context_with_model: freq_base  = 1000000.0
llama_new_context_with_model: freq_scale = 1
llama_kv_cache_init:        CPU KV buffer size =    96.00 MiB
llama_new_context_with_model: KV self size  =   96.00 MiB, K (f16):   48.00 MiB, V (f16):   48.00 MiB
llama_new_context_with_model:        CPU  output buffer size =   296.75 MiB
llama_new_context_with_model:        CPU compute buffer size =   300.75 MiB
llama_new_context_with_model: graph nodes  = 868
llama_new_context_with_model: graph splits = 1

system_info: n_threads = 4 / 4 | AVX = 1 | AVX_VNNI = 1 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 |
main: interactive mode on.
Reverse prompt: '<|im_start|>user
'
sampling:
        repeat_last_n = 64, repeat_penalty = 1.000, frequency_penalty = 0.000, presence_penalty = 0.000
        top_k = 40, tfs_z = 1.000, top_p = 0.950, min_p = 0.050, typical_p = 1.000, temp = 0.800
        mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
sampling order:
CFG -> Penalties -> top_k -> tfs_z -> typical_p -> top_p -> min_p -> temperature
generate: n_ctx = 512, n_batch = 2048, n_predict = 512, n_keep = 10


== Running in interactive mode. ==
 - Press Ctrl+C to interject at any time.
 - Press Return to return control to LLaMa.
 - To return control without starting a new line, end your input with '/'.
 - If you want to submit another line, end your input with '\'.

system
You are a helpful assistant.
user

>

輸入文本:What’s AI?

輸出示例:
【大模型】大模型 CPU 推理之 llama.cpp,大語言模型,人工智能,大模型,人工智能,llama.cpp文章來源地址http://www.zghlxwxcb.cn/news/detail-851352.html

參考

  • https://github.com/ggerganov/llama.cpp

到了這里,關(guān)于【大模型】大模型 CPU 推理之 llama.cpp的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 解密 LLAMA2 代碼:揭開語言人工智能驚奇的秘密

    簡介 在不斷發(fā)展的 AI 和自然語言處理領(lǐng)域,深度學(xué)習(xí)模型的突破推動著機器理解和生成人類語言的能力。在這些杰出的模型中,LLAMA2 Transformer 脫穎而出,成為真正的游戲規(guī)則改變者,將語言理解和生成的可能性推向新的高度。 LLAMA2 基于 Transformer 架構(gòu),融入了先進技術(shù)和架

    2024年02月21日
    瀏覽(781)
  • 【人工智能】— 貝葉斯網(wǎng)絡(luò)、概率圖模型、全局語義、因果鏈、樸素貝葉斯模型、枚舉推理、變量消元

    【人工智能】— 貝葉斯網(wǎng)絡(luò)、概率圖模型、全局語義、因果鏈、樸素貝葉斯模型、枚舉推理、變量消元

    頻率學(xué)派: 概率是事件發(fā)生的長期預(yù)期頻率。 P(A) = n/N,其中n是事件A在N次機會中發(fā)生的次數(shù)。 \\\"某事發(fā)生的概率是0.1\\\"意味著0.1是在無窮多樣本的極限條件下能夠被觀察到的比例。 在許多情況下,不可能進行重復(fù)實驗。 例如問題:第三次世界大戰(zhàn)發(fā)生的概率是多少? 概率是信

    2024年02月05日
    瀏覽(23)
  • 人工智能_普通服務(wù)器CPU_安裝清華開源人工智能AI大模型ChatGlm-6B_001---人工智能工作筆記0096

    人工智能_普通服務(wù)器CPU_安裝清華開源人工智能AI大模型ChatGlm-6B_001---人工智能工作筆記0096

    使用centos安裝,注意安裝之前,保證系統(tǒng)可以聯(lián)網(wǎng),然后執(zhí)行yum update 先去更新一下系統(tǒng),可以省掉很多麻煩 20240219_150031 這里我們使用centos系統(tǒng)吧,使用習(xí)慣了. ChatGlm首先需要一臺個人計算機,或者服務(wù)器, 要的算力,訓(xùn)練最多,微調(diào)次之,推理需要算力最少 其實很多都支持CPU,但為什么

    2024年02月20日
    瀏覽(24)
  • 人工智能 | Llama大模型:與AI伙伴合二為一,共創(chuàng)趣味交流體驗

    人工智能 | Llama大模型:與AI伙伴合二為一,共創(chuàng)趣味交流體驗

    Llama 大模型介紹 我們介紹 LLaMA,這是一個基礎(chǔ)語言模型的集合,參數(shù)范圍從 7B 到 65B。我們在數(shù)萬億個Token上訓(xùn)練我們的模型,并表明可以專門使用公開可用的數(shù)據(jù)集來訓(xùn)練最先進的模型,而無需訴諸專有的和無法訪問的數(shù)據(jù)集。特別是,LLaMA-13B 在大多數(shù)基準(zhǔn)測試中都優(yōu)于

    2024年02月03日
    瀏覽(27)
  • llama.cpp LLM模型 windows cpu安裝部署;運行LLaMA-7B模型測試

    llama.cpp LLM模型 windows cpu安裝部署;運行LLaMA-7B模型測試

    參考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載: 2、編譯 3、測試運行 參考: https://zhuanlan.zhihu.com/p/638427280 模型下載: https://huggingface.co/nya

    2024年02月15日
    瀏覽(17)
  • llama.cpp LLM模型 windows cpu安裝部署;運行LLaMA2模型測試

    llama.cpp LLM模型 windows cpu安裝部署;運行LLaMA2模型測試

    參考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載: 2、編譯 3、測試運行 參考: https://zhuanlan.zhihu.com/p/638427280 模型下載: https://huggingface.co/nya

    2024年02月16日
    瀏覽(29)
  • 人工智能_PIP3安裝使用國內(nèi)鏡像源_安裝GIT_普通服務(wù)器CPU_安裝清華開源人工智能AI大模型ChatGlm-6B_002---人工智能工作筆記0097

    人工智能_PIP3安裝使用國內(nèi)鏡像源_安裝GIT_普通服務(wù)器CPU_安裝清華開源人工智能AI大模型ChatGlm-6B_002---人工智能工作筆記0097

    接著上一節(jié)來看,可以看到,這里 創(chuàng)建軟連接以后 可以看到執(zhí)行python3 -V 就可以看到已經(jīng)安裝成功 python3 然后再去安裝pip3 ?首先去下載軟件,到/data/soft ,可以用wget命令也可以自己用瀏覽器下載 然后再去安裝 python3 get-pip.py 可以看到報錯了

    2024年02月21日
    瀏覽(34)
  • llama.cpp LLM模型 windows cpu安裝部署

    llama.cpp LLM模型 windows cpu安裝部署

    參考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安裝參考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下載: 2、編譯 3、測試運行 參考: https://zhuanlan.zhihu.com/p/638427280 模型下載: https://huggingface.co/nya

    2024年02月11日
    瀏覽(22)
  • LLM大模型推理加速實戰(zhàn):vllm、fastllm與llama.cpp使用指南

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM)在諸如自然語言處理、智能問答、文本生成等領(lǐng)域的應(yīng)用越來越廣泛。然而,LLM模型往往具有龐大的參數(shù)規(guī)模,導(dǎo)致推理過程計算量大、耗時長,成為了制約其實際應(yīng)用的關(guān)鍵因素。為了解決這個問題,一系列大模型推理加

    2024年04月13日
    瀏覽(28)
  • 上海人工智能實驗室發(fā)布LLaMA-Adapter | 如何1小時訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

    上海人工智能實驗室發(fā)布LLaMA-Adapter | 如何1小時訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

    本文首發(fā)于微信公眾號 CVHub,未經(jīng)授權(quán)不得以任何形式售賣或私自轉(zhuǎn)載到其它平臺,違者必究! Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Code: https://github.com/zrrskywalker/llama-adapter PDF: https://arxiv.org/pdf/2303.16199.pdf Instruction-Following 指令跟隨方法:是指通過

    2024年02月09日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包