国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Mac上LLAMA2大語言模型安裝到使用

這篇具有很好參考價(jià)值的文章主要介紹了Mac上LLAMA2大語言模型安裝到使用。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

LLAMA介紹

LLaMA是由Facebook的母公司Meta AI設(shè)計(jì)的一個(gè)新的大型語言模型。LLaMA擁有70億到650億個(gè)參數(shù)的模型集合,是目前最全面的語言模型之一。

Llama是目前唯一一個(gè)可以進(jìn)行本地部署和本地訓(xùn)練的大型模型,對(duì)各種提問有非常好的處理能力。非常適合個(gè)人和中小型企業(yè),構(gòu)建自己的大數(shù)據(jù)模型。

很多人都說是ChatGPT的平替。通過微調(diào)來滿足特定小眾行業(yè)的使用,將會(huì)在未來有非常大的潛力。

Mac上由于沒有Nvidia顯卡的加持,無法配置CUDA進(jìn)行深度學(xué)習(xí)。好在有大神制作了C++的庫,能實(shí)現(xiàn)小成本在低配Mac上跑模型的能力。

Mac上LLAMA2大語言模型安裝到使用

llama.cpp

是一個(gè)推理框架,在沒有GPU跑LLAMA時(shí),利用Mac M1/M2的GPU進(jìn)行推理和量化計(jì)算。

Mac跑LLAMA唯一的路。同樣也可以在Windows下面跑起來。

它是ggml這個(gè)機(jī)器學(xué)習(xí)庫的衍生項(xiàng)目,專門用于Llama系列模型的推理。llama.cpp和ggml均為純C/C++實(shí)現(xiàn),針對(duì)Apple Silicon芯片進(jìn)行優(yōu)化和硬件加速,支持模型的整型量化 (Integer Quantization): 4-bit, 5-bit, 8-bit等。社區(qū)同時(shí)開發(fā)了其他語言的bindings,例如llama-cpp-python,由此提供其他語言下的API調(diào)用。

https://github.com/ggerganov/llama.cpp

安裝llama.cpp

本地快速部署體驗(yàn)推薦使用經(jīng)過指令精調(diào)的Alpaca-2模型,有條件的推薦使用6-bit或者8-bit模型,效果更佳。 下面以中文Alpaca-2-7B模型為例介紹,運(yùn)行前請(qǐng)確保:
1、系統(tǒng)應(yīng)有make(MacOS/Linux自帶)或cmake(Windows需自行安裝)編譯工具
2、建議使用Python 3.10以上編譯和運(yùn)行該工具
3、必裝的mac依賴
xcode-select --install # Mac的Xcode開發(fā)者工具,基本是必裝的,很多地方都需要用到。
brew install pkgconfig cmake # c和c++的編譯工具。

1、源碼編譯

git clone https://github.com/ggerganov/llama.cpp

2、編譯
對(duì)llama.cpp項(xiàng)目進(jìn)行編譯,生成./main(用于推理)和./quantize(用于量化)二進(jìn)制文件。

make

Windows/Linux用戶如需啟用GPU推理,則推薦與BLAS(或cuBLAS如果有GPU)一起編譯,可以提高prompt處理速度。以下是和cuBLAS一起編譯的命令,適用于NVIDIA相關(guān)GPU。

make LLAMA_CUBLAS=1

macOS用戶無需額外操作,llama.cpp已對(duì)ARM NEON做優(yōu)化,并且已自動(dòng)啟用BLAS。M系列芯片推薦使用Metal啟用GPU推理,顯著提升速度。只需將編譯命令改為:LLAMA_METAL=1 make,

LLAMA_METAL=1 make

3、檢查
編譯成功會(huì)在目錄下產(chǎn)生main等可執(zhí)行的命令,下面轉(zhuǎn)換量化模型文件時(shí),會(huì)用到的命令就準(zhǔn)備好了。

手動(dòng)轉(zhuǎn)換模型文件為GGUF格式

如果下載的是生成好的gguf模型就不需要手動(dòng)轉(zhuǎn)換了。為啥要這個(gè)格式。這個(gè)格式的LLAMA.cpp才認(rèn)。其它格式的數(shù)據(jù)不認(rèn)。

1、下載 Llama 2 模型
首先,從 Hugging Face https://huggingface.co/meta-llama 上下載你想要使用的 Llama 2 模型,比如 7B-Chat,我的Mac是8G內(nèi)存,M2芯片,估計(jì)也只能跑到這個(gè)模型,再大的機(jī)器跑不動(dòng)。
值得一提的是:https://huggingface.co/meta-llama/Llama-2-7b-chat 下載時(shí),第一次需要授權(quán),需要到meta官網(wǎng),下面這個(gè)鏈接
https://llama.meta.com/llama-downloads

去提交一下郵件。這里選國家時(shí)會(huì)有意想不到的結(jié)果,自己思考一下。

如果要體驗(yàn)英文原版,就用上面的,會(huì)比較麻煩,但是對(duì)英文的回復(fù)比較好。
參考教程 https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/manual_conversion_zh

如果要使用中文語料庫,需要先合并為原始模型和中文的模型,再生成bin,再去轉(zhuǎn)換為gguf格式。喜歡折騰的可以試試。

如果要使用我這個(gè)中文混合模型,可以直接下載gguf格式。下面這幾步都不用了。省事多了。

下載地址:https://huggingface.co/hfl/chinese-llama-2-7b-gguf/tree/main
記得選ggml-model-q4_0.gguf這個(gè)模型。

2、下載 llama.cpp 庫,并按上面的流程進(jìn)行編譯安裝成功

3、轉(zhuǎn)換模型格式
然后,你需要把模型的文件轉(zhuǎn)換成 GGUF 格式,使用 llama.cpp 庫中的 convert.py 腳本來完成。轉(zhuǎn)換時(shí)需要指定模型的路徑和上下文長度(模型可以處理的最大的文本長度),不同的模型可能有不同的上下文長度。

如果模型是 LLaMA v1,則使用 --ctx 2048,如果你的模型是 LLaMA v2,則使用 --ctx 4096。這里使用 --ctx 4096。如下所示:

# 轉(zhuǎn)換模型文件
python3 convert.py models/7B-Chat --ctx 4096

如果安裝過程缺python包直接pip install 安裝即可。

4、量化模型文件

使用 llama.cpp 庫中的 quantize 程序來進(jìn)行模型量化,使用 quantize 命令:

# 運(yùn)行 quantize 程序,指定輸入和輸出的模型文件和量化方式
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0

這樣,在 7B-Chat 文件夾中就生成一個(gè) 4 位整數(shù)的 GGUF 模型文件。

5、運(yùn)行模型

./main -m ./models/7B/ggml-model-q4_0.bin \
        -t 8 \
        -n 128 \
        -p 'The first president of the USA was '

# run the inference 推理
./main -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin -n 128
#以交互式對(duì)話
./main -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin --color -f prompts/alpaca.txt -ins -c 2048 --temp 0.2 -n 256 --repeat_penalty 1.3
#chat with bob
./main -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt

此步驟過于煩鎖,主要是模型文件占了幾十GB。所以我直接下載別人的中文模型進(jìn)行使用。不需要再手動(dòng)進(jìn)行轉(zhuǎn)換、量化等操作。

以WebServer形式啟動(dòng)

調(diào)用手冊(cè):https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md

用WebServer形式??梢詫?duì)接到別的系統(tǒng)里面,像FastGPT或者一些界面上,就可以無縫使用了。

1、啟動(dòng)server 參數(shù)請(qǐng)./server -h 查看,或者參考手冊(cè)

./server --host 0.0.0.0 -m /Users/kyle/MyCodeEnv/models/ggml-model-q4_0.gguf -c 4096 --n-gpu-layers 1

默認(rèn)會(huì)開到8080端口上,配置可改。不加gpu-layers走CPU,會(huì)報(bào)錯(cuò)。設(shè)個(gè)1就行

2、用CURL進(jìn)行測(cè)試

curl --request POST \
    --url http://127.0.0.1:8080/completion \
    --header "Content-Type: application/json" \
    --data '{"prompt": "給我講個(gè)冷笑話:","n_predict": 128}'

3、效果如圖
Mac上LLAMA2大語言模型安裝到使用

Mac上LLAMA2大語言模型安裝到使用
感覺 就是訓(xùn)練的還是量少,有些問題會(huì)胡說。理解不了的問題反應(yīng)會(huì)非常慢。會(huì)花很長的時(shí)間。

Python調(diào)用接口庫

https://github.com/abetlen/llama-cpp-python
https://llama-cpp-python.readthedocs.io/en/latest/install/macos/

1、Mac用戶,pip編譯,最簡
安裝llama-cpp-python (with Metal support)
為了啟用對(duì)于Metal (Apple的GPU加速框架) 的支持,使用以下命令安裝llama-cpp-python:
CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install llama-cpp-python

2、代碼中使用,安裝好之后可以直接用requests調(diào)用。無需第1步的llama-cpp-python依賴包。使用通用的ChatGPT的問答形式回答。
也可以不經(jīng)Server直接調(diào)用模型文件

# -*- coding: utf-8 -*-
import requests

url = 'http://localhost:8080/v1/chat/completions'
headers = {
    'accept': 'application/json',
    'Content-Type': 'application/json'
}
dataEn = {
    'messages': [
        {
            'content': 'You are a helpful assistant.',
            'role': 'system'
        },
        {
            'content': 'What is the capital of France?',
            'role': 'user'
        }
    ]
}
data = {
    'messages': [
        {
            'content': '你是一個(gè)樂于助人的助手',
            'role': 'system'
        },
        {
            'content': '二戰(zhàn)是哪一年爆發(fā)的?',
            'role': 'user'
        }
    ]
}

response = requests.post(url, headers=headers, json=data)
print(response.json())
print(response.json()['choices'][0]['message']['content'])

3、直接調(diào)用模型文件,需要安裝llama-cpp-python包

# -*- coding: utf-8 -*-
from llama_cpp import Llama

# 加截模型
# llm = Llama(model_path='/Users/kyle/MyCodeEnv/models/ggml-model-q4_0.gguf', chat_format="llama-2") # 可以指定聊天格式
llm = Llama(model_path='/Users/kyle/MyCodeEnv/models/ggml-model-q4_0.gguf')

# 提問
response = llm("給我講一下英國建國多少年了", max_tokens=320, echo=True)
# response = llm.create_chat_completion(
#     messages=[
#         {"role": "system", "content": "你是一個(gè)樂于助人的助手"},
#         {
#             "role": "user",
#             "content": "給我講一個(gè)笑話"
#         }
#     ]
# )
# print(response)

# 回答
print(response['choices'][0])

最后貼個(gè)官方的教程

https://llama-cpp-python.readthedocs.io/en/latest/install/macos/

再慢慢研究研究微調(diào)和訓(xùn)練自己的語料吧。

跟上LLM的步伐。不接觸AI就要落后了。
更多精彩內(nèi)容,請(qǐng)關(guān)注我的公眾號(hào):青塬科技。文章來源地址http://www.zghlxwxcb.cn/news/detail-837687.html

到了這里,關(guān)于Mac上LLAMA2大語言模型安裝到使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Windows11下私有化部署大語言模型實(shí)戰(zhàn) langchain+llama2

    Windows11下私有化部署大語言模型實(shí)戰(zhàn) langchain+llama2

    CPU:銳龍5600X 顯卡:GTX3070 內(nèi)存:32G 注:硬件配置僅為博主的配置,不是最低要求配置,也不是推薦配置。該配置下計(jì)算速度約為40tokens/s。實(shí)測(cè)核顯筆記本(i7-1165g7)也能跑,速度3tokens/s。 Windows系統(tǒng)版本:Win11專業(yè)版23H2 Python版本:3.11 Cuda版本:12.3.2 VS版本:VS2022 17.8.3 lan

    2024年02月03日
    瀏覽(1178)
  • 如何讓 Llama2、通義千問開源大語言模型快速跑在函數(shù)計(jì)算上?

    如何讓 Llama2、通義千問開源大語言模型快速跑在函數(shù)計(jì)算上?

    :::info 本文是“在Serverless平臺(tái)上構(gòu)建AIGC應(yīng)用”系列文章的第一篇文章。 ::: 隨著ChatGPT 以及 Stable Diffusion,Midjourney 這些新生代 AIGC 應(yīng)用的興起,圍繞AIGC應(yīng)用的相關(guān)開發(fā)變得越來越廣泛,有呈井噴之勢(shì),從長遠(yuǎn)看這波應(yīng)用的爆發(fā)不僅僅是停留在形式之上,更是在各個(gè)領(lǐng)域產(chǎn)生實(shí)

    2024年02月09日
    瀏覽(84)
  • 兩款頂尖大語言模型Claude2.1和Llama2在Amazon Bedrock正式可用

    兩款頂尖大語言模型Claude2.1和Llama2在Amazon Bedrock正式可用

    在亞馬遜云科技2023 re:Invent美國拉斯維加斯現(xiàn)場(chǎng),亞馬遜云科技數(shù)據(jù)和人工智能副總裁Swami Sivasubramanian宣布了眾多在生成式AI領(lǐng)域的發(fā)布和創(chuàng)新,其中就包括Anthropic Claude 2.1和Meta Llama 2 70B兩款大語言模型已在Amazon Bedrock正式可用。 亞馬遜云科技數(shù)據(jù)和人工智能副總裁Swami Sivas

    2024年02月04日
    瀏覽(98)
  • 使用 Docker 快速上手官方版 LLaMA2 開源大模型

    使用 Docker 快速上手官方版 LLaMA2 開源大模型

    本篇文章,我們聊聊如何使用 Docker 容器快速上手 Meta AI 出品的 LLaMA2 開源大模型。 昨天特別忙,早晨申請(qǐng)完 LLaMA2 模型下載權(quán)限后,直到晚上才顧上折騰了一個(gè) Docker 容器運(yùn)行方案,都沒來得及寫文章來聊聊這個(gè)容器怎么回事,以及怎么使用。 所以,現(xiàn)在就來聊聊如何快速上

    2024年02月16日
    瀏覽(20)
  • 使用 Docker 快速上手中文版 LLaMA2 開源大模型

    使用 Docker 快速上手中文版 LLaMA2 開源大模型

    本篇文章,我們聊聊如何使用 Docker 容器快速上手朋友團(tuán)隊(duì)出品的中文版 LLaMA2 開源大模型,國內(nèi)第一個(gè)真正開源,可以運(yùn)行、下載、私有部署,并且支持商業(yè)使用。 感慨于昨天 Meta LLaMA2 模型開放下載之后,GitHub 上出現(xiàn)了許多“只有 Readme 文檔” 的開源模型項(xiàng)目,并一時(shí)間在

    2024年02月16日
    瀏覽(24)
  • LLMs之LLaMA2:基于text-generation-webui工具來本地部署并對(duì)LLaMA2模型實(shí)現(xiàn)推理執(zhí)行對(duì)話聊天問答任務(wù)(一鍵安裝tg webui+手動(dòng)下載模型+啟動(dòng)WebUI服務(wù))、同時(shí)

    LLMs之LLaMA-2:基于text-generation-webui工具來本地部署并對(duì)LLaMA2模型實(shí)現(xiàn)推理執(zhí)行對(duì)話聊天問答任務(wù)(一鍵安裝tg?webui+手動(dòng)下載模型+啟動(dòng)WebUI服務(wù))、同時(shí)微調(diào)LLaMA2模型(采用Conda環(huán)境安裝tg?webui+PyTorch→CLI/GUI下載模型→啟動(dòng)WebUI服務(wù)→GUI式+LoRA微調(diào)→加載推理)之圖文教程詳細(xì)攻略 目

    2024年02月11日
    瀏覽(15)
  • LLMs之LLaMA2:LLaMA2的簡介(技術(shù)細(xì)節(jié))、安裝、使用方法(開源-免費(fèi)用于研究和商業(yè)用途)之詳細(xì)攻略

    LLMs之LLaMA2:LLaMA2的簡介(技術(shù)細(xì)節(jié))、安裝、使用方法(開源-免費(fèi)用于研究和商業(yè)用途)之詳細(xì)攻略

    LLMs之LLaMA-2:LLaMA-2的簡介(技術(shù)細(xì)節(jié))、安裝、使用方法(開源-免費(fèi)用于研究和商業(yè)用途)之詳細(xì)攻略 導(dǎo)讀 :2023年7月18日,Meta重磅發(fā)布Llama 2!這是一組預(yù)訓(xùn)練和微調(diào)的大型語言模型(LLM),規(guī)模從70億到700億個(gè)參數(shù)不等。Meta微調(diào)的LLM稱為Llama 2-Chat,專為對(duì)話使用場(chǎng)景進(jìn)行了優(yōu)化

    2024年02月16日
    瀏覽(23)
  • 【LangChain學(xué)習(xí)之旅】—(7) 調(diào)用模型:使用OpenAI API還是微調(diào)開源Llama2/ChatGLM?

    【LangChain學(xué)習(xí)之旅】—(7) 調(diào)用模型:使用OpenAI API還是微調(diào)開源Llama2/ChatGLM?

    Reference:LangChain 實(shí)戰(zhàn)課 之前的內(nèi)容講了提示工程的原理以及 LangChain 中的具體使用方式。今天,我們來著重討論 Model I/O 中的第二個(gè)子模塊,LLM。 讓我們帶著下面的問題來開始這一節(jié)課的學(xué)習(xí)。大語言模型,不止 ChatGPT 一種。調(diào)用 OpenAI 的 API,當(dāng)然方便且高效,不過,如果我

    2024年02月01日
    瀏覽(24)
  • 【linux 使用ollama部署運(yùn)行本地大模型完整的教程,openai接口, llama2例子】

    【linux 使用ollama部署運(yùn)行本地大模型完整的教程,openai接口, llama2例子】

    # 安裝相應(yīng)的包 # 開啟ollama服務(wù)端! # 啟動(dòng)llama2大模型(新開一個(gè)終端) # 如果不想啟動(dòng)運(yùn)行,只下載可以 在啟動(dòng)完后,就可以對(duì)話了 # python接口對(duì)話 ? # OpenAI適配接口對(duì)話 # CUR流式接口 # 參考 llama2 (ollama.com) https://ollama.com/library/llama2 OpenAI compatibility · Ollama Blog https://ollama

    2024年03月25日
    瀏覽(50)
  • 基于Llama2模型的開源模型

    基于Llama2模型的開源模型

    ??2023年7月18日Meta開源了Llama2,在2萬億個(gè)Token上訓(xùn)練,可用于商業(yè)和研究,包括從7B到70B模型權(quán)重、預(yù)訓(xùn)練和微調(diào)的代碼。相比Llama1,Llama2有較多提升,評(píng)估結(jié)果如下所示: 基于Llama2模型的開源模型如下所示: 1.WizardCoder Python V1.0 2.Phind Code Llama v1 3.WizardLM 70B V1.0 4.Dophin Llam

    2024年02月10日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包