国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

開源模型應(yīng)用落地-qwen-7b-chat與vllm實(shí)現(xiàn)推理加速的正確姿勢(一)

這篇具有很好參考價(jià)值的文章主要介紹了開源模型應(yīng)用落地-qwen-7b-chat與vllm實(shí)現(xiàn)推理加速的正確姿勢(一)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、前言

? ??基于真實(shí)生產(chǎn)級項(xiàng)目分享,幫助有需要的同學(xué)快速構(gòu)建完整可交付項(xiàng)目

? ? 項(xiàng)目流程包括(去掉業(yè)務(wù)部分):

  1. ? 開源模型測試,包括baichuan、qwen、chatglm、bloom
  2. ? 數(shù)據(jù)爬取及清洗
  3. ? 模型微調(diào)及評估
  4. ? 搭建AI交互能力
  5. ??搭建IM交互能力
  6. ? 搭建違禁詞識別能力
  7. ? 優(yōu)化模型推理速度
  8. ? 增強(qiáng)模型長期記憶能力

二、術(shù)語介紹

? ? 2.1. vLLM

? ? vLLM是一個(gè)開源的大模型推理加速框架,通過PagedAttention高效地管理attention中緩存的張量,實(shí)現(xiàn)了比HuggingFace Transformers高14-24倍的吞吐量。

? ? 2.2. qwen-7b

? ??通義千問-7B(Qwen-7B) 是阿里云研發(fā)的通義千問大模型系列的70億參數(shù)規(guī)模的模型。?

? ? 2.3.Anaconda

? ??Anaconda(官方網(wǎng)站)就是可以便捷獲取包且對包能夠進(jìn)行管理,同時(shí)對環(huán)境可以統(tǒng)一管理的發(fā)行版本。Anaconda包含了conda、Python在內(nèi)的超過180個(gè)科學(xué)包及其依賴項(xiàng)。


三、構(gòu)建環(huán)境

? ? 3.1. 基礎(chǔ)環(huán)境及前置條件

  1. ?操作系統(tǒng):centos7
  2. ?Tesla V100-SXM2-32GB? CUDA Version: 12.2
  3. ?提前下載好qwen-7b-chat模型

? ? ? ? ? 通過以下兩個(gè)地址進(jìn)行下載,優(yōu)先推薦魔搭

? ? ? ? ??https://modelscope.cn/models/qwen/Qwen-7B-Chat/files

?? ? ? ?????????https://huggingface.co/Qwen/Qwen-7B-Chat/tree/main

? ? ? ? ??

? ??3.2.?Anaconda安裝

? ? ? ? 1.? 更新軟件包

? ? ? ? ? ? ? sudo yum upgrade -y

? ? ? ? ?2. 下載Anaconda

? ? ? ? ? ? ?wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh

? ? ? ? ?3.?安裝

? ? ? ? ? ? ?默認(rèn)安裝

? ? ? ? ? ? ?bash Anaconda3-2022.10-Linux-x86_64.sh

? ? ? ? ? ? ?-p 指定安裝目錄為/opt/anaconda3

? ? ? ? ? ? ?bash Anaconda3-2022.10-Linux-x86_64.sh -p /opt/anaconda3

? ? ? ? ? 4. 初始化

? ? ? ? ? ? ?source ~/.bashrc

? ? ? ? ??5. 驗(yàn)證安裝結(jié)果

? ? ? ? ? ? ??conda --version

? ? ? ? ? 6. 配置鏡像源

? ? ? ? ? ? ??conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
? ? ? ? ? ? ? conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
? ? ? ? ? ? ? conda config --set show_channel_urls yes

? ? 3.3.?創(chuàng)建虛擬環(huán)境

? ? ? ? 2.3.1.創(chuàng)建新環(huán)境

? ? ? ? ? ? conda create --name vllm python=3.10

? ? ? ? 2.3.2.切換環(huán)境

? ? ? ? ? ? conda activate vllm

? 3.4.?vLLM安裝

? ? ? ? 2.4.1.安裝軟件包

? ? ? ? ? ? ?pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

? ? ? ? ? ? ?pip install tiktoken -i https://pypi.tuna.tsinghua.edu.cn/simple

? ? ? ? ? ? ?ps: vllm版本為0.2.7,tiktoken版本為0.5.2

? ? ? ? 2.4.2.查看已軟件包? ?

? ? ? ? ? ? conda list 或者 pip list?

? ? ? ? ? ? 注意:上述命令必須先切換至vllm虛擬環(huán)境

四、部署服務(wù)

? ? 4.1.?啟動(dòng)vllm服務(wù)

? ? ? ??python -m vllm.entrypoints.api_server ?--model ?/data/model/qwen-7b-chat ?--swap-space 24 --disable-log-requests --trust-remote-code --max-num-seqs 256 --host 0.0.0.0 --port 9000 ?--dtype float16 --max-parallel-loading-workers 1 ?--enforce-eager

? ? ? ? 常用參數(shù):

? ? ? ? ?--model <model_name_or_path>
? ? ? ? ? ?Name or path of the huggingface model to use.

? ? ? ? ?--trust-remote-code
? ? ? ? ? ?Trust remote code from huggingface

? ? ? ??--dtype {auto,half,float16,bfloat16,float,float32}
? ? ? ? ? Data type for model weights and activations.
? ? ? ? ? ? ?? “auto” will use FP16 precision for FP32 and FP16 models, and BF16 precision for BF16 models.
? ? ? ? ? ? ?? “half” for FP16. Recommended for AWQ quantization.
? ? ? ? ? ? ?? “float16” is the same as “half”.
? ? ? ? ? ? ?? “bfloat16” for a balance between precision and range.
? ? ? ? ? ? ? “float” is shorthand for FP32 precision.
? ? ? ? ? ? ? “float32” for FP32 precision

? ? ? ? ?--swap-space <size>
? ? ? ? ? ? CPU swap space size (GiB) per GPU.

? ? ? ? ?--max-num-seqs <sequences>
? ? ? ? ? ? Maximum number of sequences per iteratio

? ? ? ? ??--quantization (-q) {awq,squeezellm,None}
? ? ? ? ? ? Method used to quantize the weights.


五、測試

? ? 5.1.?流式案例

import threading
import requests
import json

class MyThread(threading.Thread):
    def run(self):
        headers = {"User-Agent": "Stream Test"}
        pload = {
                "prompt": "<|im_start|>system\n你是一位知名作家,名字叫張三,你擅長寫作.<|im_end|>\n<|im_start|>user\n以中秋為主寫一篇1000字的文章<|im_end|>\n<|im_start|>assistant\n",
                "n": 1,
                "temperature": 0.35,
                "max_tokens": 8192,
                "stream": True,
                "stop": ["<|im_end|>", "<|im_start|>",]
            }
        #此處端口9000要與vLLM Server發(fā)布的端口一致
        response = requests.post("http://127.0.0.1:9000/generate", headers=headers, json=pload, stream=True)


        for chunk in response.iter_lines(chunk_size=8192, decode_unicode=False, delimiter=b"\0"):
                if chunk:
                    now_thread = threading.current_thread()
                    data = json.loads(chunk.decode("utf-8"))
                    output = data["text"]
                    print(f'now thread name: {now_thread.name},output: {output}')

if __name__ == '__main__':
    threads = []
    for i in range(1, 10, 1):
        t = MyThread()
        threads.append(t)

    # 啟動(dòng)線程
    for t in threads:
        t.start()

    # 等待所有線程完成
    for t in threads:
        t.join()

五、后續(xù)文章來源地址http://www.zghlxwxcb.cn/news/detail-783530.html

  1. 支持多輪對話
  2. 支持高可用
  3. 兼容復(fù)雜業(yè)務(wù)場景
  4. 性能優(yōu)化

到了這里,關(guān)于開源模型應(yīng)用落地-qwen-7b-chat與vllm實(shí)現(xiàn)推理加速的正確姿勢(一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 開源模型應(yīng)用落地-qwen模型小試-入門篇(三)

    一、前言 ? ? 相信您已經(jīng)學(xué)會(huì)了如何在Windows環(huán)境下以最低成本、無需GPU的情況下運(yùn)行qwen大模型?,F(xiàn)在,讓我們進(jìn)一步探索如何在Linux環(huán)境下,并且擁有GPU的情況下運(yùn)行qwen大模型,以提升性能和效率。 二、術(shù)語 ? ? 2.1. CentOS ? ? ? ? CentOS是一種基于Linux的自由開源操作系統(tǒng)。

    2024年01月21日
    瀏覽(28)
  • 開源模型應(yīng)用落地-qwen2模型小試-入門篇(六)

    ? ? 經(jīng)過前五篇“qwen模型小試”文章的學(xué)習(xí),我們已經(jīng)熟練掌握qwen大模型的使用。然而,就在前幾天開源社區(qū)又發(fā)布了qwen1.5版本,它是qwen2模型的測試版本。在基于transformers的使用方式上有較大的調(diào)整,現(xiàn)在,我們趕緊跟上腳步,去體驗(yàn)一下新版本模型的推理質(zhì)量。 ? ?

    2024年03月17日
    瀏覽(29)
  • 開源模型應(yīng)用落地-qwen模型小試-Zero/One/Few Shot-進(jìn)階篇(九)

    ? ? Zero-Shot、One-Shot和Few-Shot是機(jī)器學(xué)習(xí)領(lǐng)域中重要的概念,特別是在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域。通過Zero-Shot、One-Shot和Few-Shot學(xué)習(xí),模型可以更好地處理未知的情況和新任務(wù),減少對大量標(biāo)注數(shù)據(jù)的依賴,提高模型的適應(yīng)性和靈活性。這對于推動(dòng)人工智能在現(xiàn)實(shí)世界中

    2024年04月10日
    瀏覽(24)
  • 開源語音大語言模型來了!阿里基于Qwen-Chat提出Qwen-Audio!

    開源語音大語言模型來了!阿里基于Qwen-Chat提出Qwen-Audio!

    論文鏈接: https://arxiv.org/pdf/2311.07919.pdf 開源代碼: https://github.com/QwenLM/Qwen-Audio 大型語言模型(LLMs)由于其良好的知識保留能力、復(fù)雜的推理和解決問題能力,在通用人工智能(AGI)領(lǐng)域取得了重大進(jìn)展。然而,語言模型缺乏像人類一樣感知非文本模態(tài)(如圖像和音頻)的

    2024年01月18日
    瀏覽(87)
  • LLM大模型推理加速 vLLM;docker推理大模型;Qwen vLLM使用案例;模型生成速度吞吐量計(jì)算

    LLM大模型推理加速 vLLM;docker推理大模型;Qwen vLLM使用案例;模型生成速度吞吐量計(jì)算

    參考: https://github.com/vllm-project/vllm https://zhuanlan.zhihu.com/p/645732302 https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文檔 這里使用的cuda版本是11.4,tesla T4卡 加速原理: PagedAttention,主要是利用kv緩存 注意:用最新的qwen 7B v1.1版本的話,vllm要升級到最新0.2.0才可以(http

    2024年01月21日
    瀏覽(27)
  • 開源模型應(yīng)用落地-總述

    開源模型應(yīng)用落地-總述

    ? ? ? ? 在當(dāng)今社會(huì),實(shí)際應(yīng)用比純粹理解原理和概念更為重要。即使您對某個(gè)領(lǐng)域的原理和概念有深入的理解,但如果無法將其應(yīng)用于實(shí)際場景并受制于各種客觀條件,那么與其一開始就過于深入,不如先從基礎(chǔ)開始,實(shí)際操作后再逐步深入探索。 ? ? ? ? 在這種實(shí)踐至上

    2024年03月14日
    瀏覽(35)
  • 開源模型應(yīng)用落地-業(yè)務(wù)整合篇(四)

    一、前言 ? ? 通過學(xué)習(xí)第三篇文章,我們已經(jīng)成功地建立了IM與AI服務(wù)之間的數(shù)據(jù)鏈路。然而,我們目前面臨一個(gè)緊迫需要解決的安全性問題,即非法用戶可能會(huì)通過獲取WebSocket的連接信息,順利地連接到我們的服務(wù)。這不僅占用了大量的無效連接和資源,還對業(yè)務(wù)數(shù)據(jù)帶來

    2024年01月24日
    瀏覽(41)
  • 開源模型應(yīng)用落地-業(yè)務(wù)整合篇(一)

    一、前言 ? ? 經(jīng)過對qwen-7b-chat的部署以及與vllm的推理加速的整合,我們成功構(gòu)建了一套高性能、高可靠、高安全的AI服務(wù)能力?,F(xiàn)在,我們將著手整合具體的業(yè)務(wù)場景,以實(shí)現(xiàn)完整可落地的功能交付。 ? ? 作為上游部門,通常會(huì)采用最常用的方式來接入下游服務(wù)。為了調(diào)用

    2024年01月20日
    瀏覽(32)
  • 開源模型應(yīng)用落地-業(yè)務(wù)優(yōu)化篇(六)

    一、前言 ? ? 經(jīng)過線程池優(yōu)化、請求排隊(duì)和服務(wù)實(shí)例水平擴(kuò)容等措施,整個(gè)AI服務(wù)鏈路的性能得到了顯著地提升。但是,作為追求卓越的大家,絕不會(huì)止步于此。我們的目標(biāo)是在降低成本和提高效率方面不斷努力,追求最佳結(jié)果。如果你們在實(shí)施AI項(xiàng)目方面有經(jīng)驗(yàn),那一定會(huì)

    2024年02月22日
    瀏覽(26)
  • 開源模型應(yīng)用落地-工具使用篇-Ollama(六)

    開源模型應(yīng)用落地-工具使用篇-Ollama(六)

    一、前言 ? ? 在AI大模型百花齊放的時(shí)代,很多人都對新興技術(shù)充滿了熱情,都想嘗試一下。但是,實(shí)際上要入門AI技術(shù)的門檻非常高。除了需要高端設(shè)備,還需要面臨復(fù)雜的部署和安裝過程,這讓很多人望而卻步。不過,隨著開源技術(shù)的不斷進(jìn)步,使得入門AI變得越來越容易

    2024年03月08日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包