国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

使用autodl服務(wù)器,兩個3090顯卡上運行, Yi-34B-Chat-int4模型,并使用vllm優(yōu)化加速,顯存占用42G,速度23 words/s

這篇具有很好參考價值的文章主要介紹了使用autodl服務(wù)器,兩個3090顯卡上運行, Yi-34B-Chat-int4模型,并使用vllm優(yōu)化加速,顯存占用42G,速度23 words/s。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1,演示視頻地址

https://www.bilibili.com/video/BV1Hu4y1L7BH/

使用autodl服務(wù)器,兩個3090顯卡上運行, Yi-34B-Chat-int4模型,用vllm優(yōu)化,增加 --num-gpu 2,速度23 words/s

2,使用3090顯卡 和使用A40 的方法一樣

https://blog.csdn.net/freewebsys/article/details/134698597

安裝軟件: 先安裝最新的torch版本

apt update && apt install -y git-lfs net-tools
#
git clone https://www.modelscope.cn/01ai/Yi-34B-Chat-4bits.git


# 1,安裝 torch 模塊,防止依賴多次下載
pip3 install torch==2.1.0

# 2,安裝 vllm 模塊:
pip3 install vllm

# 最后安裝 
pip3 install "fschat[model_worker,webui]" auto-gptq optimum

安裝完成之后就可以使用fastchat啟動了。

3,啟動腳本增加 --num-gpus 2 即可使用,兩個顯卡

# run_all_yi.sh

# 清除全部 fastchat 服務(wù)
ps -ef | grep fastchat.serve | awk '{print$2}' | xargs kill -9
sleep 3

rm -f *.log

#IP_ADDR=`ifconfig -a | grep -oP '(?<=inet\s)\d+(\.\d+){3}' | head -n 1 `
# 首先啟動 controller :
nohup python3 -m fastchat.serve.controller --host 0.0.0.0 --port 21001 > controller.log 2>&1 &

# 啟動 openapi的 兼容服務(wù) 地址 8000
nohup python3 -m fastchat.serve.openai_api_server --controller-address http://127.0.0.1:21001 \
  --host 0.0.0.0 --port 8000 > api_server.log 2>&1 &
  
# 啟動 web ui
nohup python -m fastchat.serve.gradio_web_server --controller-url http://127.0.0.1:21001 \
 --host 0.0.0.0 --port 6006 > web_server.log 2>&1 &

# 然后啟動模型: 說明,必須是本地ip --load-8bit 本身已經(jīng)是int4了
# nohup python3 -m fastchat.serve.model_worker  --model-names yi-34b \
#   --model-path ./Yi-34B-Chat-8bits --controller-address http://${IP_ADDR}:21001 \
#   --worker-address http://${IP_ADDR}:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

## 
nohup python3 -m fastchat.serve.vllm_worker --num-gpus 2 --quantization awq --model-names yi-34b \
  --model-path ./Yi-34B-Chat-4bits --controller-address http://127.0.0.1:21001 \
  --worker-address http://127.0.0.1:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

4,運行占用 gpu

autodl使用兩卡運行,chatgpt,大模型,Python,服務(wù)器,運維

5,效果,還是會有英文出現(xiàn)的BUG

autodl使用兩卡運行,chatgpt,大模型,Python,服務(wù)器,運維

6,同時啟動界面,方法本地開啟 6006 端口即可

只限制在內(nèi)蒙古機房,其他機房需要企業(yè)用戶?。?/strong>

在本地開啟 6006 端口即可:
autodl使用兩卡運行,chatgpt,大模型,Python,服務(wù)器,運維

autodl使用兩卡運行,chatgpt,大模型,Python,服務(wù)器,運維
但是模型沒有選擇出來,不知道咋回事,下次再研究。

7,總結(jié)

使用autodl服務(wù)器,兩個3090顯卡上運行, Yi-34B-Chat-int4模型,并使用vllm優(yōu)化加速,顯存占用42G,速度23 words/s。
隨著大模型的參數(shù)增加,企業(yè)用戶再使用的是特別需要大參數(shù)的模型了。
因為大模型在更加準確。硬件都不是問題。通過多卡的方式可以成功部署。
2張 3090,或者 4090 就可以部署 Yi-34B-Chat-int4模型了。
但是目前看中文稍微有點小問題,會返回英文,相信很快會迭代下一個版本了。
同時,已經(jīng)有獵戶星空Yi-34B-Chat,基于 yi-34b進行優(yōu)化了。馬上去研究下:

https://modelscope.cn/models/OrionStarAI/OrionStar-Yi-34B-Chat/summary文章來源地址http://www.zghlxwxcb.cn/news/detail-766681.html

到了這里,關(guān)于使用autodl服務(wù)器,兩個3090顯卡上運行, Yi-34B-Chat-int4模型,并使用vllm優(yōu)化加速,顯存占用42G,速度23 words/s的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【服務(wù)器】Dell PowerEdge R750 安裝GPU(3090)

    【服務(wù)器】Dell PowerEdge R750 安裝GPU(3090)

    1. 服務(wù)器下架/上架 下架:從機架導(dǎo)軌上拿下服務(wù)器 (1)斷電,拔掉背面的電源線(左右兩根)和網(wǎng)線: 注意,不用管插頭旁的紅色小按鈕,直接拔插頭就好。 注意,斷電后指示燈應(yīng)該已經(jīng)熄滅。上圖為補拍,所以燈仍亮。 (2)按動服務(wù)器正面兩個卡扣: 注意,斷電后指

    2024年02月13日
    瀏覽(20)
  • 本地Pycharm連接遠程服務(wù)器詳細配置過程(直接在本地使用服務(wù)器顯卡,很棒)

    相信很多人都遇見過這種情況:實驗室成員使用同一臺服務(wù)器,每個人擁有自己的獨立賬號,我們可以使用服務(wù)器更好的配置完成實驗,畢竟自己哪有money擁有自己的3090呢。通常服務(wù)器系統(tǒng)采用Linux,而我們平常使用頻繁的是Windows系統(tǒng),二者在操作方面存在很大的區(qū)別,比如

    2024年02月03日
    瀏覽(29)
  • 【深度學(xué)習環(huán)境】Windows10系統(tǒng)+AutoDL算力平臺|使用MobaXterm終端工具實現(xiàn)SSH遠程連接服務(wù)器|實現(xiàn)PyCharm與服務(wù)器遠程連接|遠程連接(詳細版)

    【深度學(xué)習環(huán)境】Windows10系統(tǒng)+AutoDL算力平臺|使用MobaXterm終端工具實現(xiàn)SSH遠程連接服務(wù)器|實現(xiàn)PyCharm與服務(wù)器遠程連接|遠程連接(詳細版)

    一般情況下,我們的本地文件項目直接使用本機的GPU/CPU在編譯器上編譯調(diào)試。但是由于深度學(xué)習中神經(jīng)網(wǎng)絡(luò)模型龐大,在計算時常常會出現(xiàn)爆顯存的問題,較小的顯存不能滿足計算需求。因此通常使用一臺有著“大顯存”的服務(wù)器來代替本機“小顯存”以完成運算,我們期待

    2024年02月05日
    瀏覽(32)
  • MiniGPT4 在RTX-3090 Ubuntu服務(wù)器部署步驟詳解

    MiniGPT4 在RTX-3090 Ubuntu服務(wù)器部署步驟詳解

    MiniGPT4系列之一部署篇:在RTX-3090 Ubuntu服務(wù)器部署步驟詳解_seaside2003的博客-CSDN博客 MiniGPT4系列之二推理篇命令行方式:在RTX-3090 Ubuntu服務(wù)器推理詳解_seaside2003的博客-CSDN博客 MiniGPT4系列之三模型推理 (Web UI):在RTX-3090 Ubuntu服務(wù)器推理_seaside2003的博客-CSDN博客 主要參考知乎帖子

    2024年02月15日
    瀏覽(43)
  • 演示在一臺Windows主機上運行兩個Mysql服務(wù)器(端口號3306 和 3307),安裝步驟詳解

    演示在一臺Windows主機上運行兩個Mysql服務(wù)器(端口號3306 和 3307),安裝步驟詳解

    創(chuàng)建一個3307端口號的MySQL服務(wù)器 1、復(fù)制 mysql 的安裝目錄 直接拷貝一份mysql,因為里面的data數(shù)據(jù)太多,所以我沒有把data文件拷貝過去。 注意:不需要自己手動創(chuàng)建 data 文件夾,在后續(xù)初始化的時候會自動生成。 2、修改my.ini 配置文件 修改這四個地方 3、命令創(chuàng)建第二個服務(wù)

    2024年04月28日
    瀏覽(103)
  • 使用Autodl云服務(wù)器或其他遠程機實現(xiàn)在本地部署知識圖譜數(shù)據(jù)庫Neo4j

    使用Autodl云服務(wù)器或其他遠程機實現(xiàn)在本地部署知識圖譜數(shù)據(jù)庫Neo4j

    本篇博客的目的在于提高讀者的使用效率 溫馨提醒:以下操作均可在無卡開機狀態(tài)下就可完成 打開你的pycharm或者其他IDE工具或者本地終端,ssh連接到autodl的服務(wù)器。(這一步很簡單如下圖) 由于我想使用Neo4j的最新版,所以需要安裝JDK=21的版本: 直接按照下述命令依次進行即

    2024年02月19日
    瀏覽(101)
  • 命令查看Linux服務(wù)器內(nèi)存、CPU、顯卡、硬盤使用情況

    命令查看Linux服務(wù)器內(nèi)存、CPU、顯卡、硬盤使用情況

    使用命令:free -m 大致結(jié)果類似下圖: 內(nèi)存占用情況 參數(shù)解釋: Mem行(單位均為M): total:內(nèi)存總數(shù) used:已使用內(nèi)存數(shù) free:空閑內(nèi)存數(shù) shared:當前廢棄不用 buffers:緩存內(nèi)存數(shù)(Buffer) cached:緩存內(nèi)舒數(shù)(Page) (-/+ buffers/cache)行: (-buffers/cache): 真正使用的內(nèi)存數(shù),指

    2024年02月04日
    瀏覽(28)
  • AutoDL服務(wù)器配置PyTorch

    AutoDL服務(wù)器配置PyTorch

    一、租用新實例 ?二、點擊JupyterLab ?三、進入終端 ? 1、首先輸入如下命令 ?2、然后按英文模式的? ?i? ? 進入編輯,按鍵盤下鍵到最后輸入 ?3、然后先按鍵盤Esc鍵,使用命令? :w!? ?強制存盤 ?4、 然后再按鍵盤Esc鍵,使用命令? :q? ?退出 ?5、輸入以下命令刷新 ?6、進入

    2024年02月04日
    瀏覽(25)
  • 使用MobaXterm連接服務(wù)器并利用Anaconda進行安裝pytoch框架跑深度學(xué)習模型(使用學(xué)校服務(wù)器+顯卡進行深度學(xué)習)

    使用MobaXterm連接服務(wù)器并利用Anaconda進行安裝pytoch框架跑深度學(xué)習模型(使用學(xué)校服務(wù)器+顯卡進行深度學(xué)習)

    在開始之前你需要找學(xué)校服務(wù)器負責人 申請服務(wù)器賬號和密碼 以及 校內(nèi)外網(wǎng)IP和端口號 ;另外還需要知道學(xué)校 服務(wù)器顯卡cuda版本 ,以及去pytorch官網(wǎng)查看顯卡cuda版本對應(yīng)的 pytorch版本 一、安裝MobaXterm 1.下載MobaXterm 軟件的下載可以去這里:我都已經(jīng)給大家準備好了。 在我網(wǎng)

    2024年02月07日
    瀏覽(25)
  • pycharm遠程連接AutoDL服務(wù)器

    pycharm遠程連接AutoDL服務(wù)器

    關(guān)于pycharm的安裝教程網(wǎng)上很多,考慮到版權(quán)問題我就不在這里詳細講述了。 注意如果要遠程連接服務(wù)器 必須使用pycharm專業(yè)版 ,可以免費試用30天,或者使用激活碼激活。 云服務(wù)器很多,這里選擇的是 AutoDL 平臺。 關(guān)于AutoDL的使用介紹可以通過下面鏈接學(xué)習: AutoDL幫助文檔

    2024年04月09日
    瀏覽(35)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包