国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<kbd id="zjpir"><sup id="zjpir"><td id="zjpir"></td></sup></kbd>

使用autodl服務(wù)器，兩個3090顯卡上運行， Yi-34B-Chat-int4模型，并使用vllm優(yōu)化加速，顯存占用42G，速度23 words/s

2年前作者：fly-iot分類：Toy博客閱讀(31)違法舉報

這篇具有很好參考價值的文章主要介紹了使用autodl服務(wù)器，兩個3090顯卡上運行， Yi-34B-Chat-int4模型，并使用vllm優(yōu)化加速，顯存占用42G，速度23 words/s。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1，演示視頻地址

https://www.bilibili.com/video/BV1Hu4y1L7BH/

使用autodl服務(wù)器，兩個3090顯卡上運行， Yi-34B-Chat-int4模型，用vllm優(yōu)化，增加 --num-gpu 2，速度23 words/s

2，使用3090顯卡和使用A40 的方法一樣

https://blog.csdn.net/freewebsys/article/details/134698597

安裝軟件：先安裝最新的torch版本

apt update && apt install -y git-lfs net-tools
#
git clone https://www.modelscope.cn/01ai/Yi-34B-Chat-4bits.git


# 1，安裝 torch 模塊，防止依賴多次下載
pip3 install torch==2.1.0

# 2，安裝 vllm 模塊：
pip3 install vllm

# 最后安裝 
pip3 install "fschat[model_worker,webui]" auto-gptq optimum

安裝完成之后就可以使用fastchat啟動了。

3，啟動腳本增加 --num-gpus 2 即可使用，兩個顯卡

# run_all_yi.sh

# 清除全部 fastchat 服務(wù)
ps -ef | grep fastchat.serve | awk '{print$2}' | xargs kill -9
sleep 3

rm -f *.log

#IP_ADDR=`ifconfig -a | grep -oP '(?<=inet\s)\d+(\.\d+){3}' | head -n 1 `
# 首先啟動 controller ：
nohup python3 -m fastchat.serve.controller --host 0.0.0.0 --port 21001 > controller.log 2>&1 &

# 啟動 openapi的 兼容服務(wù) 地址 8000
nohup python3 -m fastchat.serve.openai_api_server --controller-address http://127.0.0.1:21001 \
  --host 0.0.0.0 --port 8000 > api_server.log 2>&1 &
  
# 啟動 web ui
nohup python -m fastchat.serve.gradio_web_server --controller-url http://127.0.0.1:21001 \
 --host 0.0.0.0 --port 6006 > web_server.log 2>&1 &

# 然后啟動模型： 說明，必須是本地ip --load-8bit 本身已經(jīng)是int4了
# nohup python3 -m fastchat.serve.model_worker  --model-names yi-34b \
#   --model-path ./Yi-34B-Chat-8bits --controller-address http://${IP_ADDR}:21001 \
#   --worker-address http://${IP_ADDR}:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

## 
nohup python3 -m fastchat.serve.vllm_worker --num-gpus 2 --quantization awq --model-names yi-34b \
  --model-path ./Yi-34B-Chat-4bits --controller-address http://127.0.0.1:21001 \
  --worker-address http://127.0.0.1:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

4，運行占用 gpu

autodl使用兩卡運行,chatgpt,大模型,Python,服務(wù)器,運維

5，效果，還是會有英文出現(xiàn)的BUG

autodl使用兩卡運行,chatgpt,大模型,Python,服務(wù)器,運維

6，同時啟動界面，方法本地開啟 6006 端口即可

只限制在內(nèi)蒙古機房，其他機房需要企業(yè)用戶?。?/strong>

在本地開啟 6006 端口即可：

但是模型沒有選擇出來，不知道咋回事，下次再研究。

7，總結(jié)

使用autodl服務(wù)器，兩個3090顯卡上運行， Yi-34B-Chat-int4模型，并使用vllm優(yōu)化加速，顯存占用42G，速度23 words/s。
隨著大模型的參數(shù)增加，企業(yè)用戶再使用的是特別需要大參數(shù)的模型了。
因為大模型在更加準確。硬件都不是問題。通過多卡的方式可以成功部署。
2張 3090，或者 4090 就可以部署 Yi-34B-Chat-int4模型了。
但是目前看中文稍微有點小問題，會返回英文，相信很快會迭代下一個版本了。
同時，已經(jīng)有獵戶星空Yi-34B-Chat，基于 yi-34b進行優(yōu)化了。馬上去研究下：

https://modelscope.cn/models/OrionStarAI/OrionStar-Yi-34B-Chat/summary文章來源地址http://www.zghlxwxcb.cn/news/detail-766681.html
到了這里，關(guān)于使用autodl服務(wù)器，兩個3090顯卡上運行， Yi-34B-Chat-int4模型，并使用vllm優(yōu)化加速，顯存占用42G，速度23 words/s的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【服務(wù)器】Dell PowerEdge R750 安裝GPU（3090）
1. 服務(wù)器下架/上架下架：從機架導(dǎo)軌上拿下服務(wù)器（1）斷電，拔掉背面的電源線（左右兩根）和網(wǎng)線：注意，不用管插頭旁的紅色小按鈕，直接拔插頭就好。注意，斷電后指示燈應(yīng)該已經(jīng)熄滅。上圖為補拍，所以燈仍亮。（2）按動服務(wù)器正面兩個卡扣：注意，斷電后指
2024年02月13日
瀏覽(20)
本地Pycharm連接遠程服務(wù)器詳細配置過程（直接在本地使用服務(wù)器顯卡，很棒）
相信很多人都遇見過這種情況：實驗室成員使用同一臺服務(wù)器，每個人擁有自己的獨立賬號，我們可以使用服務(wù)器更好的配置完成實驗，畢竟自己哪有money擁有自己的3090呢。通常服務(wù)器系統(tǒng)采用Linux，而我們平常使用頻繁的是Windows系統(tǒng)，二者在操作方面存在很大的區(qū)別，比如
2024年02月03日
瀏覽(29)
【深度學(xué)習環(huán)境】Windows10系統(tǒng)+AutoDL算力平臺|使用MobaXterm終端工具實現(xiàn)SSH遠程連接服務(wù)器|實現(xiàn)PyCharm與服務(wù)器遠程連接|遠程連接（詳細版）
一般情況下，我們的本地文件項目直接使用本機的GPU/CPU在編譯器上編譯調(diào)試。但是由于深度學(xué)習中神經(jīng)網(wǎng)絡(luò)模型龐大，在計算時常常會出現(xiàn)爆顯存的問題，較小的顯存不能滿足計算需求。因此通常使用一臺有著“大顯存”的服務(wù)器來代替本機“小顯存”以完成運算，我們期待
2024年02月05日
瀏覽(32)
MiniGPT4 在RTX-3090 Ubuntu服務(wù)器部署步驟詳解
MiniGPT4系列之一部署篇：在RTX-3090 Ubuntu服務(wù)器部署步驟詳解_seaside2003的博客-CSDN博客 MiniGPT4系列之二推理篇命令行方式：在RTX-3090 Ubuntu服務(wù)器推理詳解_seaside2003的博客-CSDN博客 MiniGPT4系列之三模型推理 (Web UI)：在RTX-3090 Ubuntu服務(wù)器推理_seaside2003的博客-CSDN博客主要參考知乎帖子
2024年02月15日
瀏覽(43)
演示在一臺Windows主機上運行兩個Mysql服務(wù)器（端口號3306 和 3307），安裝步驟詳解
創(chuàng)建一個3307端口號的MySQL服務(wù)器 1、復(fù)制 mysql 的安裝目錄直接拷貝一份mysql，因為里面的data數(shù)據(jù)太多，所以我沒有把data文件拷貝過去。注意：不需要自己手動創(chuàng)建 data 文件夾，在后續(xù)初始化的時候會自動生成。 2、修改my.ini 配置文件修改這四個地方 3、命令創(chuàng)建第二個服務(wù)
2024年04月28日
瀏覽(103)
使用Autodl云服務(wù)器或其他遠程機實現(xiàn)在本地部署知識圖譜數(shù)據(jù)庫Neo4j
本篇博客的目的在于提高讀者的使用效率溫馨提醒：以下操作均可在無卡開機狀態(tài)下就可完成打開你的pycharm或者其他IDE工具或者本地終端，ssh連接到autodl的服務(wù)器。(這一步很簡單如下圖) 由于我想使用Neo4j的最新版，所以需要安裝JDK=21的版本：直接按照下述命令依次進行即
2024年02月19日
瀏覽(101)
命令查看Linux服務(wù)器內(nèi)存、CPU、顯卡、硬盤使用情況
使用命令：free -m 大致結(jié)果類似下圖：內(nèi)存占用情況參數(shù)解釋： Mem行（單位均為M）： total：內(nèi)存總數(shù) used：已使用內(nèi)存數(shù) free：空閑內(nèi)存數(shù) shared：當前廢棄不用 buffers：緩存內(nèi)存數(shù)（Buffer） cached：緩存內(nèi)舒數(shù)（Page） (-/+ buffers/cache)行：（-buffers/cache）: 真正使用的內(nèi)存數(shù)，指
2024年02月04日
瀏覽(28)
AutoDL服務(wù)器配置PyTorch
一、租用新實例 ?二、點擊JupyterLab ?三、進入終端 ? 1、首先輸入如下命令 ?2、然后按英文模式的? ?i? ? 進入編輯，按鍵盤下鍵到最后輸入 ?3、然后先按鍵盤Esc鍵，使用命令? :w!? ?強制存盤 ?4、然后再按鍵盤Esc鍵，使用命令? :q? ?退出 ?5、輸入以下命令刷新 ?6、進入
2024年02月04日
瀏覽(25)
使用MobaXterm連接服務(wù)器并利用Anaconda進行安裝pytoch框架跑深度學(xué)習模型（使用學(xué)校服務(wù)器+顯卡進行深度學(xué)習）
在開始之前你需要找學(xué)校服務(wù)器負責人申請服務(wù)器賬號和密碼以及校內(nèi)外網(wǎng)IP和端口號；另外還需要知道學(xué)校服務(wù)器顯卡cuda版本，以及去pytorch官網(wǎng)查看顯卡cuda版本對應(yīng)的 pytorch版本一、安裝MobaXterm 1.下載MobaXterm 軟件的下載可以去這里：我都已經(jīng)給大家準備好了。在我網(wǎng)
2024年02月07日
瀏覽(25)
pycharm遠程連接AutoDL服務(wù)器
關(guān)于pycharm的安裝教程網(wǎng)上很多，考慮到版權(quán)問題我就不在這里詳細講述了。注意如果要遠程連接服務(wù)器必須使用pycharm專業(yè)版，可以免費試用30天，或者使用激活碼激活。云服務(wù)器很多，這里選擇的是 AutoDL 平臺。關(guān)于AutoDL的使用介紹可以通過下面鏈接學(xué)習： AutoDL幫助文檔
2024年04月09日
瀏覽(35)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区