一、問題是怎么發(fā)現(xiàn)的
部署chatglm2和llama2到一個4*V100的GPU機器上遇到問題
config.pbtxt
中設(shè)置模型分別在指定gpu上部署實例配置不生效
如以下配置為在gpu0上部署本模型,部署count=1個實例,在gpu1上部署本模型,部署count=2個實例
instance_group [ { count: 1 kind: KIND_GPU gpus: [ 0 ] },
{ count: 2
kind: KIND_GPU
gpus: [ 1 ] } ]
部署時發(fā)現(xiàn),所有模型實例都會被部署到gpu0上面, 由于gpu只有16g顯存,在部署第一個模型實例成功后,第二個模型實例也會往gpu0上進行加載,最終導致cuda out of memery.
網(wǎng)上搜索發(fā)現(xiàn)有人遇到同樣的問題,鏈接: https://github.com/triton-inference-server/server/issues/6124
二、排查問題的詳細過程
大佬回答解決方案:
三、如何解決問題
1.在model.py手動獲取config.pbtxt配置的gpu編號gpus:[0]
instance_group [
{
count: 1
kind: KIND_GPU
gpus: [ 0 ]
}
]
2.設(shè)置可用的GPU編號
os.environ["CUDA_VISIBLE_DEVICES"] = str(device_id)
3.啟動成功
四、總結(jié)反思:是否可以更快發(fā)現(xiàn)問題?如何再次避免等。
triton啟動的使用使用 nvidia-smi -l 2 監(jiān)控顯卡想顯存, 可以發(fā)現(xiàn)所有模型都在往第一個gpu,gpu[0]內(nèi)加載,發(fā)現(xiàn)配置config.pbtxt不生效
作者:京東科技 楊建文章來源:http://www.zghlxwxcb.cn/news/detail-711480.html
來源:京東云開發(fā)者社區(qū) 轉(zhuǎn)載請注明來源文章來源地址http://www.zghlxwxcb.cn/news/detail-711480.html
到了這里,關(guān)于記錄TritonServer部署多模型到多GPU踩坑 | 京東云技術(shù)團隊的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!