參考:
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302
https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文檔
1、vLLM
這里使用的cuda版本是11.4,tesla T4卡
加速原理:
PagedAttention,主要是利用kv緩存文章來源:http://www.zghlxwxcb.cn/news/detail-809915.html
2、qwen測試使用:
注意:用最新的qwen 7B v1.1版本的話,vllm要升級到最新0.2.0才可以(https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary)
注意更改:–dtype=half文章來源地址http://www.zghlxwxcb.cn/news/detail-809915.html
python -m vllm.entrypoints
到了這里,關(guān)于LLM大模型推理加速 vLLM;docker推理大模型;Qwen vLLM使用案例;模型生成速度吞吐量計算的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!