1,演示視頻
https://www.bilibili.com/video/BV1364y157EA/
【deepseek】(1):12月1日新大模型deepseek發(fā)布!使用3080顯卡,運(yùn)行7b模型,可以正常運(yùn)行WebUI了,速度9 words/s。
2,關(guān)于RTX 3080 Ti * 1卡,2021年的顯卡
RTX 3080 Ti 擁有 34 TFLOPS 的著色器性能、67 TFLOPS 的光追性能、以及 273 TFLOPS 的 Tensor(Sparsity)性能。 該卡的外形設(shè)計(jì),依然類似于現(xiàn)有的 RTX 3080 FE 公版顯卡(雙槽雙面風(fēng)冷散熱器),但沒有 RTX 3090 那樣笨重(BFG),側(cè)邊仍是 12-pin 的 Microfit 輔助供電接口。
3,關(guān)于 deepseek-llm-7b-chat 的模型,12月1日上傳
只有關(guān)于代碼生成的部分:
https://zhuanlan.zhihu.com/p/666077213
https://www.modelscope.cn/models/deepseek-ai/deepseek-llm-7b-chat/summary
關(guān)于 DeepSeek
DeepSeek 致力于探索 AGI 的本質(zhì),不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題。
DeepSeek Coder 是深度求索發(fā)布的第一代大模型,在不久的將來,我們還將呈現(xiàn)給社區(qū)更多更好的研究成果。讓我們?cè)谶@個(gè)激動(dòng)人心的時(shí)代,共同推進(jìn) AGI 的到來!
https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md
3,使用autodl創(chuàng)建環(huán)境,安裝最新的 fastchat
需要選擇 python3.10 的鏡像,否則會(huì)執(zhí)行報(bào)錯(cuò):
Miniconda conda3
Python 3.10(ubuntu22.04)
Cuda 11.8
apt update && apt install -y git-lfs net-tools
# 一定要保證有大磁盤空間:
cd /root/autodl-tmp
git clone https://www.modelscope.cn/deepseek-ai/deepseek-llm-7b-chat.git
# 最后安裝
pip3 install "fschat[model_worker,webui]"
安裝完成之后就可以使用fastchat啟動(dòng)了。
4,使用 fastchat 啟動(dòng) deepseek-llm-7b-chat 模型
啟動(dòng)腳本:
# run_all_deepseek.sh
# 清除全部 fastchat 服務(wù)
ps -ef | grep fastchat.serve | awk '{print$2}' | xargs kill -9
sleep 3
rm -f *.log
# 首先啟動(dòng) controller :
nohup python3 -m fastchat.serve.controller --host 0.0.0.0 --port 21001 > controller.log 2>&1 &
# 啟動(dòng) openapi的 兼容服務(wù) 地址 8000
nohup python3 -m fastchat.serve.openai_api_server --controller-address http://127.0.0.1:21001 \
--host 0.0.0.0 --port 8000 > api_server.log 2>&1 &
# 啟動(dòng) web ui
nohup python -m fastchat.serve.gradio_web_server --model-list-mode reload \
--controller-url http://127.0.0.1:21001 \
--host 0.0.0.0 --port 6006 > web_server.log 2>&1 &
## 啟動(dòng) worker
nohup python3 -m fastchat.serve.model_worker --load-8bit --model-names deepseek-7b \
--model-path ./deepseek-llm-7b-chat --controller-address http://127.0.0.1:21001 \
--worker-address http://127.0.0.1:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &
sleep 2
tail -f model_worker.log
解決: 內(nèi)存不夠,增加參數(shù) --load-8bit 解決:
2023-12-08 23:01:38 | ERROR | stderr | return t.to(device, dtype if t.is_floating_point() or t.is_complex() else None, non_blocking)
2023-12-08 23:01:38 | ERROR | stderr | torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 32.00 MiB (GPU 0; 11.76 GiB total capacity; 11.48 GiB already allocated; 27.19 MiB free; 11.49 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
啟動(dòng)成功:
2023-12-08 23:03:00 | INFO | model_worker | args: Namespace(awq_ckpt=None, awq_groupsize=-1, awq_wbits=16, controller_address='http://127.0.0.1:21001', conv_template=None, cpu_offloading=False, debug=False, device='cuda', dtype=None, embed_in_truncate=False, enable_exllama=False, enable_xft=False, exllama_gpu_split=None, exllama_max_seq_len=4096, gptq_act_order=False, gptq_ckpt=None, gptq_groupsize=-1, gptq_wbits=16, gpus=None, host='0.0.0.0', limit_worker_concurrency=5, load_8bit=True, max_gpu_memory=None, model_names=['deepseek-7b'], model_path='./deepseek-llm-7b-chat', no_register=False, num_gpus=1, port=8080, revision='main', seed=None, ssl=False, stream_interval=2, worker_address='http://127.0.0.1:8080', xft_dtype=None, xft_max_seq_len=4096)
2023-12-08 23:03:00 | INFO | model_worker | Loading the model ['deepseek-7b'] on worker c48d8d3f ...
0%| | 0/2 [00:00<?, ?it/s]
50%|███████████████████████████████████████████████████████████▌ | 1/2 [00:09<00:09, 9.91s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:36<00:00, 19.43s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:36<00:00, 18.01s/it]
2023-12-08 23:03:36 | ERROR | stderr |
2023-12-08 23:03:36 | INFO | model_worker | Register to controller
2023-12-08 23:03:36 | ERROR | stderr | INFO: Started server process [1864]
2023-12-08 23:03:36 | ERROR | stderr | INFO: Waiting for application startup.
2023-12-08 23:03:36 | ERROR | stderr | INFO: Application startup complete.
2023-12-08 23:03:36 | ERROR | stderr | INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)
測(cè)速,反而提速了:
python3 -m fastchat.serve.test_throughput --controller-address http://127.0.0.1:21001 --model-name deepseek-7b --n-thread 1
Models: ['deepseek-7b']
worker_addr: http://127.0.0.1:8080
thread 0 goes to http://127.0.0.1:8080
Time (POST): 32.48344707489014 s
Time (Completion): 32.483508586883545, n threads: 1, throughput: 9.820367745890861 words/s.
測(cè)試中文輸出正常:
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "deepseek-7b",
"messages": [{"role": "user", "content": "北京景點(diǎn)"}],
"temperature": 0.7
}'
webui 啟動(dòng)正常了:文章來源:http://www.zghlxwxcb.cn/news/detail-814075.html
5,總結(jié)
終于解決了webui的啟動(dòng)問題。模型發(fā)展的速度真的快。速度越來越快了。
deepseek的模型使用起來還可以??梢赃\(yùn)行7b的模型了。
測(cè)試了幾個(gè)簡單的問題,還可以。7B模型經(jīng)過 int8 量化,可以在 12G的3080TI 上面運(yùn)行。文章來源地址http://www.zghlxwxcb.cn/news/detail-814075.html
到了這里,關(guān)于【deepseek】(1):12月1日新大模型deepseek發(fā)布!使用3080顯卡,運(yùn)行deepseek-7b模型,可以正常運(yùn)行WebUI了,速度9 words/s。的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!