国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

通義千問Qwen模型運(yùn)行異常解決記錄：FlashAttention only supports Ampere GPUs or newer

2年前作者：Ajian分類：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了通義千問Qwen模型運(yùn)行異常解決記錄：FlashAttention only supports Ampere GPUs or newer。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

通過langchain調(diào)用Qwen/Qwen-1_8B-Chat模型時(shí)，對話過程中出現(xiàn)報(bào)錯(cuò)提示：

ERROR: object of type 'NoneType' has no len()
Traceback (most recent call last):
File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/base.py", line 385, in acall
    raise e
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/base.py", line 379, in acall
    await self._acall(inputs, run_manager=run_manager)
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/llm.py", line 275, in _acall
    response = await self.agenerate([inputs], run_manager=run_manager)
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain/chains/llm.py", line 142, in agenerate
    return await self.llm.agenerate_prompt(
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 506, in agenerate_prompt
    return await self.agenerate(
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 466, in agenerate
    raise exceptions[0]
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 569, in _agenerate_with_cache
    return await self._agenerate(
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_community/chat_models/openai.py", line 519, in _agenerate
    return await agenerate_from_stream(stream_iter)
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_core/language_models/chat_models.py", line 85, in agenerate_from_stream
    async for chunk in stream:
  File "/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_community/chat_models/openai.py", line 490, in _astream
    if len(chunk["choices"]) == 0:
TypeError: object of type 'NoneType' has no len()

很疑惑，其他LLM模型都能正常運(yùn)行，唯獨(dú)Qwen不行。
查了很多資料，眾說紛紜，未解決。
于是仔細(xì)看報(bào)錯(cuò)信息，最后一行報(bào)錯(cuò)說 File “/root/anaconda3/envs/chatchat/lib/python3.10/site-packages/langchain_community/chat_models/openai.py”, line 490有問題，那就打開490行附近，看看源碼：

if not isinstance(chunk, dict):
   chunk = chunk.dict()
if len(chunk["choices"]) == 0:
   continue
choice = chunk["choices"][0]

應(yīng)該就是這個(gè)chunk里面沒有choices導(dǎo)致的報(bào)錯(cuò)。
那我們把這個(gè)chunk打印一下，看看他里面有些什么，于是修改這個(gè)文件代碼為：

if not isinstance(chunk, dict):
   chunk = chunk.dict()
print(f'chunk:{chunk}')
if len(chunk["choices"]) == 0:
   continue
choice = chunk["choices"][0]

再次運(yùn)行，看到chunk的輸出為：

chunk:{'id': None, 'choices': None, 'created': None, 'model': None, 'object': None, 'system_fingerprint': None, 'text': '**NETWORK ERROR DUE TO HIGH TRAFFIC. PLEASE REGENERATE OR REFRESH THIS PAGE.**\n\n(FlashAttention only supports Ampere GPUs or newer.)', 'error_code': 50001}

終于看到真正的錯(cuò)誤信息了：NETWORK ERROR DUE TO HIGH TRAFFIC. PLEASE REGENERATE OR REFRESH THIS PAGE：FlashAttention only supports Ampere GPUs or newer。
看樣子真正出問題的點(diǎn)在flash-attention上。
翻看huggingface上通義千問的安裝說明：

依賴項(xiàng)（Dependency）
運(yùn)行Qwen-1.8B-Chat，請確保滿足上述要求，再執(zhí)行以下pip命令安裝依賴庫
pip install transformers==4.32.0 accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed

另外，推薦安裝flash-attention庫（當(dāng)前已支持flash attention 2），以實(shí)現(xiàn)更高的效率和更低的顯存占用。
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention && pip install .
# 下方安裝可選，安裝可能比較緩慢。
# pip install csrc/layer_norm
# pip install csrc/rotary

按照文檔，flash-attention是安裝好了的，問題應(yīng)該不是出在安裝上面。
在qwenlm的issue上看到說要卸載flash-atten：https://github.com/QwenLM/Qwen/issues/438
然后在huggingface社區(qū)看到對這個(gè)問題的解釋：https://huggingface.co/Qwen/Qwen-7B-Chat/discussions/37：

flash attention是一個(gè)用于加速模型訓(xùn)練推理的可選項(xiàng)，且僅適用于Turing、Ampere、Ada、Hopper架構(gòu)的Nvidia GPU顯卡（如H100、A100、RTX 3090、T4、RTX 2080），您可以在不安裝flash attention的情況下正常使用模型進(jìn)行推理。

再一核對我自己的GPU，了然了，原來是我的GPU不適用于flash attention！
所以，解決方案就是：文章來源地址http://www.zghlxwxcb.cn/news/detail-812227.html

pip uninstall flash-atten

到了這里，關(guān)于通義千問Qwen模型運(yùn)行異常解決記錄：FlashAttention only supports Ampere GPUs or newer的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【通義千問】大模型Qwen GitHub開源工程學(xué)習(xí)筆記（2）--使用Qwen進(jìn)行推理的示例代碼解析，及transformers的使用
如希望使用Qwen-chat進(jìn)行推理，所需要寫的只是如下所示的數(shù)行代碼。請確保你使用的是最新代碼，并指定正確的模型名稱和路徑，如 Qwen/Qwen-7B-Chat 和 Qwen/Qwen-14B-Chat 這里給出了一段代碼
2024年02月08日
瀏覽(33)
【通義千問】大模型Qwen GitHub開源工程學(xué)習(xí)筆記（1）-- 使用指南、依賴庫和軟件
9月25日，阿里云開源通義千問140億參數(shù)模型Qwen-14B及其對話模型Qwen-14B-Chat,免費(fèi)可商用。立馬就到了GitHub去fork。 GitHub： GitHub - QwenLM/Qwen: The official repo of Qwen (通義千問) chat pretrained large language model proposed by Alibaba Cloud. 官方的技術(shù)資料也下載了，看這里==https://qianwen-res.oss-cn-b
2024年02月03日
瀏覽(19)
【通義千問】大模型Qwen GitHub開源工程學(xué)習(xí)筆記（5）-- 模型的微調(diào)【全參數(shù)微調(diào)】【LoRA方法】【Q-LoRA方法】
本文介紹了使用微調(diào)技術(shù)進(jìn)行自然語言生成的方法。通過使用transformers庫中的AutoModelForCausalLM和AutoTokenizer，可以在多節(jié)點(diǎn)環(huán)境下進(jìn)行微調(diào)。你需要將所有樣本放到一個(gè)列表中并存入json文件中。每個(gè)樣本對應(yīng)一個(gè)字典，包含id和conversation，其中后者為一個(gè)列表。示例如下所示：
2024年01月23日
瀏覽(29)
阿里云通義千問開源第二波！大規(guī)模視覺語言模型Qwen-VL上線魔搭社區(qū)
通義千問開源第二波！8月25日消息，阿里云推出大規(guī)模視覺語言模型Qwen-VL，一步到位、直接開源。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型研發(fā)，支持圖文輸入，具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評測和多模態(tài)聊天能力評測中，Qwen-VL取得了遠(yuǎn)超同等規(guī)
2024年02月11日
瀏覽(26)
通義千問開源了 720 億、70億、140億、Qwen-VL 四個(gè)大模型：實(shí)現(xiàn)“全尺寸、全模態(tài)”開源
本心、輸入輸出、結(jié)果編輯：簡簡單單 Online zuozuo 地址：https://blog.csdn.net/qq_15071263 個(gè)人簡介 : 簡簡單單Online zuozuo，目前主要從事 Java 相關(guān)工作，商業(yè)方向?yàn)?B、G 端，主要使用Java、Python 進(jìn)行日常開發(fā)，喜歡探索各個(gè)方面的內(nèi)容，對很多的方向、內(nèi)容感興趣：目前對 AIGC、云
2024年02月04日
瀏覽(30)
通義千問 - Code Qwen能力算法賽道季軍方案
在23年最后一月，我們團(tuán)隊(duì) VScode 參加了天池通義千問AI挑戰(zhàn)賽 - Code Qwen能力算法賽道，經(jīng)過初賽和復(fù)賽的評測，我們最后取得季軍的成績，團(tuán)隊(duì)成員來自中科院計(jì)算所、B站等單位，在這里非常感謝隊(duì)友的努力付出，下面是一些我們參加比賽的歷程和方案分享，歡迎大家討論和
2024年01月21日
瀏覽(26)
llama.cpp部署通義千問Qwen-14B
llama.cpp是當(dāng)前最火熱的大模型開源推理框架之一，支持了非常多的LLM的量化推理，生態(tài)比較完善，是個(gè)人學(xué)習(xí)和使用的首選。最近阿里開源了通義千問大語言模型，在眾多榜單上刷榜了，是當(dāng)前最炙手可熱的開源中文大語言模型。今天在github上看到前幾天llama.cpp已經(jīng)支持Qwe
2024年02月03日
瀏覽(29)
2023年的深度學(xué)習(xí)入門指南(26) - 在自己電腦上運(yùn)行通義千問7b模型
通過量化，通義千問4位量化的模型大小為5.86G，可以在3060等小于16G的家用GPU上也可以運(yùn)行起來。通義千問7b提供了4位量化好的Qwen/Qwen-7B-Chat-Int4模型，我們直接調(diào)用就好。首先安裝依賴包：如果你是Linux環(huán)境的話，可以安裝下Flash-Attention來加速： Windows下暫時(shí)還用不了，這個(gè)
2024年02月10日
瀏覽(24)
【大模型】通義千問safetensors_rust.SafetensorError: Error while deserializing header: HeaderTooLarge解決方法
GitHub：https://github.com/QwenLM/Qwen python 3.8及以上版本 pytorch 1.12及以上版本，推薦2.0及以上版本建議使用CUDA 11.4及以上（GPU用戶、flash-attention用戶等需考慮此選項(xiàng)） infer_qwen.py: 執(zhí)行推理時(shí)報(bào)錯(cuò)如下：先 pip 安裝 modelscope 下載過程如下：就看網(wǎng)速了，慢慢等待。。。先安裝：再
2024年02月03日
瀏覽(58)
【通義千問】繼ChatGPT爆火后，阿里云的大模型“通義千問”它終于來了
通義千問顧名思義，通順流暢的語句可以回答成千上萬的問題。這個(gè)名字來源于兩個(gè)方面： “ 通義 ”意味著該模型具有廣泛的知識和普適性，可以理解和回答各種領(lǐng)域的問題。作為一個(gè)大型預(yù)訓(xùn)練語言模型，“通義千問”在訓(xùn)練過程中學(xué)習(xí)了大量的文本數(shù)據(jù)，從而具備了跨
2023年04月13日
瀏覽(52)