国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<legend id="dac31"></legend>

<td id="dac31"></td>

導(dǎo)出LLaMA ChatGlm2等LLM模型為onnx

2年前作者：Luchang-Li分類：Toy博客閱讀(20)違法舉報

這篇具有很好參考價值的文章主要介紹了導(dǎo)出LLaMA ChatGlm2等LLM模型為onnx。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

通過onnx模型可以在支持onnx推理的推理引擎上進(jìn)行推理，從而可以將LLM部署在更加廣泛的平臺上面。此外還可以具有避免pytorch依賴，獲得更好的性能等優(yōu)勢。

這篇博客（大模型LLaMa及周邊項目（二） - 知乎）進(jìn)行了llama導(dǎo)出onnx的開創(chuàng)性的工作，但是依賴于侵入式修改transformers庫，比較不方便。

這里本人實現(xiàn)了避免侵入式修改transformers庫導(dǎo)出LLM為ONNX方法，代碼庫為:

https://github.com/luchangli03/export_llama_to_onnx

導(dǎo)出的LLM進(jìn)行onnxsim優(yōu)化：

一種大于2GB ONNX模型onnxsim優(yōu)化方法_Luchang-Li的博客-CSDN博客

https://github.com/luchangli03/onnxsim_large_model

可以在這個基礎(chǔ)上進(jìn)行簡單修改從而導(dǎo)出其他模型，例如百川，Qwen等模型。當(dāng)前已經(jīng)加入了對llama, 清華ChatGlm2和阿里Qwen的導(dǎo)出支持。百川跟llamma相似性很高，可以直接用llama的導(dǎo)出腳本。

除了導(dǎo)出onnx，目前還增加了一個基于onnx推理chatglm2的demo。

該方案優(yōu)點是無需侵入式修改transformers代碼，缺點是你需要提前了解各個模型的輸入，相關(guān)shape和dtype。這可以在代碼里面增加shape，dtype打印，進(jìn)行一次推理獲取。

阿里的Qwen模型導(dǎo)出onnx存在大量瑣碎的算子，主要是因為其使用了einops庫的rearrange操作。把這些算子替換為reshape，transpose, split等操作后onnx模型會極大簡化。此外，還可以進(jìn)一步優(yōu)化該模型的RotaryEmbedding相關(guān)的代碼以優(yōu)化導(dǎo)出的onnx模型復(fù)雜度。

例如

# context_layer = rearrange(
#     context_layer, "b s h d -> b s (h d)"
# ).contiguous()
b, s, h, d = context_layer.shape
context_layer = context_layer.reshape([b, s, -1])

# self._rotary_pos_emb_cache = rearrange(emb, "n d -> 1 n 1 d")
emb = torch.unsqueeze(emb, 0) # [1nd]
emb = torch.unsqueeze(emb, 2)

def _rotate_half(x):
    # from einops import rearrange
    # x = rearrange(x, "... (j d) -> ... j d", j=2)
    # x1, x2 = x.unbind(dim=-2)
    last_dim = x.shape[-1]
    x1, x2 = torch.split(x, last_dim//2, dim=-1)
    return torch.cat((-x2, x1), dim=-1)

導(dǎo)出的llama decoder會存在if算子，但是經(jīng)過符號shape推導(dǎo)和設(shè)置相應(yīng)的符號shape到onnx模型value_info，然后經(jīng)過onnxsim可以完全去掉。也可以考慮修改llama定義代碼去掉if。優(yōu)化前后：

導(dǎo)出LLaMA ChatGlm2等LLM模型為onnx,推理引擎,大模型,llama,人工智能,onnx

導(dǎo)出模型調(diào)試

從導(dǎo)出模型中算子的名稱可以大概推斷出該算子在那個模塊定義的。

如/layers.0/attn/rotary_emb/Slice可以知道該算子定義于第0個decoder層的atten.rotary_emb模塊，而slice一般來自于張量切片索引操作。文章來源地址http://www.zghlxwxcb.cn/news/detail-638239.html

到了這里，關(guān)于導(dǎo)出LLaMA ChatGlm2等LLM模型為onnx的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【AIGC】ChatGLM2-6B大模型據(jù)稱推理性能超越Chat4.0
models ChatGLM2-6B 是開源中英雙語對話模型 ChatGLM-6B 的第二代版本，在保留了初代模型對話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)之上，ChatGLM2-6B 引入了如下新特性：更強(qiáng)大的性能：基于 ChatGLM 初代模型的開發(fā)經(jīng)驗，我們?nèi)嫔壛?ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了
2024年02月11日
瀏覽(38)
【LLM】chatglm-6B模型訓(xùn)練和推理
本篇文章記錄下 chatglm-6B 訓(xùn)練和推理過程環(huán)境：Ubuntu 20.04 + 1.13.0+cu116 chatglm-6B 源代碼倉庫：鏈接 chatglm-6B 模型權(quán)重：鏈接這里使用的是 THUDM 在 hugging face 開源的模型。因為模型比較大，倉庫保存模式使用的是 git lfs 模式，再 clone 之后再使用 git lfs pull 去 download 大文件。 c
2024年02月10日
瀏覽(49)
開源大模型ChatGLM2-6B 2. 跟著LangChain參考文檔搭建LLM+知識庫問答系統(tǒng)
租用了1臺GPU服務(wù)器，系統(tǒng) ubuntu20，Tesla V100-16GB （GPU服務(wù)器已經(jīng)關(guān)機(jī)結(jié)束租賃了） SSH地址：* 端口：17520 SSH賬戶：root 密碼：Jaere7pa 內(nèi)網(wǎng)： 3389 ，外網(wǎng)：17518 VNC地址：* 端口：17519 VNC用戶名：root 密碼：Jaere7pa 硬件需求，ChatGLM-6B和ChatGLM2-6B相當(dāng)。量化等級?? ?最低 GPU 顯存 F
2024年02月03日
瀏覽(32)
ChatGLM2-6B_ An Open Bilingual Chat LLM _ 開源雙語對話語言模型
更強(qiáng)大的性能：基于 ChatGLM 初代模型的開發(fā)經(jīng)驗，我們?nèi)嫔壛?ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 [GLM]的混合目標(biāo)函數(shù)，經(jīng)過了 1.4T 中英標(biāo)識符的預(yù)訓(xùn)練與人類偏好對齊訓(xùn)練，評測結(jié)果顯示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BB
2024年04月14日
瀏覽(26)
OpenMMlab導(dǎo)出mobilenet-v2的onnx模型并推理
使用mmpretrain導(dǎo)出mobilenet-v2的onnx模型: 安裝有mmdeploy的話可以通過如下方法導(dǎo)出：通過onnxruntime進(jìn)行推理：使用mmdeploy推理：或者這里通過trtexec轉(zhuǎn)換onnx文件，LZ的版本是TensorRT-8.2.1.8。使用mmdeploy推理：或者
2024年02月05日
瀏覽(27)
LLaMA-Factory可視化界面微調(diào)chatglm2；LoRA訓(xùn)練微調(diào)模型簡單案例
參考：https://github.com/huggingface/peft https://github.com/hiyouga/LLaMA-Factory 類似工具還有流螢，注意是做中文微調(diào)訓(xùn)練這塊；來訓(xùn)練微調(diào)的chatglm2需要完整最新文件，不能是量化后的模型；另外測試下來顯卡資源要大于20來G才能順利，這邊T4單卡訓(xùn)練中間顯存不足，需要開啟4bit量化才行
2024年02月05日
瀏覽(34)
ChatGLM2-6B：性能大幅提升，8-32k上下文，推理提速42% —— 開源中英雙語對話模型 ChatGLM-6B 的第二代來了！更強(qiáng)大的性能，更長的上下文，更高效的推理，更開放的協(xié)議！
2023年10月31日
瀏覽(25)
LLM大模型推理加速實戰(zhàn)：vllm、fastllm與llama.cpp使用指南
隨著人工智能技術(shù)的飛速發(fā)展，大型語言模型（LLM）在諸如自然語言處理、智能問答、文本生成等領(lǐng)域的應(yīng)用越來越廣泛。然而，LLM模型往往具有龐大的參數(shù)規(guī)模，導(dǎo)致推理過程計算量大、耗時長，成為了制約其實際應(yīng)用的關(guān)鍵因素。為了解決這個問題，一系列大模型推理加
2024年04月13日
瀏覽(28)
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+
LLMs：LLaMA Efficient Tuning(一款可高效微調(diào)【全參數(shù)/LoRA/QLoRA】主流大模型【ChatGLM-2/LLaMA-2/Baichuan等】的高效工具【預(yù)訓(xùn)練+指令監(jiān)督微調(diào)+獎勵模型訓(xùn)練+PPO 訓(xùn)練+DPO 訓(xùn)練】)的簡介、安裝、使用方法之詳細(xì)攻略目錄相關(guān)文章 LLMs之ChatGLM：ChatGLM Efficient Tuning(一款高效微調(diào)ChatGLM-6B/Ch
2024年02月09日
瀏覽(33)
LLaMa、Qwen、ChatGLM、ChatGLM2的區(qū)別
以下比較的前提是首先和BERT(transfomer)的對比感謝幫忙給我github repository的star，更多最新模型長期更新：https://github.com/zysNLP/quickllm LLaMa：去掉bias LayNorm方式：RMSnorm：https://zhuanlan.zhihu.com/p/650231190 torch自帶LayerNorm ( F.layer_norm ) ：這是PyTorch庫中內(nèi)置的Layer Normalization實現(xiàn)。輸入
2024年02月03日
瀏覽(21)

<meter id="jfod0"><strong id="jfod0"></strong></meter>

<legend id="jfod0"><progress id="jfod0"></progress></legend>