国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

『模型部署』神經(jīng)網(wǎng)絡(luò)模型部署[運(yùn)行時(shí)|指令執(zhí)行|處理器架構(gòu)|TensorRT]

2年前作者：AI新視界分類：Toy博客閱讀(49)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了『模型部署』神經(jīng)網(wǎng)絡(luò)模型部署[運(yùn)行時(shí)|指令執(zhí)行|處理器架構(gòu)|TensorRT]。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一. 神經(jīng)網(wǎng)絡(luò)部署

1.1. 程序語言運(yùn)行時(shí)(Runtime)

『模型部署』神經(jīng)網(wǎng)絡(luò)模型部署[運(yùn)行時(shí)|指令執(zhí)行|處理器架構(gòu)|TensorRT],模型部署,深度學(xué)習(xí),模型部署,TensorRT,模型加速

1.2. C++運(yùn)行時(shí)(Runtime) 與 C++ 標(biāo)準(zhǔn)

1.3. 神經(jīng)網(wǎng)絡(luò)運(yùn)行時(shí)(Runtime)

1.4. 神經(jīng)網(wǎng)絡(luò)表示

1.5. 神經(jīng)網(wǎng)絡(luò)部署&例子

二. TensorRT教程

輔助文檔-本教程配套代碼,以及更多范例和文檔：https://github.com/NVIDIA/trt-samples-for-hackathon-cn/tree/master/cookbook

Polygraphy：深度學(xué)習(xí)推理原型設(shè)計(jì)和調(diào)試工具包

2.1. 前置條件-計(jì)算機(jī)指令執(zhí)行過程

2.2. 前置條件-計(jì)算機(jī)處理器架構(gòu)

介紹個(gè)工具Torch.Profiler，使用它來確定你的性能瓶頸Introduction of torch.profiler

2.3. TensorRT簡(jiǎn)介

TensorRT文檔：https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html

C++ API 文檔：https://docs.nvidia.com/deeplearning/tensorrt/api/c_api/

python API 文檔：https://docs.nvidia.com/deeplearning/tensorrt/api/python_api/

TensorRT下載：https://developer.nvidia.com/tensorrt-download

輔助文檔-本教程配套代碼,以及更多范例和文檔：https://github.com/NVIDIA/trt-samples-for-hackathon-cn/tree/master/cookbook

TensorRT究竟使用了哪些技術(shù)使得我們的深度學(xué)習(xí)模型得以在GPU上加速運(yùn)行呢？

一方面模型構(gòu)建期(推理優(yōu)化器)： 模型從網(wǎng)絡(luò)結(jié)構(gòu)變成可執(zhí)行程序的過程，在這個(gè)過程中TensorRT的推理優(yōu)化器主要幫我們完成了下面的工作：

①模型解析/建立：TensorRT可以加載 Onnx 等其他格式的模型或在其中使用原生 API 搭建模型

②計(jì)算圖優(yōu)化：包括橫向?qū)尤诤? Conv )、縱向?qū)尤诤? Conv+add+ReLU)等

③節(jié)點(diǎn)消除：去除計(jì)算層中的一些無用層，并進(jìn)行常數(shù)融合以及一些節(jié)點(diǎn)變換( Pad , Slice , Concat , Shuffle)等，這些變換有利于真正計(jì)算時(shí)的內(nèi)存拷貝等操作。

④多精度支持：TensorRT支持FP32/FP16/INT8/TF32等多種數(shù)據(jù)類型的混合計(jì)算，以便加快計(jì)算速度，但是單價(jià)是有可能插入額外的reformat節(jié)點(diǎn)，用于數(shù)據(jù)類型的轉(zhuǎn)換。

⑤之后TensorRT會(huì)幫我們優(yōu)選 kernel / format 硬件有關(guān)優(yōu)化，這個(gè)是因?yàn)閷?duì)于計(jì)算圖中的一個(gè)節(jié)點(diǎn)，我們?cè)贕PU上可能有多重實(shí)現(xiàn)，具體到我們要運(yùn)行TensorRT的GPU上得時(shí)候，究竟哪一種實(shí)現(xiàn)最快呢？這一步需要TensorRT幫我們選擇的。[在TensorRT中，kernel是指用于執(zhí)行特定層計(jì)算的 CUDA核函數(shù)]

⑥導(dǎo)入 plugin：實(shí)現(xiàn)自定義操作，有時(shí)候計(jì)算圖中會(huì)遇到TensorRT原生不支持的操作，這個(gè)時(shí)候需要外部導(dǎo)入一些cuda c++編寫的plugin，來使用這些plugin幫我們完成計(jì)算。

⑦顯存優(yōu)化：TensorRT運(yùn)行的時(shí)候，會(huì)幫我們維護(hù)一個(gè)顯存池，我們計(jì)算過程中所有用到的顯存，都可以使用顯存池復(fù)用，避免重復(fù)的內(nèi)存申請(qǐng)和釋放，幫我們節(jié)約時(shí)間和空間。

另一方面模型運(yùn)行期(運(yùn)行時(shí)環(huán)境)： 也就是模型的可執(zhí)行文件真正接收了輸入的數(shù)據(jù)，并運(yùn)行的階段，在這個(gè)階段主要完成了運(yùn)行時(shí)環(huán)境、序列化/反序列化兩方面的工作。

TensorRT文檔有詳細(xì)介紹，比如說計(jì)算圖優(yōu)化部分，具體到哪些layer之間可以發(fā)生融合，都有逐一的列舉

https://developer.nvidia.com/blog/production-deep-learning-nvidia-gpu-inference-engine/

NVIDIA GPU Inference Engine(GIE)具體解釋見上面的鏈接 對(duì)神經(jīng)網(wǎng)絡(luò)圖進(jìn)行了一些重要的轉(zhuǎn)換和優(yōu)化。首先，消除未使用輸出的層以避免不必要的計(jì)算。接下來，在可能的情況下，融合卷積層、偏置層和 ReLU 層以形成單層。圖 2顯示了圖 1 中原始網(wǎng)絡(luò)的垂直層融合結(jié)果（融合層在圖 4 中標(biāo)記為 CBR）。層融合提高了在 GPU 上運(yùn)行 GIE 優(yōu)化網(wǎng)絡(luò)的效率。

另一種轉(zhuǎn)換是水平層融合或?qū)泳酆?，以及所需的聚合層到各自輸出的劃分，如圖3所示。水平層融合通過組合采用相同源張量并應(yīng)用相似參數(shù)的相同操作的層來提高性能，從而形成一個(gè)更大的層以提高計(jì)算效率。圖3中的示例顯示了圖 2 中 3 個(gè) 1×1 CBR 層的組合，這些層將相同的輸入放入單個(gè)較大的 1×1 CBR 層中。請(qǐng)注意，必須分解該層的輸出，以將原始輸入圖輸入到不同的后續(xù)層中。

圖3如下，卷積神經(jīng)網(wǎng)絡(luò)上水平層融合的示例。在這里，圖 4 中的多個(gè) 1×1 CBR 層“水平”融合，或者跨越圖中共享相同輸入的相似層。

下面摘選自2021年nvidia的一些講座中，TensorRT優(yōu)化的成果： 第1行2張圖對(duì)比了多種圖像分類和目標(biāo)識(shí)別模型，在Tensorflow框架內(nèi)，以及使用Tensorflow自帶的TRT接口下的性能。左下角這張圖對(duì)比了BERT模型在Tensorflow和TensorRT中的延遲，右下角這張圖對(duì)比了ONNX Runtime中使用cuda和TensorRT兩種后端的性能。總體來看對(duì)于計(jì)算密集型任務(wù)，比如矩陣乘法和卷積，TensorRT選用了高效的算子，提升計(jì)算效率。對(duì)于訪存密集型的任務(wù)，TensorRT會(huì)采用算子融合減少訪問和數(shù)據(jù)的拷貝量以提高訪問的效率，此外TensorRT可以使用低精度的類型，在精度損失可以允許的情況下，同時(shí)減少計(jì)算時(shí)間和內(nèi)存顯存的使用量，以加快計(jì)算速度

『模型部署』神經(jīng)網(wǎng)絡(luò)模型部署[運(yùn)行時(shí)|指令執(zhí)行|處理器架構(gòu)|TensorRT],模型部署,深度學(xué)習(xí),模型部署,TensorRT,模型加速文章來源地址http://www.zghlxwxcb.cn/news/detail-679186.html

參考文獻(xiàn)

模型量化以及部署B(yǎng)站鏈接：PPQ-神經(jīng)網(wǎng)絡(luò)量化框架

模型量化以及部署B(yǎng)站鏈接：神經(jīng)網(wǎng)絡(luò)-量化與部署

到了這里，關(guān)于『模型部署』神經(jīng)網(wǎng)絡(luò)模型部署[運(yùn)行時(shí)|指令執(zhí)行|處理器架構(gòu)|TensorRT]的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【神經(jīng)網(wǎng)絡(luò)第三期】RBF神經(jīng)網(wǎng)絡(luò)基本原理和模型應(yīng)用
目錄 1. RBF神經(jīng)網(wǎng)絡(luò)基本概 2. RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型 3.RBF神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法 4. 相關(guān)模型應(yīng)用徑向基函數(shù)（ Radical Basis Function, RBF）是多維空間插值的傳統(tǒng)技術(shù)，由Powell 于1985 年提出。1988 年， Broomhead 和Lowe 根據(jù)生物神經(jīng)元具有局部響應(yīng)這一特點(diǎn)，將RBF 引人神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中，產(chǎn)
2024年02月14日
瀏覽(15)
openmv云端訓(xùn)練神經(jīng)網(wǎng)絡(luò)自動(dòng)生成openmv的神經(jīng)網(wǎng)絡(luò)模型
打開openmv工具欄如圖所示，點(diǎn)擊新數(shù)據(jù)集 ?彈出如下界面，這里我選擇的是我自己新建的new date文件夾，你們選擇自己新建的文件夾即可 ?接下來我們點(diǎn)擊左邊紅框框起來的地方，可得到中間那個(gè)界面，可自己創(chuàng)建名稱 ?左上角就是我創(chuàng)建好的兩個(gè)，接下來我們點(diǎn)擊下面紅框
2024年02月12日
瀏覽(24)
深度學(xué)習(xí)筆記之循環(huán)神經(jīng)網(wǎng)絡(luò)(十)基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的簡(jiǎn)單示例
本節(jié)我們將前面介紹的幾種循環(huán)神經(jīng)網(wǎng)絡(luò) —— RNN,LSTM,GRU text{RNN,LSTM,GRU} RNN,LSTM,GRU 關(guān)于實(shí)例中的一個(gè)演示，但重點(diǎn)并不僅在于這些模型，這里以示例的形式對(duì) One-hot text{One-hot} One-hot 向量重新進(jìn)行認(rèn)知。自然語言 ( Natural?Language ) (text{Natural Language}) ( Natural?Language ) 是人類
2024年02月07日
瀏覽(39)
MobileViT神經(jīng)網(wǎng)絡(luò)模型
官方源碼(Pytorch實(shí)現(xiàn)) : https://github.com/apple/ml-cvnets ?原文鏈接：https://blog.csdn.net/qq_37541097/article/details/126715733 霹靂吧啦Wz從ml-evnets倉庫中剝離的代碼:?deep-learning-for-image-processing/pytorch_classification/MobileViT at master · WZMIAOMIAO/deep-learning-for-image-processing · GitHub MobileViT對(duì)應(yīng)博文:?Mobi
2024年02月04日
瀏覽(13)
神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)
AlexNet是由Alex Krizhevsky等人在2012年提出的卷積神經(jīng)網(wǎng)絡(luò)模型，它在ImageNet圖像分類挑戰(zhàn)賽中取得了突破性的成果。以下是AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)和各個(gè)層的作用：輸入層（Input Layer）：接收輸入圖像數(shù)據(jù)。卷積層1（Convolutional Layer 1）：使用96個(gè)11x11的卷積核（2份48個(gè)11x11區(qū)塊），步長(zhǎng)
2024年02月15日
瀏覽(20)
回歸預(yù)測(cè)模型：MATLAB神經(jīng)網(wǎng)絡(luò)回歸模型
1.神經(jīng)網(wǎng)絡(luò)回歸模型的基本原理神經(jīng)網(wǎng)絡(luò)是一種由節(jié)點(diǎn)（或稱為“神經(jīng)元”）和邊組成的網(wǎng)絡(luò)結(jié)構(gòu)，用于模擬人腦分析和處理信息的方式。在回歸問題中，神經(jīng)網(wǎng)絡(luò)旨在預(yù)測(cè)一個(gè)連續(xù)值的輸出，基于給定的一組輸入特征。一個(gè)基本的神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層（一個(gè)或多個(gè)
2024年02月21日
瀏覽(19)
Matlab預(yù)測(cè)模型-BP神經(jīng)網(wǎng)絡(luò)模型
訓(xùn)練集（Training set） —— 用于模型擬合的數(shù)據(jù)樣本。驗(yàn)證集（Validation set） —— 是模型訓(xùn)練過程中單獨(dú)留出的樣本集，它可以用于調(diào)整模型的超參數(shù)和用于對(duì)模型的能力進(jìn)行初步評(píng)估。在神經(jīng)網(wǎng)絡(luò)中，我們用驗(yàn)證數(shù)據(jù)集去尋找最優(yōu)的網(wǎng)絡(luò)深度，或者決定反向傳播算法的停止
2024年02月11日
瀏覽(18)
神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)模型
目錄引言 1 神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ) 神經(jīng)網(wǎng)絡(luò)的工作原理深度學(xué)習(xí)的發(fā)展歷程和主要模型
2024年02月13日
瀏覽(18)
神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)
解決獨(dú)熱編碼無法解決詞之間相似性問題使用神經(jīng)網(wǎng)絡(luò)語言模型中出現(xiàn)的詞向量 C w i C_{wi} C w i ? 代替 C w i C_{wi} C w i ? 就是單詞對(duì)應(yīng)的 Word Embedding 值【詞向量】解決獨(dú)熱編碼占用內(nèi)存較大的問題 Q矩陣相關(guān)參數(shù) Q矩陣 :從 one-hot編碼生成新的詞向量 Q矩陣是參數(shù)，
2024年02月03日
瀏覽(17)
神經(jīng)網(wǎng)絡(luò)模型--數(shù)學(xué)建模
目錄 1.神經(jīng)網(wǎng)絡(luò)模型簡(jiǎn)介 2.神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)建模中用途 3.神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)建模中應(yīng)用案例 3.1交通流量預(yù)測(cè) 3.2 股票價(jià)格預(yù)測(cè) 3.3圖像識(shí)別 3.4自然語言處理 3.5智能控制 ? 神經(jīng)網(wǎng)絡(luò)是一種人工智能算法，它受到了生物神經(jīng)網(wǎng)絡(luò)的啟發(fā)。類似于生物神經(jīng)網(wǎng)絡(luò)，神經(jīng)網(wǎng)絡(luò)也由許多相互
2024年02月01日
瀏覽(17)