国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<span id="5feqq"></span><em id="5feqq"><meter id="5feqq"></meter></em><bdo id="5feqq"></bdo>

<rp id="5feqq"><del id="5feqq"></del></rp>

<th id="5feqq"></th>

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

2年前作者：掃地的小何尚分類：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

涉及基于 AI 的計(jì)算機(jī)視覺的實(shí)時(shí)云規(guī)模應(yīng)用程序正在迅速增長。用例包括圖像理解、內(nèi)容創(chuàng)建、內(nèi)容審核、映射、推薦系統(tǒng)和視頻會(huì)議。

然而，由于對(duì)處理復(fù)雜性的需求增加，這些工作負(fù)載的計(jì)算成本也在增長。從靜止圖像到視頻的轉(zhuǎn)變現(xiàn)在也正在成為消費(fèi)者互聯(lián)網(wǎng)流量的主要組成部分。鑒于這些趨勢，迫切需要構(gòu)建高性能但具有成本效益的計(jì)算機(jī)視覺工作負(fù)載。

基于 AI 的計(jì)算機(jī)視覺流程通常涉及圍繞 AI 推理模型的數(shù)據(jù)預(yù)處理和后處理步驟，這可能占整個(gè)工作負(fù)載的 50-80%。這些步驟中的常用運(yùn)算符包括：

調(diào)整大小
裁剪
歸一化
降噪
張量轉(zhuǎn)換

雖然開發(fā)人員可能會(huì)使用 NVIDIA GPU 來顯著加速其流程中的 AI 模型推理，但預(yù)處理和后處理仍然通常使用基于 CPU 的庫來實(shí)現(xiàn)。這導(dǎo)致整個(gè) AI 流程的性能出現(xiàn)瓶頸。通常作為 AI 圖像或視頻處理流程一部分的解碼和編碼過程也可能在 CPU 上成為瓶頸，從而影響整體性能。

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

CV-CUDA優(yōu)化

CV-CUDA 是一個(gè)開源庫，可讓您構(gòu)建高效的云級(jí) AI 計(jì)算機(jī)視覺流程。該庫提供一組專門的 GPU 加速計(jì)算機(jī)視覺和圖像處理內(nèi)核作為獨(dú)立運(yùn)算符，以輕松實(shí)現(xiàn) AI 流程的高效預(yù)處理和后處理步驟。

CV-CUDA 可用于各種常見的計(jì)算機(jī)視覺流程，例如圖像分類、對(duì)象檢測、分割和圖像生成。如需了解更多信息，請(qǐng)參閱 NVIDIA GTC 2022 秋季主題演講。

在這篇博文中，我們展示了使用 CV-CUDA 為典型的 AI 計(jì)算機(jī)視覺工作負(fù)載啟用端到端 GPU 加速的好處，可實(shí)現(xiàn)約 5 倍至高達(dá) 50 倍的整體吞吐量加速。這可以導(dǎo)致每年節(jié)省數(shù)億美元的云成本，并在數(shù)據(jù)中心每年節(jié)省數(shù)百 GWh 的能源消耗。

GPU 加速解決了 CPU 瓶頸

CV-CUDA 提供高度優(yōu)化的 GPU 加速內(nèi)核作為計(jì)算機(jī)視覺處理的獨(dú)立運(yùn)算符。這些內(nèi)核可以有效地實(shí)現(xiàn)預(yù)處理和后處理流程，從而顯著提高吞吐量。

編碼和解碼操作也可能是流程中的潛在瓶頸。借助優(yōu)化的 NVIDIA 視頻處理框架 (VPF)，您還可以高效地優(yōu)化和運(yùn)行它們。 VPF 是 NVIDIA 的一個(gè)開源庫，具有與 C++ 庫的 Python 綁定。它為 GPU 上的視頻解碼和編碼提供完整的硬件加速。omniverse

要加速 GPU 上的整個(gè)端到端 AI 流程，請(qǐng)使用 CV-CUDA，以及用于解碼/編碼加速的 VPF 和用于進(jìn)一步推理優(yōu)化的 TensorRT。與典型流程中基于 CPU 的實(shí)施相比，您可以使用四個(gè) NVIDIA L4 GPU 實(shí)現(xiàn)高達(dá) 50 倍的端到端吞吐量改進(jìn)。

改進(jìn)程度取決于推理 DNN 的復(fù)雜性、所需的預(yù)處理和后處理步驟以及硬件等因素。對(duì)于多 GPU 節(jié)點(diǎn)，您可以期望加速因子針對(duì)給定流程線性擴(kuò)展。

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

CV-CUDA如何實(shí)現(xiàn)高性能

CV-CUDA 利用 GPU 的強(qiáng)大功能來實(shí)現(xiàn)高性能：

預(yù)分配內(nèi)存池，避免在推理階段重復(fù)分配 GPU 內(nèi)存
異步操作
內(nèi)核融合——使用一個(gè) GPU 內(nèi)核實(shí)現(xiàn)運(yùn)算符組合，以最大限度地減少不必要的數(shù)據(jù)傳輸和內(nèi)核啟動(dòng)延遲
通過向量化全局內(nèi)存訪問和使用快速共享內(nèi)存來提高內(nèi)存訪問效率
計(jì)算效率、快速數(shù)學(xué)、扭曲減少/塊減少

案例研究：視頻分割流程的端到端加速

基于視頻的分割是一種常見的 AI 技術(shù)，它根據(jù)屬性對(duì)視頻幀中的像素進(jìn)行分割。例如，在視頻會(huì)議中的虛擬背景或背景模糊應(yīng)用中，它將前景人物或物體與背景分割開來。

在本研究中，我們討論了使用 AWS 上的 NVIDIA T4 Tensor Core GPU 實(shí)例部署在云中的 AI 視頻分割流程的性能評(píng)估，特別關(guān)注計(jì)算成本優(yōu)化。連接到實(shí)例的 CPU 是 Intel Xeon Platinum 8362。

當(dāng)整個(gè)端到端 AI 流程在 GPU 上執(zhí)行時(shí)，您可以預(yù)期顯著節(jié)省成本。然后，我們討論相同工作負(fù)載的這種吞吐量性能加速對(duì)數(shù)據(jù)中心能耗的影響。

為了進(jìn)行實(shí)驗(yàn)，我們將帶有 CV-CUDA AI 流程的 GPU 與帶有相同流程的 OpenCV 實(shí)現(xiàn)的 CPU 進(jìn)行了比較，假設(shè)兩種情況下的推理工作負(fù)載都在 GPU 上運(yùn)行。具體來說，我們部署了 ResNet-101 視頻分割模型流程，以執(zhí)行 AI 背景模糊。

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

在這種情況下，我們測量了整個(gè)端到端流程中不同階段的延遲和最大吞吐量。流程包含多個(gè)階段：

視頻解碼
使用 Downscale、Normalize 和 Reformat 等操作進(jìn)行預(yù)處理
使用 PyTorch 進(jìn)行推理
使用 Reformat、Upscale、BilateralFilter、Composition 和 Blur 等操作進(jìn)行后處理
視頻編碼

對(duì)于 CPU 和 GPU 流程，我們假設(shè)推理工作負(fù)載分別使用 PyTorch 和 TensorRT 在 GPU 上運(yùn)行。

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

傳統(tǒng)的流程是用 OpenCV 和 PyTorch (GPU) 構(gòu)建的，用 Python 實(shí)現(xiàn)，因?yàn)檫@是客戶的典型模式。輸入視頻的分辨率為 1080p，由 474 幀組成，批量大小為 1。在此流程中，由于 PyTorch，GPU 僅用于推理，而其余過程是基于 CPU 的：

這些幀使用 OpenCV/ffmpeg 解碼。
解碼后的圖像使用 OpenCV 進(jìn)行預(yù)處理，并送入 PyTorch 支持的 DNN 以檢測哪些像素屬于貓，生成掩碼。
在后處理階段，將前一階段的輸出掩碼與原始圖像及其模糊版本合成，導(dǎo)致前景中的貓和背景模糊。

對(duì)于基于 GPU 的流程，我們使用來自 CV-CUDA 庫的優(yōu)化運(yùn)算符實(shí)現(xiàn)了預(yù)處理和后處理階段，并使用 NVIDIA TensorRT 庫進(jìn)行了推理。我們還使用 VPF 在 GPU 上加速了流程的解碼和編碼部分。

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

上圖顯示，單幀批處理的端到端時(shí)間從 132 毫秒減少到大約 10 毫秒，這表明 GPU 流程實(shí)現(xiàn)了令人印象深刻的延遲減少。通過使用單個(gè) NVIDIA T4 GPU，CV-CUDA 流水線比 CPU 流水線快約 13 倍。

此結(jié)果是針對(duì)處理單個(gè)視頻的單個(gè)進(jìn)程獲得的。通過部署多個(gè)進(jìn)程來同時(shí)處理多個(gè)視頻，這些優(yōu)化可以使用相同的硬件實(shí)現(xiàn)更高的吞吐量，從而顯著節(jié)省成本和能源。

為了更好地展示 CV-CUDA 帶來的好處，我們在不同的實(shí)例（一個(gè) T4 GPU、一個(gè) L4 GPU、四個(gè) T4 GPU 和四個(gè) L4 GPU）上執(zhí)行了 GPU 流水線。

使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量

新推出的 NVIDIA L4 Tensor Core GPU 由 NVIDIA Ada Lovelace 架構(gòu)提供支持，可為視頻、人工智能、視覺計(jì)算、圖形和虛擬化提供低成本、高能效的加速。

在上圖中，與 CPU 基線相比，單個(gè) T4 GPU 上的端到端吞吐量加速約為 5 倍，新的 L4 GPU 上的加速進(jìn)一步提高至約 12 倍。對(duì)于多個(gè) GPU 實(shí)例，性能幾乎呈線性擴(kuò)展，例如，在四個(gè) T4 GPU 和四個(gè) L4 GPU 上分別約為 19 倍和 48 倍。

為了計(jì)算每年的云成本和能源消耗，我們假設(shè)典型的視頻工作負(fù)載為每分鐘上傳到視頻流平臺(tái)的 500 個(gè)視頻小時(shí)。對(duì)于每年的云成本，我們只考慮了 T4 GPU（L4 GPU 將在未來可用）并假設(shè) Amazon EC2 G4 實(shí)例的一年預(yù)留定價(jià)。

鑒于此，單個(gè) T4 GPU 上此示例視頻工作負(fù)載的年度成本將約為 CPU 流程的 1/5。這預(yù)示著此類工作負(fù)載的典型云成本節(jié)省估計(jì)約為數(shù)億美元。

對(duì)于數(shù)據(jù)中心，除了與處理如此龐大的工作負(fù)載所需的硬件相關(guān)的成本外，能源效率對(duì)于降低能源成本和環(huán)境影響也至關(guān)重要。

在上圖中，年能耗（以 GWh 為單位）是根據(jù)服務(wù)器的平均小時(shí)功耗計(jì)算的，該服務(wù)器具有相應(yīng)硬件的相同視頻工作負(fù)載。單個(gè) L4 系統(tǒng)的能耗約為 CPU 服務(wù)器的 1/12。對(duì)于像示例視頻這樣的工作負(fù)載（每分鐘 500 小時(shí)的視頻），每年的節(jié)能估計(jì)約為數(shù)百 GWh。

這些節(jié)能效果非常顯著，因?yàn)檫@相當(dāng)于避免每年駕駛的數(shù)萬輛乘用車排放溫室氣體，每輛乘用車每年行駛約 11,000 英里。

CV-CUDA Beta v0.3.0 功能

現(xiàn)在您已經(jīng)看到使用 CV-CUDA 加速 AI 計(jì)算機(jī)視覺工作負(fù)載的好處，下面是一些關(guān)鍵特性：文章來源地址http://www.zghlxwxcb.cn/news/detail-445005.html

開源：GitHub 上的 Apache 2.0 許可開源軟件。
支持的運(yùn)算符：CV-CUDA 提供了 30 多個(gè)常用于 AI 計(jì)算機(jī)視覺工作負(fù)載的預(yù)處理和后處理步驟的專用運(yùn)算符。這些無狀態(tài)、獨(dú)立的操作符很容易插入到現(xiàn)有的自定義處理框架中。常見的運(yùn)算符包括 ConvertTo、Custom crop、Normalize、PadStack、Reformat 和 Resize。有關(guān)詳細(xì)信息，請(qǐng)參閱 CV-CUDA 開發(fā)人員指南中的完整列表。
新運(yùn)算符：CV-CUDA Beta v0.3.0 提供了新的運(yùn)算符，例如重新映射、查找輪廓、非最大抑制、閾值處理和自適應(yīng)閾值處理。
NVIDIA Triton 的自定義后端：您現(xiàn)在可以使用示例應(yīng)用程序在構(gòu)建計(jì)算機(jī)視覺管道時(shí)將 CV-CUDA 集成到自定義后端中。
多語言 API：CV-CUDA 包括用于 C/C++ 和 Python 的 API。
框架接口：對(duì)現(xiàn)有 DL 框架（如 PyTorch 和 TensorFlow）的易于使用和零復(fù)制接口。
批量支持：支持所有 CV-CUDA 算子，讓您獲得更高的 GPU 利用率和更好的性能。
統(tǒng)一和可變形狀批處理支持：CV-CUDA 接受具有相同或不同維度的張量。
示例應(yīng)用程序：端到端加速圖像分類、對(duì)象檢測和視頻分割示例應(yīng)用程序。
PIP安裝。
安裝、入門和 API 參考指南。

到了這里，關(guān)于使用CV-CUDA提高基于計(jì)算機(jī)視覺的任務(wù)吞吐量的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

CV：基于計(jì)算機(jī)視覺完成兩張圖片的特征匹配以及用RANSAC方法尋找最佳的匹配點(diǎn)對(duì)和單應(yīng)矩陣的代碼
????????以下是基于OpenCV庫實(shí)現(xiàn)的特征匹配和RANSAC算法的Python代碼： ????????在這個(gè)代碼中，我們首先加載了需要匹配的兩張圖片，然后用SIFT檢測器提取了兩張圖片中的關(guān)鍵點(diǎn)和特征描述符。接下來，我們用FLANN算法進(jìn)行特征匹配，并選取了距離比小于0.7的匹配點(diǎn)對(duì)作
2024年02月09日
瀏覽(17)
計(jì)算機(jī)視覺（CV）技術(shù)的優(yōu)勢
計(jì)算機(jī)視覺（CV）技術(shù)的優(yōu)勢： 1. 自動(dòng)化任務(wù)：計(jì)算機(jī)視覺技術(shù)可以自動(dòng)執(zhí)行一系列視覺任務(wù)，如圖像分類、目標(biāo)檢測和識(shí)別等，從而實(shí)現(xiàn)任務(wù)的自動(dòng)化。 2. 高速處理：計(jì)算機(jī)視覺技術(shù)可以在短時(shí)間內(nèi)處理大量的圖像和視頻數(shù)據(jù)，實(shí)現(xiàn)快速的分析和決策。 3. 準(zhǔn)確性：相對(duì)于
2024年01月22日
瀏覽(23)
計(jì)算機(jī)視覺 – Computer Vision | CV
人的大腦皮層，有差不多 70% 都是在處理視覺信息。是人類獲取信息最主要的渠道，沒有之一。在網(wǎng)絡(luò)世界，照片和視頻（圖像的集合）也正在發(fā)生爆炸式的增長！下圖是網(wǎng)絡(luò)上新增數(shù)據(jù)的占比趨勢圖。灰色是結(jié)構(gòu)化數(shù)據(jù)，藍(lán)色是非結(jié)構(gòu)化數(shù)據(jù)（大部分都是圖像和視頻）。
2024年02月11日
瀏覽(38)
計(jì)算機(jī)視覺（CV）技術(shù)的優(yōu)勢和挑戰(zhàn)
目錄計(jì)算機(jī)視覺（CV）技術(shù)的優(yōu)勢和挑戰(zhàn) 優(yōu)勢：挑戰(zhàn)：計(jì)算機(jī)視覺（CV）技術(shù)是一種利用計(jì)算機(jī)和算法來實(shí)現(xiàn)對(duì)圖像和視頻的分析、處理和理解的技術(shù)。為了應(yīng)對(duì)圖像多樣性，計(jì)算機(jī)視覺技術(shù)可以采用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、復(fù)雜模型、多尺度處理、領(lǐng)域自適應(yīng)和合成數(shù)據(jù)等
2024年02月09日
瀏覽(21)
動(dòng)手學(xué)CV-Pytorch計(jì)算機(jī)視覺天池計(jì)算機(jī)視覺入門賽SVHN數(shù)據(jù)集實(shí)戰(zhàn)
這里我們以datawhale和天池合作的天池計(jì)算機(jī)視覺入門賽為例，通過案例實(shí)戰(zhàn)來進(jìn)一步鞏固本章所介紹的圖像分類知識(shí)。該比賽以SVHN街道字符為賽題數(shù)據(jù)，數(shù)據(jù)集報(bào)名后可見并可下載，該數(shù)據(jù)來
2024年02月04日
瀏覽(17)
舉例說明計(jì)算機(jī)視覺（CV）技術(shù)的優(yōu)勢和挑戰(zhàn)
計(jì)算機(jī)視覺（CV）技術(shù)是指通過計(jì)算機(jī)算法和模型來解析和理解圖像和視頻的能力。它的優(yōu)勢和挑戰(zhàn)如下所示：優(yōu)勢：高效精確：CV技術(shù)可以在很短的時(shí)間內(nèi)對(duì)大量圖像進(jìn)行高質(zhì)量的處理和分析，大大提高了處理速度和準(zhǔn)確性。自動(dòng)化：CV技術(shù)可以在沒有人工干預(yù)的情況下完
2024年01月18日
瀏覽(35)
AI淺談：計(jì)算機(jī)視覺（CV）技術(shù)的優(yōu)勢和挑戰(zhàn)
目錄一、計(jì)算機(jī)視覺技術(shù)的優(yōu)勢 1.效率和精度提高 2.提高安全性 3.促進(jìn)自動(dòng)化 4.促進(jìn)科學(xué)研究 5.促進(jìn)商業(yè)發(fā)展二、計(jì)算機(jī)視覺技術(shù)的挑戰(zhàn) 1.環(huán)境變化 2.精度問題 3.隱私和安全問題 4.數(shù)據(jù)質(zhì)量 5.系統(tǒng)復(fù)雜度 1.自動(dòng)駕駛汽車 2.人臉識(shí)別 3.農(nóng)業(yè)領(lǐng)域 4.醫(yī)學(xué)圖像分析 5.安防和監(jiān)控
2024年01月25日
瀏覽(27)
計(jì)算機(jī)視覺CV領(lǐng)域中多尺度特征的概念
知乎：深度學(xué)習(xí)中的多尺度模型設(shè)計(jì) 知乎：計(jì)算機(jī)視覺中的多尺度模型都有哪些設(shè)計(jì)？ CSDN：多尺度理解? 所謂多尺度，實(shí)際就是對(duì)信號(hào)的不同粒度的采樣。通常在不同的尺度下我們可以觀察到不同的特征，從而完成不同的任務(wù)。粒度更小/更密集的采樣可以看到更多的細(xì)節(jié)
2023年04月08日
瀏覽(17)
局域網(wǎng)內(nèi)如何提高計(jì)算機(jī)網(wǎng)速(經(jīng)驗(yàn)技巧整理)
1.去掉無關(guān)的選項(xiàng) 在Windows XP中，雙擊“控制面板”中的“文件夾選項(xiàng)”，再單擊“查看”標(biāo)簽，然后將鼠標(biāo)指針滾動(dòng)至窗口的最下方，可以看到有一個(gè)“自動(dòng)搜索網(wǎng)絡(luò)文件夾和打印機(jī)”項(xiàng)，默認(rèn)是選中的，將它去掉。這樣，當(dāng)我們打印時(shí)，Windows XP不會(huì)自作主張去尋找局域網(wǎng)
2024年02月06日
瀏覽(34)
計(jì)算機(jī)視覺CV：在自動(dòng)駕駛方面的應(yīng)用與C++代碼實(shí)現(xiàn)
目標(biāo)檢測：利用計(jì)算機(jī)視覺技術(shù)，對(duì)道路上的各種障礙物進(jìn)行識(shí)別和檢測，例如行人、車輛、信號(hào)燈等等。路徑規(guī)劃：利用計(jì)算機(jī)視覺技術(shù)，實(shí)時(shí)分析道路上的交通情況和行駛條件，為自動(dòng)駕駛汽車制定合理的路徑規(guī)劃策略。實(shí)時(shí)定位：自動(dòng)駕駛汽車必須實(shí)時(shí)地知道自己在
2024年02月09日
瀏覽(32)

<th id="i66cv"></th>

<center id="i66cv"></center>

<bdo id="i66cv"></bdo><span id="i66cv"></span>