国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing

這篇具有很好參考價(jià)值的文章主要介紹了論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

作者

H. Liao et al., “Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing : Industry Track Paper,” 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), Seoul, Korea (South), 2021, pp. 789-801, doi: 10.1109/HPCA51647.2021.00071.

摘要

正文

不同應(yīng)用場(chǎng)景下的的昇騰計(jì)算核

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

昇騰計(jì)算核的加速原理

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

昇騰計(jì)算核(達(dá)芬奇)架構(gòu)

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

計(jì)算核內(nèi)cube、vector、scaler部件的指令同步

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

昇騰服務(wù)器平臺(tái)SoC架構(gòu)

昇騰910包括一個(gè)計(jì)算die、一個(gè)IO die和四個(gè)高帶寬的HBM。
計(jì)算die包括32各Ascend-Max計(jì)算核、16個(gè)CPU核(ArmV8指令級(jí))、數(shù)字視覺(jué)預(yù)處理器(DVPP)等,通過(guò)mesh片上網(wǎng)絡(luò)連接。
論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

昇騰的片上互聯(lián)網(wǎng)絡(luò)

基于4x6的2D mesh網(wǎng)絡(luò),相鄰節(jié)點(diǎn)間通過(guò)工作在2GHz下的1024bit的鏈路連接,總帶寬可達(dá)256GB/s。
bufferless的架構(gòu)可以減少芯片面積。
全局的調(diào)度策略可以確保QoS。

DNN訓(xùn)練的硬件需求

后端的SGD計(jì)算頻繁地使用向量單元,使得在unified buffer和向量單元間需要雙工數(shù)據(jù)路徑
LLC和外部存儲(chǔ)密集的數(shù)據(jù)訪問(wèn),要求較高的load/store帶寬

昇騰移動(dòng)平臺(tái)SoC架構(gòu)

DNN應(yīng)用已經(jīng)應(yīng)用到移動(dòng)手機(jī)中,場(chǎng)景包括圖像識(shí)別、修圖、生物識(shí)別等,這些應(yīng)用都基于MobileNet、ResNet50等神經(jīng)網(wǎng)絡(luò)模型。Ascend-Lite用于支持這些模型的運(yùn)算。

考慮到移動(dòng)平臺(tái)的電池容量,Ascend-Lite計(jì)算核可以在標(biāo)準(zhǔn)模式下取得4.6TOPS/W的高能效

動(dòng)態(tài)電壓頻率比機(jī)制可以根據(jù)實(shí)時(shí)的工作負(fù)載密度動(dòng)態(tài)調(diào)整工作電壓,進(jìn)一步提升系統(tǒng)能效

dynamic voltage and frequency scaling (DVFS)

根據(jù)推理時(shí)較小的任務(wù)粒度選擇較小的cube計(jì)算單元

推理時(shí),數(shù)據(jù)一般只有一個(gè)批量大小,因此在Ascend-lite中cube核縮小為4x16x16。

當(dāng)batch size變?yōu)?時(shí),更小的m值可以提升cube的MAC使用率。

移動(dòng)設(shè)備的喚醒功能和實(shí)時(shí)線上人機(jī)交互也依賴于AI算法

比如人臉識(shí)別和手勢(shì)推理。

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

Ascend-lite使用指令壓縮技術(shù)以減輕NoC的帶寬壓力

Ascend-lite計(jì)算核對(duì)DNN模型中的結(jié)構(gòu)稀疏進(jìn)行了優(yōu)化

昇騰自動(dòng)駕駛平臺(tái)SoC架構(gòu)

DNN推理計(jì)算模型的精度可以在模型精度和計(jì)算時(shí)間能效比二者中權(quán)衡

當(dāng)前自動(dòng)駕駛領(lǐng)域流行的趨勢(shì)是,要求基于多個(gè)DNN模型的輸出做出全面的判斷。
由此,低精度的推理是可行的,因此Ascend core支持int4的計(jì)算精度。

SoC需確保合理的外部存儲(chǔ)訪問(wèn)延遲,以保證自動(dòng)駕駛實(shí)時(shí)性的需求

自動(dòng)駕駛對(duì)響應(yīng)時(shí)間要求較高,SoC需確保駕駛系統(tǒng)能及時(shí)的完成所有任務(wù),包括傳感、識(shí)別、決策和執(zhí)行。
因此推理性能并不依賴于計(jì)算核的并行計(jì)算或數(shù)據(jù)遷移,而依賴于load/store與外部存儲(chǔ)的的效率。

一系列的優(yōu)先級(jí)機(jī)制被應(yīng)用到Ascend核和SoC中以確保滿足延遲需求

Memory System Resource Partitioning and Monitoring (MPAM),內(nèi)存系統(tǒng)資源劃分和監(jiān)測(cè)機(jī)制更細(xì)粒度地管理cache容量、NoC帶寬和內(nèi)存帶寬。
QoS確保無(wú)饑餓。

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

軟件開(kāi)發(fā)棧

論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

通過(guò)多級(jí)調(diào)度框架可以將任務(wù)分級(jí)調(diào)度到不同的Ascend core上并行處理

屬于線程級(jí)并行
論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing,# 論文解析,Ascend

參考文獻(xiàn)

評(píng)

本文主要講述不同版本昇騰核的DNN加速表現(xiàn),硬件架構(gòu)描述不多,主要介紹了不同特定需求平臺(tái)的硬件需求及其組成,但體系結(jié)構(gòu)方面幾乎沒(méi)有著墨。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-838597.html

到了這里,關(guān)于論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀

    NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀

    標(biāo)題 :NICE-SLAM: Neural Implicit Scalable Encoding for SLAM 作者 :Zihan Zhu, Songyou Peng,Viktor Larsson — Zhejiang University 來(lái)源 :CVPR 代碼 :https://pengsongyou.github.io/nice-slam 時(shí)間 :2022 神經(jīng)隱式(Neural implicit representations)表示最近在同步定位和地圖繪制(SLAM)方面有一定的進(jìn)展,但現(xiàn)有方法

    2024年02月15日
    瀏覽(28)
  • 論文閱讀:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)

    論文閱讀:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估計(jì)

    CVPR2024滿分文章,英偉達(dá)團(tuán)隊(duì)工作。 文章地址:https://arxiv.org/pdf/2312.08344.pdf 代碼地址:https://github.com/NVlabs/FoundationPose 提出FoundationPose,能用于6D位姿估計(jì)與跟蹤,無(wú)論模型是否可用都支持。只需要CAD模型或少量參考圖像就能進(jìn)行zero-shot測(cè)試,泛化能力依靠大規(guī)模訓(xùn)練, LLM 和

    2024年04月29日
    瀏覽(17)
  • 【論文筆記】UniVision: A Unified Framework for Vision-Centric 3D Perception

    【論文筆記】UniVision: A Unified Framework for Vision-Centric 3D Perception

    原文鏈接:https://arxiv.org/pdf/2401.06994.pdf 目前,同時(shí)處理基于圖像的3D檢測(cè)任務(wù)和占用預(yù)測(cè)任務(wù)還未得到充分探索。3D占用預(yù)測(cè)需要細(xì)粒度信息,多使用體素表達(dá);而3D檢測(cè)多使用BEV表達(dá),因其更加高效。 本文提出UniVision,同時(shí)處理3D檢測(cè)與占用預(yù)測(cè)任務(wù)的統(tǒng)一網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)為

    2024年02月19日
    瀏覽(17)
  • 機(jī)器學(xué)習(xí)筆記:node2vec(論文筆記:node2vec: Scalable Feature Learning for Networks)

    機(jī)器學(xué)習(xí)筆記:node2vec(論文筆記:node2vec: Scalable Feature Learning for Networks)

    2016 KDD 利用graph上的節(jié)點(diǎn)相似性,對(duì)這些節(jié)點(diǎn)進(jìn)行embedding 同質(zhì)性:節(jié)點(diǎn)和其周?chē)?jié)點(diǎn)的embedding比較相似 藍(lán)色節(jié)點(diǎn)和其周?chē)墓?jié)點(diǎn) 結(jié)構(gòu)等價(jià)性 結(jié)構(gòu)相近的點(diǎn)embedding相近 比如藍(lán)色節(jié)點(diǎn),都處于多個(gè)簇的連接處 隨機(jī)游走是一種自監(jiān)督學(xué)習(xí)的embedding方法,不需要利用節(jié)點(diǎn)標(biāo)簽也不

    2024年02月09日
    瀏覽(44)
  • A Survey of IoT Applications in Blockchain Systems Architecture,Consensus,and Traffic Modeling 論文學(xué)習(xí)

    A Survey of IoT Applications in Blockchain Systems Architecture,Consensus,and Traffic Modeling 論文學(xué)習(xí)

    A Survey of IoT Applications in Blockchain Systems: Architecture, Consensus, and Traffic Modeling ACM Computing Surveys, 2020 LAPHOU LAO, ZECHENG LI, SONGLIN HOU, and BIN XIAO, The Hong Kong Polytechnic University, China SONGTAO GUO, Chongqing University, China YUANYUAN YANG, Stony Brook University, America 本文介紹了使 用區(qū)塊鏈技術(shù)的物聯(lián)網(wǎng)應(yīng)用

    2023年04月12日
    瀏覽(34)
  • 論文閱讀——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations

    論文閱讀——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations

    SMLP4Rec:用于順序推薦的高效全 MLP 架構(gòu) 自注意力模型通過(guò)捕獲用戶-項(xiàng)目交互之間的順序依賴關(guān)系,在順序推薦系統(tǒng)中實(shí)現(xiàn)了最先進(jìn)的性能。然而,它們依賴于向項(xiàng)目序列添加位置嵌入來(lái)保留順序信息,由于這兩種類型的嵌入之間的異質(zhì)性,這可能會(huì)破壞項(xiàng)目嵌入的語(yǔ)義。此

    2024年04月26日
    瀏覽(24)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(論文筆記)

    A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(論文筆記)

    (發(fā)現(xiàn)問(wèn)題): 在基于RRAM的加速器中,自注意力層在收集輸入序列信息的過(guò)程中,需要所有輸入序列詞的前一層結(jié)果,由于輸入實(shí)例在不同的時(shí)間步上被串行處理。 因此,自注意層一直保持停滯,直到上一層計(jì)算的結(jié)束。這就是數(shù)據(jù)危險(xiǎn),增加了在基于RRAM加速器上處理基于

    2024年03月25日
    瀏覽(21)
  • 【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    這篇文章提出了一個(gè)高效的用于文本到圖像生成模型架構(gòu),整體思路比較直白,在不損失圖像生成質(zhì)量的情況下,相比于現(xiàn)有T2I模型(SD1.4,SD2.1等)大大節(jié)約了成本。附錄部分給了一些有趣的東西,比如FID的魯棒性 整篇文章還有點(diǎn)疑惑,比如階段B的訓(xùn)練,使用的模型;節(jié)省

    2024年02月21日
    瀏覽(24)
  • 【論文筆記】ObjectFormer for Image Manipulation Detection and Localization

    【論文筆記】ObjectFormer for Image Manipulation Detection and Localization

    發(fā)布于CVPR2022 論文鏈接:https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_ObjectFormer_for_Image_Manipulation_Detection_and_Localization_CVPR_2022_paper.pdf 在本文中,我們提出了ObjectFormer來(lái)檢測(cè)和定位圖像操作。 為了捕捉在RGB域中不再可見(jiàn)的細(xì)微操作軌跡,我們提取圖像的高頻特征,并將其與R

    2024年02月04日
    瀏覽(55)
  • BERT for Coreference Resolution Baselines and Analysis論文閱讀

    1.問(wèn)題 基于前面提出的端到端的共指消解模型,如何在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)更好的效能 2.解決方法 使用Bert來(lái)進(jìn)行改進(jìn),在OntoNotes ( + 3.9 F1 )和GAP ( + 11.5 F1 )基準(zhǔn)上取得了顯著提升 3.摘要 優(yōu)點(diǎn):論文采用的Bert-large模型與ELMo和Bert-base相比,在區(qū)分相關(guān)但不同的實(shí)體方面特別好 缺點(diǎn)

    2024年02月05日
    瀏覽(21)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包