作者
H. Liao et al., “Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing : Industry Track Paper,” 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), Seoul, Korea (South), 2021, pp. 789-801, doi: 10.1109/HPCA51647.2021.00071.
摘要
正文
不同應(yīng)用場(chǎng)景下的的昇騰計(jì)算核
昇騰計(jì)算核的加速原理
昇騰計(jì)算核(達(dá)芬奇)架構(gòu)
計(jì)算核內(nèi)cube、vector、scaler部件的指令同步
昇騰服務(wù)器平臺(tái)SoC架構(gòu)
昇騰910包括一個(gè)計(jì)算die、一個(gè)IO die和四個(gè)高帶寬的HBM。
計(jì)算die包括32各Ascend-Max計(jì)算核、16個(gè)CPU核(ArmV8指令級(jí))、數(shù)字視覺(jué)預(yù)處理器(DVPP)等,通過(guò)mesh片上網(wǎng)絡(luò)連接。
昇騰的片上互聯(lián)網(wǎng)絡(luò)
基于4x6的2D mesh網(wǎng)絡(luò),相鄰節(jié)點(diǎn)間通過(guò)工作在2GHz下的1024bit的鏈路連接,總帶寬可達(dá)256GB/s。
bufferless的架構(gòu)可以減少芯片面積。
全局的調(diào)度策略可以確保QoS。
DNN訓(xùn)練的硬件需求
后端的SGD計(jì)算頻繁地使用向量單元,使得在unified buffer和向量單元間需要雙工數(shù)據(jù)路徑
LLC和外部存儲(chǔ)密集的數(shù)據(jù)訪問(wèn),要求較高的load/store帶寬
昇騰移動(dòng)平臺(tái)SoC架構(gòu)
DNN應(yīng)用已經(jīng)應(yīng)用到移動(dòng)手機(jī)中,場(chǎng)景包括圖像識(shí)別、修圖、生物識(shí)別等,這些應(yīng)用都基于MobileNet、ResNet50等神經(jīng)網(wǎng)絡(luò)模型。Ascend-Lite用于支持這些模型的運(yùn)算。
考慮到移動(dòng)平臺(tái)的電池容量,Ascend-Lite計(jì)算核可以在標(biāo)準(zhǔn)模式下取得4.6TOPS/W的高能效
動(dòng)態(tài)電壓頻率比機(jī)制可以根據(jù)實(shí)時(shí)的工作負(fù)載密度動(dòng)態(tài)調(diào)整工作電壓,進(jìn)一步提升系統(tǒng)能效
dynamic voltage and frequency scaling (DVFS)
根據(jù)推理時(shí)較小的任務(wù)粒度選擇較小的cube計(jì)算單元
推理時(shí),數(shù)據(jù)一般只有一個(gè)批量大小,因此在Ascend-lite中cube核縮小為4x16x16。
當(dāng)batch size變?yōu)?時(shí),更小的m值可以提升cube的MAC使用率。
移動(dòng)設(shè)備的喚醒功能和實(shí)時(shí)線上人機(jī)交互也依賴于AI算法
比如人臉識(shí)別和手勢(shì)推理。
Ascend-lite使用指令壓縮技術(shù)以減輕NoC的帶寬壓力
Ascend-lite計(jì)算核對(duì)DNN模型中的結(jié)構(gòu)稀疏進(jìn)行了優(yōu)化
昇騰自動(dòng)駕駛平臺(tái)SoC架構(gòu)
DNN推理計(jì)算模型的精度可以在模型精度和計(jì)算時(shí)間能效比二者中權(quán)衡
當(dāng)前自動(dòng)駕駛領(lǐng)域流行的趨勢(shì)是,要求基于多個(gè)DNN模型的輸出做出全面的判斷。
由此,低精度的推理是可行的,因此Ascend core支持int4的計(jì)算精度。
SoC需確保合理的外部存儲(chǔ)訪問(wèn)延遲,以保證自動(dòng)駕駛實(shí)時(shí)性的需求
自動(dòng)駕駛對(duì)響應(yīng)時(shí)間要求較高,SoC需確保駕駛系統(tǒng)能及時(shí)的完成所有任務(wù),包括傳感、識(shí)別、決策和執(zhí)行。
因此推理性能并不依賴于計(jì)算核的并行計(jì)算或數(shù)據(jù)遷移,而依賴于load/store與外部存儲(chǔ)的的效率。
一系列的優(yōu)先級(jí)機(jī)制被應(yīng)用到Ascend核和SoC中以確保滿足延遲需求
Memory System Resource Partitioning and Monitoring (MPAM),內(nèi)存系統(tǒng)資源劃分和監(jiān)測(cè)機(jī)制更細(xì)粒度地管理cache容量、NoC帶寬和內(nèi)存帶寬。
QoS確保無(wú)饑餓。
軟件開(kāi)發(fā)棧
通過(guò)多級(jí)調(diào)度框架可以將任務(wù)分級(jí)調(diào)度到不同的Ascend core上并行處理
屬于線程級(jí)并行文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-838597.html
參考文獻(xiàn)
評(píng)
本文主要講述不同版本昇騰核的DNN加速表現(xiàn),硬件架構(gòu)描述不多,主要介紹了不同特定需求平臺(tái)的硬件需求及其組成,但體系結(jié)構(gòu)方面幾乎沒(méi)有著墨。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-838597.html
到了這里,關(guān)于論文解析——Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!