国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

存內(nèi)計(jì)算的主流技術(shù)方案

這篇具有很好參考價(jià)值的文章主要介紹了存內(nèi)計(jì)算的主流技術(shù)方案。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1 概述

? ? ?和近數(shù)據(jù)計(jì)算不同,存內(nèi)計(jì)算直接使用內(nèi)存單元做計(jì)算,主要利用電阻和電流電壓的物理關(guān)系表達(dá)運(yùn)算過程。存內(nèi)計(jì)算依賴于新型的非易失性存儲器,如 ReRAM和 PCM 等。在所有存內(nèi)計(jì)算操作中,最普遍的是利用基爾霍夫定律(Kirchoff’sLaw) 進(jìn)行向量乘矩陣操作。原因在于:

(1)它能夠高效地將計(jì)算和存儲緊密結(jié)合;

(2)它的計(jì)算效率高(即,在一個讀操作延遲內(nèi)能完成一次向量乘矩陣);

(3)目前流行的數(shù)據(jù)密集型應(yīng)用中,如機(jī)器學(xué)習(xí)應(yīng)用和圖計(jì)算應(yīng)用,向量乘矩陣的計(jì)算占了總計(jì)算量的90%以上。

? ?除了向量乘矩陣操作,存內(nèi)計(jì)算還能利用電阻、電流及電壓的物理關(guān)系實(shí)現(xiàn)查詢,按比特與/或/非等操作。

2 基于向量乘矩陣的存內(nèi)計(jì)算

? ? ?圖24是存內(nèi)計(jì)算支持向量乘矩陣的最基本單元,展示了存內(nèi)計(jì)算使用基爾霍夫定律,在將近一個讀操作延遲內(nèi)完成一次向量乘矩陣操作的過程.左圖中計(jì)算的是一個2x1 的 向 量 (V1,V2)乘以一個1x2的向量(G1,G2)?,其中(G1,G2)用ReRAM阻值表示,事先存在ReRAM中,(V1,V2)用電壓表示,加到對應(yīng)的字節(jié)線上.根據(jù)基爾霍夫定律,比特線上最后輸出的電流值就代表了(V I,V2) x (G1,G2)T 的計(jì)算值.同理,擴(kuò)展到右圖的向量乘矩陣操作,ReRAM陣列中存儲著要做計(jì)算的矩陣,將向量轉(zhuǎn)化成電壓加在字節(jié)線上,通過比特線得到的輸出就是相應(yīng)的結(jié)果向量.由于向量乘矩陣操作是神經(jīng)網(wǎng)絡(luò)和圖計(jì)算中的主要操作,這種內(nèi)存計(jì)算結(jié)構(gòu)得到了高效利用。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 基于向量乘矩陣的存內(nèi)計(jì)算代表性工作有: Hewlett Packard Laboratories的DPE, University of Utah的ISAAC,University of Santa Barbara的PRIME,University of Pittsburgh的PipeLayer ,
Tsinghua University的TIME,Tsinghua University的LerGAN, IBM Research的PCM+CMOS存內(nèi)計(jì)算,University of Rochester的SC, Duke University的GraphR。

? ? 下文將綜述這些工作如何支持神經(jīng)網(wǎng)絡(luò)應(yīng)用或圖計(jì)算應(yīng)用,以及其他包含向量乘矩陣的應(yīng)用。

2.1 Hewlett Packard Laboratories的DPE

? ? DPE是一個專門針對向量乘矩陣操作設(shè)計(jì)的存內(nèi)計(jì)算加速器.它提供了一個轉(zhuǎn)化算法,可將實(shí)際的全精度矩陣存儲到精度有限的ReRAM存內(nèi)計(jì)算陣列中,減少器件問題以及外圍電路問題對計(jì)算結(jié)果的影響。圖25是DPE的工作流程,分為3個部分:轉(zhuǎn)換、寫入、計(jì)算。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 首先將矩陣映射到合適的 ReRAM陣列中.這個過程利用了對輸入的預(yù)先了解以及ReRAM陣列參數(shù)共同優(yōu)化來決定最后寫入ReRAM陣列的數(shù)據(jù).而后通過寫入階段,再進(jìn)入計(jì)算階段.計(jì)算階段將預(yù)先準(zhǔn)備好的輸入數(shù)據(jù)轉(zhuǎn)成信號,再傳入ReRAM陣列中并讀取輸出數(shù)據(jù).如果還有其他計(jì)算操作,則將臨時(shí)輸出傳送到下一個ReRAM陣列中;如果沒有,則結(jié)束計(jì)算.D P E 測試結(jié)果顯示,只用4bit 的 DAC/ADC (電信號轉(zhuǎn)模擬信號單元/模擬信號轉(zhuǎn)電信號單元)就能保證計(jì)算結(jié)果沒有精度損失,相比于數(shù)字的ASIC向量乘矩陣加速器,能取得 1000到 10000倍的性能提升。

2.2?University of Utah的ISAAC

? ? ?ISAAC 是一個針對神經(jīng)網(wǎng)絡(luò)推理設(shè)計(jì)的存內(nèi)計(jì)算架構(gòu),圖26是其整體架構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 一個芯片上包含多個存內(nèi)計(jì)算陣列(tile), 它們通過C-m esh的片上網(wǎng)絡(luò)連接,可以互相通信.存內(nèi)計(jì)算陣列里有用于池化層計(jì)算的最大池化單元(Max Pool, MP), 用于激活層計(jì)算的Sigmoid單元,用于數(shù)據(jù)緩存的eDRAM buffer, 用于中間數(shù)據(jù)移位加操作的S + A 單元、用于存放臨時(shí)輸出的輸出數(shù)據(jù)寄存器,以及支持原地向量乘矩陣操作的基礎(chǔ)單元(in-situmultiply accumulate, IMA)。每個IMA中包含4個基于ReRAM陣列的向量乘矩陣單元、電?;マD(zhuǎn)單元(DAC, ADC) 、 輸入寄存器、移位加操作單元,以及輸出寄存器. R eR A M 陣列的個數(shù)和其他電路單元的設(shè)計(jì)考慮了向量乘矩陣的計(jì)算延遲以及片上網(wǎng)絡(luò)的帶寬,充分利用了片上資源.該結(jié)構(gòu)在做推理時(shí),采用了 pipeline的方式將硬件時(shí)分復(fù)用,以加快整個推理的過程.然而,推理過程中會有很多由歸一化操作產(chǎn)生的氣泡,當(dāng)推理任務(wù)松散時(shí),ISAA C的 pipeline效果并不理想.相比于針對神經(jīng)網(wǎng)絡(luò)的加速器DaDianNao, ISA A C有 14.8倍的性能提升和5.5 倍的能耗節(jié)約。

2.3?University of Santa Barbara的PRIME

? ? PRIME也是一個針對神經(jīng)網(wǎng)絡(luò)推理設(shè)計(jì)的存內(nèi)計(jì)算架構(gòu),圖27是其系統(tǒng)結(jié)構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 在一般的加速器結(jié)構(gòu)中,計(jì)算加速單元作為C P U 的協(xié)處理器放在C P U 旁邊,通過總線與主存相連(如 圖 27(a)所示) . 在基于3D堆疊的近數(shù)據(jù)計(jì)算架構(gòu)中,加速單元靠近主存堆疊,并通過總線與CPU相連(如圖 27(b) 所示)。在 P R IM E 中,直接使用ReRAM 單元做計(jì)算。其中,一個ReRAM bank分為3部分:用作存儲的Mem subarrays、用作計(jì)算的FFsubarrays, 以及用作緩存的Buffer subarray。計(jì)算陣列和緩存陣列進(jìn)行數(shù)據(jù)交互,緩存陣列和存儲陣列進(jìn)行數(shù)據(jù)交互.與ISAAC不同的是, PRIME不用片上 eDRAM 作為緩存,也不使用輸入輸出寄存器,而是直接使用ReRAM 陣列作為緩存和存儲。與基于CPU?的神經(jīng)網(wǎng)絡(luò)處理器相比,PRIME能夠取得2360倍的性能提升和895 倍的能耗節(jié)約。

2.4?University of Pittsburgh的PipeLayer

? ? PipeLayer間是一個針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練設(shè)計(jì)的存內(nèi)計(jì)算系統(tǒng)架構(gòu),圖28展示了其訓(xùn)練一個三層神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)流情況。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 其中,圓形圈出的數(shù)據(jù)存在普通ReRAM中,方塊中的數(shù)據(jù)存在基于ReRAM的存內(nèi)計(jì)算陣列中. PipeLayer通過合理地復(fù)制多份權(quán)重?cái)?shù)據(jù)(圖 中 的 A l,A2, A3, A ll,A21,A31, A22, A32)實(shí)現(xiàn)少氣泡的pipeline結(jié)構(gòu),同時(shí)使得反向傳播階段的誤差傳遞和權(quán)值計(jì)算并行,從而提高使用存內(nèi)計(jì)算訓(xùn)練神經(jīng)網(wǎng)絡(luò)的計(jì)算效率。

? ? 實(shí)驗(yàn)顯示,與GPU 系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)相比,PipeLayer有 42 倍的性能提升和7 倍的能耗節(jié)約。

2.5?Tsinghua University的TIME

? ? TIME也是一個針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練的存內(nèi)計(jì)算系統(tǒng)架構(gòu),與 PipeLayer不同的是,為了減少訓(xùn)練時(shí)權(quán)重矩陣更新帶來的高延遲和高能耗的問題,它采取權(quán)重矩陣復(fù)用的方法,而不是將權(quán)重矩陣復(fù)
制多份來保證訓(xùn)練過程的高度并行。同時(shí),TIME還支持增強(qiáng)學(xué)習(xí)的訓(xùn)練。圖2 9 是增強(qiáng)學(xué)習(xí)網(wǎng)絡(luò)的推理和訓(xùn)練過程。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?它擁有兩個網(wǎng)絡(luò),訓(xùn)練過程會產(chǎn)生一個將A網(wǎng)絡(luò)的權(quán)值拷貝到B網(wǎng)絡(luò),而后更新B網(wǎng)絡(luò)的操作(A網(wǎng)絡(luò)的替換B網(wǎng)絡(luò)的TIME通過重用ReRAM陣列網(wǎng)絡(luò)的方式,提出了一個特殊的數(shù)據(jù)映射操作來消除拷貝操作帶來的寫操作開銷。

? ? 實(shí)驗(yàn)結(jié)果顯示,與 ASIC加速器相比,針對有監(jiān)督的神經(jīng)網(wǎng)絡(luò),TIME能取得 5.3倍的能耗節(jié)約;針對強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),TIME能取得126倍的能耗節(jié)約。

2.6?Tsinghua University的LerGAN

? ? LerGAN是一個針對訓(xùn)練對抗生成網(wǎng)絡(luò)(GAN) 設(shè)計(jì)的存內(nèi)計(jì)算系統(tǒng)架構(gòu)。與傳統(tǒng)CNN/DNN不同,對抗生成網(wǎng)絡(luò)有兩個網(wǎng)絡(luò),并且使用跨步卷積代替原來的池化層.上述存內(nèi)計(jì)算系統(tǒng)架構(gòu)直接用于對抗生成網(wǎng)絡(luò)加速難度很大,很多零相關(guān)的操作占據(jù)了大量的存內(nèi)計(jì)算空間,并且復(fù)雜的數(shù)據(jù)流使得存內(nèi)計(jì)算的片上互聯(lián)成為瓶頸?;诖?,LerGAN首先提出了去除零相關(guān)的操作,通過重構(gòu)卷積核以及相應(yīng)的數(shù)據(jù)映射,能夠去除因跨步卷積和外圈補(bǔ)零帶來的零相關(guān)操作。另外,基于GAN訓(xùn)練時(shí)的數(shù)據(jù)流結(jié)構(gòu), LerGAN還提出了一種三層堆疊的存內(nèi)計(jì)算陣列結(jié)構(gòu),分別映射前向傳播層、誤差傳播層,以及權(quán)值計(jì)算層,使 得 G A N 訓(xùn)練的數(shù)據(jù)傳輸路徑變短,且路由變少。為了融合這兩項(xiàng)技術(shù),LerGAN使用內(nèi)存控制器控制數(shù)據(jù)的映射以及相應(yīng)的片上互聯(lián)重配,以使得數(shù)據(jù)傳輸盡可能少且各部分計(jì)算速度盡可能一致。

? ? ?實(shí)驗(yàn)顯示,和針對CNN的存內(nèi)計(jì)算系統(tǒng)相比,LerGAN能取得7.46倍的性能提升和7.68倍的能耗節(jié)約。

2.7? IBM Research的PCM+CMOS存內(nèi)計(jì)算

? ? IBM的研究人員提出了一種用PCM+ CMOS的存儲單元來做存內(nèi)計(jì)算的方法,能在同一個陣列中實(shí)現(xiàn)全連接神經(jīng)網(wǎng)絡(luò)的前向傳播、反向傳播和權(quán)值計(jì)算。圖30是PCM+ CM OS的存內(nèi)計(jì)算結(jié)構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖 30(a) 部分是一個存內(nèi)計(jì)算陣列,包含了多個行。圖30(b) 是其中一個行的結(jié)構(gòu),包含多個存儲單元(圖 30(c))和一個共享電容單元.該結(jié)構(gòu)的特殊之處在于圖30(c) 中的存儲單元,該單元由兩個 PCM cell (G+ 和 G- ) 和一個電容器(g) 組成.其中,PCM單元用來存儲權(quán)值的高位,正值存在G+中,負(fù)值存絕對值在G- 中;電容器單元用來存儲權(quán)值的低位.在訓(xùn)練時(shí),權(quán)值的高位改變少,所以使用壽命短且非易失的PC M 單元來存;相反,頻繁變化的低位就用電容器單元來存。

? ? 圖31展示了使用該結(jié)構(gòu)訓(xùn)練一個全連接神經(jīng)網(wǎng)絡(luò)的過程。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? M層作為輸入首先進(jìn)入存內(nèi)計(jì)算的陣列中(圖 31(b) 左側(cè)兩個陣列),輸出進(jìn)入下一層權(quán)值所存放的陣列中,依此類推(所有實(shí)線箭頭表示前向的數(shù)據(jù)流)。前向傳播完成后,在原地進(jìn)行反向傳播(圖中虛線部分標(biāo)出),不需要轉(zhuǎn)置權(quán)值矩陣。該結(jié)構(gòu)能支持原地的前向反向傳播,但不適用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,而現(xiàn)在大多數(shù)流行的神經(jīng)網(wǎng)絡(luò)都有卷積層的計(jì)算,這是此工作的一個局限。實(shí)驗(yàn)結(jié)果顯示,相比較于GPU,該結(jié)構(gòu)對全連接的網(wǎng)絡(luò)能有兩個數(shù)量級的性能提升,僅伴隨不到1%的精度損失。

2.8?University of Rochester的SC

? ?SC是一個針對科學(xué)計(jì)算提出的存內(nèi)計(jì)算系統(tǒng)架構(gòu).線性代數(shù)在科學(xué)計(jì)算和工程中普遍存在,用專門的硬件加速線性代數(shù)計(jì)算,有助于提高相關(guān)應(yīng)用的運(yùn)行速度,減少能耗。向量乘矩陣就是線性代數(shù)中的一個重要算子。前述存內(nèi)計(jì)算用于加速向量乘矩陣的系統(tǒng)結(jié)構(gòu)有很大的局限性:只支持定點(diǎn)
的低精度計(jì)算,而科學(xué)計(jì)算需要全精度的浮點(diǎn)運(yùn)算支持。SC通過探索指數(shù)分布的局部性,提供基于定點(diǎn)計(jì)算的浮點(diǎn)計(jì)算支持,提出了支持快速低功耗的全精度浮點(diǎn)數(shù)向量乘矩陣的存內(nèi)計(jì)算硬件架構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖32是SC的硬件系統(tǒng)結(jié)構(gòu),由多個ReRAM陣列組成.每個陣列包含多個集群和一個通用處理器,可處理ReRAM陣列不支持的計(jì)算.每個集群中有大小不同的計(jì)算陣列來支持高效的稀疏矩陣計(jì)算。SC結(jié)合了現(xiàn)有的G PU 系統(tǒng)來處理數(shù)據(jù),可廣泛應(yīng)用,相比于純GPU,能夠取得10.3倍的性能提升和10.9倍的能耗節(jié)約。

2.9?Duke University的GraphR

? ? GraphR是一個針對圖計(jì)算提出的存內(nèi)計(jì)算系統(tǒng)架構(gòu). GraphR把一個圖分成多個子圖,探索子圖之間的并行性,以提高性能,并減少因矩陣稀疏性帶來的資源浪費(fèi)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖33 展示了一個子圖在eRAM陣列中做計(jì)算的實(shí)例。該例中,有一個通過4個點(diǎn)和V4 點(diǎn)連接的程序,這4個點(diǎn)的值用于更新V4的 值 (圖 33(a)). GraphR 先把這個計(jì)算轉(zhuǎn)化成圖33(b) 所示的向量乘矩陣操作,其中矩 陣 是V4 的鄰接矩陣,向量是其他點(diǎn)的值,最終計(jì)算得到V4 的更新值.最簡單的方法就是把此圖直接轉(zhuǎn)化為矩陣,映 射 到 ReRAM 陣列中做計(jì)算,但是會造成很大的資源浪費(fèi)。因此,GraphR 用小ReRAM 陣列,例如 4x4 或 8x8 (之前的工作中通常用64x 64 或 128x 128),來組成圖處理引擎(graph-processing engine,GE),處理和掃描每一個子圖。

? ? ?實(shí)驗(yàn)表明,相比于CPU,GraphR能取得16倍的性能提升和34倍的能耗節(jié)約;相比于GPU,有1.69到 2.19倍的性能提升和4.11到 8.91倍的能耗節(jié)約;相比于近數(shù)據(jù)計(jì)算,有1.16到 .12倍的性能提升和3.67到10.96倍的能耗節(jié)約。

3 基于邏輯操作的存內(nèi)計(jì)算

? ? ?基于邏輯操作的存內(nèi)計(jì)算代表工作有: University of California, Santa Barbara的Pinatubo,Delft University of Technology 的 Scouting Logic和 XOR/XNOR存內(nèi)計(jì)算系統(tǒng), University of California,San Diego的MPIM和MAPIM,具體如下.

3.1 University of California, Santa Barbara的Pinatubo

? ? ?Pinatubo是一個針對大量比特位操作的存內(nèi)計(jì)算系統(tǒng)架構(gòu)。圖34 對比了傳統(tǒng)馮.諾依曼系統(tǒng)結(jié)構(gòu) 和Pinatubo的系統(tǒng)結(jié)構(gòu)在執(zhí)行批量比特位操作的過程。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖34(a) 中,CPU 先通過有限的總線資源把內(nèi)存數(shù)據(jù)讀取到cache中,再 用 C P U 中 的 ALU單元對數(shù)據(jù)做計(jì)算,得到結(jié)果后將數(shù)據(jù)通過總線存入到內(nèi)存中 .圖 34(b) 展示 的 是Pinatubo的存內(nèi)計(jì)算操作,C P U 只發(fā)送指令和行地址給內(nèi)存,內(nèi)存直接通過讀操作將兩個參與計(jì)算的行讀取到修改了的讀放大器中,讀放大器可以直接計(jì)算出兩行操作數(shù)的與、或,以及異或的值,然后存放到新的行中.在這個計(jì)算操作中,只有命令和行地址從總線上傳輸,避免了傳統(tǒng)結(jié)構(gòu)中的大量操作數(shù)的傳輸。

? ? 圖35展示了修改后的能支持?jǐn)?shù)據(jù)讀取、與、或,以及異或計(jì)算的讀放大器。NVM 中數(shù)據(jù)讀取的本質(zhì)是讓給定的電流值經(jīng)過要讀取的電阻后,和讀放大器中的己知的阻值作比較來確定是0還是1。基于此原理,Pinatubo同時(shí)讀取兩行或者多行操作數(shù),在讀放大器端加上異或、或 、與的參照電路,通過簡單的讀操作完成比特位邏輯運(yùn)算.每個參照電路都有一個開關(guān),當(dāng)指定操作類型后,相應(yīng)的參照電路將接入放大器中,獲得最終的結(jié)果。實(shí)驗(yàn)結(jié)果顯示,對于大量的比特位邏輯運(yùn)算,Pinatubo能取得 500倍的性能提升和28000倍的能耗節(jié)約;在普通應(yīng)用中,能取得1.12倍的性能提升和1.11倍的能耗節(jié)約。

2.2 Delft University of Technology 的 Scouting Logic

? ? Scouting Logic 指出存內(nèi)計(jì)算受限于NVM 有限的壽命;所有的計(jì)算更新都在N V M 中,缺乏傳統(tǒng)計(jì)算機(jī)中壽命很長的片上緩存來輔助減少對N V M 的寫操作.因此, Scouting Logic提出只通過讀操作執(zhí)行這些邏輯單元,而 不 改 動 NVM 存儲的數(shù)據(jù)值.其核心思想與Pinatubo —致,主要是改動了讀出放大器的設(shè)計(jì),從而占用面積更小,性能更高. M PIM ^ l 為同時(shí)支持邏輯運(yùn)算和搜索操作運(yùn)算 (在 3.2.3小節(jié)中介紹)的存內(nèi)計(jì)算架構(gòu),其中的邏輯運(yùn)算操作原理與Pinatubo相同。實(shí)驗(yàn)顯示,相比于GPU,MPIM能取得19倍的性能提升和5.5倍的能耗節(jié)約。

2.3 Delft University of Technology 的XOR/XNOR存內(nèi)計(jì)算系統(tǒng)

? ? ?Lebdeh等提出了一個針對XOR和 XNOR操作設(shè)計(jì)的存內(nèi)計(jì)算系統(tǒng),該系統(tǒng)基于兩個輸入的混合ReRAM陣 列 和 XNO R門設(shè)計(jì),不需要額 外 的ReRAM 陣列和計(jì)算,能夠取得54%的時(shí)間節(jié)約和56%的能耗節(jié)約。

2.4 University of California,San Diego的MPIM和MAPIM

? ? MAPIM指出之前針對批量位邏輯運(yùn)算的存內(nèi)計(jì)算架構(gòu)沒有考慮并行,使得存內(nèi)計(jì)算未取得潛在的高性能.因此,MAHM提出基于陣列并行的高性能存內(nèi)計(jì)算系統(tǒng)架構(gòu),能夠支持多個比特線的請求,并且共享支持位邏輯運(yùn)算的讀放大器,使得占面積大的讀放大器利用率高,從而提升整體系統(tǒng)結(jié)構(gòu)的性能.與之前的存內(nèi)計(jì)算系統(tǒng)相比,MAPIM 能夠取得16倍的性能提升和1.8倍的能耗節(jié)約。
?

4 基于搜索操作的存內(nèi)計(jì)算

? ? ?基于搜索操作的存內(nèi)計(jì)算代表工作有: University of California, San Diego的 NVALT和
NVQuery, University of California, Irvine的MAP, Tsinghua University的SQL-PIM,具
體如下。

4.1 University of California, San Diego的NVALT

? ? NVALT是一個基于存內(nèi)計(jì)算設(shè)計(jì)的近似查找表,專門用于加速GPU.G P U 的應(yīng)用展現(xiàn)出了非常高的數(shù)據(jù)相似性和局部性,如 FFT (fast fourier transform) 和圖像處理,由重復(fù)的包含很多乘加操作的塊構(gòu)成。NVALT通過探尋這些應(yīng)用的數(shù)據(jù)局部性,對這些基礎(chǔ)應(yīng)用建立高效的近似功能單元,來加速GPU的計(jì)算。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖36是集成有NVALT的 GPU架構(gòu)。NVALT塊放置在每一個單指令多數(shù)據(jù)流 (single instruction multiple data,SIMD) 處理通道的旁邊.當(dāng)應(yīng)用在GPU 上執(zhí)行時(shí),首先經(jīng)過精度核查,精度允許的條件下,調(diào)度器會把指令放到NVALT塊上執(zhí)行. NVALT塊使用線下預(yù)處理的方式,識別并存儲每個程序常用的數(shù)據(jù)輸入模式和對應(yīng)的數(shù)據(jù)輸出模式.運(yùn)行時(shí),NVATL搜索存 儲 在CAM里的輸入數(shù)據(jù),然后返回和輸入模式最相似的條目所對應(yīng)的輸出結(jié)果.系統(tǒng)可根據(jù)用戶的不同精度需求調(diào)度近似的NVALT核和精確的GPU核。

? ? ?實(shí)驗(yàn)顯示,在精度損失控制在10% 之內(nèi)的情況下, NVALT平均能取得4.5倍的能耗節(jié)約和5.7倍的性能提升.

4.2 NVQuery,University of California, Irvine的MAP

? ? ?MAP是一個基于存內(nèi)計(jì)算的近似計(jì)算協(xié)處理器。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖37是MAP的系統(tǒng)結(jié)構(gòu),配備有基于憶阻器的內(nèi)容尋址存儲(resistive content addressable memory,RCAM)、控制器、指令緩存器和一些專用寄存 器 (例如鍵值寄存器、掩碼寄存器、標(biāo)志寄存器).指令所需要的數(shù)據(jù)全部存儲在RCAM中. RCAM用兩個憶阻器cell來存儲一比特位的正負(fù)部分.系統(tǒng)運(yùn)行時(shí),指令寄存器先把指令發(fā)送到控制器,控制器生成相應(yīng)的掩碼和鍵放到寄存器中.鍵寄存器用來存放被寫或者被比較的鍵值,而掩碼寄存器用來顯示哪些比特位在被寫或被比較時(shí)激活.當(dāng)執(zhí)行比較操作時(shí),比較電路找出和給出的鍵以及掩碼相吻合的行,然后做標(biāo)記并存儲到內(nèi)存中。由于高度并行,查找一個512行的表只需大約2 ns。實(shí)驗(yàn)顯示,和傳統(tǒng)的馮.諾依曼架構(gòu)相比,MAP能取得80倍的能耗節(jié)約和20倍的性能提升。

4.3 Tsinghua University的SQL-PIM

? ? Sun等提出了一個針對關(guān)系型數(shù)據(jù)庫的存內(nèi)計(jì)算系統(tǒng)結(jié)構(gòu)(簡 稱 SQL-PIM)。在數(shù)據(jù)庫應(yīng)用里,該結(jié)構(gòu)的存儲部分既支持從表中直接讀行的操作,又可以支持直接讀取列的操作,減少了傳統(tǒng)計(jì)算機(jī)中片上緩存不命中帶來的時(shí)間和能耗的開銷. SQL-PIM實(shí)現(xiàn)了限制查詢語句,規(guī)劃查詢語句和聚合查詢語句.限制查詢語句是找出表中符合給出規(guī)定的一系列數(shù)據(jù),這些規(guī)定可以是數(shù)值邏輯或者是非邏輯的條件語句,通 常 用 W HERE語法來操作;規(guī)劃查詢語句是找出表里含有特定參數(shù)的條目或者特定的列,通 常 用 SELECT語法進(jìn)行操作;聚合查詢語句是對一些給定條件的條目做加操作,通常用類似 SUM 語法來求一系列值的和。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖38展示了一個SQL-PIM 實(shí)現(xiàn)的限制查詢語句的實(shí)例: select * from Table where (a + 3x6)-(c+2xd)?> 10。其中,{a ,b,c,d} 是表中四列數(shù),存儲在ReRAM陣列中{a ,b,c,d} 前面的系數(shù){1,3,-1, 4}以電流方式加到比特線上。最后,結(jié)果電流通過包含存有10的比較電路,輸出 0/1。結(jié)果為1 的,就是符合限制查詢語句的條目。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖39是 SQL-PIM 的結(jié)構(gòu),分為用于存放表格條目的P IM 部分和用于支持比較等操作的外圍電路部分。指令通過控制器后,將相應(yīng)的參數(shù)發(fā)送到這兩個模塊上,然后兩個模塊通過共享的緩存進(jìn)行中間結(jié)果的傳輸.最后,結(jié)果寫回到ReRAM中.除此之外,SQL-PIM 還能在不改變結(jié)構(gòu)化存儲的前提下支持增、刪 、改、查操作.針對大的數(shù)據(jù)庫表,SQL-PIM提出了一個特殊關(guān)聯(lián)分割的方法,將大表存儲在多個存內(nèi)計(jì)算陣列中,同時(shí)減少每個計(jì)算陣列之間的相互通信.實(shí)驗(yàn)顯示,與傳統(tǒng)的內(nèi)存數(shù)據(jù)庫相比,SQL-PIM能 節(jié) 約 4? 6 個數(shù)量級的能耗。

? ? NVQuery也是利用RCAM支持多種查詢語句的存內(nèi)計(jì)算加速器,其系統(tǒng)結(jié)構(gòu)和MAP相像。NVQuery能夠支持聚合、預(yù)測、按位操作,以及精確的最近距離查找.為了支持最近距離查找,
NVQuery提出了比特線驅(qū)動的策略,將權(quán)重加到相應(yīng)的比特位上.實(shí)驗(yàn)顯示,與傳統(tǒng)的馮?諾依曼系
統(tǒng)結(jié)構(gòu)相比,NVQuery帶 來 49.3倍的性能提升和32.9倍的能耗節(jié)約。
?

5 總結(jié)

? ? 存內(nèi)計(jì)算支持的算子較少,設(shè)計(jì)靈活度不如近數(shù)據(jù)計(jì)算的邏輯層,但是存內(nèi)計(jì)算用于支持特定算
子 (目前主要是向量乘矩陣算子)的性能很高且能耗低.存內(nèi)計(jì)算的核心思路是利用新型存儲的物理結(jié)構(gòu)和特性來支持應(yīng)用程序中頻繁出現(xiàn)的算子.同時(shí),存內(nèi)計(jì)算相關(guān)研究還關(guān)注:存內(nèi)計(jì)算模塊互聯(lián)和數(shù)據(jù)流的設(shè)計(jì);數(shù)據(jù)映射策略:外圍電路的優(yōu)化和復(fù)用;與現(xiàn)有存儲系統(tǒng)的融合。
?文章來源地址http://www.zghlxwxcb.cn/news/detail-835666.html

到了這里,關(guān)于存內(nèi)計(jì)算的主流技術(shù)方案的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【重識云原生】計(jì)算第2.4節(jié)——主流虛擬化技術(shù)之KVM

    【重識云原生】計(jì)算第2.4節(jié)——主流虛擬化技術(shù)之KVM

    ?《重識云原生系列》專題索引:??? 第一章——不謀全局不足以謀一域 第二章計(jì)算第1節(jié)——計(jì)算虛擬化技術(shù)總述 第二章計(jì)算第2節(jié)——主流虛擬化技術(shù)之VMare ESXi 第二章計(jì)算第3節(jié)——主流虛擬化技術(shù)之Xen 第二章計(jì)算第4節(jié)——主流虛擬化技術(shù)之KVM 第二章計(jì)算第5節(jié)——商用

    2024年02月06日
    瀏覽(23)
  • 【基于存內(nèi)計(jì)算芯片開發(fā)板驗(yàn)證語音識別】訓(xùn)練手冊

    【基于存內(nèi)計(jì)算芯片開發(fā)板驗(yàn)證語音識別】訓(xùn)練手冊

    模塊?:軟件包下載及環(huán)境搭建 步驟一:搭建docker、mappper環(huán)境: ①Linux下通過Docker直接下載,獲取指令: docker pull witin/toolchain:v001.000.034 ②Window環(huán)境,可以通過docker desktop來使用docker: 下載安裝Docker desktop(win10或以上): 通常需要更新WSL,下載鏈接如下,更新后需要重啟生效

    2024年02月04日
    瀏覽(17)
  • 數(shù)據(jù)庫工程師基礎(chǔ)學(xué)習(xí)13,14,15----云計(jì)算,數(shù)據(jù)庫主流應(yīng)用技術(shù),專利

    數(shù)據(jù)庫工程師基礎(chǔ)學(xué)習(xí)13,14,15----云計(jì)算,數(shù)據(jù)庫主流應(yīng)用技術(shù),專利

    1,云計(jì)算與大數(shù)據(jù)處理 這里的是:按需訪問,資源池模型.可用來申請服務(wù)器,網(wǎng)絡(luò)等.無限擴(kuò)展的存儲. 這里公有云與私有云對應(yīng),一個面向大眾,一個面向私人. 社區(qū)云,如學(xué)校網(wǎng),只提供給特定組織使用. 這里主要是:云計(jì)算開發(fā)商提供的東西不同. 1)主要是基礎(chǔ)設(shè)施提供 2)主要

    2024年02月05日
    瀏覽(28)
  • 【HCIA-cloud】【2】華為云FusionSphere介紹、虛擬化介紹【云計(jì)算主流技術(shù)】、容器介紹

    【HCIA-cloud】【2】華為云FusionSphere介紹、虛擬化介紹【云計(jì)算主流技術(shù)】、容器介紹

    本章介紹了服務(wù)器虛擬化、運(yùn)數(shù)據(jù)中心、桌面云、公有云等解決方案的架構(gòu)與特點(diǎn)。 描述服務(wù)器虛擬化、云數(shù)據(jù)中心、桌面云、公有云等華為云計(jì)算解決方案的架構(gòu)及特點(diǎn)。 區(qū)分不同華為云計(jì)算解決方案的應(yīng)用場景。 主要以了解為主~~~~ FusionCompute是華為公司虛擬化軟件,用

    2023年04月19日
    瀏覽(30)
  • 阿里云|人工智能(AI)技術(shù)解決方案

    阿里云|人工智能(AI)技術(shù)解決方案

    函數(shù)計(jì)算部署Stable Diffusion AI繪畫技術(shù)解決方案 通過函數(shù)計(jì)算快速部署Stable Diffusion模型為用戶提供快速通過文字生成圖片的能力。該方案通過函數(shù)計(jì)算快速搭建了AIGC的能力,無需管理服務(wù)器等基礎(chǔ)設(shè)施,專注模型的能力即可。該方案具有高效免運(yùn)維、彈性高可用、按需低成本

    2024年02月02日
    瀏覽(26)
  • 視頻監(jiān)控方案設(shè)計(jì):EasyCVR視頻智能監(jiān)管系統(tǒng)方案技術(shù)特點(diǎn)與應(yīng)用

    視頻監(jiān)控方案設(shè)計(jì):EasyCVR視頻智能監(jiān)管系統(tǒng)方案技術(shù)特點(diǎn)與應(yīng)用

    隨著科技的發(fā)展,視頻監(jiān)控平臺在各個領(lǐng)域的應(yīng)用越來越廣泛。然而,當(dāng)前的視頻監(jiān)控平臺仍存在一些問題,如視頻質(zhì)量不高、監(jiān)控范圍有限、智能化程度不夠等。這些問題不僅影響了監(jiān)控效果,也制約了視頻監(jiān)控平臺的發(fā)展。 為了解決這些問題,TSINGSEE青犀推出的視頻匯聚

    2024年02月21日
    瀏覽(26)
  • 【方案】基于視頻與AI智能分析技術(shù)的城市軌道交通視頻監(jiān)控建設(shè)方案

    【方案】基于視頻與AI智能分析技術(shù)的城市軌道交通視頻監(jiān)控建設(shè)方案

    地鐵作為重要的公共場所交通樞紐,流動性非常高、人員大量聚集,軌道交通需要利用視頻監(jiān)控系統(tǒng)來實(shí)現(xiàn)全程、全方位的安全防范,這也是保證地鐵行車組織和安全的重要手段。調(diào)度員和車站值班員通過系統(tǒng)監(jiān)管列車運(yùn)行、客流情況、變電所設(shè)備室設(shè)備運(yùn)行情況,提高行車

    2024年02月10日
    瀏覽(36)
  • 智能分析網(wǎng)關(guān)V4基于AI視頻智能分析技術(shù)的周界安全防范方案

    智能分析網(wǎng)關(guān)V4基于AI視頻智能分析技術(shù)的周界安全防范方案

    隨著科技的不斷進(jìn)步,AI視頻智能檢測技術(shù)已經(jīng)成為周界安全防范的一種重要手段。A智能分析網(wǎng)關(guān)V4基于深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù),可以通過多種AI周界防范算法,實(shí)時(shí)、精準(zhǔn)地監(jiān)測人員入侵行為,及時(shí)發(fā)現(xiàn)異常情況并發(fā)出警報(bào),保障周界安全。 智能分析網(wǎng)關(guān)V4內(nèi)置了近40種

    2024年01月20日
    瀏覽(26)
  • 邊緣計(jì)算那些事兒—邊緣智能技術(shù)

    邊緣計(jì)算那些事兒—邊緣智能技術(shù)

    ? ? ? ? 邊緣智能是邊緣計(jì)算中一個非常重要的方向。它將邊緣計(jì)算和人工智能算法結(jié)合起來,在邊緣設(shè)備上就近處理目標(biāo)檢測、物體跟蹤,識別等任務(wù)。這種處理方式可以降低時(shí)延,減少數(shù)據(jù)上送云端對回傳網(wǎng)絡(luò)的沖擊,同時(shí)保證數(shù)據(jù)的隱私和安全性。但是,我們要面對一

    2023年04月22日
    瀏覽(22)
  • 【人工智能】自然語言轉(zhuǎn)換成 DSL的技術(shù)方案

    在本文中,我們將探討將自然語言轉(zhuǎn)換為領(lǐng)域特定語言(DSL)的三種可行技術(shù)方案。我們將分析這些技術(shù)方案的原理,以及提供一些代碼實(shí)例。 基于規(guī)則的

    2024年02月08日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包