国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<kbd id="qxqck"><track id="qxqck"><strong id="qxqck"></strong></track></kbd>

<label id="qxqck"></label>

<pre id="qxqck"><xmp id="qxqck"><kbd id="qxqck"></kbd>

<span id="qxqck"></span>

存內(nèi)計(jì)算的主流技術(shù)方案

2年前作者：YoungerChina分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了存內(nèi)計(jì)算的主流技術(shù)方案。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1 概述

? ? ?和近數(shù)據(jù)計(jì)算不同，存內(nèi)計(jì)算直接使用內(nèi)存單元做計(jì)算，主要利用電阻和電流電壓的物理關(guān)系表達(dá)運(yùn)算過程。存內(nèi)計(jì)算依賴于新型的非易失性存儲器，如 ReRAM和 PCM 等。在所有存內(nèi)計(jì)算操作中，最普遍的是利用基爾霍夫定律（Kirchoff’sLaw) 進(jìn)行向量乘矩陣操作。原因在于：

（1）它能夠高效地將計(jì)算和存儲緊密結(jié)合；

（2）它的計(jì)算效率高（即，在一個讀操作延遲內(nèi)能完成一次向量乘矩陣)；

（3）目前流行的數(shù)據(jù)密集型應(yīng)用中，如機(jī)器學(xué)習(xí)應(yīng)用和圖計(jì)算應(yīng)用，向量乘矩陣的計(jì)算占了總計(jì)算量的90%以上。

? ?除了向量乘矩陣操作，存內(nèi)計(jì)算還能利用電阻、電流及電壓的物理關(guān)系實(shí)現(xiàn)查詢，按比特與/或/非等操作。

2 基于向量乘矩陣的存內(nèi)計(jì)算

? ? ?圖24是存內(nèi)計(jì)算支持向量乘矩陣的最基本單元，展示了存內(nèi)計(jì)算使用基爾霍夫定律，在將近一個讀操作延遲內(nèi)完成一次向量乘矩陣操作的過程.左圖中計(jì)算的是一個2x1 的向量（V1，V2)乘以一個1x2的向量（G1,G2)?,其中（G1,G2)用ReRAM阻值表示，事先存在ReRAM中，（V1，V2)用電壓表示，加到對應(yīng)的字節(jié)線上.根據(jù)基爾霍夫定律，比特線上最后輸出的電流值就代表了（V I，V2) x (G1，G2)T 的計(jì)算值.同理，擴(kuò)展到右圖的向量乘矩陣操作，ReRAM陣列中存儲著要做計(jì)算的矩陣，將向量轉(zhuǎn)化成電壓加在字節(jié)線上，通過比特線得到的輸出就是相應(yīng)的結(jié)果向量.由于向量乘矩陣操作是神經(jīng)網(wǎng)絡(luò)和圖計(jì)算中的主要操作，這種內(nèi)存計(jì)算結(jié)構(gòu)得到了高效利用。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 基于向量乘矩陣的存內(nèi)計(jì)算代表性工作有： Hewlett Packard Laboratories的DPE， University of Utah的ISAAC，University of Santa Barbara的PRIME，University of Pittsburgh的PipeLayer ，
Tsinghua University的TIME，Tsinghua University的LerGAN， IBM Research的PCM+CMOS存內(nèi)計(jì)算，University of Rochester的SC， Duke University的GraphR。

? ? 下文將綜述這些工作如何支持神經(jīng)網(wǎng)絡(luò)應(yīng)用或圖計(jì)算應(yīng)用，以及其他包含向量乘矩陣的應(yīng)用。

2.1 Hewlett Packard Laboratories的DPE

? ? DPE是一個專門針對向量乘矩陣操作設(shè)計(jì)的存內(nèi)計(jì)算加速器.它提供了一個轉(zhuǎn)化算法，可將實(shí)際的全精度矩陣存儲到精度有限的ReRAM存內(nèi)計(jì)算陣列中，減少器件問題以及外圍電路問題對計(jì)算結(jié)果的影響。圖25是DPE的工作流程，分為3個部分：轉(zhuǎn)換、寫入、計(jì)算。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 首先將矩陣映射到合適的 ReRAM陣列中.這個過程利用了對輸入的預(yù)先了解以及ReRAM陣列參數(shù)共同優(yōu)化來決定最后寫入ReRAM陣列的數(shù)據(jù).而后通過寫入階段，再進(jìn)入計(jì)算階段.計(jì)算階段將預(yù)先準(zhǔn)備好的輸入數(shù)據(jù)轉(zhuǎn)成信號，再傳入ReRAM陣列中并讀取輸出數(shù)據(jù).如果還有其他計(jì)算操作，則將臨時(shí)輸出傳送到下一個ReRAM陣列中；如果沒有，則結(jié)束計(jì)算.D P E 測試結(jié)果顯示，只用4bit 的 DAC/ADC (電信號轉(zhuǎn)模擬信號單元/模擬信號轉(zhuǎn)電信號單元）就能保證計(jì)算結(jié)果沒有精度損失，相比于數(shù)字的ASIC向量乘矩陣加速器，能取得 1000到 10000倍的性能提升。

2.2?University of Utah的ISAAC

? ? ?ISAAC 是一個針對神經(jīng)網(wǎng)絡(luò)推理設(shè)計(jì)的存內(nèi)計(jì)算架構(gòu)，圖26是其整體架構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 一個芯片上包含多個存內(nèi)計(jì)算陣列（tile)，它們通過C-m esh的片上網(wǎng)絡(luò)連接,可以互相通信.存內(nèi)計(jì)算陣列里有用于池化層計(jì)算的最大池化單元（Max Pool, MP)，用于激活層計(jì)算的Sigmoid單元，用于數(shù)據(jù)緩存的eDRAM buffer，用于中間數(shù)據(jù)移位加操作的S + A 單元、用于存放臨時(shí)輸出的輸出數(shù)據(jù)寄存器，以及支持原地向量乘矩陣操作的基礎(chǔ)單元（in-situmultiply accumulate, IMA)。每個IMA中包含4個基于ReRAM陣列的向量乘矩陣單元、電?；マD(zhuǎn)單元（DAC， ADC) 、輸入寄存器、移位加操作單元，以及輸出寄存器. R eR A M 陣列的個數(shù)和其他電路單元的設(shè)計(jì)考慮了向量乘矩陣的計(jì)算延遲以及片上網(wǎng)絡(luò)的帶寬，充分利用了片上資源.該結(jié)構(gòu)在做推理時(shí)，采用了 pipeline的方式將硬件時(shí)分復(fù)用，以加快整個推理的過程.然而，推理過程中會有很多由歸一化操作產(chǎn)生的氣泡，當(dāng)推理任務(wù)松散時(shí)，ISAA C的 pipeline效果并不理想.相比于針對神經(jīng)網(wǎng)絡(luò)的加速器DaDianNao, ISA A C有 14.8倍的性能提升和5.5 倍的能耗節(jié)約。

2.3?University of Santa Barbara的PRIME

? ? PRIME也是一個針對神經(jīng)網(wǎng)絡(luò)推理設(shè)計(jì)的存內(nèi)計(jì)算架構(gòu)，圖27是其系統(tǒng)結(jié)構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 在一般的加速器結(jié)構(gòu)中，計(jì)算加速單元作為C P U 的協(xié)處理器放在C P U 旁邊，通過總線與主存相連（如圖 27(a)所示) . 在基于3D堆疊的近數(shù)據(jù)計(jì)算架構(gòu)中，加速單元靠近主存堆疊，并通過總線與CPU相連（如圖 27(b) 所示)。在 P R IM E 中，直接使用ReRAM 單元做計(jì)算。其中，一個ReRAM bank分為3部分：用作存儲的Mem subarrays、用作計(jì)算的FFsubarrays, 以及用作緩存的Buffer subarray。計(jì)算陣列和緩存陣列進(jìn)行數(shù)據(jù)交互，緩存陣列和存儲陣列進(jìn)行數(shù)據(jù)交互.與ISAAC不同的是， PRIME不用片上 eDRAM 作為緩存，也不使用輸入輸出寄存器，而是直接使用ReRAM 陣列作為緩存和存儲。與基于CPU?的神經(jīng)網(wǎng)絡(luò)處理器相比，PRIME能夠取得2360倍的性能提升和895 倍的能耗節(jié)約。

2.4?University of Pittsburgh的PipeLayer

? ? PipeLayer間是一個針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練設(shè)計(jì)的存內(nèi)計(jì)算系統(tǒng)架構(gòu)，圖28展示了其訓(xùn)練一個三層神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)流情況。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 其中，圓形圈出的數(shù)據(jù)存在普通ReRAM中，方塊中的數(shù)據(jù)存在基于ReRAM的存內(nèi)計(jì)算陣列中. PipeLayer通過合理地復(fù)制多份權(quán)重?cái)?shù)據(jù)（圖中的 A l，A2, A3, A ll,A21，A31, A22, A32)實(shí)現(xiàn)少氣泡的pipeline結(jié)構(gòu)，同時(shí)使得反向傳播階段的誤差傳遞和權(quán)值計(jì)算并行，從而提高使用存內(nèi)計(jì)算訓(xùn)練神經(jīng)網(wǎng)絡(luò)的計(jì)算效率。

? ? 實(shí)驗(yàn)顯示，與GPU 系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)相比，PipeLayer有 42 倍的性能提升和7 倍的能耗節(jié)約。

2.5?Tsinghua University的TIME

? ? TIME也是一個針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練的存內(nèi)計(jì)算系統(tǒng)架構(gòu)，與 PipeLayer不同的是，為了減少訓(xùn)練時(shí)權(quán)重矩陣更新帶來的高延遲和高能耗的問題，它采取權(quán)重矩陣復(fù)用的方法，而不是將權(quán)重矩陣復(fù)
制多份來保證訓(xùn)練過程的高度并行。同時(shí)，TIME還支持增強(qiáng)學(xué)習(xí)的訓(xùn)練。圖2 9 是增強(qiáng)學(xué)習(xí)網(wǎng)絡(luò)的推理和訓(xùn)練過程。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?它擁有兩個網(wǎng)絡(luò)，訓(xùn)練過程會產(chǎn)生一個將A網(wǎng)絡(luò)的權(quán)值拷貝到B網(wǎng)絡(luò)，而后更新B網(wǎng)絡(luò)的操作（A網(wǎng)絡(luò)的替換B網(wǎng)絡(luò)的TIME通過重用ReRAM陣列網(wǎng)絡(luò)的方式，提出了一個特殊的數(shù)據(jù)映射操作來消除拷貝操作帶來的寫操作開銷。

? ? 實(shí)驗(yàn)結(jié)果顯示，與 ASIC加速器相比，針對有監(jiān)督的神經(jīng)網(wǎng)絡(luò)，TIME能取得 5.3倍的能耗節(jié)約；針對強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)，TIME能取得126倍的能耗節(jié)約。

2.6?Tsinghua University的LerGAN

? ? LerGAN是一個針對訓(xùn)練對抗生成網(wǎng)絡(luò)（GAN) 設(shè)計(jì)的存內(nèi)計(jì)算系統(tǒng)架構(gòu)。與傳統(tǒng)CNN/DNN不同，對抗生成網(wǎng)絡(luò)有兩個網(wǎng)絡(luò)，并且使用跨步卷積代替原來的池化層.上述存內(nèi)計(jì)算系統(tǒng)架構(gòu)直接用于對抗生成網(wǎng)絡(luò)加速難度很大，很多零相關(guān)的操作占據(jù)了大量的存內(nèi)計(jì)算空間，并且復(fù)雜的數(shù)據(jù)流使得存內(nèi)計(jì)算的片上互聯(lián)成為瓶頸?；诖?，LerGAN首先提出了去除零相關(guān)的操作，通過重構(gòu)卷積核以及相應(yīng)的數(shù)據(jù)映射，能夠去除因跨步卷積和外圈補(bǔ)零帶來的零相關(guān)操作。另外，基于GAN訓(xùn)練時(shí)的數(shù)據(jù)流結(jié)構(gòu)， LerGAN還提出了一種三層堆疊的存內(nèi)計(jì)算陣列結(jié)構(gòu)，分別映射前向傳播層、誤差傳播層，以及權(quán)值計(jì)算層，使得 G A N 訓(xùn)練的數(shù)據(jù)傳輸路徑變短，且路由變少。為了融合這兩項(xiàng)技術(shù)，LerGAN使用內(nèi)存控制器控制數(shù)據(jù)的映射以及相應(yīng)的片上互聯(lián)重配，以使得數(shù)據(jù)傳輸盡可能少且各部分計(jì)算速度盡可能一致。

? ? ?實(shí)驗(yàn)顯示，和針對CNN的存內(nèi)計(jì)算系統(tǒng)相比，LerGAN能取得7.46倍的性能提升和7.68倍的能耗節(jié)約。

2.7? IBM Research的PCM+CMOS存內(nèi)計(jì)算

? ? IBM的研究人員提出了一種用PCM+ CMOS的存儲單元來做存內(nèi)計(jì)算的方法，能在同一個陣列中實(shí)現(xiàn)全連接神經(jīng)網(wǎng)絡(luò)的前向傳播、反向傳播和權(quán)值計(jì)算。圖30是PCM+ CM OS的存內(nèi)計(jì)算結(jié)構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖 30(a) 部分是一個存內(nèi)計(jì)算陣列，包含了多個行。圖30(b) 是其中一個行的結(jié)構(gòu)，包含多個存儲單元（圖 30(c))和一個共享電容單元.該結(jié)構(gòu)的特殊之處在于圖30(c) 中的存儲單元，該單元由兩個 PCM cell (G+ 和 G- ) 和一個電容器（g) 組成.其中，PCM單元用來存儲權(quán)值的高位，正值存在G+中，負(fù)值存絕對值在G- 中；電容器單元用來存儲權(quán)值的低位.在訓(xùn)練時(shí)，權(quán)值的高位改變少，所以使用壽命短且非易失的PC M 單元來存；相反，頻繁變化的低位就用電容器單元來存。

? ? 圖31展示了使用該結(jié)構(gòu)訓(xùn)練一個全連接神經(jīng)網(wǎng)絡(luò)的過程。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? M層作為輸入首先進(jìn)入存內(nèi)計(jì)算的陣列中（圖 31(b) 左側(cè)兩個陣列)，輸出進(jìn)入下一層權(quán)值所存放的陣列中，依此類推（所有實(shí)線箭頭表示前向的數(shù)據(jù)流)。前向傳播完成后，在原地進(jìn)行反向傳播（圖中虛線部分標(biāo)出)，不需要轉(zhuǎn)置權(quán)值矩陣。該結(jié)構(gòu)能支持原地的前向反向傳播，但不適用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，而現(xiàn)在大多數(shù)流行的神經(jīng)網(wǎng)絡(luò)都有卷積層的計(jì)算，這是此工作的一個局限。實(shí)驗(yàn)結(jié)果顯示，相比較于GPU，該結(jié)構(gòu)對全連接的網(wǎng)絡(luò)能有兩個數(shù)量級的性能提升，僅伴隨不到1%的精度損失。

2.8?University of Rochester的SC

? ?SC是一個針對科學(xué)計(jì)算提出的存內(nèi)計(jì)算系統(tǒng)架構(gòu).線性代數(shù)在科學(xué)計(jì)算和工程中普遍存在，用專門的硬件加速線性代數(shù)計(jì)算，有助于提高相關(guān)應(yīng)用的運(yùn)行速度，減少能耗。向量乘矩陣就是線性代數(shù)中的一個重要算子。前述存內(nèi)計(jì)算用于加速向量乘矩陣的系統(tǒng)結(jié)構(gòu)有很大的局限性：只支持定點(diǎn)
的低精度計(jì)算，而科學(xué)計(jì)算需要全精度的浮點(diǎn)運(yùn)算支持。SC通過探索指數(shù)分布的局部性，提供基于定點(diǎn)計(jì)算的浮點(diǎn)計(jì)算支持，提出了支持快速低功耗的全精度浮點(diǎn)數(shù)向量乘矩陣的存內(nèi)計(jì)算硬件架構(gòu)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖32是SC的硬件系統(tǒng)結(jié)構(gòu)，由多個ReRAM陣列組成.每個陣列包含多個集群和一個通用處理器，可處理ReRAM陣列不支持的計(jì)算.每個集群中有大小不同的計(jì)算陣列來支持高效的稀疏矩陣計(jì)算。SC結(jié)合了現(xiàn)有的G PU 系統(tǒng)來處理數(shù)據(jù)，可廣泛應(yīng)用，相比于純GPU，能夠取得10.3倍的性能提升和10.9倍的能耗節(jié)約。

2.9?Duke University的GraphR

? ? GraphR是一個針對圖計(jì)算提出的存內(nèi)計(jì)算系統(tǒng)架構(gòu). GraphR把一個圖分成多個子圖，探索子圖之間的并行性，以提高性能，并減少因矩陣稀疏性帶來的資源浪費(fèi)。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖33 展示了一個子圖在eRAM陣列中做計(jì)算的實(shí)例。該例中，有一個通過4個點(diǎn)和V4 點(diǎn)連接的程序，這4個點(diǎn)的值用于更新V4的值（圖 33(a)). GraphR 先把這個計(jì)算轉(zhuǎn)化成圖33(b) 所示的向量乘矩陣操作，其中矩陣是V4 的鄰接矩陣，向量是其他點(diǎn)的值，最終計(jì)算得到V4 的更新值.最簡單的方法就是把此圖直接轉(zhuǎn)化為矩陣，映射到 ReRAM 陣列中做計(jì)算，但是會造成很大的資源浪費(fèi)。因此，GraphR 用小ReRAM 陣列，例如 4x4 或 8x8 (之前的工作中通常用64x 64 或 128x 128),來組成圖處理引擎（graph-processing engine,GE)，處理和掃描每一個子圖。

? ? ?實(shí)驗(yàn)表明，相比于CPU，GraphR能取得16倍的性能提升和34倍的能耗節(jié)約；相比于GPU，有1.69到 2.19倍的性能提升和4.11到 8.91倍的能耗節(jié)約；相比于近數(shù)據(jù)計(jì)算，有1.16到 .12倍的性能提升和3.67到10.96倍的能耗節(jié)約。

3 基于邏輯操作的存內(nèi)計(jì)算

? ? ?基于邏輯操作的存內(nèi)計(jì)算代表工作有： University of California, Santa Barbara的Pinatubo，Delft University of Technology 的 Scouting Logic和 XOR/XNOR存內(nèi)計(jì)算系統(tǒng)， University of California，San Diego的MPIM和MAPIM，具體如下.

3.1 University of California, Santa Barbara的Pinatubo

? ? ?Pinatubo是一個針對大量比特位操作的存內(nèi)計(jì)算系統(tǒng)架構(gòu)。圖34 對比了傳統(tǒng)馮.諾依曼系統(tǒng)結(jié)構(gòu) 和Pinatubo的系統(tǒng)結(jié)構(gòu)在執(zhí)行批量比特位操作的過程。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖34(a) 中，CPU 先通過有限的總線資源把內(nèi)存數(shù)據(jù)讀取到cache中，再用 C P U 中的 ALU單元對數(shù)據(jù)做計(jì)算，得到結(jié)果后將數(shù)據(jù)通過總線存入到內(nèi)存中 .圖 34(b) 展示的是Pinatubo的存內(nèi)計(jì)算操作，C P U 只發(fā)送指令和行地址給內(nèi)存，內(nèi)存直接通過讀操作將兩個參與計(jì)算的行讀取到修改了的讀放大器中，讀放大器可以直接計(jì)算出兩行操作數(shù)的與、或，以及異或的值，然后存放到新的行中.在這個計(jì)算操作中，只有命令和行地址從總線上傳輸，避免了傳統(tǒng)結(jié)構(gòu)中的大量操作數(shù)的傳輸。

? ? 圖35展示了修改后的能支持?jǐn)?shù)據(jù)讀取、與、或，以及異或計(jì)算的讀放大器。NVM 中數(shù)據(jù)讀取的本質(zhì)是讓給定的電流值經(jīng)過要讀取的電阻后，和讀放大器中的己知的阻值作比較來確定是0還是1。基于此原理，Pinatubo同時(shí)讀取兩行或者多行操作數(shù)，在讀放大器端加上異或、或、與的參照電路，通過簡單的讀操作完成比特位邏輯運(yùn)算.每個參照電路都有一個開關(guān)，當(dāng)指定操作類型后，相應(yīng)的參照電路將接入放大器中，獲得最終的結(jié)果。實(shí)驗(yàn)結(jié)果顯示，對于大量的比特位邏輯運(yùn)算，Pinatubo能取得 500倍的性能提升和28000倍的能耗節(jié)約；在普通應(yīng)用中，能取得1.12倍的性能提升和1.11倍的能耗節(jié)約。

2.2 Delft University of Technology 的 Scouting Logic

? ? Scouting Logic 指出存內(nèi)計(jì)算受限于NVM 有限的壽命；所有的計(jì)算更新都在N V M 中，缺乏傳統(tǒng)計(jì)算機(jī)中壽命很長的片上緩存來輔助減少對N V M 的寫操作.因此， Scouting Logic提出只通過讀操作執(zhí)行這些邏輯單元，而不改動 NVM 存儲的數(shù)據(jù)值.其核心思想與Pinatubo —致，主要是改動了讀出放大器的設(shè)計(jì)，從而占用面積更小，性能更高. M PIM ^ l 為同時(shí)支持邏輯運(yùn)算和搜索操作運(yùn)算（在 3.2.3小節(jié)中介紹）的存內(nèi)計(jì)算架構(gòu)，其中的邏輯運(yùn)算操作原理與Pinatubo相同。實(shí)驗(yàn)顯示，相比于GPU,MPIM能取得19倍的性能提升和5.5倍的能耗節(jié)約。

2.3 Delft University of Technology 的XOR/XNOR存內(nèi)計(jì)算系統(tǒng)

? ? ?Lebdeh等提出了一個針對XOR和 XNOR操作設(shè)計(jì)的存內(nèi)計(jì)算系統(tǒng)，該系統(tǒng)基于兩個輸入的混合ReRAM陣列和 XNO R門設(shè)計(jì)，不需要額外的ReRAM 陣列和計(jì)算，能夠取得54%的時(shí)間節(jié)約和56%的能耗節(jié)約。

2.4 University of California，San Diego的MPIM和MAPIM

? ? MAPIM指出之前針對批量位邏輯運(yùn)算的存內(nèi)計(jì)算架構(gòu)沒有考慮并行，使得存內(nèi)計(jì)算未取得潛在的高性能.因此，MAHM提出基于陣列并行的高性能存內(nèi)計(jì)算系統(tǒng)架構(gòu)，能夠支持多個比特線的請求，并且共享支持位邏輯運(yùn)算的讀放大器，使得占面積大的讀放大器利用率高，從而提升整體系統(tǒng)結(jié)構(gòu)的性能.與之前的存內(nèi)計(jì)算系統(tǒng)相比，MAPIM 能夠取得16倍的性能提升和1.8倍的能耗節(jié)約。
?

4 基于搜索操作的存內(nèi)計(jì)算

? ? ?基于搜索操作的存內(nèi)計(jì)算代表工作有： University of California, San Diego的 NVALT和
NVQuery， University of California, Irvine的MAP， Tsinghua University的SQL-PIM，具
體如下。

4.1 University of California, San Diego的NVALT

? ? NVALT是一個基于存內(nèi)計(jì)算設(shè)計(jì)的近似查找表，專門用于加速GPU.G P U 的應(yīng)用展現(xiàn)出了非常高的數(shù)據(jù)相似性和局部性，如 FFT (fast fourier transform) 和圖像處理，由重復(fù)的包含很多乘加操作的塊構(gòu)成。NVALT通過探尋這些應(yīng)用的數(shù)據(jù)局部性，對這些基礎(chǔ)應(yīng)用建立高效的近似功能單元，來加速GPU的計(jì)算。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? ?圖36是集成有NVALT的 GPU架構(gòu)。NVALT塊放置在每一個單指令多數(shù)據(jù)流（single instruction multiple data,SIMD) 處理通道的旁邊.當(dāng)應(yīng)用在GPU 上執(zhí)行時(shí)，首先經(jīng)過精度核查，精度允許的條件下，調(diào)度器會把指令放到NVALT塊上執(zhí)行. NVALT塊使用線下預(yù)處理的方式，識別并存儲每個程序常用的數(shù)據(jù)輸入模式和對應(yīng)的數(shù)據(jù)輸出模式.運(yùn)行時(shí)，NVATL搜索存儲在CAM里的輸入數(shù)據(jù)，然后返回和輸入模式最相似的條目所對應(yīng)的輸出結(jié)果.系統(tǒng)可根據(jù)用戶的不同精度需求調(diào)度近似的NVALT核和精確的GPU核。

? ? ?實(shí)驗(yàn)顯示，在精度損失控制在10% 之內(nèi)的情況下， NVALT平均能取得4.5倍的能耗節(jié)約和5.7倍的性能提升.

4.2 NVQuery，University of California, Irvine的MAP

? ? ?MAP是一個基于存內(nèi)計(jì)算的近似計(jì)算協(xié)處理器。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖37是MAP的系統(tǒng)結(jié)構(gòu)，配備有基于憶阻器的內(nèi)容尋址存儲（resistive content addressable memory，RCAM)、控制器、指令緩存器和一些專用寄存器（例如鍵值寄存器、掩碼寄存器、標(biāo)志寄存器).指令所需要的數(shù)據(jù)全部存儲在RCAM中. RCAM用兩個憶阻器cell來存儲一比特位的正負(fù)部分.系統(tǒng)運(yùn)行時(shí)，指令寄存器先把指令發(fā)送到控制器，控制器生成相應(yīng)的掩碼和鍵放到寄存器中.鍵寄存器用來存放被寫或者被比較的鍵值，而掩碼寄存器用來顯示哪些比特位在被寫或被比較時(shí)激活.當(dāng)執(zhí)行比較操作時(shí)，比較電路找出和給出的鍵以及掩碼相吻合的行，然后做標(biāo)記并存儲到內(nèi)存中。由于高度并行，查找一個512行的表只需大約2 ns。實(shí)驗(yàn)顯示，和傳統(tǒng)的馮.諾依曼架構(gòu)相比，MAP能取得80倍的能耗節(jié)約和20倍的性能提升。

4.3 Tsinghua University的SQL-PIM

? ? Sun等提出了一個針對關(guān)系型數(shù)據(jù)庫的存內(nèi)計(jì)算系統(tǒng)結(jié)構(gòu)（簡稱 SQL-PIM)。在數(shù)據(jù)庫應(yīng)用里，該結(jié)構(gòu)的存儲部分既支持從表中直接讀行的操作，又可以支持直接讀取列的操作，減少了傳統(tǒng)計(jì)算機(jī)中片上緩存不命中帶來的時(shí)間和能耗的開銷. SQL-PIM實(shí)現(xiàn)了限制查詢語句，規(guī)劃查詢語句和聚合查詢語句.限制查詢語句是找出表中符合給出規(guī)定的一系列數(shù)據(jù)，這些規(guī)定可以是數(shù)值邏輯或者是非邏輯的條件語句，通常用 W HERE語法來操作；規(guī)劃查詢語句是找出表里含有特定參數(shù)的條目或者特定的列，通常用 SELECT語法進(jìn)行操作；聚合查詢語句是對一些給定條件的條目做加操作，通常用類似 SUM 語法來求一系列值的和。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖38展示了一個SQL-PIM 實(shí)現(xiàn)的限制查詢語句的實(shí)例： select * from Table where (a + 3x6)-(c+2xd)?> 10。其中，{a ，b，c，d} 是表中四列數(shù)，存儲在ReRAM陣列中{a ，b，c，d} 前面的系數(shù){1，3，-1, 4}以電流方式加到比特線上。最后，結(jié)果電流通過包含存有10的比較電路，輸出 0/1。結(jié)果為1 的，就是符合限制查詢語句的條目。

存內(nèi)計(jì)算的主流技術(shù)方案,智能計(jì)算,存內(nèi)計(jì)算

? ? 圖39是 SQL-PIM 的結(jié)構(gòu)，分為用于存放表格條目的P IM 部分和用于支持比較等操作的外圍電路部分。指令通過控制器后，將相應(yīng)的參數(shù)發(fā)送到這兩個模塊上，然后兩個模塊通過共享的緩存進(jìn)行中間結(jié)果的傳輸.最后，結(jié)果寫回到ReRAM中.除此之外，SQL-PIM 還能在不改變結(jié)構(gòu)化存儲的前提下支持增、刪、改、查操作.針對大的數(shù)據(jù)庫表，SQL-PIM提出了一個特殊關(guān)聯(lián)分割的方法,將大表存儲在多個存內(nèi)計(jì)算陣列中，同時(shí)減少每個計(jì)算陣列之間的相互通信.實(shí)驗(yàn)顯示，與傳統(tǒng)的內(nèi)存數(shù)據(jù)庫相比，SQL-PIM能節(jié) 約 4? 6 個數(shù)量級的能耗。

? ? NVQuery也是利用RCAM支持多種查詢語句的存內(nèi)計(jì)算加速器，其系統(tǒng)結(jié)構(gòu)和MAP相像。NVQuery能夠支持聚合、預(yù)測、按位操作，以及精確的最近距離查找.為了支持最近距離查找，
NVQuery提出了比特線驅(qū)動的策略，將權(quán)重加到相應(yīng)的比特位上.實(shí)驗(yàn)顯示，與傳統(tǒng)的馮?諾依曼系
統(tǒng)結(jié)構(gòu)相比，NVQuery帶來 49.3倍的性能提升和32.9倍的能耗節(jié)約。
?

5 總結(jié)

? ? 存內(nèi)計(jì)算支持的算子較少，設(shè)計(jì)靈活度不如近數(shù)據(jù)計(jì)算的邏輯層，但是存內(nèi)計(jì)算用于支持特定算
子（目前主要是向量乘矩陣算子）的性能很高且能耗低.存內(nèi)計(jì)算的核心思路是利用新型存儲的物理結(jié)構(gòu)和特性來支持應(yīng)用程序中頻繁出現(xiàn)的算子.同時(shí)，存內(nèi)計(jì)算相關(guān)研究還關(guān)注：存內(nèi)計(jì)算模塊互聯(lián)和數(shù)據(jù)流的設(shè)計(jì)；數(shù)據(jù)映射策略：外圍電路的優(yōu)化和復(fù)用；與現(xiàn)有存儲系統(tǒng)的融合。
?文章來源地址http://www.zghlxwxcb.cn/news/detail-835666.html

到了這里，關(guān)于存內(nèi)計(jì)算的主流技術(shù)方案的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【重識云原生】計(jì)算第2.4節(jié)——主流虛擬化技術(shù)之KVM
?《重識云原生系列》專題索引：??? 第一章——不謀全局不足以謀一域第二章計(jì)算第1節(jié)——計(jì)算虛擬化技術(shù)總述第二章計(jì)算第2節(jié)——主流虛擬化技術(shù)之VMare ESXi 第二章計(jì)算第3節(jié)——主流虛擬化技術(shù)之Xen 第二章計(jì)算第4節(jié)——主流虛擬化技術(shù)之KVM 第二章計(jì)算第5節(jié)——商用
2024年02月06日
瀏覽(23)
【基于存內(nèi)計(jì)算芯片開發(fā)板驗(yàn)證語音識別】訓(xùn)練手冊
模塊?：軟件包下載及環(huán)境搭建步驟一：搭建docker、mappper環(huán)境： ①Linux下通過Docker直接下載，獲取指令： docker pull witin/toolchain:v001.000.034 ②Window環(huán)境，可以通過docker desktop來使用docker: 下載安裝Docker desktop(win10或以上)：通常需要更新WSL，下載鏈接如下，更新后需要重啟生效
2024年02月04日
瀏覽(17)
數(shù)據(jù)庫工程師基礎(chǔ)學(xué)習(xí)13,14,15----云計(jì)算,數(shù)據(jù)庫主流應(yīng)用技術(shù),專利
1,云計(jì)算與大數(shù)據(jù)處理這里的是:按需訪問,資源池模型.可用來申請服務(wù)器,網(wǎng)絡(luò)等.無限擴(kuò)展的存儲. 這里公有云與私有云對應(yīng),一個面向大眾,一個面向私人. 社區(qū)云,如學(xué)校網(wǎng),只提供給特定組織使用. 這里主要是:云計(jì)算開發(fā)商提供的東西不同. 1)主要是基礎(chǔ)設(shè)施提供 2)主要
2024年02月05日
瀏覽(28)
【HCIA-cloud】【2】華為云FusionSphere介紹、虛擬化介紹【云計(jì)算主流技術(shù)】、容器介紹
本章介紹了服務(wù)器虛擬化、運(yùn)數(shù)據(jù)中心、桌面云、公有云等解決方案的架構(gòu)與特點(diǎn)。描述服務(wù)器虛擬化、云數(shù)據(jù)中心、桌面云、公有云等華為云計(jì)算解決方案的架構(gòu)及特點(diǎn)。區(qū)分不同華為云計(jì)算解決方案的應(yīng)用場景。主要以了解為主~~~~ FusionCompute是華為公司虛擬化軟件，用
2023年04月19日
瀏覽(30)
阿里云|人工智能（AI）技術(shù)解決方案
函數(shù)計(jì)算部署Stable Diffusion AI繪畫技術(shù)解決方案通過函數(shù)計(jì)算快速部署Stable Diffusion模型為用戶提供快速通過文字生成圖片的能力。該方案通過函數(shù)計(jì)算快速搭建了AIGC的能力，無需管理服務(wù)器等基礎(chǔ)設(shè)施，專注模型的能力即可。該方案具有高效免運(yùn)維、彈性高可用、按需低成本
2024年02月02日
瀏覽(26)
視頻監(jiān)控方案設(shè)計(jì)：EasyCVR視頻智能監(jiān)管系統(tǒng)方案技術(shù)特點(diǎn)與應(yīng)用
隨著科技的發(fā)展，視頻監(jiān)控平臺在各個領(lǐng)域的應(yīng)用越來越廣泛。然而，當(dāng)前的視頻監(jiān)控平臺仍存在一些問題，如視頻質(zhì)量不高、監(jiān)控范圍有限、智能化程度不夠等。這些問題不僅影響了監(jiān)控效果，也制約了視頻監(jiān)控平臺的發(fā)展。為了解決這些問題，TSINGSEE青犀推出的視頻匯聚
2024年02月21日
瀏覽(26)
【方案】基于視頻與AI智能分析技術(shù)的城市軌道交通視頻監(jiān)控建設(shè)方案
地鐵作為重要的公共場所交通樞紐，流動性非常高、人員大量聚集，軌道交通需要利用視頻監(jiān)控系統(tǒng)來實(shí)現(xiàn)全程、全方位的安全防范，這也是保證地鐵行車組織和安全的重要手段。調(diào)度員和車站值班員通過系統(tǒng)監(jiān)管列車運(yùn)行、客流情況、變電所設(shè)備室設(shè)備運(yùn)行情況，提高行車
2024年02月10日
瀏覽(36)
智能分析網(wǎng)關(guān)V4基于AI視頻智能分析技術(shù)的周界安全防范方案
隨著科技的不斷進(jìn)步，AI視頻智能檢測技術(shù)已經(jīng)成為周界安全防范的一種重要手段。A智能分析網(wǎng)關(guān)V4基于深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)，可以通過多種AI周界防范算法，實(shí)時(shí)、精準(zhǔn)地監(jiān)測人員入侵行為，及時(shí)發(fā)現(xiàn)異常情況并發(fā)出警報(bào)，保障周界安全。智能分析網(wǎng)關(guān)V4內(nèi)置了近40種
2024年01月20日
瀏覽(26)
邊緣計(jì)算那些事兒—邊緣智能技術(shù)
? ? ? ? 邊緣智能是邊緣計(jì)算中一個非常重要的方向。它將邊緣計(jì)算和人工智能算法結(jié)合起來，在邊緣設(shè)備上就近處理目標(biāo)檢測、物體跟蹤，識別等任務(wù)。這種處理方式可以降低時(shí)延，減少數(shù)據(jù)上送云端對回傳網(wǎng)絡(luò)的沖擊，同時(shí)保證數(shù)據(jù)的隱私和安全性。但是，我們要面對一
2023年04月22日
瀏覽(22)
【人工智能】自然語言轉(zhuǎn)換成 DSL的技術(shù)方案
在本文中，我們將探討將自然語言轉(zhuǎn)換為領(lǐng)域特定語言（DSL）的三種可行技術(shù)方案。我們將分析這些技術(shù)方案的原理，以及提供一些代碼實(shí)例。基于規(guī)則的
2024年02月08日
瀏覽(27)

<mark id="ks9gd"></mark>

<dfn id="ks9gd"><em id="ks9gd"><kbd id="ks9gd"></kbd></em></dfn>