原創(chuàng)?AI蘇妲己?
SambaNova——一家總部位于帕洛阿爾托的公司已經(jīng)籌集了超過10億美元的風險投資,不會直接向公司出售芯片。相反,它出售其定制技術(shù)堆棧的訪問權(quán)限,該堆棧具有專門為運行最大的人工智能模型而設(shè)計的專有硬件和軟件。
最近,SambaNova宣布推出了其新型SN40L處理器,該處理器擁有1020億個晶體管,分布在1040個核心上,能夠達到638teraflops運算的速度,采用TSMC的5納米工藝制造,SN40L最引人注目的特點之一是它的三級存儲系統(tǒng),專為處理與AI工作負載相關(guān)的大量數(shù)據(jù)流而設(shè)計。SambaNova聲稱,僅由八個這樣的芯片組成的節(jié)點就能夠支持高達5萬億個參數(shù)的模型。這幾乎是OpenAI的GPT-4大型語言模型大小的三倍,并且能夠處理高達256,000個tokens的序列長度。該公司聲稱,與需要數(shù)百個芯片的行業(yè)標準GPU相比,這代表了總擁有成本的顯著降低。
可重構(gòu)數(shù)據(jù)流架構(gòu)是SambaNova芯片的核心,它能夠根據(jù)不同人工智能模型的需求,動態(tài)調(diào)整芯片內(nèi)部的數(shù)據(jù)通路,實現(xiàn)高效的計算和數(shù)據(jù)流動。下面我們來詳細了解一下這種架構(gòu)的特點和優(yōu)勢。
1.可重構(gòu)互連:靈活連接計算、存儲和通信單元
SambaNova芯片包含大量的計算單元(PCU)、存儲單元(PMU)和通信交換單元(SCU),它們按陣列平鋪排列。計算單元PCU集成了矢量化的單指令多數(shù)據(jù)(SIMD)流水線,專門用于高效的矩陣/向量計算操作,這是機器學習推理和訓練的核心運算。存儲單元PMU則是片上SRAM存儲器,每個周期可存取一個數(shù)據(jù)向量,為計算單元流暢輸送數(shù)據(jù)。PMU還集成了地址計算能力,用于高效管理數(shù)據(jù)訪問模式。通信交換單元S負責在整個芯片范圍內(nèi)互連各個單元,構(gòu)建一個可重配的全局互連網(wǎng)絡(luò),支持靈活的數(shù)據(jù)流傳輸。除了這些核心單元,圖中還標注了控制單元CU和地址生成單元AGU等支持模塊。
該架構(gòu)的關(guān)鍵特點包括:靜態(tài)配置的數(shù)據(jù)通路、顯式管理芯片內(nèi)外數(shù)據(jù)傳輸、支持數(shù)據(jù)流執(zhí)行模型、以及超高的計算能力、存儲帶寬和網(wǎng)絡(luò)帶寬等。通過可重構(gòu)互連和數(shù)據(jù)流執(zhí)行模型,SambaNova能針對不同的AI模型動態(tài)調(diào)整硬件資源分配,在單個芯片上構(gòu)建出高度優(yōu)化和高效的數(shù)據(jù)傳輸通路,最大限度利用硬件能力,實現(xiàn)卓越的AI加速性能。
2.自動探索并確定出一種高度優(yōu)化的操作映射方案
一個典型的深度學習模型由多個操作組成,如卷積(Conv)、池化(Pool)、歸一化(Norm)和求和(Sum)等。將這些操作高效映射到RDU芯片上需要解決許多復雜的問題,比如決定最優(yōu)的操作映射方式、計算并行度、中間數(shù)據(jù)格式和存儲位置等。這構(gòu)成了一個設(shè)計空間極其龐大的組合優(yōu)化問題。
為了解決這一挑戰(zhàn),SambaNova設(shè)計了一個編譯器技術(shù)棧。編譯器需要回答諸如"使用何種映射策略"、"采用何種調(diào)度方式"、"并行度是多少"、"中間數(shù)據(jù)存放在片上還是外部"以及"如何組織中間數(shù)據(jù)張量格式"等一系列關(guān)鍵問題。
通過分析模型的結(jié)構(gòu)特征,并結(jié)合硬件資源的全面考慮,編譯器可以自動探索并確定出一種高度優(yōu)化的操作映射方案。圖的下半部分展示了這樣一種可能的映射結(jié)果,其中不同的操作被高效地排布在RDU的不同單元和互連通路上。
這種快速的數(shù)據(jù)流編譯技術(shù)使SambaNova芯片能夠針對給定的AI模型,自動生成最優(yōu)的計算指令和分布式執(zhí)行策略,充分利用芯片的硬件能力,突破了傳統(tǒng)架構(gòu)的性能瓶頸。該技術(shù)與靈活可重構(gòu)的RDU架構(gòu)緊密結(jié)合,是SambaNova實現(xiàn)卓越加速性能的關(guān)鍵所在。
3.與GPU等傳統(tǒng)芯片的對比
英偉達GPU采用的是一種更加傳統(tǒng)的架構(gòu)。GPU由大量的CUDA核心組成,每個CUDA核心包含一些計算單元和有限的寄存器文件。所有CUDA核心通過固定的總線連接到一個共享的大容量但訪問延遲更高的GPU內(nèi)存。這種架構(gòu)對于一些密集型通用計算是非常高效的,但對于模型越來越復雜、參數(shù)越來越多的大規(guī)模機器學習任務(wù),就顯得數(shù)據(jù)傳輸成為了一大瓶頸。
SambaNova的動態(tài)可重配置架構(gòu)可以針對具體的機器學習模型,構(gòu)建近乎零開銷的數(shù)據(jù)通路,使計算單元和所需數(shù)據(jù)位于極近的位置。這不僅減少了數(shù)據(jù)移動開銷,還可以最大化芯片資源的利用效率。軟件SambaFlow則扮演著對模型進行分析并高效映射到硬件的關(guān)鍵角色。
傳統(tǒng)方式下,整個模型需要分解為多個小的?kernel?操作(比如乘法、歸一化和?softmax?等),這些操作被逐個發(fā)送到?GPU?上執(zhí)行。GPU?需要重復加載輸入數(shù)據(jù)、執(zhí)行?kernel、寫回結(jié)果,并不斷在片上存儲和外部內(nèi)存間傳輸數(shù)據(jù),過程中存在大量數(shù)據(jù)移動開銷和內(nèi)存延遲。
而?SambaNova?芯片的"數(shù)據(jù)流"方式則將整個模型建模為一個數(shù)據(jù)流水線,包含乘法(M)、歸一化(N)、softmax(S)等操作。通過可重配的互連結(jié)構(gòu),相關(guān)的數(shù)據(jù)和計算資源被高效組織,模型的各個階段能夠直接在芯片內(nèi)部流動、計算,消除了大量數(shù)據(jù)傳輸和內(nèi)存訪問延遲開銷。
4.?靈活性和高性能的完美結(jié)合
可重構(gòu)數(shù)據(jù)流架構(gòu)的優(yōu)勢在于,它在提供靈活性的同時,也能夠?qū)崿F(xiàn)高性能的計算。
-?靈活性:通過可重構(gòu)互連和運行時映射,SambaNova芯片可以靈活適應(yīng)不同的人工智能模型,不需要為每個模型設(shè)計專用的硬件結(jié)構(gòu)。
-?高性能:通過將計算任務(wù)映射到最優(yōu)的硬件資源,并利用數(shù)據(jù)流圖揭示的并行性和局部性,SambaNova芯片可以實現(xiàn)極高的計算效率和性能。
新架構(gòu)設(shè)計的未來展望
可重構(gòu)數(shù)據(jù)流架構(gòu)不僅適用于當前的人工智能模型,也為未來的模型發(fā)展提供了充分的支持和靈活性。
-?新的模型結(jié)構(gòu):通過調(diào)整數(shù)據(jù)流圖和映射方式,可重構(gòu)數(shù)據(jù)流架構(gòu)可以快速適應(yīng)新的模型結(jié)構(gòu)和計算范式。
-?算法創(chuàng)新:可重構(gòu)數(shù)據(jù)流架構(gòu)為算法創(chuàng)新提供了更大的自由度,研究人員可以探索新的計算模式和優(yōu)化技術(shù)。
-?持續(xù)演進:隨著人工智能技術(shù)的不斷發(fā)展,可重構(gòu)數(shù)據(jù)流架構(gòu)也可以隨之演進,通過增加新的計算單元、優(yōu)化互連拓撲等方式,不斷提升性能和效率。文章來源:http://www.zghlxwxcb.cn/news/detail-846121.html
可重構(gòu)數(shù)據(jù)流架構(gòu)代表了人工智能芯片設(shè)計的一個重要方向,它通過靈活的硬件結(jié)構(gòu)和智能的編譯映射技術(shù),實現(xiàn)了高性能、高效率、高適應(yīng)性的特點,為人工智能的加速發(fā)展提供了強大的動力文章來源地址http://www.zghlxwxcb.cn/news/detail-846121.html
到了這里,關(guān)于SambaNova 芯片:深入解析其架構(gòu)和高性能秘訣的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!