「AI 的 iPhone 時(shí)刻已經(jīng)到來(lái)?!裹S仁勛在英偉達(dá) GTC 2023 上的金句言猶在耳,這一年,AI 的發(fā)展也印證了其所言非虛。
多年來(lái),伴隨 AI 發(fā)展提速,加之英偉達(dá)的技術(shù)與生態(tài)護(hù)城河難以撼動(dòng),GTC 已經(jīng)從最初的技術(shù)會(huì)議逐漸升級(jí)為全產(chǎn)業(yè)鏈共同關(guān)注的 AI 行業(yè)盛會(huì),英偉達(dá)秀出的「肌肉」或許就是行業(yè)革新的重要催化劑。
今年的 2024 GTC AI 大會(huì)如約而至,在 3 月 18 日至 3 月 21 日期間,將有超 900 場(chǎng)會(huì)議與 20 余場(chǎng)技術(shù)講座。當(dāng)然,最受矚目的仍然是「皮衣黃」的演講。在前期公布的日程中,黃仁勛的演講從北京時(shí)間 3 月 19 日凌晨 4:00 開(kāi)始,持續(xù)到 6:00。就在剛剛,老黃在長(zhǎng)達(dá) 2 小時(shí)的分享中,接連扔下「AI 核彈」:
-
新一代 GPU平臺(tái) Blackwell
-
首款基于 Blackwell 的芯片 GB200 Grace Blackwell
-
下一代 AI 超級(jí)計(jì)算機(jī) DGX SuperPOD
-
AI 超級(jí)計(jì)算平臺(tái) DGX B200
-
新一代網(wǎng)絡(luò)交換機(jī) X800 系列
-
量子計(jì)算云服務(wù)
-
氣候數(shù)字孿生云平臺(tái) Earth-2
-
生成式 AI 微服務(wù)
-
5 種全新的 Omniverse Cloud API
-
專(zhuān)為生成式 AI 應(yīng)用設(shè)計(jì)的車(chē)載計(jì)算平臺(tái) DRIVE Thor
-
BioNeMo 基礎(chǔ)模型
直播回放鏈接:
https://www.bilibili.com/video/BV1Z6421c7V6/?spm_id_from=333.337.search-card.all.click
cuLitho 投入使用
在去年的 GTC 大會(huì)上,英偉達(dá)推出了一個(gè)計(jì)算光刻庫(kù)——cuLitho,稱(chēng)能夠?qū)⒂?jì)算光刻加速 40 倍以上。今天,黃仁勛介紹道,臺(tái)積電與新思科技已經(jīng)將 NVIDIA cuLipo 與其軟件、制造流程和系統(tǒng)集成在一起,以加快芯片制造。在共享工作流程上測(cè)試 cuLitho 時(shí),兩家公司共同實(shí)現(xiàn)了 curvilinear flows 速度提高 45 倍,更加傳統(tǒng)的 Manhattan-style flows 效率提高近 60 倍。
此外,英偉達(dá)還開(kāi)發(fā)了應(yīng)用生成式 AI 的算法,以進(jìn)一步提升 cuLitho 平臺(tái)的價(jià)值。具體而言,在基于 cuLitho 實(shí)現(xiàn)生產(chǎn)流程提效的基礎(chǔ)上,這一生成式 AI 算法還能額外提高 2 倍的速度。
據(jù)介紹,通過(guò)應(yīng)用生成式 AI,可以創(chuàng)建近乎完美的反向掩膜解決方案,將光的衍射納入考慮,進(jìn)而通過(guò)傳統(tǒng)的物理方法得出最終光罩,最終將整個(gè)光學(xué)近似校正 (optical proximity correction, OPC) 流程的速度提高了 2 倍。
面向萬(wàn)億參數(shù)規(guī)模生成式 AI 的 Blackwell 平臺(tái)
上述對(duì)于 cuLitho 應(yīng)用情況的介紹更像是一道「開(kāi)胃菜」,展示計(jì)算光刻技術(shù)的發(fā)展前景,也在一定程度上英偉達(dá) AI 芯片的代際升級(jí)提供了基礎(chǔ)保障。
接下來(lái),正餐開(kāi)始。遵循英偉達(dá)每?jī)赡旮乱淮?GPU 架構(gòu)的傳統(tǒng),老黃帶來(lái)的第一個(gè)重磅產(chǎn)品便是全新的 bigger GPU——Blackwell 平臺(tái)。他表示,Hopper 很棒,但是我們需要更強(qiáng)大的 GPU。
Blackwell 架構(gòu)的命名是為了紀(jì)念首位入選美國(guó)國(guó)家科學(xué)院 (National Academy of Sciences)的非裔學(xué)者 David Harold Blackwell。
在性能上,Blackwell 擁有 6 項(xiàng)革命性技術(shù)加持:
- 世界上最強(qiáng)大的芯片:
Blackwell 架構(gòu) GPU 采用定制的 4NP 臺(tái)積電工藝制造,內(nèi)含 2080 億個(gè)晶體管,通過(guò) 10 TB/秒 的 chip-to-chip 鏈路,將兩個(gè)極限 GPU 芯片連接成一個(gè)統(tǒng)一的 GPU。 第二代 Transformer 引擎:Blackwell 將基于新的 4 位浮點(diǎn)人工智能推理能力支持雙倍的計(jì)算和模型規(guī)模。
- 第五代 NVLink:
最新迭代的 NVIDIA NVLink 為每個(gè) GPU 提供了突破性的 1.8TB/s 雙向吞吐量,確保在多達(dá) 576 個(gè) GPU 之間進(jìn)行無(wú)縫高速通信,以實(shí)現(xiàn)最復(fù)雜的 LLM。
- RAS 引擎:
Blackwell 驅(qū)動(dòng)的 GPU 包括一個(gè)用于可靠性、可用性和可維護(hù)性的專(zhuān)用引擎。此外,Blackwell 架構(gòu)還增加了芯片級(jí)功能,利用基于 AI 預(yù)防性維護(hù)來(lái)運(yùn)行診斷并預(yù)測(cè)可靠性問(wèn)題。這最大限度地延長(zhǎng)了系統(tǒng)正常運(yùn)行時(shí)間,提高了大規(guī)模 AI 部署的恢復(fù)能力,使其能夠連續(xù)不間斷地運(yùn)行數(shù)周甚至數(shù)月,并降低運(yùn)營(yíng)成本。
- Secure AI:
可在不影響性能的情況下保護(hù)人工智能模型和客戶(hù)數(shù)據(jù),并支持新的本地接口加密協(xié)議,這對(duì)醫(yī)療保健和金融服務(wù)等隱私敏感行業(yè)至關(guān)重要。
- 解壓縮引擎:
專(zhuān)用解壓縮引擎支持最新格式,可加速數(shù)據(jù)庫(kù)查詢(xún),為數(shù)據(jù)分析和數(shù)據(jù)科學(xué)提供最高性能。
目前,AWS、谷歌、Meta、微軟、OpenAI、特斯拉等企業(yè)都已經(jīng)率先「預(yù)約」Blackwell 平臺(tái)。
GB200 Grace Blackwell
首款基于 Blackwell 的芯片命名為 GB200 Grace Blackwell Superchip,其通過(guò) 900GB/s 的超低功耗 NVLink chip-to-chip 的互連,將兩個(gè) NVIDIA B200 Tensor Core GPU 連接到 NVIDIA Grace CPU 中。
其中,B200 GPU 的晶體管數(shù)量是現(xiàn)有 H100 的兩倍多,擁有 2080 億個(gè)晶體管。其還能通過(guò)單個(gè) GPU 提供 20 petaflops 的高計(jì)算性能,而單個(gè) H100 最多只能提供 4 petaflops 的 AI 計(jì)算能力,此外,B200 GPU 還配備了 192 GB 的HBM3e 內(nèi)存,提供高達(dá) 8 TB/s 的帶寬。
GB200 是英偉達(dá) GB200 NVL72 的關(guān)鍵組件,NVL72 是多節(jié)點(diǎn)、液冷、機(jī)架式系統(tǒng),適用于計(jì)算最密集的工作負(fù)載,結(jié)合了 36 個(gè) Grace Blackwell 超級(jí)芯片,其中包括 72 個(gè) Blackwell GPU 和 36 個(gè) Grace CPU,通過(guò)第五代 NVLink 互連。
此外,GB200 NVL72 還包括 NVIDIA BlueField?-3 數(shù)據(jù)處理單元,可在超大規(guī)模人工智能云中實(shí)現(xiàn)云網(wǎng)絡(luò)加速、可組合存儲(chǔ)、零信任安全和 GPU 計(jì)算彈性。與相同數(shù)量的英偉達(dá) H100 Tensor Core GPU 相比,GB200 NVL72 在 LLM 推理工作負(fù)載方面的性能最多可提升 30 倍,成本和能耗最多可降低 25 倍。
下一代 AI 超級(jí)計(jì)算機(jī) DGX SuperPOD
英偉達(dá) DGX SuperPOD 采用高效的新型液冷機(jī)架式架構(gòu),由 NVIDIA DGX GB200 系統(tǒng)構(gòu)建而成,可在 FP4 精度下提供 11.5 exaflops 的 AI 超級(jí)計(jì)算能力和 240 TB 的快速內(nèi)存,并且可通過(guò)額外的機(jī)架擴(kuò)展到更高性能。DGX SuperPOD 具有智能預(yù)測(cè)管理功能,可以不斷監(jiān)測(cè)硬件和軟件上的數(shù)千個(gè)數(shù)據(jù)點(diǎn),以預(yù)測(cè)和攔截造成停機(jī)和效率低下的 sources,從而節(jié)省時(shí)間、能源和計(jì)算成本。
其中,DGX GB200 系統(tǒng)搭載了 36 個(gè) NVIDIA GB200 超級(jí)芯片,其中包括 36 個(gè) NVIDIA Grace CPU 和 72 個(gè) NVIDIA Blackwell GPU,通過(guò)第五代 NVLink 連接為一臺(tái)超級(jí)計(jì)算機(jī)。
而每個(gè) DGX SuperPOD 能夠搭載 8 個(gè)或更多的 DGX GB200,可擴(kuò)展到通過(guò) NVIDIA Quantum InfiniBand 連接的數(shù)萬(wàn)個(gè) GB200 超級(jí)芯片。例如,用戶(hù)能夠?qū)?576 個(gè) Blackwell GPU 連接到 8 個(gè)基于 NVLink 互聯(lián)的 DGX GB200 中。
AI 超級(jí)計(jì)算平臺(tái) DGX B200
DGX B200 是一個(gè)用于人工智能模型訓(xùn)練、微調(diào)和推理的計(jì)算平臺(tái),采用風(fēng)冷式、傳統(tǒng)機(jī)架式 DGX 設(shè)計(jì)。DGX B200 系統(tǒng)在全新 Blackwell 架構(gòu)中實(shí)現(xiàn)了 FP4 精度,可提供高達(dá) 144 petaflops 的 AI 計(jì)算性能、1.4TB 的海量 GPU 內(nèi)存和 64TB/s 的內(nèi)存帶寬。與上一代相比,萬(wàn)億參數(shù)模型的實(shí)時(shí)推理速度提高了 15 倍。
基于全新 Blackwell 架構(gòu)的 DGX B200 搭載了 8 個(gè) Blackwell GPU 和 2 個(gè)第五代英特爾至強(qiáng)處理器。用戶(hù)還可以使用 DGX B200 系統(tǒng)構(gòu)建 DGX SuperPOD。在網(wǎng)絡(luò)連接方面,DGX B200 配備 8 個(gè) NVIDIA ConnectX?-7 網(wǎng)卡和 2 個(gè) BlueField-3 DPU,可提供高達(dá)每秒 400 千兆比特的帶寬。
新一代網(wǎng)絡(luò)交換機(jī)系列——X800
據(jù)介紹,新一代網(wǎng)絡(luò)交換機(jī) X800 系列專(zhuān)為大規(guī)模人工智能設(shè)計(jì),打破了計(jì)算和AI工作負(fù)載的網(wǎng)絡(luò)性能極限。
該平臺(tái)包含 NVIDIA Quantum Q3400 交換機(jī)以及 NVIDIA ConnectX@-8 超級(jí)網(wǎng)卡,實(shí)現(xiàn)了行業(yè)領(lǐng)先的 800Gb/s 端到端吞吐量,比上一代產(chǎn)品提升了 5 倍帶寬容量,同時(shí)還通過(guò)采用英偉達(dá)的可擴(kuò)展分層聚合與還原協(xié)議 (Scalable Hierarchical Aggregation and Reduction Protocol, SHARPv4),實(shí)現(xiàn)了高達(dá) 14.4 Tflops 的網(wǎng)絡(luò)內(nèi)計(jì)算能力,較上一代產(chǎn)品的性能增幅高達(dá) 9 倍。
量子計(jì)算云服務(wù),加速科研探索
英偉達(dá)量子計(jì)算云服務(wù)基于公司的開(kāi)源 CUDA-Q 量子計(jì)算平臺(tái),目前業(yè)內(nèi)部署量子處理單元 (QPU) 的企業(yè)有四分之三都在使用該平臺(tái)。英偉達(dá)推出的量子計(jì)算云服務(wù)首次允許用戶(hù)在云中構(gòu)建并測(cè)試新的量子算法和應(yīng)用,包括強(qiáng)大的模擬器和量子混合編程工具。
量子計(jì)算云具有強(qiáng)大的功能和第三方軟件集成,可加速科學(xué)探索,包括:
-
與多倫多大學(xué)合作開(kāi)發(fā)的生成式量子特征求解器,利用大型語(yǔ)言模型使量子計(jì)算機(jī)更快地找到分子的基態(tài)能量。
-
Classiq 與 CUDA-Q 的集成使量子研究人員能夠生成大型、復(fù)雜的量子程序,并深入分析和執(zhí)行量子電路。
-
QC Ware Promethium 可解決復(fù)雜的量子化學(xué)問(wèn)題,如分子模擬。
發(fā)布?xì)夂驍?shù)字孿生云平臺(tái) Earth-2
Earth-2 旨在對(duì)天氣和氣候進(jìn)行大規(guī)模模擬和可視化,進(jìn)而實(shí)現(xiàn)對(duì)極端天氣的預(yù)測(cè)。Earth-2 API 提供 AI 模型,并采用 CorrDiff 模型。
CorrDiff 是 NVIDIA 新推出的生成式 AI 模型,它采用 SOTA Diffusion 模型,生成的圖像分辨率比現(xiàn)有的數(shù)值模型 (numerical models) 高 12.5 倍,速度提升 1,000 倍,能源效率提高 3,000 倍。它克服了粗分辨率預(yù)測(cè)的不準(zhǔn)確性,并綜合了對(duì)決策至關(guān)重要的指標(biāo)。
CorrDiff 是一種首創(chuàng)的生成式人工智能模型,可提供超分辨率,合成全新的重要指標(biāo),并從高分辨率數(shù)據(jù)集中學(xué)習(xí)當(dāng)?shù)丶?xì)粒度天氣的物理特性。
發(fā)布生成式 AI 微服務(wù),促進(jìn)藥物研發(fā)、醫(yī)療技術(shù)迭代及數(shù)字健康
新推出的英偉達(dá)醫(yī)療健康微服務(wù) (NVIDIA healthcare microservices) 套件包括優(yōu)化后的 NVIDIA NIM? AI 模型及行業(yè)標(biāo)準(zhǔn) API 工作流,可作為創(chuàng)建和部署云原生應(yīng)用的構(gòu)建模塊。這些微服務(wù)具備高級(jí)成像、自然語(yǔ)言與語(yǔ)音識(shí)別、數(shù)字生物學(xué)的生成、預(yù)測(cè)與模擬等能力。
此外,包括 Parabricks?、MONAI、NeMo?、Riva 和 Metropolis 在內(nèi)的英偉加速軟件開(kāi)發(fā)工具包及相關(guān)工具,現(xiàn)已支持通過(guò)英偉達(dá) CUDA-X? 微服務(wù)訪問(wèn)。
推理微服務(wù) (inference microservice)
發(fā)布數(shù)十種企業(yè)級(jí)生成式 AI 微服務(wù),企業(yè)可以在保有知識(shí)產(chǎn)權(quán)的同時(shí),使用這些服務(wù)在自己的平臺(tái)上創(chuàng)建和部署自定義應(yīng)用程序。
新的 GPU 加速 NVIDIA NIM Microservices 和 Cloud Endpoints,適用于經(jīng)過(guò)優(yōu)化的預(yù)訓(xùn)練 AI 模型,可在跨云、數(shù)據(jù)中心、工作站和 PC 的數(shù)億個(gè)支持 CUDA 的 GPU 上運(yùn)行。
企業(yè)可使用微服務(wù)來(lái)加速數(shù)據(jù)處理、LLM 定制、推理、 檢索增強(qiáng)生成和防護(hù);
被廣泛的人工智能生態(tài)系統(tǒng)采用,包括領(lǐng)先的應(yīng)用平臺(tái)提供商 Cadence、CrowdStrike、SAP、ServiceNow 等。
NIM 微服務(wù)提供由英偉達(dá)推理軟件支持的預(yù)構(gòu)建容器(包括 Triton Inference Server? 和 TensorRT?-LLM),可以將部署速度從幾周縮短到幾分鐘。
發(fā)布 Omniverse Cloud API,為工業(yè)數(shù)字孿生軟件工具賦能
利用 5 種全新的 Omniverse Cloud API,開(kāi)發(fā)者可以直接將 Omniverse 核心技術(shù)集成到數(shù)字孿生現(xiàn)有設(shè)計(jì)及自動(dòng)化軟件應(yīng)用中,也可以集成到測(cè)試及驗(yàn)證機(jī)器人或自動(dòng)駕駛汽車(chē)等仿真工作流程中,如將交互式工業(yè)數(shù)字孿生流傳輸?shù)?Apple Vision Pro。
這些 API 包括:
-
USD Render:生成全局光線追蹤 OpenUSD 數(shù)據(jù)的 NVIDIA RTX? 渲染
-
USD Write:允許用戶(hù)修改 OpenUSD 數(shù)據(jù)并與之交互。
-
USD Query:支持場(chǎng)景查詢(xún)和場(chǎng)景交互。
-
USD Notify:追蹤 USD 更改并提供更新。
-
Omniverse Channel:鏈接用戶(hù)、工具及現(xiàn)實(shí),實(shí)現(xiàn)跨場(chǎng)景協(xié)作
黃仁勛認(rèn)為,未來(lái)所有制造出來(lái)的東西都會(huì)有數(shù)字孿生,Omniverse 是構(gòu)建和運(yùn)行物理現(xiàn)實(shí)數(shù)字孿生的操作系統(tǒng),Omniverse 和生成式人工智能是 50 兆美元重工業(yè)市場(chǎng)數(shù)字化的基礎(chǔ)技術(shù)。
DRIVE Thor:具備 Blackwell 架構(gòu)的生成式 AI 能力,為自動(dòng)駕駛賦能
DRIVE Thor 是專(zhuān)為生成式 AI 應(yīng)用設(shè)計(jì)的車(chē)載計(jì)算平臺(tái),可在集中式平臺(tái)上提供功能豐富的模擬駕駛以及高度自動(dòng)駕駛功能。作為下一代自動(dòng)駕駛汽車(chē)中央計(jì)算機(jī),它安全可靠,將智能功能統(tǒng)一到一個(gè)系統(tǒng)中,可以提高效率,降低整個(gè)系統(tǒng)的成本。
DRIVE Thor 也將集成全新的英偉達(dá) Blackwell 架構(gòu),該架構(gòu)專(zhuān)為T(mén)ransformer、LLM和生成式人工智能工作負(fù)載而設(shè)計(jì)。
BioNeMo:輔助藥物發(fā)現(xiàn)
BioNeMo 基礎(chǔ)模型可以分析 DNA 序列,預(yù)測(cè)蛋白質(zhì)在藥物分子作用下的形狀變化,并根據(jù) RNA 確定細(xì)胞的功能。
目前,BioNeMo 所提供的第一個(gè)基因組模型 DNABERT,以 DNA 序列為基礎(chǔ),可用于預(yù)測(cè)基因組特定區(qū)域的功能,分析基因突變和變異的影響等。而其即將推出的第二個(gè)模型 scBERT,是根據(jù)單細(xì)胞 RNA 測(cè)序數(shù)據(jù)訓(xùn)練而成的,用戶(hù)可將其應(yīng)用于下游任務(wù),如預(yù)測(cè)基因敲除的效果(即刪除或停用特定基因),以及識(shí)別神經(jīng)元、血細(xì)胞或肌肉細(xì)胞等細(xì)胞類(lèi)型。
據(jù)介紹,目前全球已經(jīng)有超百家企業(yè)在基于 BioNeMo 推進(jìn)其研發(fā)進(jìn)程,其中包括總部位于東京的 Astellas Pharma、計(jì)算軟件開(kāi)發(fā)商 Cadence、藥物研發(fā)公司 Iambic 等等。
寫(xiě)在最后
除了上述提到的諸多新品外,黃仁勛還介紹了英偉達(dá)在機(jī)器人領(lǐng)域的布局。老黃表示,所有移動(dòng)的東西都是機(jī)器人,而汽車(chē)工業(yè)將是其中的重要組成部分,目前 NVIDIA 計(jì)算機(jī)已經(jīng)應(yīng)用于汽車(chē)、卡車(chē)、送貨機(jī)器人和機(jī)器人出租車(chē)。隨后還推出了 Isaac Perceptor 軟件開(kāi)發(fā)工具包、人形機(jī)器人通用基礎(chǔ)模型 GR00T、基于英偉達(dá) Thor 片上系統(tǒng)的人形機(jī)器人新計(jì)算機(jī) Jetson Thor,并對(duì)英偉達(dá) Isaac 機(jī)器人平臺(tái)進(jìn)行了重大升級(jí)。
總結(jié)來(lái)看,長(zhǎng)達(dá) 2 小時(shí)的分享中,充斥著高密集度的高性能產(chǎn)品、模型介紹,如此快節(jié)奏、內(nèi)容豐富的發(fā)布會(huì)也恰如當(dāng)下 AI 行業(yè)發(fā)展現(xiàn)狀——高速且繁榮。
作為 AI 時(shí)代的底座,高性能芯片所代表的計(jì)算能力是決定行業(yè)發(fā)展周期與走向的關(guān)鍵。毫無(wú)疑問(wèn),目前的英偉達(dá)擁有難以撼動(dòng)的護(hù)城河,盡管已經(jīng)有多家企業(yè)開(kāi)始朝著老黃發(fā)起沖擊,加之 OpenAI、微軟、谷歌等也在培養(yǎng)自家的「軍隊(duì)」,但這對(duì)仍處于高速向前的英偉達(dá)而言,或許也是一股更大的推力。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-843730.html
現(xiàn)在,線上直播已經(jīng)結(jié)束,黃仁勛的每一次新品發(fā)布后都會(huì)介紹哪些合作伙伴已經(jīng)「預(yù)約」了新服務(wù),大廠巨頭們無(wú)一例外的榜上有名。未來(lái),我們也期待著目前沖在行業(yè)最前排的企業(yè)能夠利用行業(yè)先進(jìn)生產(chǎn)力,帶來(lái)更具革新性的產(chǎn)品與應(yīng)用。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-843730.html
到了這里,關(guān)于英偉達(dá)黃仁勛發(fā)布GB200,比H100推理能力提高30倍,能耗降低25倍,將AI4S能力做成微服務(wù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!