摘要:AI與大數(shù)據(jù)算法不斷發(fā)展,在生產(chǎn)中的應用也越來越廣,而應用的場景除了對算法,軟件架構(gòu)要求越來越高外,也對底層IaaS(基礎設施即服務)提出了新的挑戰(zhàn)。
AI與大數(shù)據(jù)算法不斷發(fā)展,在生產(chǎn)中的應用也越來越廣,而應用的場景除了對算法,軟件架構(gòu)要求越來越高外,也對底層IaaS(基礎設施即服務)提出了新的挑戰(zhàn)。在7月8日的華為云開發(fā)者大會2023(Cloud)-云原生分論壇“從大數(shù)據(jù)到AI,華為云存儲加速企業(yè)大模型快速應用”上,華為云存儲服務產(chǎn)品部部長林超、叮咚買菜技術(shù)副總裁周祥軍、趣丸科技數(shù)據(jù)服務負責人黃強、華為云存儲服務產(chǎn)品部高級架構(gòu)師姚博士等嘉賓分別分享了他們的見解。
林超結(jié)合他對業(yè)界的洞察,提出了華為云對大數(shù)據(jù)與AI時代存儲服務的定義:「具備存算分離能力,提供多級加速與海量數(shù)據(jù)存儲能力的高性價比存儲底座」
進入AI時代,存儲面臨諸多挑戰(zhàn)
在訓練場景,用于訓練的數(shù)據(jù)越來越多,L2級自動駕駛訓練就需要400PB路采數(shù)據(jù),而L3級別自動駕駛訓練所需的路采數(shù)據(jù)量更為驚人。隨著訓練的數(shù)據(jù)量成倍增加,訓練時元數(shù)據(jù)預熱時間也變得越來越長,2023年車廠在進行L3級別自動駕駛訓練時每次元數(shù)據(jù)預熱的時間超過10小時,GPU長時間空載,造成算力大量浪費,而且在訓練時GPU集群需要已亞ms的速度不斷讀取數(shù)據(jù)進行訓練,這對存儲的性能也是極大的挑戰(zhàn)。另外,由于當前AI訓練是以GPU卡為核心展開的,而客戶的GPU卡往往既在線下部署也在線上部署,如何快速高效的為多元化部署的GPU提供數(shù)據(jù)存儲服務也是一件非常有挑戰(zhàn)的事。
在推理場景,隨著AI在生產(chǎn)生活中的使用越來越廣泛,AI已經(jīng)成為社會高效運轉(zhuǎn)的必要環(huán)節(jié),人們對AI處理的速度要求越來越高。當前AI大模型一般是通用大模型,缺乏行業(yè)Know How,在面對特定領域、行業(yè)的需求時往往無法給出最優(yōu)解,這給大模型在行業(yè)適配落地帶來了很大的困難。另外隨著AIGC在內(nèi)容生產(chǎn)的占比越來越高,AIGC所帶來的法律、道德、合規(guī)風險越來越大,如果不加以管理,AI必將成為不良內(nèi)容滋生的溫床。
針對上述挑戰(zhàn),華為云提出了其應對方案:
在AI訓練環(huán)節(jié),數(shù)據(jù)經(jīng)過采集、上云、預處理、標注進入模型訓練環(huán)節(jié),模型再通過數(shù)據(jù)仿真、模型評估、模型部署進入推理環(huán)節(jié)。
華為云存儲首先通過OBS對象存儲構(gòu)建統(tǒng)一數(shù)據(jù)湖來承載EB級海量的訓練數(shù)據(jù),并通過基于多種存儲規(guī)格的數(shù)據(jù)智能分級功能降低50%的存儲成本。同時OBS通過Posix語義支持預處理等環(huán)節(jié),從而減少整個訓練環(huán)節(jié)中數(shù)據(jù)在不同類型存儲中傳輸?shù)拇螖?shù),提升整體效率。
同時在模型訓練的關鍵環(huán)節(jié),GPU集群對存儲的性能有著極高的要求,華為云存儲通過SFS Turbo在OBS統(tǒng)一數(shù)據(jù)與GPU集群之間構(gòu)建高效加速層,提升AI訓練效率,通過高效加速層,原本需要上百小時的元數(shù)據(jù)預熱時間被縮短至30分鐘,有效減少了GPU空閑時間。同時在訓練中的數(shù)據(jù)讀取時延也降低到了亞毫秒級別,訓練效率相比直接對接數(shù)據(jù)湖提升3倍以上。而且SFS Turbo支持貼近GPU在線上、線下多元化部署,滿足數(shù)據(jù)就近加速的需求。
在推理階段,華為云存儲重點優(yōu)化了推理成本、推理性能、行業(yè)落地、內(nèi)容合規(guī)三個痛點
通過構(gòu)建彈性緩存,推理過程不在需要通過增加GPU在擴展內(nèi)存,從而達到將大模型裝載到內(nèi)存的目的,彈性緩存池可以按需提供高性能的緩存空間,滿足大模型的加載需求。行業(yè)落地的痛點是解決行業(yè)Know How的問題,如果使用私域數(shù)據(jù)、行業(yè)數(shù)據(jù)等對大模型進行重新訓練,那么高昂的成本和漫長的時間都是客戶無法承擔的,通過引入向量存儲,相當于在大模型的外面增加了行業(yè)Know How的外掛,無需重新訓練大模型即可滿足行業(yè)需求,而且部分問題在向量存儲中即可閉環(huán),無需推理,使得整個推理性能大幅提升100倍,而成本卻降低了10倍。另外華為DWR數(shù)據(jù)工坊提供了全面的內(nèi)容審核服務,可以確保AI推理所輸出的內(nèi)容滿足合規(guī)要求,避免了由于使用AI帶來的業(yè)務風險。
隨后,叮咚買菜技術(shù)副總裁周祥軍、趣丸科技數(shù)據(jù)服務負責人黃強、華為云存儲服務產(chǎn)品部高級架構(gòu)師姚博士也分別演講了自己的見解。
周祥軍的演講主題為“云上叮咚,用科技讓人們吃得好,讓生活更美好”,在此議題中,他分享了叮咚買菜在華為云上的大數(shù)據(jù)能力建設案例,叮咚買菜通過運籌優(yōu)化車輛線路調(diào)度,最終實現(xiàn)了品質(zhì)確定、品類確定、時間確定的“人、貨、運、倉”全鏈路數(shù)字化。
黃強分享了趣丸科技大數(shù)據(jù)+云原生加持下的用戶運營系統(tǒng)建設,趣丸科技為解決用戶運營過程中的觸點多、數(shù)據(jù)量大、不確定性高和個性化訴求強的問題,最終利用大數(shù)據(jù)與云原生技術(shù),提高了運營效率,保障了運營質(zhì)量。
姚博士則從技術(shù)架構(gòu)角度解讀了華為云存儲的一站式數(shù)據(jù)管理、存儲、加速方案。華為云通過SFS Turbo與OBS聯(lián)動提供了大容量、高可靠、低成本的數(shù)據(jù)持久化層和高效的緩存加速層。作為AI訓練加速器的SFS Turbo通過MDS Turbo、CAT Cache和全路徑軟硬件優(yōu)化的極致時延數(shù)據(jù)流傳,最終實現(xiàn)了百萬級 IOPS 的元數(shù)據(jù)加速,降低了訓練過程中訓練數(shù)據(jù)和checkpoint的讀寫時延,解決了百億小文件的預熱與數(shù)據(jù)加載加速問題。
?文章來源:http://www.zghlxwxcb.cn/news/detail-554640.html
點擊關注,第一時間了解華為云新鮮技術(shù)~文章來源地址http://www.zghlxwxcb.cn/news/detail-554640.html
到了這里,關于從大數(shù)據(jù)到AI,華為云存儲加速企業(yè)大模型快速應用的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!