? ? ? ? ? 針對在AIGC的場景下,如何解決在AIGC訓(xùn)練過程中數(shù)據(jù)的存儲和數(shù)據(jù)處理的問題,楊冠軍從三個(gè)方面進(jìn)行介紹與解讀:
????????一是AIGC對存儲提的新需求;
????????二是介紹騰訊云可以給用戶提供的整體存儲解決方案;
????????三是騰訊云提供的整體數(shù)據(jù)處理方案。
AIGC的新需求:模型訓(xùn)練與應(yīng)用推理的述求
? ? ? ? 我國每年產(chǎn)生的數(shù)據(jù)量呈現(xiàn)非常大的增長趨勢,這個(gè)前提還是前兩年AIGC場景仍未出現(xiàn)的情況。而現(xiàn)在從UGC到AIGC以后,相信整個(gè)行業(yè)產(chǎn)生的數(shù)據(jù)量會比這個(gè)更為龐大,如何處理這些數(shù)據(jù),這些數(shù)據(jù)怎么應(yīng)用到系統(tǒng)上?這都對數(shù)據(jù)存儲帶來了更大的需求和挑戰(zhàn)。
? ? ? ? 從最初收集的原始數(shù)據(jù),基于這些數(shù)據(jù)做數(shù)據(jù)處理,產(chǎn)生對應(yīng)預(yù)處理后的數(shù)據(jù),然后再給后面的訓(xùn)練模型,可以看到在整個(gè)模型訓(xùn)練的過程當(dāng)中,會帶來很大的數(shù)據(jù)量增長,也帶來了對數(shù)據(jù)的統(tǒng)一存儲的需求。
? ? ? ? 騰訊云對此訓(xùn)練場景總結(jié)的需求有三點(diǎn):一是數(shù)據(jù)湖的統(tǒng)一存儲。在整個(gè)AIGC的過程當(dāng)中,數(shù)據(jù)存儲的量非常大,它帶來的存儲需求就需要用數(shù)據(jù)湖來解決,避免數(shù)據(jù)孤島的問題。二是在各個(gè)業(yè)務(wù)的處理過程當(dāng)中,數(shù)據(jù)流動的需求,這些數(shù)據(jù)如果用一些傳統(tǒng)的文件存儲的話,就會遇到數(shù)據(jù)孤島的問題,因此需要一個(gè)統(tǒng)一存儲來對其提供服務(wù)。第三是高吞吐和低延遲,在AIGC的場景下,GPU的算力是稀有和昂貴的,客戶希望整個(gè)訓(xùn)練是跑的越快越好,對GPU使用的越滿約好,這就對底層的存儲提出了一個(gè)要求:越快的把數(shù)據(jù)讀出來,越快的提供給上層訓(xùn)練,這樣價(jià)值才是最高的。
? ? ? ? 在AIGC業(yè)務(wù)處理流程中,應(yīng)用推理場景核心需求主要由內(nèi)容審核與數(shù)據(jù)智理兩部分組成。將訓(xùn)練好的模型部署后,并通過服務(wù)模式提供給用戶,通常的邏輯就是用戶提供prompt,基于prompt生成一些數(shù)據(jù)。無論是文生文,文生圖,還是視頻等,這都要海量數(shù)據(jù)的存儲,在騰訊云上都是通過對象存儲來提供。
? ? ? ? 而在這些數(shù)據(jù)生成的過程當(dāng)中,基于有國家安全合規(guī)的監(jiān)管要求,就需要用到騰訊云提供的內(nèi)容審核和數(shù)據(jù)處理的能力。同時(shí)針對這些數(shù)據(jù),用戶希望它能夠有一些數(shù)據(jù)智理的功能,這里基于我們對AIGC業(yè)務(wù)的梳理,用了一個(gè)智能的智,后面會詳細(xì)的介紹該需求。
騰訊云存儲解決方案
? ? ? ? AIGC的整體存儲解決方案,總共用到了騰訊云的三種產(chǎn)品:對象存儲COS、GooseFS、GooseFSx。從最原始的數(shù)據(jù)集上云、到模型訓(xùn)練、推理應(yīng)用、內(nèi)容治理中的數(shù)據(jù)存儲,騰訊云提供了一站式的整體存儲解決方案。
? ? ? ? AIGC的整體存儲解決方案,總共用到了騰訊云的三種產(chǎn)品:對象存儲COS、GooseFS、GooseFSx。從最原始的數(shù)據(jù)集上云、到模型訓(xùn)練、推理應(yīng)用、內(nèi)容治理中的數(shù)據(jù)存儲,騰訊云提供了一站式的整體存儲解決方案。
? ? ? ? 最左邊顯示的是騰訊云提供的專門的數(shù)據(jù)遷移上云服務(wù),可以把用戶收集到的數(shù)據(jù)、或友商上的數(shù)據(jù)導(dǎo)入騰訊云COS對象存儲上。中間這部分描述的就是我們提到的一站式存儲解決方案,最底層是騰訊云海量存儲的底座-COS對象存儲,上面通過GooseFS和GooseFSx兩種產(chǎn)品,來完成AIGC場景下數(shù)據(jù)預(yù)處理的加速、模型訓(xùn)練中的POSIX訪問的需求。
? ? ? ? 在數(shù)據(jù)爆炸性增長的時(shí)代,對象存儲永遠(yuǎn)是最合理的存儲底座,上面這個(gè)圖是騰訊云對象存儲COS的整體服務(wù)框架,在這個(gè)架構(gòu)當(dāng)中,最底層就是騰訊云自研的分布式對象存儲引擎Yotta,它可支持單集群1萬臺服務(wù)器,單集群EB級的存儲,對原始的數(shù)據(jù)和AIGC生成的數(shù)據(jù)做統(tǒng)一數(shù)據(jù)湖存儲是非常適合的。另外COS對象存儲提供了標(biāo)準(zhǔn)、低頻、歸檔、深度歸檔等多種存儲類型,支持通過生命周期管理的方式來做合適的降本,讓客戶在擁有一個(gè)海量的存儲系統(tǒng)的同時(shí),并且不會付出太高的存儲成本。
? ? ? ? 在對接客戶的數(shù)據(jù)預(yù)處理需求中,我們發(fā)現(xiàn)通常節(jié)點(diǎn)本地有很多的空閑磁盤可以利用,騰訊云GooseFS是一個(gè)分布式緩存系統(tǒng),可以有效的把計(jì)算節(jié)點(diǎn)的這些磁盤利用起來,來加速對底層對象存儲的訪問,提供更高的讀性能給上層應(yīng)用。另外GooseFS也支持常用的多種協(xié)議,包括了HDFS、FUSE及S3協(xié)議。在不同的應(yīng)用場景下,GooseFS可以有效的提升上層應(yīng)用訪問COS的性能,基本有2到10倍的性能提升。
? ? ? ? 下面介紹下GooseFS在數(shù)據(jù)預(yù)處理場景下的最佳實(shí)踐,其部署方案主要有低成本、高性能及高可靠三個(gè)特點(diǎn)。低成本:GooseFS Worker部署在計(jì)算節(jié)點(diǎn)上,利用計(jì)算節(jié)點(diǎn)NVME SSD作為緩存介質(zhì),提供PB級別緩存空間;高性能:通過VPC網(wǎng)絡(luò)打通數(shù)據(jù)流,多節(jié)點(diǎn)可以構(gòu)建TB/s的吞吐能力;高可靠:GooseFS Master 單獨(dú)部署,3節(jié)點(diǎn)通過RAFT協(xié)議保證GooseFS集群的高可靠性。
? ? ? ? 在AIGC的訓(xùn)練場景里,很多的訪問都是基于文件的接口,這跟傳統(tǒng)的HPC或者是AI的場景里通過POSIX的語義訪問是一致的,我們的GooseFSx產(chǎn)品提供的就是完全兼容POSIX語義訪問的能力。
相比傳統(tǒng)客戶自己部署分布式文件存儲服務(wù),GooseFSx整體有如下優(yōu)點(diǎn):
1.全托管云服務(wù),一鍵式購買發(fā)貨,省去部署、調(diào)測等運(yùn)維工作;
2.完全兼容POSIX文件語義,工作負(fù)載無需進(jìn)行任何改動;
3.按創(chuàng)建容量計(jì)費(fèi),按量付費(fèi)、彈性擴(kuò)容,避免資源閑置;
4.自動部署客戶端軟件,將GooseFSx掛載到主機(jī)的本地目錄;
5.采用分布式架構(gòu),性能隨節(jié)點(diǎn)擴(kuò)展而線性增長;
? ? ? ? 下面我重點(diǎn)介紹下GooseFSx與COS數(shù)據(jù)的自由流動的能力,這在基于COS提供數(shù)據(jù)湖統(tǒng)一存儲,然后上層應(yīng)用需要POSIX文件訪問的場景里是非常重要的。
1.COS 上的 Object 按照 Key,以相同的目錄結(jié)構(gòu)射到 GooseFSx 上;
2.關(guān)聯(lián)多個(gè)存儲桶:數(shù)據(jù)加速器能同時(shí)對多個(gè)存儲桶進(jìn)行加速;
3.雙向流動:可以從 COS 加載,并將新生產(chǎn)的文件沉降到 COS;
4.自定義流動的策略:基于整個(gè)存儲桶或自定義前綴、進(jìn)行加載或沉降;
5.增量同步:再次加載或沉降時(shí),僅同步增量的數(shù)據(jù)
6.數(shù)據(jù)流動任務(wù):管理數(shù)據(jù)流動,輸出任務(wù)報(bào)告,保障數(shù)據(jù)流動完整性,簡單易用;
騰訊云數(shù)據(jù)處理方案
? ? ? ? 數(shù)據(jù)萬象是騰訊云提供的一站式智能平臺,整合騰訊領(lǐng)先的AI技術(shù),打造數(shù)據(jù)處理百寶箱,提供圖片處理、媒體處理、內(nèi)容審核、文件處理、AI內(nèi)容識別、文檔服務(wù)等全品類多媒體數(shù)據(jù)的處理能力。
? ? ? ? 騰訊云內(nèi)部有多個(gè)實(shí)驗(yàn)室,數(shù)據(jù)萬象整合了騰訊前沿實(shí)驗(yàn)室技術(shù)能力,如AI實(shí)驗(yàn)室:基礎(chǔ)算法;優(yōu)圖實(shí)驗(yàn)室:圖像識別;多媒體實(shí)驗(yàn)室:編解碼研究;天御實(shí)驗(yàn)室:安全封控算法,結(jié)合騰訊行業(yè)領(lǐng)先業(yè)務(wù)最佳實(shí)踐,如騰訊音樂:降噪、分離等場景;騰訊視頻:視頻指紋、編解碼等場景;騰訊新聞:圖文審核等場景;騰訊全民K歌:歌唱評分、音樂標(biāo)簽等場景。
? ? ? ? 在AIGC的場景里面,目前大家關(guān)注最多的還是文本,隨著后面多模態(tài)模型的發(fā)展,會有越來越多的文生圖、文生音頻、文生視頻場景,甚至還會有基于圖片生成一段視頻的方式。數(shù)據(jù)萬象對這些能力都是覆蓋的,包括圖片的處理、音頻處理及視頻處理的能力。
? ? ? ? 國家一直有內(nèi)容合規(guī)和審核的要求,在數(shù)據(jù)萬象的功能中,還包括了內(nèi)容審核的能力,無論是針對文本、音頻還是視頻,數(shù)據(jù)萬象都提供了一整套的內(nèi)容審核解決方案和能力,基于存儲在COS上的數(shù)據(jù),你可以非常方便的做業(yè)務(wù)內(nèi)容審的對接。
? ? ? ? 總結(jié)來看,騰訊云提供的一站式數(shù)據(jù)處理有如下三點(diǎn)優(yōu)勢:
? ? ? ? 一是便捷的介入,無論是對象存儲還是數(shù)據(jù)萬象,都是一體化的平臺,提供一站式的存儲和內(nèi)容審核的方案;
? ? ? ? 第二是精準(zhǔn)的模型,基于騰訊云對接的眾多客戶,我們針對AIGC場景做了專門的審核模型和一些專項(xiàng)的優(yōu)化;
? ? ? ? 第三是更高的性能,數(shù)據(jù)存儲在對象存儲上,其調(diào)用審核和處理都是在同一個(gè)園區(qū)內(nèi),這個(gè)流程加載和處理的時(shí)延是非常低的;
? ? ? ? 數(shù)據(jù)萬象還有一個(gè)很棒的功能就是智能檢索服務(wù)。在AIGC的時(shí)代,隨著自己擁有的數(shù)據(jù)越來越多,數(shù)據(jù)檢索的需求也會越來越大。比如我們在個(gè)人電腦上有幾十GB的數(shù)據(jù),檢索到合適的數(shù)據(jù)就會讓人感覺困難,而隨著AIGC的發(fā)展,用戶擁有的數(shù)據(jù)會到TB、PB的量級,這個(gè)情況下要搜索到合適的數(shù)據(jù)就會更加困難。在大模型出現(xiàn)后,我們發(fā)現(xiàn)通過這種智能檢索服務(wù)對文本、圖片、視頻做特征提取,然后把提取后的特征存儲下來,后面再基于輸入的文本做對應(yīng)特征的匹配,這樣搜索的豐富度和準(zhǔn)確性都是很高的。
? ? ? ? 當(dāng)前騰訊云數(shù)據(jù)萬象支持的智能檢索服務(wù)有:文搜圖,圖搜圖,圖搜視頻,視頻搜視頻。智能檢索服務(wù)的底層是數(shù)據(jù)萬象的大語言模型,它是騰訊云基于授權(quán)的商業(yè)數(shù)據(jù)以及自有業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理抽取,機(jī)器翻譯,模型清洗,圖文配對,人工校對等處理工作,然后訓(xùn)練出來的一個(gè)垂直領(lǐng)域大模型。
? ? ? ? 在實(shí)際的應(yīng)用需求中,智能檢索服務(wù)可以有效的應(yīng)用在多種圖片檢索場景,總結(jié)而言,數(shù)據(jù)萬象有三點(diǎn)優(yōu)勢:
? ? ? ? 一是通過智能扣圖來建立特征庫更為精確;
二是支持文本、圖片的多種的檢索形態(tài),提供API/SDK的訪問方式較為便捷;
? ? ? ? 三是底層是騰訊云數(shù)據(jù)萬象的自研的大語言模型,它可提供秒級的檢測的結(jié)果;
總結(jié)回顧
? ? ? ? 圍繞AIGC,騰訊云提供了生成、審核、智理全生命周期的存儲和數(shù)據(jù)處理解決方案,分為下面三個(gè)部分:
? ? ? ? 第一是數(shù)據(jù)生成,騰訊云有對象存儲COS、GooseFS、GooseFSx對接我們的大語言模型的訓(xùn)練,推理平臺的構(gòu)建;
? ? ? ? 第二是內(nèi)容審核,通過數(shù)據(jù)萬象中的內(nèi)容審核來做一些合規(guī)性的審核,以此保證整個(gè)平臺的安全;文章來源:http://www.zghlxwxcb.cn/news/detail-741819.html
? ? ? ? 第三是數(shù)據(jù)智理,通過智能檢索的服務(wù)來做特征的匹配和查詢,快速滿足上層業(yè)務(wù)需求。文章來源地址http://www.zghlxwxcb.cn/news/detail-741819.html
到了這里,關(guān)于AIGC數(shù)據(jù)處理與存儲解決方案的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!