一、 產(chǎn)品概述
1. 當(dāng)前存儲(chǔ)的挑戰(zhàn)??
隨著云計(jì)算、物聯(lián)網(wǎng)、5G、大數(shù)據(jù)、人工智能等新技術(shù)的飛速發(fā)展,數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,預(yù)計(jì)到2025年中國數(shù)據(jù)量將增長到48.6ZB,超過80%為非結(jié)構(gòu)化數(shù)據(jù)。
同時(shí),數(shù)字經(jīng)濟(jì)正在成為我國經(jīng)濟(jì)發(fā)展的新引擎,數(shù)據(jù)已經(jīng)成為企業(yè)的核心生產(chǎn)要素,數(shù)據(jù)即價(jià)值。新技術(shù)新應(yīng)用不斷產(chǎn)生急劇增長的海量數(shù)據(jù),數(shù)據(jù)的價(jià)值越來越高,對(duì)存儲(chǔ)系統(tǒng)的可靠性、安全性、可用性、性能、成本、運(yùn)維的要求也越來越高,給存儲(chǔ)系統(tǒng)提出了巨大的挑戰(zhàn):
以上挑戰(zhàn)和剛需說明,新一代存儲(chǔ)系統(tǒng)不光要面向傳統(tǒng)的數(shù)據(jù)可靠性、服務(wù)可用性、性能等維度,超大存儲(chǔ)量、長期存儲(chǔ)經(jīng)濟(jì)性、系統(tǒng)水平線性擴(kuò)展性、可交付的運(yùn)維等維度成為新的重點(diǎn)。
這驅(qū)使新一代存儲(chǔ)系統(tǒng)必然走向規(guī)?;?、集成化、存算分離的分布式scale-out云存儲(chǔ)架構(gòu),提供可交付的簡潔易用的運(yùn)維平臺(tái),讓客戶自己負(fù)責(zé)運(yùn)維,安心使用。
2. FOSS的特點(diǎn)??
大道云行對(duì)象存儲(chǔ)FOSS,是采用先進(jìn)的分布式全閃架構(gòu)的信創(chuàng)云存儲(chǔ)系統(tǒng),設(shè)計(jì)為超大規(guī)模數(shù)據(jù)長期、可靠、綠色節(jié)能、高性能存取。
FOSS適用于包括廣電媒資、備份歸檔、遠(yuǎn)程容災(zāi)、視頻監(jiān)控、人工智能、大數(shù)據(jù)分析、數(shù)據(jù)湖等大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存取應(yīng)用場景,特別是數(shù)據(jù)量大、吞吐高,成本敏感的需求。
FOSS特點(diǎn)詳解 | |
Share?Everything架構(gòu)? |
存儲(chǔ)后端網(wǎng)絡(luò)share everything架構(gòu),支持NVMe-oF,支持分布式無狀態(tài)微服務(wù)安全訪問存儲(chǔ)。 |
信創(chuàng)存儲(chǔ)? |
全自主知識(shí)產(chǎn)權(quán)國產(chǎn)分布式全閃存儲(chǔ)軟件和國產(chǎn)閃存的結(jié)合。 |
全閃架構(gòu),超高性能,數(shù)據(jù)量,性能的水平線性擴(kuò)展? |
亞毫秒級(jí)延遲,單zone-百PB級(jí)空間,百GB級(jí)吞吐,百萬級(jí)IOPS。 |
綠色節(jié)能? |
節(jié)能調(diào)度算法使得多數(shù)SSD的大部分時(shí)間處于低功耗狀態(tài)(單片SSD<0.5w)。 |
全閃優(yōu)化設(shè)計(jì)使得SSD使用時(shí)間長,成本低? |
數(shù)據(jù)按時(shí)間聚合,采用全域GC和磨損平衡等設(shè)計(jì),極大降低SSD寫放大,提高SSD使用壽命。實(shí)現(xiàn)大尺度QLC SSD的高密度使用,降低單位成本。 |
長期可靠 |
數(shù)據(jù)靜默錯(cuò)誤保護(hù);智能化的介質(zhì)和數(shù)據(jù)的巡檢、健康掃描、Rebuild恢復(fù)。 對(duì)數(shù)據(jù)和介質(zhì)長期可靠做了慎密的數(shù)據(jù)保護(hù)、監(jiān)測、掃描、恢復(fù)、遷移等運(yùn)維規(guī)劃。 |
3. FOSS的核心能力??
在線數(shù)據(jù)的性能和延遲,離線數(shù)據(jù)的規(guī)模和成本。
使用FOSS,意味著客戶可以將大部分?jǐn)?shù)據(jù)以離線數(shù)據(jù)的成本保存到在線系統(tǒng),數(shù)據(jù)長久在線。
二、 產(chǎn)品架構(gòu)
1. 網(wǎng)絡(luò)架構(gòu)??
系統(tǒng)采用扁平的二層網(wǎng)絡(luò),易于部署和管理,支持對(duì)存儲(chǔ)集群節(jié)點(diǎn)進(jìn)行分組,支持跨組數(shù)據(jù)互訪。
- 業(yè)務(wù)網(wǎng)
業(yè)務(wù)網(wǎng)可以是IP/IB/RoCE;
每組業(yè)務(wù)網(wǎng)的計(jì)算節(jié)點(diǎn)都互通。
- 存儲(chǔ)后端網(wǎng)
存儲(chǔ)后端網(wǎng)可以是IP/IB/RoCE;
存儲(chǔ)后端網(wǎng)支持按分組進(jìn)行擴(kuò)展,不同分組之間存儲(chǔ)網(wǎng)不通,可以通過業(yè)務(wù)網(wǎng)進(jìn)行轉(zhuǎn)發(fā);
分組設(shè)計(jì)有利于存儲(chǔ)網(wǎng)絡(luò)簡單的水平擴(kuò)展,而不增加組網(wǎng)的復(fù)雜度。
一個(gè)zone規(guī)模的上限,取決于業(yè)務(wù)網(wǎng)的規(guī)模,即計(jì)算節(jié)點(diǎn)總數(shù);存儲(chǔ)網(wǎng)可任意水平擴(kuò)展,但總規(guī)模會(huì)受限于連接存儲(chǔ)網(wǎng)的計(jì)算節(jié)點(diǎn)總數(shù)。
一般的,一個(gè)zone支持100GB的業(yè)務(wù)網(wǎng),200個(gè)計(jì)算節(jié)點(diǎn),20個(gè)存儲(chǔ)網(wǎng)分組(每分組10P存儲(chǔ)空間);則整個(gè)zone支持100GB帶寬,200PB存儲(chǔ)空間。
2. 軟件架構(gòu)??
協(xié)議層
對(duì)外提供s3服務(wù)和nas服務(wù)。
緩存層?
數(shù)據(jù)分片通過讀緩存層降低延遲,滿足低讀延遲的場景需求。
開放介質(zhì)存儲(chǔ)層?
-- volume
開放介質(zhì)存儲(chǔ)(OpenMediaStorage - OMS)層將塊設(shè)備(disk)的trunk封裝為跨節(jié)點(diǎn)的、冗余算法(糾刪/副本)保護(hù)的volume,提供volume的裝配、分配和讀寫接口。
OMS層開放式的直接存取disk,支持:主機(jī)Local_disk、SAS/NVMe-oF enclosure disk、塊存儲(chǔ)系統(tǒng)的LUN(FC/iSCSI/NVMe-oF)。
-- volume_group
volume按分組進(jìn)行管理、調(diào)度和使用。分組用于支持多租戶。
volume_group由調(diào)度器和node集群組成。
-- node
node代表了掛載的disk的集合,對(duì)應(yīng)實(shí)體存儲(chǔ)節(jié)點(diǎn)主機(jī)disk組,或NVMe-oF 盤柜disk組,或塊存儲(chǔ)劃分的Lun組。
node作為disk的IO控制器,提供發(fā)現(xiàn)、掛載、訪問disk的接口。
-- 調(diào)度器負(fù)責(zé)volume裝配和分配
裝配:
- 按node類型樹進(jìn)行類型分組
- 按空間平衡+擦寫次數(shù)平衡選擇node
分配:
- 按類型聚合
- 數(shù)據(jù)分片MVCC+基于租約的volume_range保護(hù)機(jī)制
元數(shù)據(jù)?
mds集群提供分布式元數(shù)據(jù)服務(wù),支持最終一致性事務(wù),在線線性擴(kuò)展。
任務(wù)層?
包含GC、Disk_Rebuild、數(shù)據(jù)遷移、數(shù)據(jù)均衡、數(shù)據(jù)/介質(zhì)健康掃描、生命周期、配額、計(jì)量歸并等任務(wù)。
任務(wù)通過管理器Task_mgr,分發(fā)到Task_agent分布式并行執(zhí)行。
task_mgr進(jìn)行任務(wù)策略配置、調(diào)度、資源使用控制。
Service_mgr?
服務(wù)部署、升級(jí)、配置,單例服務(wù)故障轉(zhuǎn)移,集群服務(wù)擴(kuò)展等。
三、產(chǎn)品特性
1. 分布式元數(shù)據(jù)??
很多存儲(chǔ)系統(tǒng)采用無元數(shù)據(jù)服務(wù)架構(gòu),比如一致性Hash。無元數(shù)據(jù)服務(wù)架構(gòu)在超大規(guī)模分布式系統(tǒng)中存在許多缺點(diǎn):
-
無法在統(tǒng)一的邏輯上管理元數(shù)據(jù),不支持事務(wù),會(huì)導(dǎo)致很多一致性問題。
-
沒有元數(shù)據(jù)的范圍查詢能力,查詢范圍會(huì)放大到整個(gè)集群,導(dǎo)致海量對(duì)象場景下元數(shù)據(jù)列舉開銷大性能差。
-
rebalance過程復(fù)雜,要掃描所有需rebalance的數(shù)據(jù)進(jìn)行處理并完成狀態(tài)轉(zhuǎn)換,且網(wǎng)絡(luò)故障、節(jié)點(diǎn)臨時(shí)離線和永久離線等會(huì)進(jìn)一步增加rebalance復(fù)雜度。
FOSS采用分布式元數(shù)據(jù)服務(wù)架構(gòu):
-
元數(shù)據(jù)服務(wù)線性平滑,網(wǎng)絡(luò)故障和節(jié)點(diǎn)故障不影響服務(wù)的可用性
-
元數(shù)據(jù)三副本冗余
-
支持熱點(diǎn)消除(主鍵單調(diào)遞增的元數(shù)據(jù),采用shard_bit打散)
-
支持高性能的事務(wù)聚合批處理(batch和scan)
-
低延遲(亞毫秒級(jí))
依靠分布式元數(shù)據(jù)服務(wù),F(xiàn)OSS簡潔高效的實(shí)現(xiàn)了單桶無限數(shù)量對(duì)象、快速對(duì)象列舉、volume調(diào)度、全域GC和磨損平衡等高級(jí)功能。
2. 存儲(chǔ)冷熱分層??
FOSS存儲(chǔ)分層設(shè)計(jì)的主旨,是為了同時(shí)滿足超高性能和超大容量需求。FOSS的數(shù)據(jù)存儲(chǔ)包括2層:
(熱)高性能層?
- 熱volume_group
- 讀緩存集群
高性能層滿足要求極低延遲的高性能場景。高并發(fā)寫入通過寫請(qǐng)求聚合提高IOPS;小文件的低延遲讀取,通過熱數(shù)據(jù)讀緩存優(yōu)化。
通常,變冷的數(shù)據(jù)會(huì)遷移到大容量層。只需要高性能層的特例客戶,也可以獨(dú)立使用高性能層,不部署大容量層。
(冷)大容量層
- 冷volume_group
大容量層必須依賴高性能層存在。tier_migrate任務(wù)將高性能層的數(shù)據(jù)批量遷移到冷volume 。
批量遷移采用順序大IO寫入,使大尺度SSD可以得到優(yōu)化使用。
3. 資源多租戶??
S3服務(wù)資源多租戶?
通過service_mgr配置租戶獨(dú)占的S3服務(wù)資源,為特定租戶建立專屬的s3_serv_group 。
通過service_mgr配置s3_serv_group和volume_group的映射關(guān)系。
存儲(chǔ)資源多租戶
bucket可以代表租戶的分類存儲(chǔ)空間,多租戶的空間管理通過bucket的存儲(chǔ)策略進(jìn)行。
支持設(shè)置bucket的數(shù)據(jù)放置策略(對(duì)應(yīng)的volume_group),比如可指定bucket放置到特定性能分類(SSD|HDD)的volume 。
4. 優(yōu)秀的擴(kuò)展性??
FOSS支持容量和性能的橫向線性擴(kuò)展,元數(shù)據(jù)的橫向線性擴(kuò)展,通過分布式元數(shù)據(jù)服務(wù)mds實(shí)現(xiàn):
-
mds_kv集群的擴(kuò)展
mds_kv采用全局字典序range方式進(jìn)行key的sharding;支持在線增加kv節(jié)點(diǎn),IOPS隨kv節(jié)點(diǎn)個(gè)數(shù)線性增長。
-
mds事務(wù)服務(wù)集群的擴(kuò)展
mds事務(wù)服務(wù)集群,采用配置訂閱方式擴(kuò)展;支持在線增加事務(wù)服務(wù),IOPS隨事務(wù)服務(wù)個(gè)數(shù)線性增長。
數(shù)據(jù)存儲(chǔ)的橫向線性擴(kuò)展,通過開放介質(zhì)存儲(chǔ)(OpenMediaStorage-OMS)層實(shí)現(xiàn):
-
存算分離的架構(gòu)下,數(shù)據(jù)存儲(chǔ)的橫向擴(kuò)展簡化為存儲(chǔ)后端網(wǎng)的橫向擴(kuò)展。
-
存儲(chǔ)后端網(wǎng)按分組進(jìn)行水平擴(kuò)展,每個(gè)分組后端網(wǎng)獨(dú)立組網(wǎng),擴(kuò)展簡單。
增加volume_group中node,即增加了分組的存儲(chǔ)量和IOPS;當(dāng)volume_group內(nèi)的擴(kuò)展到達(dá)上限后,可以通過新建volume_group進(jìn)行擴(kuò)展。
5. 綠色節(jié)能??
FOSS通過數(shù)據(jù)寫入volume分配算法和分類聚合算法,實(shí)現(xiàn)(冷)數(shù)據(jù)層的disk節(jié)能。
?volume分配算法
數(shù)據(jù)寫入分配volume時(shí),在滿足性能吞吐需求的條件下,一段時(shí)間內(nèi)分配的volume使用盡量少的同一批disk。(其他disk這段時(shí)間處于節(jié)能狀態(tài),存儲(chǔ)規(guī)模越大,節(jié)能比例越高)
?分類聚合算法
應(yīng)用按時(shí)間批量讀取數(shù)據(jù)的時(shí)候,因?yàn)閼?yīng)用寫入數(shù)據(jù)按時(shí)間聚合,讀關(guān)聯(lián)的disk和寫入時(shí)是相同的,同樣只是少數(shù)的一批disk。
四、產(chǎn)品愿景
以全閃綠色節(jié)能信創(chuàng)存儲(chǔ)的創(chuàng)新技術(shù):
為客戶提供自運(yùn)維的私有云存儲(chǔ),應(yīng)存盡存;
在企業(yè)存儲(chǔ)領(lǐng)域促進(jìn)國產(chǎn)SSD對(duì)進(jìn)口HDD的替代;
作為智能云平臺(tái)的存儲(chǔ)底座,助力數(shù)據(jù)處理的智能化,發(fā)掘數(shù)據(jù)的真正價(jià)值。文章來源:http://www.zghlxwxcb.cn/news/detail-651116.html
《FOSS全閃對(duì)象存儲(chǔ)技術(shù)白皮書》詳見官網(wǎng)大道云行 TaoCloud - 新一代全閃軟件定義存儲(chǔ)領(lǐng)導(dǎo)者 (taocloudx.com)文章來源地址http://www.zghlxwxcb.cn/news/detail-651116.html
到了這里,關(guān)于首發(fā) | FOSS分布式全閃對(duì)象存儲(chǔ)系統(tǒng)白皮書的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!