客戶是一家AIGC領(lǐng)域的公司,他們通過(guò)構(gòu)建一套完整的內(nèi)容生產(chǎn)系統(tǒng),革新內(nèi)容創(chuàng)作過(guò)程,讓用戶以更低成本完成內(nèi)容創(chuàng)作。
客戶網(wǎng)絡(luò)需求匯總
RoCE的計(jì)算網(wǎng)絡(luò) | RoCE存儲(chǔ)網(wǎng)絡(luò) |
---|---|
1.不少于600端口200G以太網(wǎng)接入端口,未來(lái)可擴(kuò)容至至少1280端口 | 1.不少于100端口200G以太網(wǎng)接入端口,未來(lái)可擴(kuò)容至至少240端口 |
2. 全網(wǎng)無(wú)收斂(1:1收斂比),全線速交換 | 2. 帶寬收斂比不大于3:1 |
3. 支持RoCE實(shí)現(xiàn)無(wú)損以太網(wǎng) | 3. 支持 RoCE 實(shí)現(xiàn)無(wú)損以太網(wǎng) |
整網(wǎng)方案設(shè)計(jì)的思路
高性能
AIGC承載網(wǎng)絡(luò)需要具備高寬帶的特性,以支持快速的數(shù)據(jù)傳輸和處理。生成內(nèi)容可能涉及大規(guī)模的文本、圖像或視頻數(shù)據(jù),因此需要具備高帶寬的網(wǎng)絡(luò)連接,以便快速傳輸數(shù)據(jù)到計(jì)算資源節(jié)點(diǎn)進(jìn)行處理;此外,AIGC承載網(wǎng)絡(luò)需要實(shí)現(xiàn)低時(shí)延的要求,以確保生成內(nèi)容的實(shí)時(shí)性和響應(yīng)性。在用戶上傳任務(wù)或請(qǐng)求后,網(wǎng)絡(luò)需要迅速響應(yīng)并進(jìn)行任務(wù)分配或資源調(diào)度。
大規(guī)模
AIGC承載網(wǎng)絡(luò)需要能夠處理大量的用戶請(qǐng)求和任務(wù),并同時(shí)支持多個(gè)用戶的并發(fā)訪問(wèn)。因此,網(wǎng)絡(luò)架構(gòu)需要具備高度的可擴(kuò)展性和負(fù)載均衡能力。例如,采用分布式計(jì)算和分布式存儲(chǔ)技術(shù),使得網(wǎng)絡(luò)可以橫向擴(kuò)展,自動(dòng)調(diào)節(jié)資源分配以應(yīng)對(duì)不斷增長(zhǎng)的用戶需求。
高可用
AIGC承載網(wǎng)絡(luò)需要具備高可用性,以確保服務(wù)的連續(xù)性和穩(wěn)定性。由于AIGC是基于人工智能技術(shù)的,其生成過(guò)程可能需要較長(zhǎng)的時(shí)間和大量的計(jì)算資源。因此,網(wǎng)絡(luò)需要具備容錯(cuò)機(jī)制和故障恢復(fù)策略,以應(yīng)對(duì)硬件故障、網(wǎng)絡(luò)中斷或其他意外情況。
整體方案架構(gòu)
?
計(jì)算網(wǎng)絡(luò)設(shè)計(jì)方案一:整網(wǎng) 1:1 無(wú)收斂
不考慮GPU的8個(gè)接口的接入方式,8個(gè)接口接入1臺(tái)或多臺(tái)ToR
- 交換機(jī) 10 Leaf + 20 ToR= 30 臺(tái),提供640個(gè)接入端口(20*32=640),每臺(tái)GPU服務(wù)器8端口,可以最大可接入GPU服務(wù)器 80臺(tái)
- 接入側(cè)和Fabric內(nèi)部互聯(lián)均可以使用200G的AOC(含兩端的200G光模塊),其中接入側(cè)600條,F(xiàn)abric側(cè)600條,合計(jì)1200條
方案一的擴(kuò)展性
- 基于該架構(gòu),最多可以接入64臺(tái)ToR,最大可以擴(kuò)展到2048個(gè)200G接口接入,滿足1280接口接入的擴(kuò)展性要求
計(jì)算網(wǎng)絡(luò)設(shè)計(jì)方案二:整網(wǎng) 1:1 無(wú)收斂
考慮GPU的8個(gè)接口的接入方式,8個(gè)接口接入到8臺(tái)Leaf,每8臺(tái)Leaf作為一個(gè)分組
- 交換機(jī) 13 Leaf + 24 ToR = 37 臺(tái),按600個(gè)接入端口(75臺(tái)GPU服務(wù)器),每組8個(gè)ToR接入25臺(tái)GPU服務(wù)器,3組ToR接入75臺(tái)
- 每組ToR接入25臺(tái)GPU服務(wù)器,下行接入帶寬為200*200GE,因此,上行也需要至少是200*200GE帶寬,每臺(tái)ToR到每臺(tái)Leaf為2條200G,總上行帶寬為2*13*8*200GE,滿足1:1收斂要求
- 接入側(cè)和Fabric內(nèi)部互聯(lián)均可以使用200G的AOC(含兩端的200G光模塊),其中接入側(cè)600條,F(xiàn)abric側(cè)624條,合計(jì)1224條?
方案二的擴(kuò)展性
- 基于該架構(gòu),最多可以接入8組ToR ,每組8個(gè)ToR接入32臺(tái)GPU服務(wù)器,8組ToR接入256臺(tái)
- 最大可以擴(kuò)展到2048個(gè)200G接口接入,滿足1280接口接入的擴(kuò)展性要求
存儲(chǔ)網(wǎng)絡(luò)設(shè)計(jì)方案:整網(wǎng) 3:1 收斂
- 交換機(jī) 2 Leaf + 3 ToR = 5 臺(tái),提供最大144個(gè)接入端口(滿足100個(gè)接入需求)
- 如果不考慮Leaf高可靠部署,也可以單Leaf接入
- 接入側(cè)和Fabric內(nèi)部互聯(lián)均可以使用200G的AOC(含兩端的200G光模塊),其中接入側(cè)100條,F(xiàn)abric側(cè)36條,合計(jì)136條?
存儲(chǔ)網(wǎng)絡(luò)擴(kuò)展性
- 交換機(jī) 2 Leaf + 5 ToR = 7 臺(tái),提供最大240個(gè)接入端口(滿足240個(gè)接入的擴(kuò)展需求)?
方案價(jià)值與優(yōu)勢(shì)
? 超低TCO、超高性價(jià)比
相較于IB方案,大幅度降低用戶的網(wǎng)絡(luò)TCO,同時(shí)確保超高性能
? 橫向平滑擴(kuò)容、1:1收斂無(wú)阻塞
無(wú)收斂的網(wǎng)絡(luò)設(shè)計(jì)確保無(wú)阻塞的大容量網(wǎng)絡(luò),按需橫向擴(kuò)展
? 整網(wǎng)RoCEv2
基于CEE/DCB能力,提供可與IB媲美的性能和同樣無(wú)損的網(wǎng)絡(luò)服務(wù)
? 開放網(wǎng)絡(luò)操作系統(tǒng)
網(wǎng)絡(luò)操作系統(tǒng)AsterNOS,SONiC企業(yè)級(jí)發(fā)行版,支持靈活的功能擴(kuò)展、在線升級(jí)
? 無(wú)縫對(duì)接云管
AsterNOS 利用簡(jiǎn)單易用的REST API,可輕松讓第三方的云平臺(tái)/控制器快速納管
? 專家級(jí)服務(wù)
專業(yè)、全面、可靠的研發(fā)、方案與服務(wù)團(tuán)隊(duì),為客戶提供小時(shí)級(jí)的快速響應(yīng)服務(wù)文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-677975.html
關(guān)注vx公號(hào)“星融元Asterfusion”,獲取更多技術(shù)分享和最新產(chǎn)品動(dòng)態(tài)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-677975.html
到了這里,關(guān)于客戶案例:高性能、大規(guī)模、高可靠的AIGC承載網(wǎng)絡(luò)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!