0 1?云原生技術(shù)的普及與發(fā)展
云原生技術(shù)是一種基于容器技術(shù)的輕量級(jí)、高可用的應(yīng)用架構(gòu),具有彈性擴(kuò)展、快速部署、統(tǒng)一管理等特點(diǎn)。隨著企業(yè)對(duì)敏捷開發(fā)和快速迭代的需求不斷增加,云原生技術(shù)的普及與發(fā)展已成為不可逆轉(zhuǎn)的趨勢。
圖1.?云原生技術(shù)發(fā)展之路
云原生技術(shù)通過將應(yīng)用與底層基礎(chǔ)設(shè)施解耦,實(shí)現(xiàn)了應(yīng)用的快速部署和動(dòng)態(tài)擴(kuò)展。它采用了容器化、微服務(wù)、CICD等技術(shù)手段,使得應(yīng)用可以更加高效地運(yùn)行在云環(huán)境中。同時(shí),云原生技術(shù)還提供了強(qiáng)大的監(jiān)控和日志功能,幫助企業(yè)更好地管理和維護(hù)應(yīng)用。
圖2. 云原生三大特征
隨著云原生理念的推廣與技術(shù)的不斷豐富,云原生已經(jīng)進(jìn)入成熟階段,越來越多的企業(yè)開始采用云原生架構(gòu)來構(gòu)建和部署應(yīng)用。當(dāng)前云原生引領(lǐng)數(shù)字化轉(zhuǎn)型升級(jí)已成為趨勢,在人工智能、大數(shù)據(jù)、邊緣計(jì)算、金融等領(lǐng)域嶄露頭角。云原生技術(shù)(例如:容器、微服務(wù)、DevOps等)提供的極致彈性能力和故障自愈能力已成為應(yīng)用開發(fā)的最佳技術(shù)手段。原生理念及其技術(shù)以靈活性、敏捷性和便捷性已獲得各行各業(yè)的廣泛關(guān)注。云原生促使產(chǎn)業(yè)融合速度加快、網(wǎng)絡(luò)業(yè)務(wù)迭代周期縮短。
0 2?人工智能通過容器實(shí)現(xiàn)最佳表現(xiàn)
2.1 容器非常適合人工智能應(yīng)用的部署和管理
首先,容器可以幫助人工智能應(yīng)用實(shí)現(xiàn)快速部署和動(dòng)態(tài)擴(kuò)展。由于容器具有輕量級(jí)、可移植性和快速部署的特性,人工智能應(yīng)用可以輕松地在不同的云平臺(tái)之間進(jìn)行遷移和部署。同時(shí),容器還可以根據(jù)需求動(dòng)態(tài)地?cái)U(kuò)展或縮減應(yīng)用,從而確保人工智能應(yīng)用能夠高效地應(yīng)對(duì)突發(fā)流量或節(jié)省資源。
其次,容器可以幫助人工智能應(yīng)用實(shí)現(xiàn)高可用性和容錯(cuò)性。容器可以在多個(gè)節(jié)點(diǎn)之間自動(dòng)進(jìn)行負(fù)載均衡和容錯(cuò)處理,從而確保人工智能應(yīng)用的可用性和穩(wěn)定性。當(dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),容器可以快速地將應(yīng)用切換到其他節(jié)點(diǎn)上,從而保證應(yīng)用的正常運(yùn)行。
此外,容器還可以幫助人工智能應(yīng)用實(shí)現(xiàn)數(shù)據(jù)安全和隱私保護(hù)。由于容器具有隔離性,可以限制對(duì)底層資源的訪問權(quán)限,從而防止數(shù)據(jù)泄露和攻擊。同時(shí),容器還可以通過加密通信、訪問控制和安全審計(jì)等手段來保護(hù)數(shù)據(jù)的安全性和隱私性。
最后,容器可以幫助人工智能應(yīng)用實(shí)現(xiàn)高效的資源利用和管理。容器可以對(duì)CPU、內(nèi)存和存儲(chǔ)等資源進(jìn)行精細(xì)化管理,從而確保人工智能應(yīng)用能夠高效地利用資源并降低成本。
綜上所述,容器是一種非常適合人工智能應(yīng)用的部署和管理方式。通過容器化人工智能應(yīng)用,可以實(shí)現(xiàn)快速部署、動(dòng)態(tài)擴(kuò)展、高可用性、數(shù)據(jù)安全和資源高效利用等多種優(yōu)勢。
據(jù)統(tǒng)計(jì),目前AI容器化場景是最常見的部署形態(tài)。這也佐證了云原生是AI應(yīng)用開發(fā)、部署的最好形式。
2.2 AI應(yīng)用轉(zhuǎn)換為容器的好處
將整個(gè) AI 應(yīng)用程序開發(fā)到部署轉(zhuǎn)換為容器的好處如下:
·?針對(duì)不同版本的框架、操作系統(tǒng)和邊緣設(shè)備/平臺(tái),為每個(gè) AI 模型提供單獨(dú)的輕量容器。
·?每個(gè) AI 模型可以都有一個(gè)容器,用于自定義部署。例如:一個(gè)容器對(duì)開發(fā)人員友好,而另一個(gè)容器對(duì)用戶友好且無需編碼即可使用。
·?每個(gè) AI 模型的單獨(dú)容器,用于 AI 項(xiàng)目中的不同版本或環(huán)境(開發(fā)團(tuán)隊(duì)、QA 團(tuán)隊(duì)、UAT(用戶驗(yàn)收測試)等)。
·?容器應(yīng)用程序真正更有效地加速了 AI 應(yīng)用程序開發(fā)-部署,并有助于維護(hù)和管理用于多種用途的多個(gè)模型。
0 3?AI應(yīng)用多種形態(tài)并存的現(xiàn)狀
云原生技術(shù)發(fā)展之路并非一蹴而就,因?yàn)樗粌H涉及到架構(gòu)改變,也包括理念的變化,公司流程和人員配置的相應(yīng)調(diào)整等。
此外,每個(gè)企業(yè)的IT基礎(chǔ)設(shè)施水平是不一樣的,甚至企業(yè)內(nèi)部也可能存在多重基礎(chǔ)設(shè)施形態(tài)。如KVM虛擬機(jī),OpenStack虛擬機(jī),VMWare虛擬機(jī),裸服務(wù)器,虛擬化節(jié)點(diǎn),docker,K8S等,不同應(yīng)用在云原生進(jìn)展中會(huì)存在進(jìn)度不一致的現(xiàn)象。如果等所有云原生應(yīng)用完成,則會(huì)無法盡快享受到軟件定義AI算力的效益。
AI賦能千行百業(yè),在AI浪潮席卷而來的背景下,所有人都希望盡快參與到AI的盛宴中,首先關(guān)注的是make it work,于是就不可避免的出現(xiàn)了多AI應(yīng)用形態(tài)并存的局面。
目前主流使用AI算力的形態(tài)是最粗放的方式,即直通物理GPU或者簡單切分后的vGPU直通。
圖3. 常見的算力使用的方式
根據(jù)AI底層基礎(chǔ)實(shí)施層的形態(tài),也就有了如下的組合方式:
·?直通KVM/VMWare虛擬機(jī)。
·?直通Docker容器。
·?裸服務(wù)器直接使用。
·?K8S通過device plugin掛載物理整卡使用。
·?OpenStack 通過cyborg掛載物理或者虛擬GPU使用等。
0 4?OrionX賦能云原生
4.1 OrionX池化解決方案的部署靈活性
OrionX部署的靈活性可以通過3個(gè)關(guān)鍵字來概括:“一池多芯”、“一池多云”和“分離部署”:
“一池多芯”,即OrionX不僅支持Nvidia GPU卡,也支持國產(chǎn)加速卡。
“一池多云”,指軟件可以部署在任何的云環(huán)境中,甚至是虛擬化節(jié)點(diǎn),以及裸服務(wù)器中。
圖4. OrionX支持“一池多芯,一池多云”的部署
“分離部署”,即OrionX通過遠(yuǎn)程調(diào)用,可以基于高速無損網(wǎng)絡(luò),跨節(jié)點(diǎn)甚至跨集群調(diào)取智算資源,使 AI應(yīng)用與物理GPU服務(wù)器分離部署,從而進(jìn)一步降低碎片化率。
圖5. 階段3的“遠(yuǎn)程調(diào)用”能力
所以總體上,有如下兩條路線可以解決云原生中多形態(tài)并存的池化算力使用問題:
·?通過“一池多云”提供“多應(yīng)用-算力集群”部署。
·?通過“分離部署”提供“多應(yīng)用集群-單算力集群”部署。
4.2 異構(gòu)多云場景下的算力集群統(tǒng)一納管
該方案是指,每種形態(tài)的應(yīng)用維持原有AI算力資源拓?fù)涫褂?,通過各自部署一套OrionX軟件,進(jìn)行AI算力的納管和靈活高效的調(diào)度,并通過oCenter作為管理界面,進(jìn)行多資源池的統(tǒng)一運(yùn)維和管理。
圖6. 異構(gòu)多云算力集群統(tǒng)一納管
這種方式不需要依賴于高速無損網(wǎng)絡(luò)互聯(lián)所有的服務(wù)器,部署和使用相對(duì)簡單;缺點(diǎn)是由于每個(gè)應(yīng)用環(huán)境獨(dú)立維護(hù),并由各自算力池化集群支持,所以維護(hù)成本較高、池化復(fù)用的效果沒有發(fā)揮極致。
4.3 多應(yīng)用集群下的算力底座
在該方案中,所有的AI算力通過部署了OrionX的智算容器云納管,調(diào)度和分配,其它多個(gè)應(yīng)用集群的應(yīng)用都通過無損網(wǎng)絡(luò)來使用這個(gè)算力集群的算力。隨著時(shí)間推移,完成云原生改造的業(yè)務(wù)可以逐步向智算容器云中遷移。
圖7. 多應(yīng)用場景下的算力底座
?
這種部署需要依賴于高速無損網(wǎng)絡(luò),但對(duì)運(yùn)維管理和后續(xù)的逐步遷移中比較友好。
4.4 總結(jié)
這兩種情況各有優(yōu)缺點(diǎn),建議企業(yè)在云原生演進(jìn)進(jìn)程中,根據(jù)各自環(huán)境情況進(jìn)行選擇。實(shí)際方案選擇依賴于現(xiàn)有基礎(chǔ)設(shè)施的幾個(gè)關(guān)鍵因素,比如包括但不限于:集群內(nèi)的互聯(lián)網(wǎng)絡(luò)技術(shù)(包括現(xiàn)有網(wǎng)路互聯(lián)方式、是否有后續(xù)組網(wǎng)改造計(jì)劃),以及多種形態(tài)集群的規(guī)模等。
歸納一下:
·?異構(gòu)多云場景下的算力集群統(tǒng)一納管適合于多種形態(tài)應(yīng)用并存且數(shù)量較多,不同形態(tài)應(yīng)用之間沒有高速無損互聯(lián)網(wǎng)絡(luò)的企業(yè)。通過異構(gòu)多云部署,用戶可以在統(tǒng)一界面管理多個(gè)應(yīng)用,并盡可能發(fā)揮每個(gè)集群內(nèi)的AI算力效能。
·?多應(yīng)用集群下的算力底座適合配置了高速無損網(wǎng)絡(luò)的企業(yè),通過算力池化技術(shù),用戶可遠(yuǎn)程調(diào)用智算容器云中的AI算力給多個(gè)應(yīng)用,避免為了某些極少應(yīng)用單獨(dú)配置基礎(chǔ)設(shè)施的采購及運(yùn)維成本。
展望未來,在長距離無損網(wǎng)絡(luò)成為現(xiàn)實(shí)情況下,企業(yè)將內(nèi)部所有算力基礎(chǔ)設(shè)施整合為一朵的智算容器云,會(huì)是最理想的狀態(tài)?,F(xiàn)有的方案作為中間的演進(jìn)方案都具備了未來平滑演進(jìn)到最終形態(tài)的企業(yè)智算基礎(chǔ)設(shè)施。
參考文獻(xiàn)
1. 《云原生架構(gòu):構(gòu)建高可用、可伸縮的現(xiàn)代互聯(lián)網(wǎng)應(yīng)用》
https://www.51cto.com/article/764431.html?
2.《容器技術(shù)引領(lǐng)數(shù)字化轉(zhuǎn)型:開啟高效部署和可擴(kuò)展的新時(shí)代》https://baijiahao.baidu.com/s?id=1769912365777860254&wfr=spider&for=pc?文章來源:http://www.zghlxwxcb.cn/news/detail-803780.html
3.?《通過AI 應(yīng)用程序容器化實(shí)現(xiàn)高效的MLOps》https://www.elecfans.com/d/1863258.html?文章來源地址http://www.zghlxwxcb.cn/news/detail-803780.html
到了這里,關(guān)于云原生演進(jìn)中的AI算力高效使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!