作者 | 李晨
編輯 | Debra Chen
數(shù)據(jù)準(zhǔn)備對(duì)于推動(dòng)有效的自助式分析和數(shù)據(jù)科學(xué)實(shí)踐至關(guān)重要。如今,企業(yè)大都知道基于數(shù)據(jù)的決策是成功數(shù)字化轉(zhuǎn)型的關(guān)鍵,但要做出有效的決策,只有可信的數(shù)據(jù)才能提供幫助,隨著數(shù)據(jù)量和數(shù)據(jù)源的多樣性繼續(xù)呈指數(shù)級(jí)增長(zhǎng),要實(shí)現(xiàn)這一點(diǎn)愈加困難。
如今,很多公司投入了大量時(shí)間和金錢來(lái)整合他們的數(shù)據(jù)。他們使用數(shù)據(jù)倉(cāng)庫(kù) 或數(shù)據(jù)湖來(lái)發(fā)現(xiàn)、訪問(wèn)和使用數(shù)據(jù),并利用AI推動(dòng)分析用例。但他們很快意識(shí)到,在湖倉(cāng)中處理大數(shù)據(jù)仍然具有挑戰(zhàn)性。數(shù)據(jù)準(zhǔn)備工具是缺失的組成部分。
什么是數(shù)據(jù)準(zhǔn)備,挑戰(zhàn)是什么
數(shù)據(jù)準(zhǔn)備是清理、標(biāo)準(zhǔn)化和豐富原始數(shù)據(jù)的過(guò)程。這使數(shù)據(jù)準(zhǔn)備好應(yīng)用于高級(jí)分析和數(shù)據(jù)科學(xué)用例。準(zhǔn)備數(shù)據(jù)需要執(zhí)行多項(xiàng)耗時(shí)的任務(wù),以便將數(shù)據(jù)移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖,包括:
- 數(shù)據(jù)提取
- 數(shù)據(jù)清洗
- 數(shù)據(jù)標(biāo)準(zhǔn)化
- 數(shù)據(jù)對(duì)外服務(wù)
- 大規(guī)模編排數(shù)據(jù)同步工作流
除了耗時(shí)的數(shù)據(jù)準(zhǔn)備步驟外,數(shù)據(jù)工程師還需要清理和規(guī)范化基礎(chǔ)數(shù)據(jù),否則,他們將無(wú)法理解要分析的數(shù)據(jù)的上下文,因此通常使用小批量的Excel數(shù)據(jù)來(lái)實(shí)現(xiàn)此目的。但這些數(shù)據(jù)工具有其局限性,首先,Excel無(wú)法容納大型數(shù)據(jù)集,也不允許您操作數(shù)據(jù),更無(wú)法為企業(yè)流提供可靠的元數(shù)據(jù)。準(zhǔn)備數(shù)據(jù)集的過(guò)程可能需要數(shù)周到數(shù)月才能完成。調(diào)查發(fā)現(xiàn),大量企業(yè)花費(fèi)多達(dá)80%的時(shí)間準(zhǔn)備數(shù)據(jù),用來(lái)分析數(shù)據(jù)并提取價(jià)值的時(shí)間只有區(qū)區(qū)20%。
翻轉(zhuǎn) 80/20 規(guī)則
隨著非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng),數(shù)據(jù)工具在刪除、清理和組織數(shù)據(jù)上花費(fèi)的時(shí)間比以往任何時(shí)候都多。數(shù)據(jù)工程師經(jīng)常會(huì)忽略關(guān)鍵錯(cuò)誤、數(shù)據(jù)不一致和處理結(jié)果異常,與此同時(shí),業(yè)務(wù)用戶要求得到數(shù)據(jù)的時(shí)間越來(lái)越短,對(duì)用于分析的高質(zhì)量數(shù)據(jù)的需求卻比以往任何時(shí)候都大,目前的數(shù)據(jù)準(zhǔn)備方法根本無(wú)法滿足需求。數(shù)據(jù)工程師和數(shù)據(jù)分析師往往花費(fèi)超過(guò)80%的時(shí)間查找和準(zhǔn)備所需的數(shù)據(jù)。這樣一來(lái),他們只有 20% 的時(shí)間用于分析數(shù)據(jù)并獲得業(yè)務(wù)價(jià)值,這種不平衡被稱為80/20規(guī)則。
那么如何有效扭轉(zhuǎn)80/20規(guī)則?對(duì)于復(fù)雜的數(shù)據(jù)準(zhǔn)備,需要一種敏捷、迭代、協(xié)作和自助服務(wù)的數(shù)據(jù)管理方法-DataOps,來(lái)幫助企業(yè)大幅提升數(shù)據(jù)準(zhǔn)備的效率,將80/20的浪費(fèi)轉(zhuǎn)變?yōu)楣镜膬?yōu)勢(shì)。DataOps平臺(tái)使IT部門能夠?yàn)槠鋽?shù)據(jù)資產(chǎn)提供自助服務(wù)功能,并使數(shù)據(jù)分析師能夠更有效的發(fā)現(xiàn)合適的數(shù)據(jù),同時(shí)應(yīng)用數(shù)據(jù)質(zhì)量規(guī)則和與他人更好地協(xié)作,在更短的時(shí)間內(nèi)交付業(yè)務(wù)價(jià)值。
在正確的時(shí)間為數(shù)據(jù)分析師提供正確的數(shù)據(jù)意味著可以準(zhǔn)備復(fù)雜的數(shù)據(jù),可以應(yīng)用數(shù)據(jù)質(zhì)量規(guī)則,并可以在更短的時(shí)間內(nèi)交付業(yè)務(wù)價(jià)值。有了這些企業(yè)級(jí)數(shù)據(jù)準(zhǔn)備工具,數(shù)據(jù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)將會(huì):
- 減少在數(shù)據(jù)發(fā)現(xiàn)和準(zhǔn)備上花費(fèi)的時(shí)間,并加速數(shù)據(jù)分析和AI項(xiàng)目
- 處理存儲(chǔ)在數(shù)據(jù)湖中的大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集
- 加快模型開(kāi)發(fā)并推動(dòng)業(yè)務(wù)價(jià)值
- 通過(guò)預(yù)測(cè)性和迭代式分析發(fā)現(xiàn)復(fù)雜數(shù)據(jù)中隱藏的價(jià)值
白鯨開(kāi)源如何提供幫助
白鯨開(kāi)源DataOps平臺(tái)WhaleStudio提供無(wú)代碼、敏捷的數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)協(xié)作平臺(tái),這樣,企業(yè)可以更專注于數(shù)據(jù)科學(xué)分析、人工智能(AI)和機(jī)器學(xué)習(xí)(ML)用例。
覆蓋全流程的編排調(diào)度和OPS能力
智能和自動(dòng)化對(duì)于速度、規(guī)模、敏捷性至關(guān)重要,數(shù)據(jù)開(kāi)發(fā)的每個(gè)步驟都受益于強(qiáng)大的編排和調(diào)度能力,這些功能將提高企業(yè)處理數(shù)據(jù)的速度和規(guī)模,還能夠跨云平臺(tái)和處理引擎管理各類數(shù)據(jù)任務(wù)。白鯨開(kāi)源WhaleStudio中的統(tǒng)一調(diào)度系統(tǒng)——白鯨調(diào)度系統(tǒng)(WhaleScheduler)會(huì)幫助您建立數(shù)據(jù)采集、加工、運(yùn)維、服務(wù)一站式、體系化、規(guī)范化的流水線管理模式,通過(guò)統(tǒng)一數(shù)據(jù)編排調(diào)度,為數(shù)據(jù)消費(fèi)流水線提供服務(wù),讓數(shù)據(jù)能力服務(wù)運(yùn)營(yíng)過(guò)程更加安全、敏捷和智能化。
同時(shí),WhaleStudio基于DataOps最佳實(shí)踐,為您的環(huán)境帶來(lái)敏捷性、生產(chǎn)力和效率,可以幫助您通過(guò)更頻繁、更快、更少錯(cuò)誤地發(fā)布來(lái)獲取即時(shí)反饋。WhaleStudio中的IDE和協(xié)同平臺(tái)為您提供開(kāi)箱即用的 CI/CD 功能,這些使您能夠打破開(kāi)發(fā)、運(yùn)營(yíng)和安全方面的孤島,在整個(gè)數(shù)據(jù)開(kāi)發(fā)生命周期中提供一致的體驗(yàn)。
圖片
引入數(shù)據(jù)
確定處理流程后,需要將數(shù)據(jù)引入數(shù)據(jù)湖,通常會(huì)先進(jìn)行數(shù)據(jù)初始化,將基礎(chǔ)數(shù)據(jù)全量引入湖中,隨后從數(shù)據(jù)源捕獲變更數(shù)據(jù) (CDC)進(jìn)行增量加載,以實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)捕獲。
借助白鯨開(kāi)源WhaleStudio中的數(shù)據(jù)同步工具WhaleTunnel,開(kāi)發(fā)人員可以自動(dòng)加載文件、數(shù)據(jù)庫(kù)和 CDC 記錄,云原生解決方案允許您以任何延遲(批量、增量、準(zhǔn)實(shí)時(shí)、實(shí)時(shí)),快速引入任何數(shù)據(jù)。它使用簡(jiǎn)單,是向?qū)?qū)動(dòng)的低代碼操作,方便任何人員開(kāi)箱即用。
確保數(shù)據(jù)可信和可用
將數(shù)據(jù)攝取到數(shù)據(jù)湖后,需要確保數(shù)據(jù)干凈、可信且隨時(shí)可供使用。白鯨開(kāi)源的數(shù)據(jù)集成和數(shù)據(jù)質(zhì)量解決方案,使開(kāi)發(fā)人員可以在簡(jiǎn)單的可視化界面中使用拖拽方式來(lái)快速構(gòu)建、測(cè)試和部署數(shù)據(jù)管道。
構(gòu)建在白鯨調(diào)度系統(tǒng)(WhaleScheduler)中的數(shù)據(jù)質(zhì)量模塊,提供全方位的數(shù)據(jù)質(zhì)量功能,包括數(shù)據(jù)分析、清理、重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)驗(yàn)證,幫助用戶避免“垃圾進(jìn)垃圾出”的問(wèn)題,確保數(shù)據(jù)干凈、可信且可用。而白鯨調(diào)度系統(tǒng)(WhaleScheduler)中的元數(shù)據(jù)模塊,提供了血緣分析功能,幫助企業(yè)快速針對(duì)各種數(shù)據(jù)源和目標(biāo)的情況進(jìn)行分析,加快開(kāi)發(fā)人員之間的交接和代碼審核效率,進(jìn)一步確保數(shù)據(jù)的準(zhǔn)確性。
創(chuàng)建高性能數(shù)據(jù)處理管道
一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)湖中,數(shù)據(jù)使用者可能希望進(jìn)一步對(duì)數(shù)據(jù)集進(jìn)行切片和分析,則可以繼續(xù)使用白鯨調(diào)度系統(tǒng)(WhaleScheduler)的可視化設(shè)計(jì)器來(lái)構(gòu)建DAG邏輯。而構(gòu)建在WhaleTunnel中的數(shù)據(jù)集成功能,能夠使用無(wú)代碼接口快速構(gòu)建高性能的端到端數(shù)據(jù)管道,使開(kāi)發(fā)人員可以輕松地在任何云或本地系統(tǒng)之間移動(dòng)和同步數(shù)據(jù)。批流一體的數(shù)據(jù)同步方式可以完美兼容離線同步、實(shí)時(shí)同步、全量同步、增量同步等多種場(chǎng)景,這在極大程度上降低了數(shù)據(jù)集成任務(wù)管理的困難。
綜上所述,白鯨開(kāi)源WhaleStudio套件可以幫助企業(yè)解決內(nèi)部多數(shù)據(jù)源、多數(shù)據(jù)系統(tǒng)復(fù)雜的數(shù)據(jù)集成,持續(xù)開(kāi)發(fā)、持續(xù)部署、數(shù)據(jù)捕獲、數(shù)據(jù)打通等一些列問(wèn)題,加速數(shù)據(jù)準(zhǔn)備過(guò)程,全面提升數(shù)據(jù)分析和大模型構(gòu)建的能力。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-684152.html
本文由 白鯨開(kāi)源 提供發(fā)布支持!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-684152.html
到了這里,關(guān)于白鯨開(kāi)源 DataOps 平臺(tái)加速數(shù)據(jù)分析和大模型構(gòu)建的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!