更多技術(shù)交流、求職機(jī)會(huì),歡迎關(guān)注字節(jié)跳動(dòng)數(shù)據(jù)平臺(tái)微信公眾號(hào),回復(fù)【1】進(jìn)入官方交流群
近期,火山引擎 DataLeap 上線(xiàn)“動(dòng)態(tài)探查”能力,為用戶(hù)提供全局?jǐn)?shù)據(jù)視角、完善的抽樣策略,提高數(shù)據(jù)探查的靈活度以及響應(yīng)速率。
傳統(tǒng)的數(shù)據(jù)探查是基于庫(kù)表的全量探查,由后端引擎執(zhí)行,通過(guò)自動(dòng)化檢查數(shù)據(jù)成分、關(guān)系、格式等,以報(bào)告形式展示探查后列的統(tǒng)計(jì)分布結(jié)果,避免數(shù)據(jù)質(zhì)量導(dǎo)致項(xiàng)目開(kāi)發(fā)、上線(xiàn)出現(xiàn)問(wèn)題,主要應(yīng)用于元數(shù)據(jù)管理、數(shù)據(jù)研發(fā)、數(shù)倉(cāng)開(kāi)發(fā)以及數(shù)據(jù)治理等環(huán)節(jié),滿(mǎn)足使用者對(duì)數(shù)據(jù)質(zhì)量初探的需求。
但在數(shù)據(jù)量級(jí)大、用戶(hù)需要探查數(shù)據(jù)明細(xì)或需要數(shù)據(jù)預(yù)處理操作時(shí),由于傳統(tǒng)的數(shù)據(jù)探查要對(duì)全量表進(jìn)行檢測(cè),導(dǎo)致無(wú)法實(shí)時(shí)產(chǎn)出報(bào)告、等待時(shí)間變長(zhǎng),靈活度低,且無(wú)法跟蹤數(shù)據(jù)明細(xì)。
針對(duì)上述痛點(diǎn),火山引擎 DataLeap 在傳統(tǒng)數(shù)據(jù)探查基礎(chǔ)能力上,進(jìn)一步增強(qiáng)了動(dòng)態(tài)探查能力。其特點(diǎn)在于:
-
基于大數(shù)據(jù)預(yù)覽探查,支持對(duì)數(shù)據(jù)進(jìn)行函數(shù)級(jí)別預(yù)處理。
-
數(shù)據(jù)探查結(jié)果秒級(jí)更新、實(shí)時(shí)響應(yīng)。
-
與數(shù)據(jù)監(jiān)控聯(lián)動(dòng),有效打通數(shù)據(jù)探查到質(zhì)量分析閉環(huán)。
據(jù)介紹,DataLeap 動(dòng)態(tài)探查的對(duì)象是抽樣數(shù)據(jù),支持連續(xù)抽樣(按照默認(rèn)順序連續(xù)抽樣前 x 條數(shù)據(jù))、過(guò)濾抽樣(使用 where 過(guò)濾語(yǔ)句過(guò)濾)、隨機(jī)抽樣(隨機(jī)抽樣 x 條數(shù)據(jù))3 種模式,用戶(hù)可對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,實(shí)時(shí)、動(dòng)態(tài)獲得統(tǒng)計(jì)分布結(jié)果,具備靈活度高、實(shí)效性強(qiáng)的特點(diǎn)。
火山引擎 DataLeap 動(dòng)態(tài)探查使用流程
?文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-438779.html
除此之外,DataLeap 動(dòng)態(tài)探查具備對(duì)探查結(jié)果基礎(chǔ)分析能力,包含列刪除、過(guò)濾、排序等。用戶(hù)對(duì)探查結(jié)果的每一次操作都會(huì)被記作一次操作,多次操作串聯(lián)成操作棧,DataLeap 支持用戶(hù)自由修改或刪減操作棧里的步驟,并實(shí)時(shí)查看最新結(jié)果。
火山引擎 DataLeap 動(dòng)態(tài)探查操作棧
?
火山引擎 DataLeap 數(shù)據(jù)探查報(bào)告
?
目前,DataLeap 動(dòng)態(tài)探查可以應(yīng)用在以下三個(gè)場(chǎng)景中:
-
場(chǎng)景 1:用于分析型探查場(chǎng)景,用戶(hù)可利用 hive 基本函數(shù),如 get_json_object,將列進(jìn)行數(shù)據(jù)提取。
-
場(chǎng)景 2:與探查報(bào)告打通,用戶(hù)點(diǎn)擊探查報(bào)告中的統(tǒng)計(jì)值,即可跳轉(zhuǎn)到數(shù)據(jù)表格,并應(yīng)用具體行過(guò)濾函數(shù)。
-
場(chǎng)景 3:用于數(shù)據(jù)過(guò)濾后的探查場(chǎng)景,用戶(hù)通過(guò)過(guò)濾和分組條件進(jìn)行寫(xiě)條件探查,例如校驗(yàn) status=0 時(shí) current_price 為 0 的占比。
?
DataLeap 是火山引擎數(shù)智平臺(tái)旗下產(chǎn)品,提供數(shù)據(jù)集成、開(kāi)發(fā)、運(yùn)維、治理、資產(chǎn)、安全等能力,幫助用戶(hù)提升數(shù)據(jù)研發(fā)效率、降低管理成本,加速推動(dòng)企業(yè)的數(shù)字化轉(zhuǎn)型,目前已經(jīng)應(yīng)用于泛互聯(lián)網(wǎng)、制造、新零售、汽車(chē)等領(lǐng)域。
?
點(diǎn)擊跳轉(zhuǎn)火山引擎DataLeap了解更多文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-438779.html
到了這里,關(guān)于數(shù)據(jù)剖析更靈活、更快捷,火山引擎 DataLeap 動(dòng)態(tài)探查全面升級(jí)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!