国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1)

這篇具有很好參考價(jià)值的文章主要介紹了一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ETL,是英文Extract-Transform-Load的縮寫,用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程,是數(shù)據(jù)倉(cāng)庫(kù)的生命線。

**抽?。?strong>Extract)**主要是針對(duì)各個(gè)業(yè)務(wù)系統(tǒng)及不同服務(wù)器的分散數(shù)據(jù),充分理解數(shù)據(jù)定義后,規(guī)劃需要的數(shù)據(jù)源及數(shù)據(jù)定義,制定可操作的數(shù)據(jù)源,制定增量抽取和緩慢漸變的規(guī)則。

**轉(zhuǎn)換(transform)**主要是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)建立的模型,通過(guò)一系列的轉(zhuǎn)換來(lái)實(shí)現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型到分析模型,通過(guò)ETL工具可視化拖拽操作可以直接使用標(biāo)準(zhǔn)的內(nèi)置代碼片段功能、自定義腳本、函數(shù)、存儲(chǔ)過(guò)程以及其他的擴(kuò)展方式,實(shí)現(xiàn)了各種復(fù)雜的轉(zhuǎn)換,并且支持自動(dòng)分析日志,清楚的監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換的狀態(tài)并優(yōu)化分析模型。

**裝載(Load)**主要是將經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)里面,可以通過(guò)直連數(shù)據(jù)庫(kù)的方式來(lái)進(jìn)行數(shù)據(jù)裝載,可以充分體現(xiàn)高效性。在應(yīng)用的時(shí)候可以隨時(shí)調(diào)整數(shù)據(jù)抽取工作的運(yùn)行方式,可以靈活的集成到其他管理系統(tǒng)中。

二、ETL &?ELT


伴隨著數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展(傳送門:數(shù)據(jù)倉(cāng)庫(kù)的八個(gè)發(fā)展階段),數(shù)據(jù)量從小到大,數(shù)據(jù)實(shí)時(shí)性從T+1到準(zhǔn)實(shí)時(shí)、實(shí)時(shí),ETL也在不斷演進(jìn)。

在傳統(tǒng)數(shù)倉(cāng)中,數(shù)據(jù)量小,計(jì)算邏輯相對(duì)簡(jiǎn)單,我們可以直接用ETL工具實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換(T),轉(zhuǎn)換之后再加載到目標(biāo)庫(kù),即(Extract-Transform-Load)。但在大數(shù)據(jù)場(chǎng)景下,數(shù)據(jù)量越大越大,計(jì)算邏輯愈發(fā)復(fù)雜,數(shù)據(jù)清洗需放在運(yùn)算能力更強(qiáng)的分布式計(jì)算引擎中完成,ETL也就變成了ELT(Extract-Load-Transform)。

即:Extract-Transform-Load? >>? Extract-Load-Transform

通常我們所說(shuō)的ETL,已經(jīng)泛指數(shù)據(jù)同步、數(shù)據(jù)清洗全過(guò)程,而不僅限于數(shù)據(jù)的抽取-轉(zhuǎn)換-加載。

三、常用的ETL工具


下面小編將介紹幾類ETL工具(sqoop,DataX,Kettle,canal,StreamSets)。

3.1 sqoop

  • 是Apache開(kāi)源的一款在Hadoop和關(guān)系數(shù)據(jù)庫(kù)服務(wù)器之間傳輸數(shù)據(jù)的工具。

  • 可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(MySQL ,Oracle等)中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫(kù)中。

  • sqoop命令的本質(zhì)是轉(zhuǎn)化為MapReduce程序。

  • sqoop分為導(dǎo)入(import)和導(dǎo)出(export),

  • 策略分為table和query

  • 模式分為增量和全量。

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

3.2 DataX

  • DataX 是阿里巴巴集團(tuán)內(nèi)被廣泛使用的離線數(shù)據(jù)同步工具/平臺(tái)

  • 實(shí)現(xiàn)包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能。

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

3.3?Kettle

  • 一款國(guó)外免費(fèi)開(kāi)源的、可視化的、功能強(qiáng)大的ETL工具,純java編寫,可以在Windows、Linux、Unix上運(yùn)行,數(shù)據(jù)抽取高效穩(wěn)定。

3.4?canal

  • canal是阿里巴巴旗下的一款開(kāi)源項(xiàng)目,純Java開(kāi)發(fā)?;跀?shù)據(jù)庫(kù)增量日志解析,提供增量數(shù)據(jù)實(shí)時(shí)訂閱和消費(fèi),目前主要支持了MySQL,也支持mariaDB。

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

3.5 StreamSets

  • 是大數(shù)據(jù)實(shí)時(shí)采集ETL工具,可以實(shí)現(xiàn)不寫一行代碼完成數(shù)據(jù)的采集和流轉(zhuǎn)。通過(guò)拖拽式的可視化界面,實(shí)現(xiàn)數(shù)據(jù)管道(Pipelines)的設(shè)計(jì)和定時(shí)任務(wù)調(diào)度。

  • 創(chuàng)建一個(gè)Pipelines管道需要配置數(shù)據(jù)源(Origins)、操作(Processors)、目的地(Destinations)三部分。

四、ETL加載策略


4.1 增量

  • 有些表巨大,我們需要選擇增量策略,新增delta數(shù)據(jù)需要和存量數(shù)據(jù)merge合并。

  • 兩種方法:

  • merge(一)

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

  • merge(二)

  • 只有新增(full join。能拿更新表就拿更新表)

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

  • 新增+刪除

  • history-table Left join delet-table where delect-table.value is null == 表a

  • 表a full join update-table (能拿update就拿update)

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

自我介紹一下,小編13年上海交大畢業(yè),曾經(jīng)在小公司待過(guò),也去過(guò)華為、OPPO等大廠,18年進(jìn)入阿里一直到現(xiàn)在。

深知大多數(shù)Python工程師,想要提升技能,往往是自己摸索成長(zhǎng)或者是報(bào)班學(xué)習(xí),但對(duì)于培訓(xùn)機(jī)構(gòu)動(dòng)則幾千的學(xué)費(fèi),著實(shí)壓力不小。自己不成體系的自學(xué)效果低效又漫長(zhǎng),而且極易碰到天花板技術(shù)停滯不前!

因此收集整理了一份《2024年P(guān)ython開(kāi)發(fā)全套學(xué)習(xí)資料》,初衷也很簡(jiǎn)單,就是希望能夠幫助到想自學(xué)提升又不知道該從何學(xué)起的朋友,同時(shí)減輕大家的負(fù)擔(dān)。

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

既有適合小白學(xué)習(xí)的零基礎(chǔ)資料,也有適合3年以上經(jīng)驗(yàn)的小伙伴深入學(xué)習(xí)提升的進(jìn)階課程,基本涵蓋了95%以上前端開(kāi)發(fā)知識(shí)點(diǎn),真正體系化!

由于文件比較大,這里只是將部分目錄大綱截圖出來(lái),每個(gè)節(jié)點(diǎn)里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實(shí)戰(zhàn)項(xiàng)目、講解視頻,并且后續(xù)會(huì)持續(xù)更新

如果你覺(jué)得這些內(nèi)容對(duì)你有幫助,可以掃碼獲?。。。。▊渥ython)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-854712.html

既有適合小白學(xué)習(xí)的零基礎(chǔ)資料,也有適合3年以上經(jīng)驗(yàn)的小伙伴深入學(xué)習(xí)提升的進(jìn)階課程,基本涵蓋了95%以上前端開(kāi)發(fā)知識(shí)點(diǎn),真正體系化!

由于文件比較大,這里只是將部分目錄大綱截圖出來(lái),每個(gè)節(jié)點(diǎn)里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實(shí)戰(zhàn)項(xiàng)目、講解視頻,并且后續(xù)會(huì)持續(xù)更新

如果你覺(jué)得這些內(nèi)容對(duì)你有幫助,可以掃碼獲取?。。。▊渥ython)

一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1),程序員,數(shù)據(jù)倉(cāng)庫(kù),etl

到了這里,關(guān)于一篇文章搞懂?dāng)?shù)據(jù)倉(cāng)庫(kù):常用ETL工具、方法(1)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 一篇文章搞懂Git與Github

    一篇文章搞懂Git與Github

    Git 是一個(gè)開(kāi)源的 分布式版本控制系統(tǒng) ,Github 是 全球最大的同性交友網(wǎng)站 基于 Git 的 代碼托管平臺(tái) ,因?yàn)橹恢С?Git 作為 唯一的版本庫(kù) 格式進(jìn)行托管,故名 GitHub,就是一個(gè)平臺(tái)上面有無(wú)數(shù)個(gè) Git 倉(cāng)庫(kù)——Git 版的百度云,承擔(dān)存儲(chǔ)遠(yuǎn)程倉(cāng)庫(kù)的作用。 唯一版本庫(kù)是什么意思?

    2024年02月06日
    瀏覽(24)
  • 搞懂TVS管,有這篇文章就夠了

    摘要:本文主要介紹TVS的工作原理、關(guān)鍵參數(shù)和選型。 TVS(Transient Voltage Suppressors,瞬態(tài)電壓抑制器)又稱雪崩擊穿二極管,是一種高效電路保護(hù)器件,主要是保護(hù)電路不受瞬態(tài)高壓尖峰脈沖(靜電或雷擊浪涌)的沖擊。 TVS是采用半導(dǎo)體工藝制成的單個(gè)PN結(jié)或多個(gè)PN結(jié)集成的器件,

    2023年04月08日
    瀏覽(30)
  • 一篇文章帶你搞懂前端Cookie

    一篇文章帶你搞懂前端Cookie

    瀏覽器Cookie相信各位點(diǎn)進(jìn)這篇文章的小伙伴應(yīng)該不陌生了,它是前端領(lǐng)域中一個(gè)非常重要的內(nèi)容,當(dāng)然也是面試的一個(gè)考點(diǎn),不知道各位小伙伴是否真正掌握了Cookie呢?當(dāng)然沒(méi)有掌握也是沒(méi)有關(guān)系的,可以跟著小編的腳步一起來(lái)學(xué)習(xí)一下前端Cookie,沒(méi)有熟練掌握的小伙伴看完這

    2024年02月04日
    瀏覽(31)
  • 一篇文章帶你搞懂stm32工程文件

    一篇文章帶你搞懂stm32工程文件

    本文以stm32f4為例,講解stm32標(biāo)準(zhǔn)庫(kù)工程中各個(gè)文件的作用,學(xué)藝不精,如有錯(cuò)誤,望大家私信或評(píng)論指出。 先看思維導(dǎo)圖 startup_stm32f427xx.s? 該文件是stm32的啟動(dòng)文件,由匯編語(yǔ)言編寫,主要是做stm32上電時(shí)的配置設(shè)置(如堆棧指針,時(shí)鐘數(shù))并跳轉(zhuǎn)到main函數(shù)中,執(zhí)行c代碼。

    2024年02月21日
    瀏覽(34)
  • 一篇文章搞懂前端sso需要做什么

    一篇文章搞懂前端sso需要做什么

    父域 Cookie 認(rèn)證中心 LocalStorage 跨域 一般情況下,用戶的登錄狀態(tài)是記錄在 Session 中的,要實(shí)現(xiàn)共享登錄狀態(tài),就要先共享 Session,但是由于不同的應(yīng)用系統(tǒng)有著不同的域名,盡管 Session 共享了,但是由于 SessionId 是往往保存在瀏覽器 Cookie 中的,因此存在作用域的限制,無(wú)法

    2024年02月20日
    瀏覽(31)
  • 一篇文章讓你搞懂自定義類型-----結(jié)構(gòu)體

    一篇文章讓你搞懂自定義類型-----結(jié)構(gòu)體

    結(jié)構(gòu)是一些值的集合,這些值稱為成員變量。結(jié)構(gòu)的每個(gè)成員可以是不同類型的變量 例如描述一個(gè)學(xué)生 在聲明結(jié)構(gòu)的時(shí)候,可以不完全的聲明 比如 上面的兩個(gè)結(jié)構(gòu)在聲明的時(shí)候省略掉了結(jié)構(gòu)體標(biāo)簽(tag) 那么問(wèn)題來(lái)了 警告: 編譯器會(huì)把上面的兩個(gè)聲明當(dāng)成完全不同的兩個(gè)

    2024年02月16日
    瀏覽(29)
  • 什么是區(qū)塊鏈?一篇文章搞懂區(qū)塊鏈本質(zhì)

    鑒于我對(duì)區(qū)塊鏈的關(guān)注,以及很多關(guān)注我的朋友們,并不是很清楚區(qū)塊鏈的本質(zhì)和潛力點(diǎn),所以今天在地鐵里疏離了一下,并分享給大家。 你見(jiàn)過(guò)錢嗎?我相信你是沒(méi)見(jiàn)過(guò)真正的錢的。 這是錢嗎? 這是“鈔票”,而不是錢!這不是摳字眼,且聽(tīng)我細(xì)細(xì)道來(lái)。 別人管你借錢的

    2024年01月22日
    瀏覽(21)
  • Unity/C#------委托與事件(一篇文章徹底搞懂...)

    Unity/C#------委托與事件(一篇文章徹底搞懂...)

    ? ? ? ? 所有的代碼語(yǔ)言創(chuàng)造者母語(yǔ)都是英語(yǔ),我們從英語(yǔ)翻譯到中文的過(guò)程中難免會(huì)存在一些不太能還原本意的詞,比如我之前一直不理解構(gòu)造函數(shù)和析構(gòu)函數(shù),只知道這倆貨作用相反,直到我看到了它的英文意思,Construstor/Distructor,我才徹底理解了他們的作用。 ? ? ?

    2024年02月06日
    瀏覽(20)
  • 一篇文章帶你搞懂GIT、Github、Gitee

    一篇文章帶你搞懂GIT、Github、Gitee

    本文介紹了GIt,GitHub,Gitee的使用,與IDEA的Git配置,跟著文章來(lái)做你很快就能學(xué)會(huì)操作Git,利用其進(jìn)行版本控制與代碼托管,學(xué)習(xí)Git的使用、Git常用命令、Git分支,分支是團(tuán)隊(duì)協(xié)作的基礎(chǔ),介紹了團(tuán)隊(duì)內(nèi),外協(xié)作和Github遠(yuǎn)程倉(cāng)庫(kù)的操作、使用IDEA中的Git、IDEA中GIt的使用、在I

    2023年04月19日
    瀏覽(26)
  • 還沒(méi)搞懂重寫和重載嗎?這篇文章可以幫助你

    首先,會(huì)大致介紹一下什么叫做向上轉(zhuǎn)型,方便后續(xù)的理解 提示:以下是本篇文章正文內(nèi)容,下面案例可供參考 向上轉(zhuǎn)型是Java的一個(gè)多態(tài)性的表現(xiàn)形式。指的是一個(gè)子類的對(duì)象賦值給父類類型的引用變量。換句話說(shuō),它是將一個(gè)對(duì)象轉(zhuǎn)換為它的父類類型。 在上述示例中,

    2024年02月06日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包