一、概論
1.1 什么是DataX
???????? DataX 是阿里巴巴開(kāi)源的一個(gè)異構(gòu)數(shù)據(jù)源離線(xiàn)同步工具,致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。
1.2 DataX 的設(shè)計(jì)
???????? 為了解決異構(gòu)數(shù)據(jù)源同步問(wèn)題,DataX 將復(fù)雜的網(wǎng)狀的同步鏈路變成了星型數(shù)據(jù)鏈路,DataX 作為中間傳輸載體負(fù)責(zé)連接各種數(shù)據(jù)源。當(dāng)需要接入一個(gè)新的數(shù)據(jù)源的時(shí)候,只需要將此數(shù)據(jù)源對(duì)接到 DataX,便能跟已有的數(shù)據(jù)源做到無(wú)縫數(shù)據(jù)同步。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-717439.html
1.3 框架設(shè)計(jì)
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-717439.html
- Reader:數(shù)據(jù)采集模塊,負(fù)責(zé)采集數(shù)據(jù)源的數(shù)據(jù),將數(shù)據(jù)發(fā)給Framework。
- Wiriter: 數(shù)據(jù)寫(xiě)入模塊,負(fù)責(zé)不斷向Framwork取數(shù)據(jù),并將數(shù)據(jù)寫(xiě)入到目的端。
- Framework:用于連接read和writer,作為兩者的數(shù)據(jù)傳輸通道,并處理緩沖,流控,并發(fā),數(shù)據(jù)轉(zhuǎn)換等核心技術(shù)問(wèn)題。
運(yùn)行原理 - Job:?jiǎn)蝹€(gè)作業(yè)的管理節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)清理、子任務(wù)劃分、TaskGroup監(jiān)控管理。
- Task:由Job切分而來(lái),是DataX作業(yè)的最小單元,每個(gè)Task負(fù)責(zé)一部分?jǐn)?shù)據(jù)的同步工作。
- Schedule:將Task組成TaskGroup,單個(gè)TaskGroup的并發(fā)數(shù)量為5。
- TaskGroup:負(fù)責(zé)啟動(dòng)Task。
1.4 Datax所支持的渠道
類(lèi)型 | 數(shù)據(jù)源 | 讀者 | 作家(寫(xiě)) | 文件 |
---|---|---|---|---|
RDBMS關(guān)系型數(shù)據(jù)庫(kù) | MySQL | √ | √ | 讀,寫(xiě) |
? ? ? ? ? ? | 甲骨文 ? ? | ? ? √ ? ? | ? ? √ ? ? | 讀,寫(xiě) |
SQL服務(wù)器 | √ | √ | 讀,寫(xiě) | |
PostgreSQL的 | √ | √ | 讀,寫(xiě) | |
DRDS | √ | √ | 讀,寫(xiě) | |
通用RDBMS(支持所有關(guān)系型數(shù)據(jù)庫(kù)) | √ | √ |
1.1 什么是DataX
???????? DataX 是阿里巴巴開(kāi)源的一個(gè)異構(gòu)數(shù)據(jù)源離線(xiàn)同步工具,致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。
1.2 DataX 的設(shè)計(jì)
???????? 為了解決異構(gòu)數(shù)據(jù)源同步問(wèn)題,DataX 將復(fù)雜的網(wǎng)狀的同步鏈路變成了星型數(shù)據(jù)鏈路,DataX 作為中間傳輸載體負(fù)責(zé)連接各種數(shù)據(jù)源。當(dāng)需要接入一個(gè)新的數(shù)據(jù)源的時(shí)候,只需要將此數(shù)據(jù)源對(duì)接到 DataX,便能跟已有的數(shù)據(jù)源做到無(wú)縫數(shù)據(jù)同步。
1.3 框架設(shè)計(jì)
- Reader:數(shù)據(jù)采集模塊,負(fù)責(zé)采集數(shù)據(jù)源的數(shù)據(jù),將數(shù)據(jù)發(fā)給Framework。
- Wiriter: 數(shù)據(jù)寫(xiě)入模塊,負(fù)責(zé)不斷向Framwork取數(shù)據(jù),并將數(shù)據(jù)寫(xiě)入到目的端。
- Framework:用于連接read和writer,作為兩者的數(shù)據(jù)傳輸通道,并處理緩沖,流控,并發(fā),數(shù)據(jù)轉(zhuǎn)換等核心技術(shù)問(wèn)題。
運(yùn)行原理 - Job:?jiǎn)蝹€(gè)作業(yè)的管理節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)清理、子任務(wù)劃分、TaskGroup監(jiān)控管理。
- Task:由Job切分而來(lái),是DataX作業(yè)的最小單元,每個(gè)Task負(fù)責(zé)一部分?jǐn)?shù)據(jù)的同步工作。
- Schedule:將Task組成TaskGroup,單個(gè)TaskGroup的并發(fā)數(shù)量為5。
- TaskGroup:負(fù)責(zé)啟動(dòng)Task。
1.4 Datax所支持的渠道
類(lèi)型 | 數(shù)據(jù)源 | 讀者 | 作家(寫(xiě)) | 文件 |
---|---|---|---|---|
RDBMS關(guān)系型數(shù)據(jù)庫(kù) | MySQL | √ | √ | 讀,寫(xiě) |
? ? ? ? ? ? | 甲骨文 ? ? | ? ? √ ? ? | ? ? √ ? ? | 讀,寫(xiě) |
SQL服務(wù)器 | √ | √ | 讀,寫(xiě) | |
PostgreSQL的 | √ | √ | 讀,寫(xiě) | |
DRDS | √ | √ | 讀,寫(xiě) | |
通用RDBMS(支持所有關(guān)系型數(shù)據(jù)庫(kù)) | √ | √ |
到了這里,關(guān)于使用DataX實(shí)現(xiàn)mysql與hive數(shù)據(jù)互相導(dǎo)入導(dǎo)出的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!