国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

2年前作者：星光下的趕路人star分類(lèi)：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1、DataX簡(jiǎn)介

1.1 DataX概述

DataX 是阿里巴巴開(kāi)源的一個(gè)異構(gòu)數(shù)據(jù)源離線(xiàn)同步工具，致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(kù)(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。

源碼地址：https://github.com/alibaba/DataX

1.2 DataX支持的數(shù)據(jù)源

DataX目前已經(jīng)有了比較全面的插件體系，主流的RDBMS數(shù)據(jù)庫(kù)、NOSQL、大數(shù)據(jù)計(jì)算系統(tǒng)都已經(jīng)接入，目前支持?jǐn)?shù)據(jù)如下圖。
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

2、DataX架構(gòu)原理

2.1 DataX設(shè)計(jì)理念

為了解決異構(gòu)數(shù)據(jù)源同步問(wèn)題，DataX將復(fù)雜的網(wǎng)狀的同步鏈路變成了星型數(shù)據(jù)鏈路，DataX作為中間傳輸載體負(fù)責(zé)連接各種數(shù)據(jù)源。當(dāng)需要接入一個(gè)新的數(shù)據(jù)源的時(shí)候，只需要將此數(shù)據(jù)源對(duì)接到DataX，便能跟已有的數(shù)據(jù)源做到無(wú)縫數(shù)據(jù)同步。
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

2.2 DataX框架設(shè)計(jì)

DataX本身作為離線(xiàn)數(shù)據(jù)同步框架，采用Framework + plugin架構(gòu)構(gòu)建。將數(shù)據(jù)源讀取和寫(xiě)入抽象成為Reader/Writer插件，納入到整個(gè)同步框架中。
Reader：數(shù)據(jù)采集模塊，負(fù)責(zé)采集數(shù)據(jù)源的數(shù)據(jù)，將數(shù)據(jù)發(fā)送給Framework。
Writer：數(shù)據(jù)寫(xiě)入模塊，負(fù)責(zé)不斷向Framework取數(shù)據(jù)，并將數(shù)據(jù)寫(xiě)入到目的端。
Framework：用于連接Reader和Writer，作為兩者的數(shù)據(jù)傳輸通道，并處理緩存，流控，并發(fā)，數(shù)據(jù)轉(zhuǎn)換等核心技術(shù)問(wèn)題。

2.3 DataX運(yùn)行流程

下面用一個(gè)DataX作業(yè)生命周期的時(shí)序圖說(shuō)明DataX的運(yùn)行流程、核心概念以及每個(gè)概念之間的關(guān)系。
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

2.4 DataX調(diào)度決策思路

舉例來(lái)說(shuō)，用戶(hù)提交了一個(gè)DataX作業(yè)，并且配置了總的并發(fā)度為20，目的是對(duì)一個(gè)有100張分表的mysql數(shù)據(jù)源進(jìn)行同步。DataX的調(diào)度決策思路是：
1）DataX Job根據(jù)分庫(kù)分表切分策略，將同步工作分成100個(gè)Task。
2）根據(jù)配置的總的并發(fā)度20，以及每個(gè)Task Group的并發(fā)度5，DataX計(jì)算共需要分配4個(gè)TaskGroup。
3）4個(gè)TaskGroup平分100個(gè)Task，每一個(gè)TaskGroup負(fù)責(zé)運(yùn)行25個(gè)Task。

2.5 DataX和Sqoop對(duì)比

5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

3、DataX部署

1、下載DataX安裝包并上傳到hadoop102的/opt/software
下載地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
2、解壓datax.tar.gz到/opt/module

 tar -zxvf datax.tar.gz -C /opt/module/

3、自檢，執(zhí)行如下命令

 python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

4、出現(xiàn)如下內(nèi)容，則表明安裝成功
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

4、DataX使用

4.1 DataX使用概述

4.1.1 DataX任務(wù)提交命令

Datax的使用十分簡(jiǎn)單，用戶(hù)只需要根據(jù)自己同步數(shù)據(jù)的數(shù)據(jù)源和目的地選擇相應(yīng)的Reader和Writer，并將Reader和Writer的信息配置在一個(gè)json文件中，然后執(zhí)行如下命令提交數(shù)據(jù)同步任務(wù)即可。

 python bin/datax.py path/to/your/job.json

4.1.2 DataX配置文件格式

可以使用如下命名查看DataX配置文件模板。

python bin/datax.py -r mysqlreader -w hdfswriter

配置文件模板如下，json最外層是一個(gè)job，job包含setting和content兩部分，其中setting用于對(duì)整個(gè)job進(jìn)行配置，content用戶(hù)配置數(shù)據(jù)源和目的地。
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

4.2 同步MySQL數(shù)據(jù)到HDFS案例

案例要求：同步gmall數(shù)據(jù)庫(kù)中base_province表數(shù)據(jù)到HDFS的/base_province目錄
需求分析：要實(shí)現(xiàn)該功能，需選用MySQLReader和HDFSWriter，MySQLReader具有兩種模式分別是TableMode和QuerySQLMode，前者使用table，column，where等屬性聲明需要同步的數(shù)據(jù)；后者使用一條SQL查詢(xún)語(yǔ)句聲明需要同步的數(shù)據(jù)。
下面分別使用兩種模式進(jìn)行演示。

4.2.1 MySQLReader之TableMode

1、編寫(xiě)配置文件
（1）創(chuàng)建配置文件base_province.json

vim /opt/module/datax/job/base_province.json

（2）配置文件內(nèi)容如下

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "column": [
                            "id",
                            "name",
                            "region_id",
                            "area_code",
                            "iso_code",
                            "iso_3166_2"
                        ],
                        "where": "id>=3",
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://hadoop102:3306/gmall"
                                ],
                                "table": [
                                    "base_province"
                                ]
                            }
                        ],
                        "password": "000000",
                        "splitPk": "",
                        "username": "root"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "column": [
                            {
                                "name": "id",
                                "type": "bigint"
                            },
                            {
                                "name": "name",
                                "type": "string"
                            },
                            {
                                "name": "region_id",
                                "type": "string"
                            },
                            {
                                "name": "area_code",
                                "type": "string"
                            },
                            {
                                "name": "iso_code",
                                "type": "string"
                            },
                            {
                                "name": "iso_3166_2",
                                "type": "string"
                            }
                        ],
                        "compress": "gzip",
                        "defaultFS": "hdfs://hadoop102:8020",
                        "fieldDelimiter": "\t",
                        "fileName": "base_province",
                        "fileType": "text",
                        "path": "/base_province",
                        "writeMode": "append"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": 1
            }
        }
    }
}

2、配置文件說(shuō)明
（1）Reader參數(shù)說(shuō)明
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）
（2）Writer參數(shù)說(shuō)明

注意事項(xiàng)：
HFDS Writer并未提供nullFormat參數(shù)：也就是用戶(hù)并不能自定義null值寫(xiě)到HFDS文件中的存儲(chǔ)格式。默認(rèn)情況下，HFDS Writer會(huì)將null值存儲(chǔ)為空字符串（‘’），而Hive默認(rèn)的null值存儲(chǔ)格式為\N。所以后期將DataX同步的文件導(dǎo)入Hive表就會(huì)出現(xiàn)問(wèn)題。
（3）Setting參數(shù)說(shuō)明
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）
3、提交任務(wù)
（1）在HDFS創(chuàng)建/base_province目錄
使用DataX向HDFS同步數(shù)據(jù)時(shí)，需確保目標(biāo)路徑已存在

hadoop fs -mkdir /base_province

（2）進(jìn)入DataX根目錄
（3）執(zhí)行如下命令

 python bin/datax.py job/base_province.json

4、查看結(jié)果
（1）DataX打印日志
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）
（2）查看HDFS文件

hadoop fs -cat /base_province/* | zcat

4.2.2 MySQLReader之QuerySQLMode

1、編寫(xiě)配置文件
（1）修改配置文件base_province.json
（2）配置文件內(nèi)容如下

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://hadoop102:3306/gmall"
                                ],
                                "querySql": [
                                    "select id,name,region_id,area_code,iso_code,iso_3166_2 from base_province where id>=3"
                                ]
                            }
                        ],
                        "password": "000000",
                        "username": "root"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "column": [
                            {
                                "name": "id",
                                "type": "bigint"
                            },
                            {
                                "name": "name",
                                "type": "string"
                            },
                            {
                                "name": "region_id",
                                "type": "string"
                            },
                            {
                                "name": "area_code",
                                "type": "string"
                            },
                            {
                                "name": "iso_code",
                                "type": "string"
                            },
                            {
                                "name": "iso_3166_2",
                                "type": "string"
                            }
                        ],
                        "compress": "gzip",
                        "defaultFS": "hdfs://hadoop102:8020",
                        "fieldDelimiter": "\t",
                        "fileName": "base_province",
                        "fileType": "text",
                        "path": "/base_province",
                        "writeMode": "append"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": 1
            }
        }
    }
}

2、配置文件說(shuō)明
（1）Reader參數(shù)說(shuō)明
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）
3、提交任務(wù)
（1）清空歷史數(shù)據(jù)

 hadoop fs -rm -r -f /base_province/*

（2）進(jìn)入DataX根目錄
（3）執(zhí)行如下命令

python bin/datax.py job/base_province.json

4、查看結(jié)果
（1）DataX打印日志
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）
（2）查看HDFS文件

hadoop fs -cat /base_province/* | zcat

4.2.3 DataX傳參

通常情況下，離線(xiàn)數(shù)據(jù)同步任務(wù)需要每日定時(shí)重復(fù)執(zhí)行，故HDFS上的目標(biāo)路徑通常會(huì)包含一層日期，以對(duì)每日同步的數(shù)據(jù)加以區(qū)分，也就是說(shuō)每日同步數(shù)據(jù)的目標(biāo)路徑不是固定不變的，因此DataX配置文件中HDFS Writer的path參數(shù)的值應(yīng)該是動(dòng)態(tài)的。為實(shí)現(xiàn)這一效果，就需要使用DataX傳參的功能。
DataX傳參的用法如下，在JSON配置文件中使用${param}引用參數(shù)，在提交任務(wù)時(shí)使用-p"-Dparam=value"傳入?yún)?shù)值，具體示例如下。
1、編寫(xiě)配置文件
（1）修改配置文件base_province.json

（2）配置文件內(nèi)容如下

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://hadoop102:3306/gmall"
                                ],
                                "querySql": [
                                    "select id,name,region_id,area_code,iso_code,iso_3166_2 from base_province where id>=3"
                                ]
                            }
                        ],
                        "password": "000000",
                        "username": "root"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "column": [
                            {
                                "name": "id",
                                "type": "bigint"
                            },
                            {
                                "name": "name",
                                "type": "string"
                            },
                            {
                                "name": "region_id",
                                "type": "string"
                            },
                            {
                                "name": "area_code",
                                "type": "string"
                            },
                            {
                                "name": "iso_code",
                                "type": "string"
                            },
                            {
                                "name": "iso_3166_2",
                                "type": "string"
                            }
                        ],
                        "compress": "gzip",
                        "defaultFS": "hdfs://hadoop102:8020",
                        "fieldDelimiter": "\t",
                        "fileName": "base_province",
                        "fileType": "text",
                        "path": "/base_province/${dt}",
                        "writeMode": "append"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": 1
            }
        }
    }
}

2、提交任務(wù)
（1）創(chuàng)建目標(biāo)路徑

 hadoop fs -mkdir /base_province/2020-06-14

（2）進(jìn)入DataX根目錄
（3）執(zhí)行如下命令

 python bin/datax.py -p"-Ddt=2020-06-14" job/base_province.json

3、查看結(jié)果

hadoop fs -ls /base_province

4.3 同步HDFS數(shù)據(jù)到MySQL案例

案例要求：同步HDFS上的/base_province目錄下的數(shù)據(jù)到MySQL gmall 數(shù)據(jù)庫(kù)下的test_province表。
需求分析：要實(shí)現(xiàn)該功能，需選用HDFSReader和MySQLWriter。
1、編寫(xiě)配置文件
（1）創(chuàng)建配置文件test_province.json
（2）配置文件內(nèi)容如下

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                        "defaultFS": "hdfs://hadoop102:8020",
                        "path": "/base_province",
                        "column": [
                            "*"
                        ],
                        "fileType": "text",
                        "compress": "gzip",
                        "encoding": "UTF-8",
                        "nullFormat": "\\N",
                        "fieldDelimiter": "\t",
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "username": "root",
                        "password": "000000",
                        "connection": [
                            {
                                "table": [
                                    "test_province"
                                ],
                                "jdbcUrl": "jdbc:mysql://hadoop102:3306/gmall?useUnicode=true&characterEncoding=utf-8"
                            }
                        ],
                        "column": [
                            "id",
                            "name",
                            "region_id",
                            "area_code",
                            "iso_code",
                            "iso_3166_2"
                        ],
                        "writeMode": "replace"
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "channel": 1
            }
        }
    }
}

2、配置文件說(shuō)明
（1）Reader參數(shù)說(shuō)明
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）
（2）Writer參數(shù)說(shuō)明

3、提交任務(wù)
（1）在MySQL中創(chuàng)建gmall.test_province表

DROP TABLE IF EXISTS `test_province`;
CREATE TABLE `test_province`  (
  `id` bigint(20) NOT NULL,
  `name` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `region_id` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `area_code` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `iso_code` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `iso_3166_2` varchar(20) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

（2）進(jìn)入DataX根目錄
（3）執(zhí)行如下命令

 python bin/datax.py job/test_province.json

4、查看結(jié)果
（1）DataX打印日志
（2）查看MySQL目標(biāo)表數(shù)據(jù)
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）

5、DataX優(yōu)化

5.1 速度控制

DataX3.0提供了包括通道(并發(fā))、記錄流、字節(jié)流三種流控模式，可以隨意控制你的作業(yè)速度，讓你的作業(yè)在數(shù)據(jù)庫(kù)可以承受的范圍內(nèi)達(dá)到最佳的同步速度。
5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）
注意事項(xiàng)：
1.若配置了總record限速，則必須配置單個(gè)channel的record限速
2.若配置了總byte限速，則必須配置單個(gè)channe的byte限速
3.若配置了總record限速和總byte限速，channel并發(fā)數(shù)參數(shù)就會(huì)失效。因?yàn)榕渲昧丝俽ecord限速和總byte限速之后，實(shí)際channel并發(fā)數(shù)是通過(guò)計(jì)算得到的：
計(jì)算公式為:
min(總byte限速/單個(gè)channel的byte限速，總record限速/單個(gè)channel的record限速)

5.2 內(nèi)存調(diào)整

當(dāng)提升DataX Job內(nèi)Channel并發(fā)數(shù)時(shí)，內(nèi)存的占用會(huì)顯著增加，因?yàn)镈ataX作為數(shù)據(jù)交換通道，在內(nèi)存中會(huì)緩存較多的數(shù)據(jù)。例如Channel中會(huì)有一個(gè)Buffer，作為臨時(shí)的數(shù)據(jù)交換的緩沖區(qū)，而在部分Reader和Writer的中，也會(huì)存在一些Buffer，為了防止OOM等錯(cuò)誤，需調(diào)大JVM的堆內(nèi)存。
建議將內(nèi)存設(shè)置為4G或者8G，這個(gè)也可以根據(jù)實(shí)際情況來(lái)調(diào)整。
調(diào)整JVM xms xmx參數(shù)的兩種方式：一種是直接更改datax.py腳本；另一種是在啟動(dòng)的時(shí)候，加上對(duì)應(yīng)的參數(shù)，如下：
python datax/bin/datax.py --jvm=“-Xms8G -Xmx8G” /path/to/your/job.json文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-510480.html

到了這里，關(guān)于5、DataX（DataX簡(jiǎn)介、DataX架構(gòu)原理、DataX部署、使用、同步MySQL數(shù)據(jù)到HDFS、同步HDFS數(shù)據(jù)到MySQL）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

DolphinScheduler 調(diào)度 DataX 實(shí)現(xiàn) MySQL To ElasticSearch 增量數(shù)據(jù)同步實(shí)踐
基于SQL查詢(xún)的 CDC(Change Data Capture)：離線(xiàn)調(diào)度查詢(xún)作業(yè)，批處理。把一張表同步到其他系統(tǒng)，每次通過(guò)查詢(xún)?nèi)カ@取表中最新的數(shù)據(jù)。也就是我們說(shuō)的基于SQL查詢(xún)抽??；無(wú)法保障數(shù)據(jù)一致性，查的過(guò)程中有可能數(shù)據(jù)已經(jīng)發(fā)生了多次變更；不保障實(shí)時(shí)性，基于離線(xiàn)調(diào)度存在天然的
2024年02月03日
瀏覽(24)
DataX將MySQL數(shù)據(jù)同步到HDFS中時(shí)，空值不處理可以嗎
DataX將MySQL數(shù)據(jù)同步到HDFS中時(shí)，空值(NULL)存到HDFS中時(shí)，默認(rèn)是存儲(chǔ)為空字符串（‘’）。 HFDS Writer并未提供nullFormat參數(shù)：也就是用戶(hù)并不能自定義null值寫(xiě)到HFDS文件中的存儲(chǔ)格式。默認(rèn)情況下，HFDS Writer會(huì)將null值存儲(chǔ)為空字符串（‘’），而Hive默認(rèn)的null值存儲(chǔ)格式為N。所以
2024年02月12日
瀏覽(30)
【大數(shù)據(jù)進(jìn)階第三階段之Datax學(xué)習(xí)筆記】使用阿里云開(kāi)源離線(xiàn)同步工具DataX 實(shí)現(xiàn)數(shù)據(jù)同步
【大數(shù)據(jù)進(jìn)階第三階段之Datax學(xué)習(xí)筆記】阿里云開(kāi)源離線(xiàn)同步工具Datax概述? 【大數(shù)據(jù)進(jìn)階第三階段之Datax學(xué)習(xí)筆記】阿里云開(kāi)源離線(xiàn)同步工具Datax快速入門(mén)? ?【大數(shù)據(jù)進(jìn)階第三階段之Datax學(xué)習(xí)筆記】阿里云開(kāi)源離線(xiàn)同步工具Datax類(lèi)圖【大數(shù)據(jù)進(jìn)階第三階段之Datax學(xué)習(xí)筆記】使
2024年01月24日
瀏覽(31)
DataX mysql同步到mysql
創(chuàng)建數(shù)據(jù)源配置數(shù)據(jù)庫(kù)相關(guān)信息創(chuàng)建執(zhí)行器配置執(zhí)行器執(zhí)行地址相關(guān)信息 1.1 SQL語(yǔ)句（querySql）在json文件中此部分配置就是 querySql 在有些業(yè)務(wù)場(chǎng)景下，where這一配置項(xiàng)不足以描述所篩選的條件，用戶(hù)可以通過(guò)該配置型來(lái)自定義篩選SQL。當(dāng)用戶(hù)配置了這一項(xiàng)之后，DataX系統(tǒng)就
2024年02月09日
瀏覽(18)
Datax同步MySQL到ES
建表語(yǔ)句插入數(shù)據(jù) 建立索引語(yǔ)句我這里使用Kibana工具連接ES進(jìn)行操作的，也可以使用Postman進(jìn)行操作 Kibana操作語(yǔ)句 Postman操作語(yǔ)句地址輸入 Json文本輸入當(dāng)出現(xiàn)以下信息代表創(chuàng)建索引成功參數(shù)介紹 reader：datax的source(來(lái)源)端 reader.cloumn:：讀取mysql的字段名 reader.connection.jdbcU
2024年02月13日
瀏覽(18)
業(yè)務(wù)數(shù)據(jù)同步工具介紹和使用(Sqoop、Datax、Canal、MaxWell、Flink CDC)
介紹 Sqoop ： SQ L-to-Had oop （ Apache已經(jīng)終止Sqoop項(xiàng)目）用途：把關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)移到HDFS（Hive、Hbase）（重點(diǎn)使用的場(chǎng)景）；Hadoop中的數(shù)據(jù)轉(zhuǎn)移到關(guān)系型數(shù)據(jù)庫(kù)中。Sqoop是java語(yǔ)言開(kāi)發(fā)的，底層使用 mapreduce 。需要注意的是，Sqoop主要使用的是Map，是數(shù)據(jù)塊的轉(zhuǎn)移，沒(méi)有使
2024年02月15日
瀏覽(44)
DATAX的架構(gòu)和運(yùn)行原理
? DATAX呢就是把各個(gè)不同構(gòu)的數(shù)據(jù)庫(kù)進(jìn)行同步的過(guò)程，具體有hdfs hive Oracle 等等吧。顯而易見(jiàn)從強(qiáng)連通圖到星形圖，大大的簡(jiǎn)化了工作量。 2.框架設(shè)計(jì)，變成了FrameWork和plugin的形式，以讀者寫(xiě)者的方式（reader writer）進(jìn)行數(shù)據(jù)的同步吧。 DataX在設(shè)計(jì)之初就將同步理念抽象成框架
2024年01月23日
瀏覽(18)
Redis主從架構(gòu)、數(shù)據(jù)同步原理、全量同步、增量同步
大家好，我是哪吒。 2023年再不會(huì)Redis，就要被淘汰了圖解Redis，談?wù)凴edis的持久化，RDB快照與AOF日志 Redis單線(xiàn)程還是多線(xiàn)程？IO多路復(fù)用原理 Redis集群的最大槽數(shù)為什么是16384個(gè)？ Redis緩存穿透、擊穿、雪崩到底是個(gè)啥？7張圖告訴你 Redis分布式鎖的實(shí)現(xiàn)方式 Redis分布式緩存、
2024年02月07日
瀏覽(25)
DataX-阿里開(kāi)源離線(xiàn)同步工具在Windows上實(shí)現(xiàn)Sqlserver到Mysql全量同步和增量同步
Kettle-開(kāi)源的ETL工具集-實(shí)現(xiàn)SqlServer到Mysql表的數(shù)據(jù)同步并部署在Windows服務(wù)器上： Kettle-開(kāi)源的ETL工具集-實(shí)現(xiàn)SqlServer到Mysql表的數(shù)據(jù)同步并部署在Windows服務(wù)器上_etl實(shí)現(xiàn)sqlserver報(bào)表服務(wù)器_霸道流氓氣質(zhì)的博客-CSDN博客上面講過(guò)Kettle的使用，下面記錄下阿里開(kāi)源異構(gòu)數(shù)據(jù)源同步工具
2024年02月08日
瀏覽(27)
使用DataX對(duì)MySQL 8.1進(jìn)行數(shù)據(jù)遷移
這里采用直接下載的方式：https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202308/datax.tar.gz，不過(guò)這個(gè)包是真的有點(diǎn)大。 Python下載地址：https://www.python.org/downloads/ 安裝的時(shí)候添加到PATH，這樣后面不用再配置環(huán)境變量。安裝完成之后驗(yàn)證下： DataX中可以給咱們生成示例的腳本：比如
2024年02月10日
瀏覽(38)

<noscript id="jah91"><ins id="jah91"><var id="jah91"></var></ins></noscript>