国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris

這篇具有很好參考價值的文章主要介紹了X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


提示:以下是本篇文章正文內容,下面案例可供參考

一、X2Doris是什么?

X2Doris 是 SelectDB (Doris主要開發(fā)維護團隊)開發(fā)的,專門用于將各種離線數(shù)據(jù)遷移到 Apache Doris 中的核心工具,該工具集 自動建 Doris 表 和 數(shù)據(jù)遷移 為一體,目前支持了 Apache Doris/Hive/Kudu、StarRocks 數(shù)據(jù)庫往 Doris 或 SelectDB Cloud 遷移的工作,整個過程可視化的平臺操作,非常簡單易用,減輕數(shù)據(jù)同步到 Doris 中的門檻。

二、安裝部署

1.安裝環(huán)境要求

  1. 部署節(jié)點必須可以連接hadoop集群,是hadoop的?個節(jié)點,或?少有 hadoop gateway 環(huán)境
  2. 部署節(jié)點必須配置了 hadoop 環(huán)境變量, 如 HADOOP_HOME , HADOOP_CONF_DIR
eg:
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop #hadoop 安裝?錄
export HADOOP_CONF_DIR=/etc/hadoop/conf
export HIVE_HOME=$HADOOP_HOME/../hive
export HBASE_HOME=$HADOOP_HOME/../hbase
export HADOOP_HDFS_HOME=$HADOOP_HOME/../hadoop-hdfs
export HADOOP_MAPRED_HOME=$HADOOP_HOME/../hadoop-mapreduce
export HADOOP_YARN_HOME=$HADOOP_HOME/../hadoop-yarn

# 注:在 HADOOP_CONF_DIR 下 必須要有 hive-site.xml
  1. 部署節(jié)點可以連接?標 doris
  2. 部署節(jié)點可以連接mysql (存放平臺元信息)

2.安裝步驟

1.下載安裝包

wget https://selectdb-doris-1308700295.cos.ap-beijing.myqcloud.com/x2doris/selectdb-x2doris-1.0.3_2.12-bin.tar.gz 

2. 解壓安裝包

tar -zxvf selectdb-x2doris-1.0.3_2.12-bin.tar.gz -C /opt/module
mv /opt/module/selectdb-x2doris-1.0.3_2.12-bin /opt/module/x2doris
cd /opt/module/x2doris

3.初始化元數(shù)據(jù)

  1. 將系統(tǒng)的數(shù)據(jù)庫類型改成 mysql (默認的h2, 會導致系統(tǒng)重啟后,數(shù)據(jù)會丟失) :
vim conf/application.yml

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark

  1. 修改 conf/application-mysql.yml ?件,指定mysql的連接信息
vim conf/application-mysql.yml

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
3. 進?到 script 下:有兩個?錄,分別是 schema 和 data

  1. 先執(zhí)? schema 下的 mysql-schema.sql 完成表結果的初始化
  2. 再執(zhí)? data 下的 mysql-data.sql

4.配置 kerberos:
如果你的hadoop集群開啟了kerberos認證(未開啟kerberos認證則可以跳過此步驟),則需要配置下kerberis
的信息,編輯 conf/kerberos.yml

vim conf/kerberos.yml

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
5. 啟動項?:

bin/startup.sh

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark

  1. 進?平臺:
    訪問地址: http://$host:9091
    ?戶名密碼: admin / selectdb
    X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark

4.設置系統(tǒng)參數(shù)

進?平臺之后,第?步就是要進? 設置中? 設置系統(tǒng)參數(shù),該部分參數(shù)都為必須要設置的參數(shù), 具體如下:

  1. Hadoop user : 該作業(yè)會訪問hive數(shù)據(jù),該 hadoop user 即為操作 hive 表的 hadoop ?戶(?程hive作業(yè)的
    操作?戶即可)
  2. Spark Home : 指定部署機安裝的spark的路徑
  3. Hive metastore Uri : Hive 的 metastore uri ,可以去 $HADOOP_CONF_DIR 下查詢 hive-site.xml
  4. 目標 Doris (SelectDB Cloud): 遷移數(shù)據(jù)的目標 Doris 或者 SelectDB Cloud 連接信息設置
    X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark

三、使用

系統(tǒng)參數(shù)設置完成之后,就可以進?到 作業(yè)中? 了,這?可以點擊 “添加” ?個作業(yè)
X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark

1. 字段類型映射

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
已經(jīng)把hive數(shù)倉中所有的庫和表都羅列出來了。可以點擊左側的樹形?錄,選擇?標表進?操作,選中?個
表之后,右側會?動羅列出該表與 doris的字段映射關系,可以很輕松的映射?標doris表的字段類型。根據(jù)
提示?路進?操作即可完成字段的映射。 DUPLICATE KEY 和 DISTRIBUTED KEY 是 doris Duplicate 模型中
必須要指定的參數(shù),按需進?指定即可。

注意:

  1. 創(chuàng)建的doris表為 Duplicate 模型
  2. STRING 類型不能設置為 DUPLICATE KEY , 你需要將 STRING 類型改成 VARCHAR 類型即可

2.分區(qū)映射

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
在第?步分區(qū)映射中,已經(jīng)?動識別了Hive表中的分區(qū)字段,并且?動強制將分區(qū)?動設置為 DUPLICATE
KEY 如果 Hive 原表中的 字段類型是 STRING ,則可以根據(jù)數(shù)據(jù)實際類型判斷是否需要將對應的doris表的字
段類型轉成時間類型。如果轉成時間類型的話,則需要設置分區(qū)的區(qū)間。

3. 創(chuàng)建Doris表

完成前兩步即可進?到 doris 表 ddl 的確認階段,在該階段已經(jīng)?動?成了對應的 doris 表的建表 ddl 語句,你可以進?review確認,?動修改 ddl。
X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
確認?誤后,可以點擊 創(chuàng)建 doris表
X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
注意: 要確保對應doris的庫存在,庫需要?戶?動創(chuàng)建

4. 作業(yè)設置

最后?步是同步作業(yè)的參數(shù)設置。具體如下:
App Name : 通過作業(yè)名,默認是: Doris:KaTeX parse error: Expected group after '_' at position 3: db_?table
Master : 有兩個可選項(yarn 和 local)
DeployMode : 有兩個可選項( client 和 cluster)
Flush Batch : 底層寫?doris表的批次??,可以根據(jù)表的數(shù)據(jù)??和寫?吞吐??設置
Max retry : 寫?doris失敗最?的重試次數(shù)

特別注意:
Master 和 DeployMode 為 spark提交的參數(shù),同步作業(yè)底層采?了spark

  1. ?產(chǎn)環(huán)境使?建議將 Master 設置為 yarn , DeployMode 設置為 cluster
  2. 如果是單機測試,可以選擇 local ,如果 Master 為 local 的話,對應的 DeployMode 只能為client

這兩個參數(shù)的設置?定要遵循spark的要求,更多信息可以查閱spark?檔

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark

確定好之后就可以點擊“新建作業(yè)”, 作業(yè)創(chuàng)建完成會?動跳轉到作業(yè)列表??
X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
點擊 啟動 即可啟動該同步作業(yè)。

X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris,doris,hive,自動化,hadoop,大數(shù)據(jù),數(shù)據(jù)倉庫,spark
即可手動一鍵同步各表數(shù)據(jù)文章來源地址http://www.zghlxwxcb.cn/news/detail-850861.html

到了這里,關于X2Doris實現(xiàn)Hive離線數(shù)據(jù)自動化一鍵遷移至Doris的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包