Apache Hudi是一個(gè)數(shù)據(jù)湖處理框架,通過(guò)提供簡(jiǎn)單的方式來(lái)進(jìn)行數(shù)據(jù)的插入、更新和刪除操作,Hudi能夠幫助數(shù)據(jù)工程師和科學(xué)家更高效地處理大數(shù)據(jù),并支持實(shí)時(shí)查詢。
支持的處理引擎
Spark
Flink
SeaTunnel Zeta
主要特性
- 批處理
- 流處理
- 精確一次性
- 列投影
- 并行處理
- 支持用戶自定義切分
描述
Hudi Source 連接器專為從Apache Hudi管理的數(shù)據(jù)湖中讀取數(shù)據(jù)而設(shè)計(jì)。目前,它支持Hudi COW(Copy on Write)表和批處理模式下的快照查詢。
為了使用此連接器,您必須確保您的Spark/Flink集群已集成Hive。已測(cè)試的Hive版本為2.3.9。
Apache Hudi解決了數(shù)據(jù)湖在數(shù)據(jù)頻繁變更時(shí)面臨的數(shù)據(jù)管理問(wèn)題,如數(shù)據(jù)同步延遲、復(fù)雜的數(shù)據(jù)管道維護(hù)和高成本的數(shù)據(jù)存儲(chǔ)。通過(guò)使用Hudi,組織能夠簡(jiǎn)化數(shù)據(jù)的插入、更新和刪除操作,同時(shí)支持近實(shí)時(shí)的數(shù)據(jù)查詢和分析,極大提高了數(shù)據(jù)處理的靈活性和效率。
支持的數(shù)據(jù)源信息
Tip
- 目前僅支持Hudi COW表和批處理模式下的快照查詢
數(shù)據(jù)類型映射
Hudi數(shù)據(jù)類型 | SeaTunnel數(shù)據(jù)類型 |
---|---|
所有類型 | STRING |
源選項(xiàng)
名稱 | 類型 | 是否必須 | 默認(rèn)值 | 描述 |
---|---|---|---|---|
table.path | String | 是 | - | Hudi表的HDFS根路徑,例如 'hdfs://nameservice/data/hudi/hudi_table/'。 |
table.type | String | 是 | - | Hudi表的類型。目前我們僅支持 'cow','mor' 尚未支持。 |
conf.files | String | 是 | - | 環(huán)境配置文件路徑列表(本地路徑),用于初始化HDFS客戶端以讀取Hudi表文件。示例為 '/home/test/hdfs-site.xml;/home/test/core-site.xml;/home/test/yarn-site.xml'。 |
use.kerberos | bool | 否 | false | 是否啟用Kerberos,默認(rèn)為false。 |
kerberos.principal | String | 當(dāng)use.kerberos為true時(shí)必須 | - | 使用Kerberos時(shí),我們應(yīng)設(shè)置Kerberos主體,例如 'test_user@xxx'。 |
kerberos.principal.file | string | 當(dāng)use.kerberos為true時(shí)必須 | - | 使用Kerberos時(shí),我們應(yīng)設(shè)置Kerberos主體文件,例如 '/home/test/test_user.keytab'。 |
common-options | config | 否 | - | 源插件通用參數(shù),詳細(xì)信息請(qǐng)參閱源通用選項(xiàng)。 |
任務(wù)示例
簡(jiǎn)單示例:
此示例從一個(gè)Hudi COW表讀取數(shù)據(jù),并為環(huán)境配置Kerberos,輸出到控制臺(tái)。
# 定義運(yùn)行環(huán)境
env {
# 在此處設(shè)置flink配置
execution.parallelism = 2
job.mode = "BATCH"
}
source{
Hudi {
table.path = "hdfs://nameservice/data/hudi/hudi_table/"
table.type = "cow"
conf.files = "/home/test/hdfs-site.xml;/home/test/core-site.xml;/home/test/yarn-site.xml"
use.kerberos = true
kerberos.principal = "test_user@xxx"
kerberos.principal.file = "/home/test/test_user.keytab"
}
}
transform {
# 如果您希望了解更多關(guān)于配置SeaTunnel及其插件的信息,
# 請(qǐng)?jiān)L問(wèn) https://seatunnel.apache.org/docs/transform-v2/sql/
}
sink {
Console {}
}
通過(guò)使用Apache Hudi和其源連接器,企業(yè)可以實(shí)現(xiàn)更高效、更靈活的大數(shù)據(jù)管理和分析,幫助開發(fā)者解決在數(shù)據(jù)湖環(huán)境下常見的數(shù)據(jù)同步與查詢挑戰(zhàn)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-861182.html
本文由 白鯨開源科技 提供發(fā)布支持!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-861182.html
到了這里,關(guān)于探索在Apache SeaTunnel上使用Hudi連接器,高效管理大數(shù)據(jù)的技術(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!