国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hudi(19):Hudi集成Flink之索引和Catalog

這篇具有很好參考價(jià)值的文章主要介紹了Hudi(19):Hudi集成Flink之索引和Catalog。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

目錄

0. 相關(guān)文章鏈接

1. Bucket索引(從 0.11 開始支持)

1.1.?WITH參數(shù)

1.2.?和 state 索引的對(duì)比

2.?Hudi Catalog(從 0.12.0 開始支持)

2.1. 概述

2.2.?WITH 參數(shù)

2.3.?使用dfs方式


0. 相關(guān)文章鏈接

?Hudi文章匯總?

1. Bucket索引(從 0.11 開始支持)

????????默認(rèn)的 flink 流式寫入使用 state 存儲(chǔ)索引信息:primary key 到 fileId 的映射關(guān)系。當(dāng)數(shù)據(jù)量比較大的時(shí)候,state的存儲(chǔ)開銷可能成為瓶頸,bucket 索引通過(guò)固定的 hash 策略,將相同 key 的數(shù)據(jù)分配到同一個(gè) fileGroup 中,避免了索引的存儲(chǔ)和查詢開銷。

1.1.?WITH參數(shù)

名稱

Required

默認(rèn)值

說(shuō)明

index.type

false

FLINK_STATE

設(shè)置 BUCKET 開啟 Bucket 索引功能

hoodie.bucket.index.hash.field

false

主鍵

可以設(shè)置成主鍵的子集

hoodie.bucket.index.num.buckets

false

4

默認(rèn)每個(gè) partition bucket 數(shù),當(dāng)前設(shè)置后則不可再變更。

1.2.?和 state 索引的對(duì)比

(1)bucket index 沒(méi)有 state 的存儲(chǔ)計(jì)算開銷,性能較好
(2)bucket index 無(wú)法擴(kuò) buckets,state index 則可以依據(jù)文件的大小動(dòng)態(tài)擴(kuò)容
(3)bucket index 不支持跨 partition 的變更(如果輸入是 cdc 流則沒(méi)有這個(gè)限制),state index 沒(méi)有限制

2.?Hudi Catalog(從 0.12.0 開始支持)

2.1. 概述

通過(guò) catalog 可以管理 flink 創(chuàng)建的表,避免重復(fù)建表操作,另外 hms 模式的 catalog 支持自動(dòng)補(bǔ)全 hive 同步參數(shù)。

DFS 模式 Catalog SQL樣例:

CREATE CATALOG hoodie_catalog
  WITH (
    'type'='hudi',
    'catalog.path' = '${catalog 的默認(rèn)路徑}',
    'mode'='dfs' 
  );

Hms 模式 Catalog SQL 樣例:

CREATE CATALOG hoodie_catalog
  WITH (
    'type'='hudi',
    'catalog.path' = '${catalog 的默認(rèn)路徑}',
    'hive.conf.dir' = '${hive-site.xml 所在的目錄}',
    'mode'='hms' -- 支持 'dfs' 模式通過(guò)文件系統(tǒng)管理表屬性
  );

2.2.?WITH 參數(shù)

名稱

Required

默認(rèn)值

說(shuō)明

catalog.path

true

--

默認(rèn)的 catalog 根路徑,用作表路徑的自動(dòng)推導(dǎo),默認(rèn)的表路徑:${catalog.path}/${db_name}/${table_name}

default-database

false

default

默認(rèn)的 database

hive.conf.dir

false

--

hive-site.xml 所在的目錄,只在 hms 模式下生效

mode

false

dfs

支持 hms模式通過(guò) hive 管理元數(shù)據(jù)

table.external

false

false

是否創(chuàng)建外部表,只在 hms 模式下生效

2.3.?使用dfs方式

步驟一:創(chuàng)建sql-client初始化sql文件

vim /opt/module/flink-1.13.6/conf/sql-client-init.sql

CREATE CATALOG hoodie_catalog
  WITH (
    'type'='hudi',
    'catalog.path' = '/tmp/hudi_catalog',
    'mode'='dfs' 
  );

USE CATALOG hoodie_catalog;

步驟二:指定sql-client啟動(dòng)時(shí)加載sql文件(重點(diǎn):-i conf/sql-client-init.sql

hadoop fs -mkdir /tmp/hudi_catalog

bin/sql-client.sh embedded -i conf/sql-client-init.sql -s yarn-session

步驟三:建庫(kù)建表插入

create database test;
use test;

create table t2(
  uuid varchar(20),
  name varchar(10),
  age int,
  ts timestamp(3),
  `partition` varchar(20),
primary key (uuid) not enforced
)
with (
  'connector' = 'hudi',
  'path' = '/tmp/hudi_catalog/default/t2',
  'table.type' = 'MERGE_ON_READ'
);

insert into t2 values('1','zs',18,TIMESTAMP '1970-01-01 00:00:01','a');

步驟四:退出sql-client,重新進(jìn)入,表信息還在

use test;
show tables;
select * from t2;

注:其他Hudi相關(guān)文章鏈接由此進(jìn) ->??Hudi文章匯總?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-453714.html


到了這里,關(guān)于Hudi(19):Hudi集成Flink之索引和Catalog的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Flink集成Hive之Hive Catalog

    流程流程: Flink消費(fèi)Kafka,邏輯處理后將實(shí)時(shí)流轉(zhuǎn)換為表視圖,利用HiveCataLog創(chuàng)建Hive表,將實(shí)時(shí)流?表insert進(jìn)Hive,注意分區(qū)時(shí)間字段需要為 yyyy-MM-dd形式,否則拋出異常:java.time.format.DateTimeParseException: Text \\\'20240111\\\' could not be parsed 寫入到hive分區(qū)表 streamEnv需要開啟checkpoint,保證flink寫入

    2024年01月16日
    瀏覽(20)
  • Hudi(16):Hudi集成Flink之讀取方式

    目錄 0. 相關(guān)文章鏈接 1.?流讀(Streaming Query) 2.?增量讀?。↖ncremental Query) 3.?限流 ?Hudi文章匯總? ????????當(dāng)前表默認(rèn)是快照讀取,即讀取最新的全量快照數(shù)據(jù)并一次性返回。通過(guò)參數(shù)read.streaming.enabled 參數(shù)開啟流讀模式,通過(guò) read.start-commit 參數(shù)指定起始消費(fèi)位置,支

    2024年02月06日
    瀏覽(20)
  • Hudi(17):Hudi集成Flink之寫入方式

    Hudi(17):Hudi集成Flink之寫入方式

    目錄 0. 相關(guān)文章鏈接 1.?CDC 數(shù)據(jù)同步 1.1.?準(zhǔn)備MySQL表 1.2.?flink讀取mysql binlog并寫入kafka 1.3.?flink讀取kafka數(shù)據(jù)并寫入hudi數(shù)據(jù)湖 1.4.?使用datafaker插入數(shù)據(jù) 1.5.?統(tǒng)計(jì)數(shù)據(jù)入Hudi情況 1.6.?實(shí)時(shí)查看數(shù)據(jù)入湖情況 2.?離線批量導(dǎo)入 2.1. 原理 2.2.?WITH 參數(shù) 2.3.?案例 3.?全量接增量 3.1.?

    2024年02月05日
    瀏覽(16)
  • Hudi集成Flink

    Hudi集成Flink

    安裝Maven 1)上傳apache-maven-3.6.3-bin.tar.gz到/opt/software目錄,并解壓更名 tar -zxvf apache-maven-3.6. 3 -bin.tar.gz -C /opt/module/ mv ? apache -maven-3.6. 3 ?maven 2)添加環(huán)境變量到/etc/profile中 sudo ?vim /etc/profile #MAVEN_HOME export MAVEN_HOME=/opt/module/maven export PATH=$PATH:$MAVEN_HOME/bin 3)測(cè)試安裝結(jié)果 sourc

    2023年04月13日
    瀏覽(23)
  • Hudi(四)集成Flink(2)

    Hudi(四)集成Flink(2)

    ????????當(dāng)前表 默認(rèn)是快照讀取 ,即讀取最新的全量快照數(shù)據(jù)并一次性返回。通過(guò)參數(shù) read.streaming.enabled 參數(shù)開啟流讀模式,通過(guò) read.start-commit 參數(shù)指定起始消費(fèi)位置,支持指定 earliest 從最早消費(fèi)。 1、WITH參數(shù) 名稱 Required 默認(rèn)值 說(shuō)明 read.streaming.enabled false false 設(shè)置

    2024年02月07日
    瀏覽(27)
  • Linux 學(xué)習(xí)目錄合集【文章索引】

    前言:本內(nèi)容為筆者自學(xué)筆記內(nèi)容。 本文中的操作環(huán)境:騰訊云服務(wù)器:CentOS 7.6 64bit 學(xué)習(xí)階段規(guī)劃: Linux 基本操作【基本命令、vim、makefile使用等】 Linux 系統(tǒng)【進(jìn)程:概念、控制、通信;IO基礎(chǔ);多線程等】 Linux 網(wǎng)絡(luò)【網(wǎng)絡(luò)基礎(chǔ)、套接字編程、IO高級(jí)等】 學(xué)習(xí)集: C++ 入門

    2024年02月07日
    瀏覽(25)
  • 【大數(shù)據(jù)】Hudi HMS Catalog 完全使用指南

    【大數(shù)據(jù)】Hudi HMS Catalog 完全使用指南

    功能亮點(diǎn):當(dāng) Flink 和 Spark 同時(shí)接入 Hive Metastore ( HMS )時(shí),用 Hive Metastore 對(duì) Hudi 的元數(shù)據(jù)進(jìn)行管理,無(wú)論是使用 Flink 還是 Spark 引擎建表,另外一種引擎或者 Hive 都可以直接查詢。 本文以 HDP 集群為例,其他版本分別為: Flink: 1.13.6 Spark: 3.2.1 Hudi: 0.12.0 在 HDP 集群中,

    2024年01月17日
    瀏覽(26)
  • Flink 系列文章匯總索引

    本專欄系統(tǒng)介紹某一知識(shí)點(diǎn),并輔以具體的示例進(jìn)行說(shuō)明。 本專欄的文章編號(hào)可能不是順序的,主要是因?yàn)閷懙臅r(shí)候順序沒(méi)統(tǒng)一,但相關(guān)的文章又引入了,所以后面就沒(méi)有調(diào)整了,按照寫文章的順序進(jìn)行編號(hào)。但一個(gè)專題的順序號(hào)是統(tǒng)一的,不存在編號(hào)跳躍情況。 本部分介

    2024年02月03日
    瀏覽(26)
  • 3: [SpringData集成Elasticsearch] --- 創(chuàng)建索引和字段 --- 相關(guān)注解說(shuō)明

    1.1.0:注意:ES 6.0.0以后ndex一個(gè)索引對(duì)應(yīng)一個(gè)type(mysql 庫(kù)里的表) 每個(gè)index有shard分片存儲(chǔ)文件,相互獨(dú)立。 1.1.1:@Document元注解參數(shù)和使用 — 注解使用 1.2.1:參數(shù)說(shuō)明: type — 枚舉類型 @Field(analyzer = “ik_max_word”,type = FieldType.Text) package org.springframework.data.elasticsearch.annotations

    2024年02月07日
    瀏覽(47)
  • Gradle版本目錄(Version Catalog)

    Gradle版本目錄(Version Catalog)

    “版本目錄是一份依賴項(xiàng)列表,以依賴坐標(biāo)表示,用戶在構(gòu)建腳本中聲明依賴項(xiàng)時(shí)可以從中選擇?!?我們可以使用版本目錄將所有依賴項(xiàng)聲明及其版本號(hào)保存在單個(gè)位置。這樣,我們可以輕松地在模塊和項(xiàng)目之間共享依賴項(xiàng)和版本配置列表。 有了IDE插件支持,將依賴項(xiàng)導(dǎo)入

    2024年02月09日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包