国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Apache Paimon 文件管理

這篇具有很好參考價值的文章主要介紹了Apache Paimon 文件管理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

管理小文件

許多用戶關(guān)注小文件問題,可能導(dǎo)致以下情況:

  • 穩(wěn)定性問題:HDFS 中如果存在太多小文件的話會導(dǎo)致 NameNode 壓力過大

  • 成本問題:在 HDFS 中,每個小文件都會占用至少一個數(shù)據(jù)塊的大小,例如 128 MB

  • 查詢效率:查詢過多小文件會影響查詢效率

理解 Checkpoint

假設(shè)你正在使用 Flink Writer,每個 Checkpoint 會生成 1 ~ 2 個 snapshot,并且 Checkpoint 時會強制將文件生成在分布式文件系統(tǒng)(DFS)上,因此 Checkpoint 間隔越小,生成的小文件就越多。

1、所以先要增加 Checkpoint 間隔時間

默認情況下,不僅 Checkpoint 會生成文件,寫入器(Writer)的內(nèi)存(write-buffer-size)耗盡時也會將數(shù)據(jù)刷新到 DFS 并生成相應(yīng)的文件。你可以啟用 write-buffer-spillable 在寫入器中生成溢出文件,以生成更大的文件在 DFS 上。

2、其次增加 write-buffer-size 或啟用 write-buffer-spillable

理解 Snapshot

Apache Paimon 文件管理,apache
Paimon 維護文件的多個版本,文件的合并和刪除是邏輯上的操作,并不實際刪除文件。只有在 snapshot 過期時,文件才會真正被刪除,所以減少文件的一種方法是縮短 snapshot 過期的時間。Flink Writer 會自動處理過期的 snapshot。

理解 分區(qū) 和 Buckets

Paimon 的文件以分層方式組織。下圖展示了文件布局。從 snapshot 文件開始,Paimon 的讀取器可以遞歸地訪問表中的所有記錄。

Apache Paimon 文件管理,apache

舉個例子:

CREATE?TABLE?MyTable?(
????user_id?BIGINT,
????item_id?BIGINT,
????behavior?STRING,
????dt?STRING,
????hh?STRING,
????PRIMARY?KEY?(dt,?hh,?user_id)?NOT?ENFORCED
)?PARTITIONED?BY?(dt,?hh)?WITH?(
????'bucket'?=?'10'
);

表數(shù)據(jù)會被物理分片到不同的分區(qū),里面有不同的 Bucket ,所以如果整體數(shù)據(jù)量太小,單個 Bucket 中至少有一個文件,建議你配置較少的 Bucket 數(shù)量,否則會出現(xiàn)也有很多小文件。

理解 Primary Table 的 LSM

LSM 樹將文件組織成多個 sorted run。一個 sorted run 由一個或多個數(shù)據(jù)文件組成,每個數(shù)據(jù)文件都屬于且僅屬于一個 sorted run。

Apache Paimon 文件管理,apache

默認情況下,sorted run 的數(shù)量取決于 num-sorted-run.compaction-trigger 參數(shù),這意味著一個Bucket 中至少有 5 個文件。如果你想減少這個數(shù)量,可以保留較少的文件,但寫入性能可能會受到影響。如果該值變得過大,在查詢表時會需要更多的內(nèi)存和 CPU,這是寫入性能和查詢性能之間的權(quán)衡。

理解 Append-Only 表的文件

默認情況下 Append Only 表也會進行自動合并以減少小文件的數(shù)量。

然而,對于 Bucket 的 Append Only 表來說,它會出于順序目的而只壓縮 Bucket 內(nèi)的文件,這可能會保留更多的小文件。

理解 Full Compaction

也許你認為 Primary Key 表中的 5 個文件還可以接受,但 Append Only 表(Bucket)可能在一個單獨的 Bucket 中就會有 50 個小文件,這是很難接受的。更糟糕的是,不再活躍的分區(qū)也會保留這么多小文件。

建議你配置全量合并(Full-Compaction),通過設(shè)置 full-compaction.delta-commits參數(shù),在Flink 寫入過程中定期執(zhí)行全量合并,這樣可以確保在寫入結(jié)束之前對分區(qū)進行完全合并。

Apache Paimon 相關(guān)文章:

Apache Paimon 介紹

Apache Paimon 基礎(chǔ)概念

Apache Paimon 文件布局設(shè)計

Apache Paimon 文件操作

Flink Table Store ——從計算到存儲提升流批統(tǒng)一端到端用戶體驗

Apache Paimon 文件管理,apache文章來源地址http://www.zghlxwxcb.cn/news/detail-833369.html

?

到了這里,關(guān)于Apache Paimon 文件管理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 流數(shù)據(jù)湖平臺Apache Paimon(四)集成 Hive 引擎

    前面與Flink集成時,通過使用 paimon Hive Catalog,可以從 Flink 創(chuàng)建、刪除、查詢和插入到 paimon 表中。這些操作直接影響相應(yīng)的Hive元存儲。以這種方式創(chuàng)建的表也可以直接從 Hive 訪問。 更進一步的與 Hive 集成,可以使用 Hive SQL創(chuàng)建、查詢Paimon表。 Paimon 目前支持 Hive 3.1、2.3、2

    2024年02月14日
    瀏覽(43)
  • 新一代數(shù)據(jù)湖存儲技術(shù)Apache Paimon入門Demo

    新一代數(shù)據(jù)湖存儲技術(shù)Apache Paimon入門Demo

    目錄 前言 1. 什么是 Apache Paimon 一、本地環(huán)境快速上手 1、本地Flink偽集群 2、IDEA中跑Paimon Demo 2.1 代碼 2.2 IDEA中成功運行 3、IDEA中Stream讀寫 3.1 流寫 3.2 流讀(toChangeLogStream) 二、進階:本地(IDEA)多流拼接測試 要解決的問題: note: 1、\\\'changelog-producer\\\' = \\\'full-compaction\\\' (1)m

    2024年02月08日
    瀏覽(22)
  • 24、文件上傳漏洞——Apache文件解析漏洞

    24、文件上傳漏洞——Apache文件解析漏洞

    ??Apache文件解析漏洞與用戶配置有密切關(guān)系。嚴格來說,屬于用戶配置問題,這里使用ubantu的docker來復(fù)現(xiàn)漏洞: CGI:共同網(wǎng)關(guān)接口,是HTTP服務(wù)器與機器上其他程序進行通信的一個接口,讓web服務(wù)器必要時啟動額外的程序處理動態(tài)內(nèi)容。 FastCGI:CGI解釋器的更快實現(xiàn),可以提

    2024年02月04日
    瀏覽(18)
  • 配置與管理Apache服務(wù)器(linux)

    配置與管理Apache服務(wù)器(linux)

    1、安裝Apache服務(wù)軟件 # yum install -y httpd 2、啟動Apache服務(wù) # systemctl start httpd systemctl的其它選項 start:啟動 stop:停止 restart:重啟 enable:設(shè)置開機自動啟動 disable:禁用服務(wù),從開機啟動項把服務(wù)移除 status:查看服務(wù)狀態(tài) 3、關(guān)閉selinux #setenforce 0 4、關(guān)閉防火墻 # systemctl stop

    2024年02月09日
    瀏覽(57)
  • Apache DolphinScheduler數(shù)倉任務(wù)管理規(guī)范

    前言: 大數(shù)據(jù)領(lǐng)域?qū)Χ喾N任務(wù)都有調(diào)度需求,以離線數(shù)倉的任務(wù)應(yīng)用最多,許多團隊在調(diào)研開源產(chǎn)品后,選擇Apache DolphinScheduler(以下簡稱DS)作為調(diào)度場景的技術(shù)選型。得益于DS優(yōu)秀的特性,在對數(shù)倉任務(wù)做運維和管理的時候,往往比較隨意,或?qū)⑺腥蝿?wù)節(jié)點寫到一個工作

    2024年02月19日
    瀏覽(25)
  • Apache POI操作Excel文件

    ????????Apache POI是用Java編寫的免費開源的跨平臺的Java API,Apache POI提供API給Java程序?qū)icrosoft Office格式檔案讀和寫的功能,其中使用最多的就是使用 POI操作Excel文件 。 POI結(jié)構(gòu): 我們使用:XSSF - 提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能 POI操作Excel表格封裝了幾個核心

    2024年02月10日
    瀏覽(25)
  • Apache POC(對Excel文件操作)

    Apache POI 是一個處理Miscrosoft Office各種文件格式的開源項目,我們可以使用POI在java程序中對Miscrosoft Office各種文件進行讀寫操作 一般情況下,POI都是用于操作Excel文件。 Test讀取測試

    2024年02月07日
    瀏覽(21)
  • Apache Lucene 7.0 - 索引文件格式

    原文地址 這個文檔定義了在這個版本的Lucene中使用的索引文件格式。如果您使用的是不同版本的Lucene,請查詢對應(yīng)版本的文檔。 本文檔試圖提供Apache Lucene文件格式的高級定義。 Lucene的基本概念是索引、文檔、字段和術(shù)語(分詞后的檢索詞)。 索引包含一系列文檔。 文檔是

    2024年02月07日
    瀏覽(18)
  • Apache Doris 入門教程36:文件分析和文件緩存

    通過 Table Value Function 功能,Doris 可以直接將對象存儲或 HDFS 上的文件作為 Table 進行查詢分析。并且支持自動的列類型推斷。 更多使用方式可參閱 Table Value Function 文檔: S3:支持 S3 兼容的對象存儲上的文件分析。 HDFS:支持 HDFS 上的文件分析。 這里我們通過 S3 Table Value Fun

    2024年02月11日
    瀏覽(26)
  • 服務(wù)器的Apache配置文件在哪兒?

    諸神緘默不語-個人CSDN博文目錄 以下回復(fù)來自GPT-4網(wǎng)頁端: Apache的配置文件的位置可能會因操作系統(tǒng)和Apache版本的不同而不同。以下是一些常見的位置: 在Ubuntu和其他Debian-based系統(tǒng)中,主配置文件通常位于 /etc/apache2/apache2.conf ,而站點特定的配置文件通常位于 /etc/apache2/sit

    2024年02月13日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包