国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<rp id="zutnm"><menu id="zutnm"><option id="zutnm"></option></menu></rp>

<span id="zutnm"></span><span id="zutnm"></span><kbd id="zutnm"></kbd>

<progress id="zutnm"><noframes id="zutnm">

<tfoot id="zutnm"></tfoot>

Apache Paimon 文件管理

2年前作者：zhisheng_blog分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了Apache Paimon 文件管理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

管理小文件

許多用戶關(guān)注小文件問題，可能導(dǎo)致以下情況：

穩(wěn)定性問題：HDFS 中如果存在太多小文件的話會導(dǎo)致 NameNode 壓力過大
成本問題：在 HDFS 中，每個小文件都會占用至少一個數(shù)據(jù)塊的大小，例如 128 MB
查詢效率：查詢過多小文件會影響查詢效率

理解 Checkpoint

假設(shè)你正在使用 Flink Writer，每個 Checkpoint 會生成 1 ～ 2 個 snapshot，并且 Checkpoint 時會強制將文件生成在分布式文件系統(tǒng)（DFS）上，因此 Checkpoint 間隔越小，生成的小文件就越多。

1、所以先要增加 Checkpoint 間隔時間

默認情況下，不僅 Checkpoint 會生成文件，寫入器（Writer）的內(nèi)存（write-buffer-size）耗盡時也會將數(shù)據(jù)刷新到 DFS 并生成相應(yīng)的文件。你可以啟用 write-buffer-spillable 在寫入器中生成溢出文件，以生成更大的文件在 DFS 上。

2、其次增加 write-buffer-size 或啟用 write-buffer-spillable

理解 Snapshot

Apache Paimon 文件管理,apache
Paimon 維護文件的多個版本，文件的合并和刪除是邏輯上的操作，并不實際刪除文件。只有在 snapshot 過期時，文件才會真正被刪除，所以減少文件的一種方法是縮短 snapshot 過期的時間。Flink Writer 會自動處理過期的 snapshot。

理解分區(qū) 和 Buckets

Paimon 的文件以分層方式組織。下圖展示了文件布局。從 snapshot 文件開始，Paimon 的讀取器可以遞歸地訪問表中的所有記錄。

Apache Paimon 文件管理,apache

舉個例子：

CREATE?TABLE?MyTable?(
????user_id?BIGINT,
????item_id?BIGINT,
????behavior?STRING,
????dt?STRING,
????hh?STRING,
????PRIMARY?KEY?(dt,?hh,?user_id)?NOT?ENFORCED
)?PARTITIONED?BY?(dt,?hh)?WITH?(
????'bucket'?=?'10'
);

表數(shù)據(jù)會被物理分片到不同的分區(qū)，里面有不同的 Bucket ，所以如果整體數(shù)據(jù)量太小，單個 Bucket 中至少有一個文件，建議你配置較少的 Bucket 數(shù)量，否則會出現(xiàn)也有很多小文件。

理解 Primary Table 的 LSM

LSM 樹將文件組織成多個 sorted run。一個 sorted run 由一個或多個數(shù)據(jù)文件組成，每個數(shù)據(jù)文件都屬于且僅屬于一個 sorted run。

Apache Paimon 文件管理,apache

默認情況下，sorted run 的數(shù)量取決于 num-sorted-run.compaction-trigger 參數(shù)，這意味著一個Bucket 中至少有 5 個文件。如果你想減少這個數(shù)量，可以保留較少的文件，但寫入性能可能會受到影響。如果該值變得過大，在查詢表時會需要更多的內(nèi)存和 CPU，這是寫入性能和查詢性能之間的權(quán)衡。

理解 Append-Only 表的文件

默認情況下 Append Only 表也會進行自動合并以減少小文件的數(shù)量。

然而，對于 Bucket 的 Append Only 表來說，它會出于順序目的而只壓縮 Bucket 內(nèi)的文件，這可能會保留更多的小文件。

理解 Full Compaction

也許你認為 Primary Key 表中的 5 個文件還可以接受，但 Append Only 表（Bucket）可能在一個單獨的 Bucket 中就會有 50 個小文件，這是很難接受的。更糟糕的是，不再活躍的分區(qū)也會保留這么多小文件。

建議你配置全量合并（Full-Compaction），通過設(shè)置 full-compaction.delta-commits參數(shù)，在Flink 寫入過程中定期執(zhí)行全量合并，這樣可以確保在寫入結(jié)束之前對分區(qū)進行完全合并。

Apache Paimon 相關(guān)文章：

Apache Paimon 介紹

Apache Paimon 基礎(chǔ)概念

Apache Paimon 文件布局設(shè)計

Apache Paimon 文件操作

Flink Table Store ——從計算到存儲提升流批統(tǒng)一端到端用戶體驗

Apache Paimon 文件管理,apache 文章來源地址http://www.zghlxwxcb.cn/news/detail-833369.html

?

到了這里，關(guān)于Apache Paimon 文件管理的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

流數(shù)據(jù)湖平臺Apache Paimon（四）集成 Hive 引擎
前面與Flink集成時，通過使用 paimon Hive Catalog，可以從 Flink 創(chuàng)建、刪除、查詢和插入到 paimon 表中。這些操作直接影響相應(yīng)的Hive元存儲。以這種方式創(chuàng)建的表也可以直接從 Hive 訪問。更進一步的與 Hive 集成，可以使用 Hive SQL創(chuàng)建、查詢Paimon表。 Paimon 目前支持 Hive 3.1、2.3、2
2024年02月14日
瀏覽(43)
新一代數(shù)據(jù)湖存儲技術(shù)Apache Paimon入門Demo
目錄前言 1. 什么是 Apache Paimon 一、本地環(huán)境快速上手 1、本地Flink偽集群 2、IDEA中跑Paimon Demo 2.1 代碼 2.2 IDEA中成功運行 3、IDEA中Stream讀寫 3.1 流寫 3.2 流讀（toChangeLogStream）二、進階：本地（IDEA）多流拼接測試要解決的問題： note： 1、\\\'changelog-producer\\\' = \\\'full-compaction\\\' （1）m
2024年02月08日
瀏覽(22)
24、文件上傳漏洞——Apache文件解析漏洞
??Apache文件解析漏洞與用戶配置有密切關(guān)系。嚴格來說，屬于用戶配置問題，這里使用ubantu的docker來復(fù)現(xiàn)漏洞： CGI：共同網(wǎng)關(guān)接口，是HTTP服務(wù)器與機器上其他程序進行通信的一個接口，讓web服務(wù)器必要時啟動額外的程序處理動態(tài)內(nèi)容。 FastCGI：CGI解釋器的更快實現(xiàn)，可以提
2024年02月04日
瀏覽(18)
配置與管理Apache服務(wù)器（linux）
1、安裝Apache服務(wù)軟件 # yum install -y httpd 2、啟動Apache服務(wù) # systemctl start httpd systemctl的其它選項 start：啟動 stop：停止 restart：重啟 enable：設(shè)置開機自動啟動 disable：禁用服務(wù)，從開機啟動項把服務(wù)移除 status：查看服務(wù)狀態(tài) 3、關(guān)閉selinux #setenforce 0 4、關(guān)閉防火墻 # systemctl stop
2024年02月09日
瀏覽(57)
Apache DolphinScheduler數(shù)倉任務(wù)管理規(guī)范
前言：大數(shù)據(jù)領(lǐng)域?qū)Χ喾N任務(wù)都有調(diào)度需求，以離線數(shù)倉的任務(wù)應(yīng)用最多，許多團隊在調(diào)研開源產(chǎn)品后，選擇Apache DolphinScheduler（以下簡稱DS）作為調(diào)度場景的技術(shù)選型。得益于DS優(yōu)秀的特性，在對數(shù)倉任務(wù)做運維和管理的時候，往往比較隨意，或?qū)⑺腥蝿?wù)節(jié)點寫到一個工作
2024年02月19日
瀏覽(25)
Apache POI操作Excel文件
????????Apache POI是用Java編寫的免費開源的跨平臺的Java API，Apache POI提供API給Java程序?qū)icrosoft Office格式檔案讀和寫的功能，其中使用最多的就是使用 POI操作Excel文件。 POI結(jié)構(gòu)：我們使用：XSSF －提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能 POI操作Excel表格封裝了幾個核心
2024年02月10日
瀏覽(25)
Apache POC(對Excel文件操作)
Apache POI 是一個處理Miscrosoft Office各種文件格式的開源項目，我們可以使用POI在java程序中對Miscrosoft Office各種文件進行讀寫操作一般情況下，POI都是用于操作Excel文件。 Test讀取測試
2024年02月07日
瀏覽(21)
Apache Lucene 7.0 - 索引文件格式
原文地址這個文檔定義了在這個版本的Lucene中使用的索引文件格式。如果您使用的是不同版本的Lucene，請查詢對應(yīng)版本的文檔。本文檔試圖提供Apache Lucene文件格式的高級定義。 Lucene的基本概念是索引、文檔、字段和術(shù)語（分詞后的檢索詞）。索引包含一系列文檔。文檔是
2024年02月07日
瀏覽(18)
Apache Doris 入門教程36：文件分析和文件緩存
通過 Table Value Function 功能，Doris 可以直接將對象存儲或 HDFS 上的文件作為 Table 進行查詢分析。并且支持自動的列類型推斷。更多使用方式可參閱 Table Value Function 文檔： S3：支持 S3 兼容的對象存儲上的文件分析。 HDFS：支持 HDFS 上的文件分析。這里我們通過 S3 Table Value Fun
2024年02月11日
瀏覽(26)
服務(wù)器的Apache配置文件在哪兒？
諸神緘默不語-個人CSDN博文目錄以下回復(fù)來自GPT-4網(wǎng)頁端： Apache的配置文件的位置可能會因操作系統(tǒng)和Apache版本的不同而不同。以下是一些常見的位置：在Ubuntu和其他Debian-based系統(tǒng)中，主配置文件通常位于 /etc/apache2/apache2.conf ，而站點特定的配置文件通常位于 /etc/apache2/sit
2024年02月13日
瀏覽(26)