国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ruby id="pmde7"><form id="pmde7"></form></ruby>

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

2年前作者：ApacheSeaTunnel分類(lèi)：Toy博客閱讀(19)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

一直以來(lái)，大數(shù)據(jù)量一直是爆炸性增長(zhǎng)，每天幾十 TB 的數(shù)據(jù)增量已經(jīng)非常常見(jiàn)，但云存儲(chǔ)相對(duì)來(lái)說(shuō)還是不便宜的。眾多云上的大數(shù)據(jù)用戶(hù)特別希望可以非常簡(jiǎn)單快速的將文件移動(dòng)到更實(shí)惠的 S3、OSS 上進(jìn)行保存，這篇文章就來(lái)介紹如何使用 SeaTunnel 來(lái)進(jìn)行到 OSS 的數(shù)據(jù)同步。

首先簡(jiǎn)要介紹一下 Apache SeaTunnel，SeaTunnel 專(zhuān)注于數(shù)據(jù)集成和數(shù)據(jù)同步，主要解決以下問(wèn)題：

數(shù)據(jù)源多樣：常用的數(shù)據(jù)源有數(shù)百種，版本不兼容。隨著新技術(shù)的出現(xiàn)，出現(xiàn)了更多的數(shù)據(jù)源。用戶(hù)很難找到能夠全面快速支持這些數(shù)據(jù)源的工具。
復(fù)雜同步場(chǎng)景：數(shù)據(jù)同步需要支持離線-全量同步、離線-增量同步、CDC、實(shí)時(shí)同步、全庫(kù)同步等多種同步場(chǎng)景。
資源需求高：現(xiàn)有的數(shù)據(jù)集成和數(shù)據(jù)同步工具往往需要大量的計(jì)算資源或 JDBC 連接資源來(lái)完成海量小表的實(shí)時(shí)同步。這在一定程度上加重了企業(yè)的負(fù)擔(dān)。
缺乏質(zhì)量和監(jiān)控：數(shù)據(jù)集成和同步過(guò)程經(jīng)常會(huì)丟失或重復(fù)數(shù)據(jù)。同步過(guò)程缺乏監(jiān)控，無(wú)法直觀了解任務(wù)過(guò)程中數(shù)據(jù)的真實(shí)情況

SeaTunnel 支持海量數(shù)據(jù)的高效離線/實(shí)時(shí)同步, 每天可穩(wěn)定高效同步數(shù)百億級(jí)數(shù)據(jù)，已經(jīng)有 B 站，騰訊云，微博，360，Shopee 等數(shù)百家公司生產(chǎn)使用。

下面步入今天的正題，今天具體來(lái)說(shuō)是講 Apache SeaTunnel 產(chǎn)品與阿里云 OSS 的集成。

在阿里云 OSS 產(chǎn)品界面，開(kāi)通 Bucket：

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

下面是 SeaTunnel 的部署, SeaTunnel 支持多種部署方式: 單機(jī)，集群，K8s 等方式。由于 SeaTunnel 不依賴(lài) Zookeeper 等第三方組件，所以整體部署非常簡(jiǎn)單，具體請(qǐng)參考其官網(wǎng)：https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/deployment

接下來(lái)是 SeaTunnel 使用過(guò)程，使用命令：

./bin/seatunnel.sh -m local -c ./config/localfile-oss.config

在 SeaTunnel 中，用戶(hù)可以通過(guò) config 文件定制自己的數(shù)據(jù)同步需求，最大限度地發(fā)揮 SeaTunnel 的潛力。那么接下來(lái)就給大家介紹一下如何配置 Config 文件

可以看到，config 文件包含幾個(gè)部分：env、source、transform、sink。不同的模塊有不同的功能。了解這些模塊后，您將了解 SeaTunnel 的工作原理。

用于添加一些引擎可選參數(shù)，無(wú)論是哪個(gè)引擎（Spark或Flink），這里都要填寫(xiě)相應(yīng)的可選參數(shù)。

source 用于定義 SeaTunnel 需要從哪里獲取數(shù)據(jù)，并將獲取的數(shù)據(jù)用于下一步?？梢酝瑫r(shí)定義多個(gè)源?，F(xiàn)在支持的來(lái)源檢查 SeaTunnel 的來(lái)源。每個(gè) Source 都有自己特定的參數(shù)來(lái)定義如何取數(shù)據(jù)，SeaTunnel 也提取了每個(gè) source 會(huì)用到的參數(shù)，比如parameter，用來(lái)指定 result_table_name 當(dāng)前 source 產(chǎn)生的數(shù)據(jù)的名稱(chēng)，方便供其他模塊后續(xù)使用。

本例中的 localfile-oss.config 配置文件內(nèi)容介紹：

env {                                                                                                                                                                          
 
  # You can set SeaTunnel environment configuration here                                                                                                                      
 
  execution.parallelism = 10                                                                                                                                                  
 
  job.mode = "BATCH"                                                                                                                                                           
 
  checkpoint.interval = 10000                                                                                                                                                  
 
  #execution.checkpoint.interval = 10000                                                                                                                                      
 
  #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"                                                                                                         
 
}                                                                                                                                                                              
 
                                                                                                                                                                               
 
source {                                                                                                                                                                       
 
LocalFile {                                                                                                                                                                   
  #本地待同步的數(shù)據(jù)文件夾, 本例子中只有一個(gè) test0.csv 文件，具體內(nèi)容參考下圖
  path = "/data/seatunnel-2.3.1/testfile/source"                                                                                                                              
 
  type = "csv"                                                                                                                                                                
                                                                                                                                                                   
  delimiter = "#"                                                                                                                                                               
 
  schema {                                                                                                                                                                     
 
    fields {                                                                                                                                                                   
 
        name = string                                                                                                                                                          
 
        age = int                                                                                                                                                             
 
        gender = string                                                                                                                                                        
 
    }                                                                                                                                                                          
 
  }                                                                                                                                                                            
}                                                                                                                                                                             
                                                                                                        
 
}                                                                                                                                                                              
 
                                                                                                                                                                               
 
sink {                                                                                                                                                                                                                                                                                                                                         
  OssJindoFile {                                                                                                                                                              
                                                                                                                                                                                                                                   path="/seatunnel/oss03"                                                        
    bucket = "oss://bucket123456654321234.cn-hangzhou.oss-dls.aliyuncs.com"                                                                                                      
 
    access_key = "I5t7VZyZSmMNwKsNv1LTADxW"                                                                                                                                   
 
    access_secret = "BinZ9J0zYxRbvG9wQUi6LiUjZElLTA"                                                                                                                                                                                                                                                           
 
    endpoint = "cn-hangzhou.oss-dls.aliyuncs.com"                                                                                                                             
 
  }
                                                                                                                                                                                                                                                                                  
}

注：下圖本地待同步的數(shù)據(jù)文件夾, 本例子中只有一個(gè) test0.csv 文件，具體內(nèi)容
教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

特別注意：如果是開(kāi)通了 HDFS 的 OSS，有 2 個(gè)地方是不一樣的：1 是 bucket，1 是 endpoint 。如下紅色部分是開(kāi)通了 HDFS 后的，被 “#” 注釋掉的是未開(kāi)通 HDFS 的情況。

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

SeaTunnel 對(duì)這 2 種情況都是支持的，只是大家要注意一下配置 bucket 和 endpoint 時(shí)的不同！

執(zhí)行運(yùn)行命令后，我們可以從 SeaTunnel 控制臺(tái)看下以下 SeaTunnel 本次同步情況的數(shù)據(jù)：

       Job Statistic Information

Start Time : 2023-02-22 17:12:19

End Time : 2023-02-22 17:12:37

Total Time(s) : 18

Total Read Count : 10000000

Total Write Count : 10000000

Total Failed Count : 0

從阿里云界面上可以看到 OSS 端的監(jiān)控?cái)?shù)據(jù)：

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

可以看出來(lái) SeaTunnel 快速高效地同步了 1000萬(wàn)數(shù)據(jù)量的本地文件！

最后，Apache SeaTunnel 目前已經(jīng)支持了過(guò)百種數(shù)據(jù)源，并發(fā)布了 SeaTunnel Zeta 同步引擎，性能巨佳，還有群進(jìn)行技術(shù)支持，歡迎對(duì)比，歡迎一試！感興趣的伙伴歡迎聯(lián)系社區(qū)志愿者微信: seatunnel1

參考：

1、https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/deployment

2、https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/quick-start-seatunnel-engine

3、https://seatunnel.apache.org

本文由白鯨開(kāi)源提供發(fā)布支持！文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-710163.html

到了這里，關(guān)于教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

java使用阿里云OSS實(shí)現(xiàn)文件上傳到云盤(pán)
一、進(jìn)入阿里云官網(wǎng)的OSS管理控制臺(tái)并注冊(cè)賬號(hào) 阿里云登錄 - 歡迎登錄阿里云，安全穩(wěn)定的云計(jì)算服務(wù)平臺(tái) 歡迎登錄阿里云，全球領(lǐng)先的云計(jì)算及人工智能科技公司，阿里云為200多個(gè)國(guó)家和地區(qū)的企業(yè)、開(kāi)發(fā)者和政府機(jī)構(gòu)提供云計(jì)算基礎(chǔ)服務(wù)及解決方案。阿里云云計(jì)算、安
2024年01月17日
瀏覽(17)
【云存儲(chǔ)】使用OSS快速搭建個(gè)人網(wǎng)盤(pán)教程（阿里云）
不管是本地存儲(chǔ)還是在云環(huán)境中，都有三種主要的存儲(chǔ)類(lèi)型: 塊存儲(chǔ)、文件存儲(chǔ)和對(duì)象存儲(chǔ)。 1.1 塊存儲(chǔ) 塊存儲(chǔ)是一種將數(shù)據(jù)存儲(chǔ)為固定大小塊的數(shù)據(jù)存儲(chǔ)方式。塊存儲(chǔ)將數(shù)據(jù)分成多個(gè)塊，每個(gè)塊的大小通常是固定的，比如4KB、8KB、16KB等。塊存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)相對(duì)固定，無(wú)法
2024年02月14日
瀏覽(22)
WordPress使用阿里云OSS作為媒體庫(kù)提升網(wǎng)站速度及配置教程
首先需要注冊(cè)阿里云（www.aliyun.com）賬戶(hù)，可以直接用淘寶賬戶(hù)登錄，這年頭都有淘寶賬戶(hù)吧?。海?進(jìn)入阿里云中的對(duì)象存儲(chǔ)OSS首頁(yè)，開(kāi)通阿里云OSS對(duì)象存儲(chǔ) 開(kāi)通阿里云OSS對(duì)象存儲(chǔ) 開(kāi)通后進(jìn)入管理控制臺(tái)，新建一個(gè)Bucket（空間），填寫(xiě)空間名，按照你的網(wǎng)站受眾用戶(hù)所在區(qū)
2024年02月20日
瀏覽(31)
阿里云OSS對(duì)象存儲(chǔ)使用臨時(shí)URL訪問(wèn)，并對(duì)下載文件重命名
如何使用臨時(shí)授權(quán)的url訪問(wèn)云對(duì)象地址，又如何通過(guò)該URL下載自定義的文件名。下面是兩個(gè)內(nèi)容點(diǎn)： 1.直接獲取臨時(shí)url,這個(gè)跟官方的差不多，基本上照搬即可。 2.獲取臨時(shí)url,并且可以對(duì)下載文件重命名。 java SDK版本 3.5.0 官方文檔 oss java sdk 舉例直接使用臨時(shí)URL訪問(wèn)，這里可
2024年02月09日
瀏覽(127)
微信小程序使用阿里云oss設(shè)置上傳文件的content-type
圖片文件上傳到阿里云oss的默認(rèn)訪問(wèn)content-type是jpge，這個(gè)格式在瀏覽器不能直接打開(kāi)，需要手動(dòng)設(shè)置上傳的content-type 參考鏈接 UploadTask wx.uploadFile(Object object) OSS調(diào)用PostObject用于通過(guò)HTML表單上傳的方式將文件（Object）上傳到指定存儲(chǔ)空間（Bucket）。阿里OSS 上傳圖片 springboo
2024年02月12日
瀏覽(29)
【源碼編譯】Apache SeaTunnel-Web 適配最新2.3.4版本教程
Apache SeaTunnel新版本已經(jīng)發(fā)布，感興趣的小伙伴可以看之前版本發(fā)布的文章本文主要給大家介紹為使用2.3.4版本的新特性，需要對(duì)Apache SeaTunnel-Web依賴(lài)的版本進(jìn)行升級(jí)，而SeaTunnel2.3.4版本部分API跟之前版本不兼容，所以需要對(duì) SeaTunnel-Web的源碼進(jìn)行修改適配。克隆SeaYunnel-We
2024年04月14日
瀏覽(21)
阿里云OSS-小程序文件直傳（支持微信小程序、H5、PC端web使用）
支持微信小程序、H5、PC端web使用，整套文件進(jìn)行封裝統(tǒng)一使用開(kāi)發(fā)背景：做類(lèi)似發(fā)布朋友圈的功能需求，由于后端對(duì)發(fā)布功能只提供一個(gè)接口，文字、狀態(tài)、文件上傳統(tǒng)一一個(gè)接口上傳，且對(duì)文件上傳方面做的接口存在諸多問(wèn)題（人已經(jīng)整麻了），包括各種數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換
2024年02月07日
瀏覽(64)
SeaTunnel 海量數(shù)據(jù)同步工具的使用（連載中……）
SeaTunnel 是一個(gè)非常易用，高性能、支持實(shí)時(shí)流式和離線批處理的海量數(shù)據(jù)處理產(chǎn)品，前身是 WaterDrop （中文名：水滴），自 2021年10月12日更名為 SeaTunnel 。2021年12月9日，SeaTunnel 正式通過(guò)Apache 軟件基金會(huì)的投票決議，以全票通過(guò)的優(yōu)秀表現(xiàn)正式成為 Apache 孵化器項(xiàng)目。 2022年
2024年01月16日
瀏覽(45)
使用rsync一直同步阿里云的文件
要使用 rsync 實(shí)時(shí)同步阿里云服務(wù)器上的文件，你可以遵循以下步驟：確保本地計(jì)算機(jī)和阿里云服務(wù)器都安裝了 rsync 。如果沒(méi)有安裝，請(qǐng)?jiān)?Linux 系統(tǒng)上使用以下命令安裝：對(duì)于基于 RPM 的 Linux 發(fā)行版（例如 CentOS ），使用以下命令安裝：生成 SSH 密鑰對(duì)，以便在本地計(jì)算機(jī)和
2024年02月11日
瀏覽(47)
如何使用 SeaTunnel 同步 MySQL 數(shù)據(jù)到 Hive
第一步：環(huán)境準(zhǔn)備 Java 8 或 11 并配置JAVA_HOME Git? Maven 第二步：下載SeaTunnel并安裝連接器下載地址：https://seatunnel.apache.org/download/ 下載SeaTunnel并安裝2.3.0版本 https://www.apache.org/dyn/closer.lua/incubator/seatunnel/2.3.0/apache-seatunnel-incubating-2.3.0-bin.tar.gz 詳細(xì)的安裝過(guò)程可以參考：https://s
2023年04月08日
瀏覽(16)

<ruby id="vv8oh"><optgroup id="vv8oh"></optgroup></ruby>