国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

這篇具有很好參考價(jià)值的文章主要介紹了教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

一直以來(lái),大數(shù)據(jù)量一直是爆炸性增長(zhǎng),每天幾十 TB 的數(shù)據(jù)增量已經(jīng)非常常見(jiàn),但云存儲(chǔ)相對(duì)來(lái)說(shuō)還是不便宜的。眾多云上的大數(shù)據(jù)用戶(hù)特別希望可以非常簡(jiǎn)單快速的將文件移動(dòng)到更實(shí)惠的 S3、OSS 上進(jìn)行保存,這篇文章就來(lái)介紹如何使用 SeaTunnel 來(lái)進(jìn)行到 OSS 的數(shù)據(jù)同步。

首先簡(jiǎn)要介紹一下 Apache SeaTunnel,SeaTunnel 專(zhuān)注于數(shù)據(jù)集成和數(shù)據(jù)同步,主要解決以下問(wèn)題:

  • 數(shù)據(jù)源多樣:常用的數(shù)據(jù)源有數(shù)百種,版本不兼容。隨著新技術(shù)的出現(xiàn),出現(xiàn)了更多的數(shù)據(jù)源。用戶(hù)很難找到能夠全面快速支持這些數(shù)據(jù)源的工具。

  • 復(fù)雜同步場(chǎng)景:數(shù)據(jù)同步需要支持離線-全量同步、離線-增量同步、CDC、實(shí)時(shí)同步、全庫(kù)同步等多種同步場(chǎng)景。

  • 資源需求高:現(xiàn)有的數(shù)據(jù)集成和數(shù)據(jù)同步工具往往需要大量的計(jì)算資源或 JDBC 連接資源來(lái)完成海量小表的實(shí)時(shí)同步。這在一定程度上加重了企業(yè)的負(fù)擔(dān)。

  • 缺乏質(zhì)量和監(jiān)控:數(shù)據(jù)集成和同步過(guò)程經(jīng)常會(huì)丟失或重復(fù)數(shù)據(jù)。同步過(guò)程缺乏監(jiān)控,無(wú)法直觀了解任務(wù)過(guò)程中數(shù)據(jù)的真實(shí)情況

SeaTunnel 支持海量數(shù)據(jù)的高效離線/實(shí)時(shí)同步, 每天可穩(wěn)定高效同步數(shù)百億級(jí)數(shù)據(jù),已經(jīng)有 B 站,騰訊云,微博,360,Shopee 等數(shù)百家公司生產(chǎn)使用。

下面步入今天的正題,今天具體來(lái)說(shuō)是講 Apache SeaTunnel 產(chǎn)品與阿里云 OSS 的集成。

在阿里云 OSS 產(chǎn)品界面,開(kāi)通 Bucket:

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

下面是 SeaTunnel 的部署, SeaTunnel 支持多種部署方式: 單機(jī),集群,K8s 等方式。由于 SeaTunnel 不依賴(lài) Zookeeper 等第三方組件,所以整體部署非常簡(jiǎn)單,具體請(qǐng)參考其官網(wǎng):https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/deployment

接下來(lái)是 SeaTunnel 使用過(guò)程,使用命令:

./bin/seatunnel.sh -m local -c ./config/localfile-oss.config

在 SeaTunnel 中,用戶(hù)可以通過(guò) config 文件定制自己的數(shù)據(jù)同步需求,最大限度地發(fā)揮 SeaTunnel 的潛力。那么接下來(lái)就給大家介紹一下如何配置 Config 文件

可以看到,config 文件包含幾個(gè)部分:env、source、transform、sink。不同的模塊有不同的功能。了解這些模塊后,您將了解 SeaTunnel 的工作原理。

用于添加一些引擎可選參數(shù),無(wú)論是哪個(gè)引擎(Spark或Flink),這里都要填寫(xiě)相應(yīng)的可選參數(shù)。

source 用于定義 SeaTunnel 需要從哪里獲取數(shù)據(jù),并將獲取的數(shù)據(jù)用于下一步??梢酝瑫r(shí)定義多個(gè)源?,F(xiàn)在支持的來(lái)源檢查 SeaTunnel 的來(lái)源。每個(gè) Source 都有自己特定的參數(shù)來(lái)定義如何取數(shù)據(jù),SeaTunnel 也提取了每個(gè) source 會(huì)用到的參數(shù),比如parameter,用來(lái)指定 result_table_name 當(dāng)前 source 產(chǎn)生的數(shù)據(jù)的名稱(chēng),方便供其他模塊后續(xù)使用。

本例中的 localfile-oss.config 配置文件內(nèi)容介紹:

env {                                                                                                                                                                          
 
  # You can set SeaTunnel environment configuration here                                                                                                                      
 
  execution.parallelism = 10                                                                                                                                                  
 
  job.mode = "BATCH"                                                                                                                                                           
 
  checkpoint.interval = 10000                                                                                                                                                  
 
  #execution.checkpoint.interval = 10000                                                                                                                                      
 
  #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"                                                                                                         
 
}                                                                                                                                                                              
 
                                                                                                                                                                               
 
source {                                                                                                                                                                       
 
LocalFile {                                                                                                                                                                   
  #本地待同步的數(shù)據(jù)文件夾, 本例子中只有一個(gè) test0.csv 文件,具體內(nèi)容參考下圖
  path = "/data/seatunnel-2.3.1/testfile/source"                                                                                                                              
 
  type = "csv"                                                                                                                                                                
                                                                                                                                                                   
  delimiter = "#"                                                                                                                                                               
 
  schema {                                                                                                                                                                     
 
    fields {                                                                                                                                                                   
 
        name = string                                                                                                                                                          
 
        age = int                                                                                                                                                             
 
        gender = string                                                                                                                                                        
 
    }                                                                                                                                                                          
 
  }                                                                                                                                                                            
}                                                                                                                                                                             
                                                                                                        
 
}                                                                                                                                                                              
 
                                                                                                                                                                               
 
sink {                                                                                                                                                                                                                                                                                                                                         
  OssJindoFile {                                                                                                                                                              
                                                                                                                                                                                                                                   path="/seatunnel/oss03"                                                        
    bucket = "oss://bucket123456654321234.cn-hangzhou.oss-dls.aliyuncs.com"                                                                                                      
 
    access_key = "I5t7VZyZSmMNwKsNv1LTADxW"                                                                                                                                   
 
    access_secret = "BinZ9J0zYxRbvG9wQUi6LiUjZElLTA"                                                                                                                                                                                                                                                           
 
    endpoint = "cn-hangzhou.oss-dls.aliyuncs.com"                                                                                                                             
 
  }
                                                                                                                                                                                                                                                                                  
}

注:下圖本地待同步的數(shù)據(jù)文件夾, 本例子中只有一個(gè) test0.csv 文件,具體內(nèi)容
教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

特別注意:如果是開(kāi)通了 HDFS 的 OSS,有 2 個(gè)地方是不一樣的:1 是 bucket,1 是 endpoint 。如下紅色部分是開(kāi)通了 HDFS 后的,被 “#” 注釋掉的是未開(kāi)通 HDFS 的情況。

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

SeaTunnel 對(duì)這 2 種情況都是支持的,只是大家要注意一下配置 bucket 和 endpoint 時(shí)的不同!

執(zhí)行運(yùn)行命令后,我們可以從 SeaTunnel 控制臺(tái)看下以下 SeaTunnel 本次同步情況的數(shù)據(jù):


       Job Statistic Information                                                                                                                                           

Start Time : 2023-02-22 17:12:19

End Time : 2023-02-22 17:12:37

Total Time(s) : 18

Total Read Count : 10000000

Total Write Count : 10000000

Total Failed Count : 0


從阿里云界面上可以看到 OSS 端的監(jiān)控?cái)?shù)據(jù):

教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS
教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS
教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS

可以看出來(lái) SeaTunnel 快速高效地同步了 1000萬(wàn)數(shù)據(jù)量的本地文件!

最后,Apache SeaTunnel 目前已經(jīng)支持了過(guò)百種數(shù)據(jù)源,并發(fā)布了 SeaTunnel Zeta 同步引擎,性能巨佳,還有群進(jìn)行技術(shù)支持,歡迎對(duì)比,歡迎一試!感興趣的伙伴歡迎聯(lián)系社區(qū)志愿者微信: seatunnel1

參考:

1、https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/deployment

2、https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/quick-start-seatunnel-engine

3、https://seatunnel.apache.org

本文由 白鯨開(kāi)源 提供發(fā)布支持!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-710163.html

到了這里,關(guān)于教程 | 使用 Apache SeaTunnel 同步本地文件到阿里云 OSS的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • java使用阿里云OSS實(shí)現(xiàn)文件上傳到云盤(pán)

    java使用阿里云OSS實(shí)現(xiàn)文件上傳到云盤(pán)

    一、進(jìn)入阿里云官網(wǎng)的OSS管理控制臺(tái)并注冊(cè)賬號(hào) 阿里云登錄 - 歡迎登錄阿里云,安全穩(wěn)定的云計(jì)算服務(wù)平臺(tái) 歡迎登錄阿里云,全球領(lǐng)先的云計(jì)算及人工智能科技公司,阿里云為200多個(gè)國(guó)家和地區(qū)的企業(yè)、開(kāi)發(fā)者和政府機(jī)構(gòu)提供云計(jì)算基礎(chǔ)服務(wù)及解決方案。阿里云云計(jì)算、安

    2024年01月17日
    瀏覽(17)
  • 【云存儲(chǔ)】使用OSS快速搭建個(gè)人網(wǎng)盤(pán)教程(阿里云)

    【云存儲(chǔ)】使用OSS快速搭建個(gè)人網(wǎng)盤(pán)教程(阿里云)

    不管是本地存儲(chǔ)還是在云環(huán)境中,都有三種主要的存儲(chǔ)類(lèi)型: 塊存儲(chǔ)、文件存儲(chǔ)和對(duì)象存儲(chǔ)。 1.1 塊存儲(chǔ) 塊存儲(chǔ)是一種將 數(shù)據(jù)存儲(chǔ)為固定大小塊 的數(shù)據(jù)存儲(chǔ)方式。 塊存儲(chǔ)將數(shù)據(jù)分成多個(gè)塊,每個(gè)塊的大小通常是固定的,比如4KB、8KB、16KB等。 塊存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)相對(duì)固定,無(wú)法

    2024年02月14日
    瀏覽(22)
  • WordPress使用阿里云OSS作為媒體庫(kù)提升網(wǎng)站速度及配置教程

    WordPress使用阿里云OSS作為媒體庫(kù)提升網(wǎng)站速度及配置教程

    首先需要注冊(cè)阿里云(www.aliyun.com)賬戶(hù),可以直接用淘寶賬戶(hù)登錄,這年頭都有淘寶賬戶(hù)吧?。海?進(jìn)入阿里云中的對(duì)象存儲(chǔ)OSS首頁(yè),開(kāi)通阿里云OSS對(duì)象存儲(chǔ) 開(kāi)通阿里云OSS對(duì)象存儲(chǔ) 開(kāi)通后進(jìn)入管理控制臺(tái),新建一個(gè)Bucket(空間),填寫(xiě)空間名,按照你的網(wǎng)站受眾用戶(hù)所在區(qū)

    2024年02月20日
    瀏覽(31)
  • 阿里云OSS對(duì)象存儲(chǔ)使用臨時(shí)URL訪問(wèn),并對(duì)下載文件重命名

    阿里云OSS對(duì)象存儲(chǔ)使用臨時(shí)URL訪問(wèn),并對(duì)下載文件重命名

    如何使用臨時(shí)授權(quán)的url訪問(wèn)云對(duì)象地址,又如何通過(guò)該URL下載自定義的文件名。 下面是兩個(gè)內(nèi)容點(diǎn): 1.直接獲取臨時(shí)url,這個(gè)跟官方的差不多,基本上照搬即可。 2.獲取臨時(shí)url,并且可以對(duì)下載文件重命名。 java SDK版本 3.5.0 官方文檔 oss java sdk 舉例 直接使用臨時(shí)URL訪問(wèn),這里可

    2024年02月09日
    瀏覽(127)
  • 微信小程序使用阿里云oss設(shè)置上傳文件的content-type

    圖片文件上傳到阿里云oss的默認(rèn)訪問(wèn)content-type是jpge,這個(gè)格式在瀏覽器不能直接打開(kāi),需要手動(dòng)設(shè)置上傳的content-type 參考鏈接 UploadTask wx.uploadFile(Object object) OSS調(diào)用PostObject用于通過(guò)HTML表單上傳的方式將文件(Object)上傳到指定存儲(chǔ)空間(Bucket)。 阿里OSS 上傳圖片 springboo

    2024年02月12日
    瀏覽(29)
  • 【源碼編譯】Apache SeaTunnel-Web 適配最新2.3.4版本教程

    【源碼編譯】Apache SeaTunnel-Web 適配最新2.3.4版本教程

    Apache SeaTunnel新版本已經(jīng)發(fā)布,感興趣的小伙伴可以看之前版本發(fā)布的文章 本文主要給大家介紹為使用2.3.4版本的新特性,需要對(duì)Apache SeaTunnel-Web依賴(lài)的版本進(jìn)行升級(jí),而SeaTunnel2.3.4版本部分API跟之前 版本不兼容 ,所以需要對(duì) SeaTunnel-Web的 源碼進(jìn)行修改 適配。 克隆SeaYunnel-We

    2024年04月14日
    瀏覽(21)
  • 阿里云OSS-小程序文件直傳(支持微信小程序、H5、PC端web使用)

    阿里云OSS-小程序文件直傳(支持微信小程序、H5、PC端web使用)

    支持微信小程序、H5、PC端web使用,整套文件進(jìn)行封裝統(tǒng)一使用 開(kāi)發(fā)背景:做類(lèi)似發(fā)布朋友圈的功能需求,由于后端對(duì)發(fā)布功能只提供一個(gè)接口,文字、狀態(tài)、文件上傳統(tǒng)一一個(gè)接口上傳,且對(duì)文件上傳方面做的接口存在諸多問(wèn)題(人已經(jīng)整麻了),包括各種數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換

    2024年02月07日
    瀏覽(64)
  • SeaTunnel 海量數(shù)據(jù)同步工具的使用(連載中……)

    SeaTunnel 海量數(shù)據(jù)同步工具的使用(連載中……)

    SeaTunnel 是一個(gè)非常易用,高性能、支持實(shí)時(shí)流式和離線批處理的海量數(shù)據(jù)處理產(chǎn)品,前身是 WaterDrop (中文名:水滴),自 2021年10月12日更名為 SeaTunnel 。2021年12月9日,SeaTunnel 正式通過(guò)Apache 軟件基金會(huì)的投票決議,以全票通過(guò)的優(yōu)秀表現(xiàn)正式成為 Apache 孵化器項(xiàng)目。 2022年

    2024年01月16日
    瀏覽(45)
  • 使用rsync一直同步阿里云的文件

    要使用 rsync 實(shí)時(shí)同步阿里云服務(wù)器上的文件,你可以遵循以下步驟: 確保本地計(jì)算機(jī)和阿里云服務(wù)器都安裝了 rsync 。如果沒(méi)有安裝,請(qǐng)?jiān)?Linux 系統(tǒng)上使用以下命令安裝: 對(duì)于基于 RPM 的 Linux 發(fā)行版(例如 CentOS ),使用以下命令安裝: 生成 SSH 密鑰對(duì),以便在本地計(jì)算機(jī)和

    2024年02月11日
    瀏覽(47)
  • 如何使用 SeaTunnel 同步 MySQL 數(shù)據(jù)到 Hive

    第一步:環(huán)境準(zhǔn)備 Java 8 或 11 并配置JAVA_HOME Git? Maven 第二步:下載SeaTunnel并安裝連接器 下載地址:https://seatunnel.apache.org/download/ 下載SeaTunnel并安裝2.3.0版本 https://www.apache.org/dyn/closer.lua/incubator/seatunnel/2.3.0/apache-seatunnel-incubating-2.3.0-bin.tar.gz 詳細(xì)的安裝過(guò)程可以參考:https://s

    2023年04月08日
    瀏覽(16)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包