国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ETL工具 - Kettle 介紹及基本使用

這篇具有很好參考價(jià)值的文章主要介紹了ETL工具 - Kettle 介紹及基本使用。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、Kettle 介紹

在介紹 Kettle 前先了解下什么是 ETL,ETLExtract-Transform-Load 的縮寫,即數(shù)據(jù) 抽取、轉(zhuǎn)換、裝載 的過程,對于企業(yè)或行業(yè)應(yīng)用來說,經(jīng)常會(huì)遇到各種異構(gòu)數(shù)據(jù)的處理、轉(zhuǎn)換、遷移等操作,這些操作有可能會(huì)面對大量的數(shù)據(jù)和繁瑣的步驟,因此就萌生了一些 ETL 處理工具,市面上常見的ETL工具有很多,比如Sqoop、DataX、Kettle、Talend等,本篇文章就主要來介紹下 Kettle 工具。

Kettle水壺)是一款國外開源的ETL工具,現(xiàn)在已經(jīng)更名為PDI,Pentaho Data Integration-Pentaho 的縮寫,由純 java 編寫,可以在Window、Linux、Unix上運(yùn)行,綠色無需安裝,數(shù)據(jù)抽取高效穩(wěn)定。它可以處理各種異構(gòu)數(shù)據(jù)庫中的數(shù)據(jù),并且提供了可視化圖形界面的方式進(jìn)行操作,讓你思路主要關(guān)注在如果處理數(shù)據(jù)上,而不是如何實(shí)現(xiàn)處理的過程,特點(diǎn)如下圖介紹:

ETL工具 - Kettle 介紹及基本使用

Kettle的官網(wǎng)地址如下:

https://community.hitachivantara.com/home

如上圖介紹 ,Kettle 分了兩種腳本文件,transformation (轉(zhuǎn)換)和 job(作業(yè)) ,transformation 主要完成對數(shù)據(jù)的處理和轉(zhuǎn)換,job 則完成整個(gè)工作流的控制,一個(gè) job 可以包含多個(gè) transformation ,如下圖所示:

ETL工具 - Kettle 介紹及基本使用

ETL工具 - Kettle 介紹及基本使用

另外在 Kettle 中又包含了 4 個(gè)核心組件,分別如下:

  • 勺子(Spoon.bat / Spoon.sh) : 圖像化界面,可以通過圖形化界面交互方式開發(fā)transformationjob。
  • 煎鍋(Pan.bat / pan.sh): 可以用命令行的形式執(zhí)行由 Spoon 編輯的transformationjob。
  • 廚房(Kitchen.bat / kitchen.sh) : 可以使用命令行調(diào)用由 Spoon 編輯好的 job
  • 菜單(Carte.bat / carte.sh) : 一個(gè)輕量級的 Web 容器,用戶建立遠(yuǎn)程ETL Server 。

二、Kettle 安裝

安裝前,需要電腦上已經(jīng)安裝配置好 jdk 環(huán)境,版本建議1.8及以上。

下載kettle壓縮包:

https://sourceforge.net/projects/pentaho/files/Pentaho%209.1/

Kettle 為綠色軟件,下載后可以解壓到任意本地路徑,但注意盡量不要帶有中文路徑,不然會(huì)出現(xiàn)意想不到的效果。

其中 Kettle 的目錄說明如下:

ETL工具 - Kettle 介紹及基本使用
ETL工具 - Kettle 介紹及基本使用

三、Kettle 使用基本介紹

雙擊解壓目錄下的 Spoon.bat 即可啟動(dòng)圖形化界面工具,啟動(dòng)過程有點(diǎn)慢耐心等待下,如果啟動(dòng)失敗,可以修改下 JVM 的最堆內(nèi)存的大小, Spoon.bat 文件下:

ETL工具 - Kettle 介紹及基本使用

等待片刻后會(huì)進(jìn)到如下頁面:

ETL工具 - Kettle 介紹及基本使用

在 工具欄/文件/新建 下可以選擇創(chuàng)建一個(gè)轉(zhuǎn)換作業(yè)

ETL工具 - Kettle 介紹及基本使用

3.1 轉(zhuǎn)換

轉(zhuǎn)換(transaformation) 主要負(fù)責(zé)數(shù)據(jù)的輸入、轉(zhuǎn)換、校驗(yàn)和輸出等工作。轉(zhuǎn)換由多個(gè)Step(步驟) 組成,如文本文件輸入,過濾輸出行,執(zhí)行 SQL 等。各個(gè)步驟之間使用 Hop (跳) 來鏈接。

ETL工具 - Kettle 介紹及基本使用

Step 是轉(zhuǎn)換里的基本的組成部分,比如上面的 CSV文件輸入Excel輸出,一個(gè)Step 有如下幾個(gè)關(guān)鍵特性:

  • Step需要有一個(gè)名字,這個(gè)名字在同一個(gè)轉(zhuǎn)換范圍內(nèi)唯一。
  • Step將數(shù)據(jù)寫到與之相連的一個(gè)或多個(gè)輸出 Hop,再傳送到指向的另一端的Step
  • 大多數(shù)的Step都可以有多個(gè)輸出,當(dāng)出現(xiàn)多個(gè)輸出時(shí)可以選擇復(fù)制或分發(fā),復(fù)制是所有的記錄被同時(shí)發(fā)送到所有的目標(biāo)步驟,分發(fā)是目標(biāo)步驟輪流接收記錄:

ETL工具 - Kettle 介紹及基本使用

HopStep 之間帶箭頭的連線,定義了數(shù)據(jù)的通路。Hop 實(shí)際上是兩個(gè)Step 之間被稱之為行集的數(shù)據(jù)行緩存,行集的大小可以在轉(zhuǎn)換的設(shè)置里定義。當(dāng)行集滿時(shí),向行集寫數(shù)據(jù)的 Step 將停止寫入,直到行集里又有了空間。當(dāng)行集空了,從行集讀取數(shù)據(jù)的 Step 停止讀取,直到行集里又有可讀的數(shù)據(jù)行。

其中轉(zhuǎn)換屬性可以雙擊空白處:

ETL工具 - Kettle 介紹及基本使用

3.2 數(shù)據(jù)元數(shù)據(jù)

每個(gè)步驟在輸出數(shù)據(jù)行時(shí)都有對字段的描述,也就是數(shù)據(jù)行的元數(shù)據(jù)。元數(shù)據(jù)通常包含下面一些信息。

  • 名稱:數(shù)據(jù)行里的字段名是唯一的
  • 數(shù)據(jù)類型:字段的數(shù)據(jù)類型
  • 格式:數(shù)據(jù)顯示的方式,如Integer#、0.00
  • 長度:字符串的長度或者BigNumber類型的長度
  • 精度BigNumber數(shù)據(jù)類型的十進(jìn)制精度
  • 貨幣符號
  • 小數(shù)點(diǎn)符號:十進(jìn)制數(shù)據(jù)的小數(shù)點(diǎn)格式。不同文化背景下小數(shù)點(diǎn)符號是不同的,一般是點(diǎn)(.)或逗號(,
  • 分組符號:數(shù)值類型數(shù)據(jù)的分組符號,不同文化背景下數(shù)字里的分組符號也是不同的,一般是點(diǎn)(.)或逗號(,)或單引號(

ETL工具 - Kettle 介紹及基本使用

3.3 數(shù)據(jù)的類型

Kettle 中的數(shù)據(jù)區(qū)分了數(shù)據(jù)的類型,類型包含如下幾種:

  • String:字符類型數(shù)據(jù)
  • Number:雙精度浮點(diǎn)數(shù)。
  • Integer:帶符號長整型(64位)。
  • BigNumber:任意精度數(shù)據(jù)。
  • Date:帶毫秒精度的日期時(shí)間值。
  • Boolean:取值為truefalse的布爾值。
  • Binary:二進(jìn)制字段可以包含圖像、聲音、視頻及其他類型的二進(jìn)制數(shù)據(jù)。

3.2 作業(yè)

作業(yè) (Job),負(fù)責(zé)定義一個(gè)完成整個(gè)工作流的控制,比如將轉(zhuǎn)換的結(jié)果發(fā)送郵件給相關(guān)人員。因?yàn)檗D(zhuǎn)換(transformation)以并行方式執(zhí)行,如果需要一個(gè)串行的調(diào)度工具來執(zhí)行轉(zhuǎn)換,就可以使用作業(yè):

ETL工具 - Kettle 介紹及基本使用

四、Kettle 數(shù)據(jù)處理案例

例如有如下 CSV 數(shù)據(jù),其中字段分別表示:用戶ID、用戶名、性別、成績1、成績2、成績3

ETL工具 - Kettle 介紹及基本使用

id,name,sex,grade1,grade2,grade3
1,小明,男,90,80,70
2,小紅,女,91,81,71
3,小蘭,女,92,82,72
4,小愛,女,93,83,73
5,張三,男,94,84,74
6,李四,男,95,85,75
7,王五,男,96,86,76
8,趙六,男,97,87,77
9,小六,男,98,88,78
10,小七,男,99,89,79

現(xiàn)有需求:要求計(jì)算出每個(gè)人的總成績和平均分,將結(jié)果輸出到 Excel 中。

新建一個(gè)轉(zhuǎn)換:

ETL工具 - Kettle 介紹及基本使用

拖入一個(gè) CSV文件輸入:

ETL工具 - Kettle 介紹及基本使用

雙擊 CSV文件輸入,選擇 CSV 文件、編碼等:

ETL工具 - Kettle 介紹及基本使用

可以點(diǎn)擊預(yù)覽查看數(shù)據(jù):

ETL工具 - Kettle 介紹及基本使用

下面拖入一個(gè) 計(jì)算器 ,計(jì)算成績總和:

ETL工具 - Kettle 介紹及基本使用

按住 Shift 連接上 CSV文件輸入和 計(jì)算器:

ETL工具 - Kettle 介紹及基本使用

雙擊計(jì)算器,修改名稱,并指定計(jì)算方式:

ETL工具 - Kettle 介紹及基本使用

此時(shí)可以運(yùn)行下看下計(jì)算結(jié)果:

ETL工具 - Kettle 介紹及基本使用
ETL工具 - Kettle 介紹及基本使用

可以看到已經(jīng)計(jì)算出了總成績,下面計(jì)算平均分?jǐn)?shù)的話還需要一個(gè)常量 3

ETL工具 - Kettle 介紹及基本使用

雙擊進(jìn)入修改名稱和指定常量值:

ETL工具 - Kettle 介紹及基本使用

下面再拖一個(gè)計(jì)算器,計(jì)算平均分?jǐn)?shù),參數(shù)如下:

ETL工具 - Kettle 介紹及基本使用

到這可以運(yùn)行下看下結(jié)果:

ETL工具 - Kettle 介紹及基本使用

可以看到已經(jīng)計(jì)算出平均成績了,下面就可以輸出到 Excel 中了,拖入一個(gè) Excel輸出:

ETL工具 - Kettle 介紹及基本使用

雙擊進(jìn)入修改屬性:

ETL工具 - Kettle 介紹及基本使用

再進(jìn)入到字段下指定輸出的字段,其中 num 字段僅僅是為了計(jì)算用的,這里刪除掉:

ETL工具 - Kettle 介紹及基本使用

最后運(yùn)行轉(zhuǎn)換,到輸出目錄下查看 Excel 中的內(nèi)容:

ETL工具 - Kettle 介紹及基本使用
ETL工具 - Kettle 介紹及基本使用

已經(jīng)寫入處理后的數(shù)據(jù)。文章來源地址http://www.zghlxwxcb.cn/news/detail-472282.html

到了這里,關(guān)于ETL工具 - Kettle 介紹及基本使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大數(shù)據(jù)ETL工具對比(Sqoop, DataX, Kettle)

    大數(shù)據(jù)ETL工具對比(Sqoop, DataX, Kettle)

    前言 在實(shí)習(xí)過程中,遇到了數(shù)據(jù)庫遷移項(xiàng)目,對于數(shù)據(jù)倉庫,大數(shù)據(jù)集成類應(yīng)用,通常會(huì)采用 ETL 工具輔助完成,公司和客戶使用的比較多的是 Sqoop , DataX 和 Kettle 這三種工具。簡單的對這三種ETL工具進(jìn)行一次梳理。 ETL工具,需要完成對源端數(shù)據(jù)的抽?。╡xat), 交互轉(zhuǎn)換(

    2024年02月11日
    瀏覽(27)
  • Springboot整合ETL引擎Kettle的使用

    Springboot整合ETL引擎Kettle的使用

    ETL 是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,它能夠?qū)Ω鞣N分布的、異構(gòu)的源數(shù)據(jù)(如關(guān)系數(shù)據(jù))進(jìn)行抽取,按照預(yù)先設(shè)計(jì)的規(guī)則將不完整數(shù)據(jù)、重復(fù)數(shù)據(jù)以及錯(cuò)誤數(shù)據(jù)等“臟\\\"數(shù)據(jù)內(nèi)容進(jìn)行清洗,得到符合

    2024年02月14日
    瀏覽(23)
  • 主流的開源ETL工具介紹

    主流的開源ETL工具介紹

    ????????開源ETL(Extract, Transform, Load)工具為組織提供了一種經(jīng)濟(jì)高效的方法來集成來自不同源的數(shù)據(jù),以便進(jìn)行分析、報(bào)告和業(yè)務(wù)智能。這些工具通常具有靈活性、可擴(kuò)展性和較低的總體擁有成本。以下是幾種流行的開源ETL工具及其特點(diǎn)、安裝步驟和應(yīng)用場景的概述。

    2024年04月23日
    瀏覽(55)
  • kettle從入門到精通 第五十三課 ETL之kettle MQTT/RabbitMQ consumer實(shí)戰(zhàn)

    kettle從入門到精通 第五十三課 ETL之kettle MQTT/RabbitMQ consumer實(shí)戰(zhàn)

    1、上一節(jié)課我們學(xué)習(xí)了MQTT producer 生產(chǎn)者步驟,MQTT consumer消費(fèi)者步驟。該步驟可以從支持MRQTT協(xié)議的中間件獲取數(shù)據(jù),該步驟和kafka consumer 一樣可以處理實(shí)時(shí)數(shù)據(jù)交互,如下圖所示: ?2、雙擊步驟打開MQTT consumer 配置窗口,如下圖所示: Step name: 自定義步驟名稱。 Transformat

    2024年04月28日
    瀏覽(40)
  • 關(guān)于Kettle ETL java腳本編寫遇到的一些問題記錄

    關(guān)于Kettle ETL java腳本編寫遇到的一些問題記錄

    使用方法**logBasic()**參數(shù)必須是字符串 這部分內(nèi)容會(huì)在ETL的日志窗口顯示 1.獲取上個(gè)節(jié)點(diǎn)傳輸?shù)臄?shù)據(jù) 可以直接在左側(cè)雙擊獲取 2.全局參數(shù)獲取 在啟動(dòng)運(yùn)行的變量設(shè)置參數(shù) 在java代碼中獲取方式 3.獲取當(dāng)前節(jié)點(diǎn)參數(shù) 在當(dāng)前窗口下方有個(gè) 參數(shù) Tab頁,在這里設(shè)置 在java代碼中獲取

    2024年02月12日
    瀏覽(25)
  • Cantata 測試工具基本使用介紹

    Cantata 測試工具基本使用介紹

    寫本文是因?yàn)闆]有帶辦公電腦,在個(gè)人電腦上先寫,然后復(fù)制到公司內(nèi)部網(wǎng)絡(luò)。需要軟件自行聯(lián)系國內(nèi)代理商,勿擾 概述 Cantata QA 工具是德國斯圖加特的一家名為QA System技術(shù)股份有限公司的產(chǎn)品,國內(nèi)名稱為北京旋極信息技術(shù)股份有限公司,在北京上海深圳均有辦公點(diǎn)。 工

    2024年02月12日
    瀏覽(19)
  • 自動(dòng)化測試工具 —— selenium介紹及基本使用方法

    自動(dòng)化測試工具 —— selenium介紹及基本使用方法

    Selenium是一個(gè)開源、免費(fèi)、簡單、靈活,對Web瀏覽器支持良好的自動(dòng)化測試工具,在UI自動(dòng)化、爬蟲等場景下是十分實(shí)用的,能夠熟練掌握并使用Selenium工具可以大大的提高效率。 Selenium簡介 Selenium支持多平臺(tái)、多瀏覽器、多語言去實(shí)現(xiàn)自動(dòng)化測試,是一個(gè)開源和可移植的Web測

    2024年02月05日
    瀏覽(92)
  • ETL工具-nifi干貨系列 第三講 nifi web ui 使用教程

    ETL工具-nifi干貨系列 第三講 nifi web ui 使用教程

    1、nifi 服務(wù)啟動(dòng)之后,瀏覽器輸入 https://localhost:8443/nifi ?,匿名登錄或者輸入用戶名密碼進(jìn)入操作頁面,如下圖所示: 2、組件工具欄 處理器,鼠標(biāo)放到圖標(biāo)上提示Processor,里面里面有各種各樣的組件,可以實(shí)現(xiàn)各種各樣的功能。 ?拖拉處理器到畫布中,出現(xiàn)處理器選擇列表,

    2024年04月14日
    瀏覽(22)
  • Kettle Local引擎使用記錄(一)(基于Kettle web版數(shù)據(jù)集成開源工具data-integration源碼)

    Kettle Local引擎使用記錄(一)(基于Kettle web版數(shù)據(jù)集成開源工具data-integration源碼)

    在前面對 data-integration 做了一些簡單了解,從部署到應(yīng)用,今天嘗試把后端運(yùn)行作業(yè)代碼拎出來,去真正運(yùn)行一下,只有實(shí)操之后才會(huì)有更深刻的認(rèn)識(shí),有些看著簡單的功能,實(shí)操過程中會(huì)遇到很多問題,這個(gè)時(shí)候你的想法也會(huì)發(fā)生改變,所以很多時(shí)候?yàn)槭裁撮_發(fā)人員痛恨做

    2024年02月02日
    瀏覽(30)
  • 【ETL工具】Datax-ETL-SqlServerToHDFS

    【ETL工具】Datax-ETL-SqlServerToHDFS

    ???????????????? 感謝點(diǎn)贊和關(guān)注 ,每天進(jìn)步一點(diǎn)點(diǎn)!加油! ???????????????? 目錄 ?? 個(gè)人主頁——??個(gè)人主頁 ????? 一、DataX概覽 1.1 DataX 簡介 1.2 DataX框架 1.3 功能限制 1.4 Support Data Channels 二、配置樣例 2.1 環(huán)境信息 2.2 SQLServer數(shù)據(jù)同步到HDFS 2.2 參數(shù)說明

    2024年02月08日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包