国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Flink流批一體計算(4):Flink功能模塊

這篇具有很好參考價值的文章主要介紹了Flink流批一體計算(4):Flink功能模塊。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

Flink功能架構

Flink輸入輸出


Flink功能架構

Flink是分層架構的分布式計算引擎,每層的實現依賴下層提供的服務,同時提供抽象的接口和服務供上層使用。

Flink 架構可以分為4層,包括Deploy部署層、Core核心層、API層和Library層

Flink流批一體計算(4):Flink功能模塊

  1. 部署層:主要涉及Flink的部署模式。Flink支持多種部署模式,如本地(local)、集群(Standalone/YARN)、云服務器(GCE/EC2)。

可以啟動單個JVM,讓Flink以local模式運行Flink,也可以以Standalone 集群模式運行,同時也支持Flink ON YARN,Flink應用直接提交到YARN上面運行,Flink還可以運行在GCE(谷歌云服務)和EC2(亞馬遜云服務)

  1. 核心層:提供了支持Flink計算的全部核心實現,如支持分布式流式處理、JobGraph到ExecutionGraph的映射、調度等,為上層API提供基礎服務。

Core層(Runtime)在Runtime之上提供了兩套核心的API,DataStream API(流處理)和DataSet API(批處理)

有狀態(tài)的流式處理層:最底層的抽象僅僅提供有狀態(tài)的數據流,它通過處理函數嵌入數據流API(DataStream API)中。用戶可以通過它自由處理單流或者多流,并保持一致性和容錯性。同時,用戶可以進行注冊事件時間和處理時間的回調,以實現復雜的計算邏輯

  1. API層:主要實現了面向無界Stream的流式處理和面向Batch的批量處理API,其中,面向流式處理對應DataStream API,面向批量處理對應DataSet API。
  2. 庫層:該層也可以稱為“應用框架層”,它是根據API層的劃分,在API層之上構建的滿足特定應用的計算實現框架,也分別對應于面向流式處理和面向批量處理兩類。面向流式處理支持復雜事件處理(Complex Event Processing,CEP)、基于SQL-like的操作(基于Table的關系操作);面向批量處理支持FlinkML(機器學習庫)、Gelly(圖處理)。

SQL 既可以運行在DataStreamAPI上,又可以運行在DataSet API上。

Flink輸入輸出

Flink最適合的應用場景是低時延的數據處理(Data Processing)場景:高并發(fā)pipeline處理數據,時延毫秒級,且兼具可靠性。

Flink作為大數據生態(tài)的一員,除了本身外,可以很好地與生態(tài)中的其他組件進行結合使用,大的概況方面來講,就有輸入方面和輸出方面。

如下圖左右兩側框圖,其中綠色背景是流處理方式的場景,藍色背景是批處理方式的場景。

Flink流批一體計算(4):Flink功能模塊

左側輸入Connectors

流處理方式:包含Kafka(消息隊列)、AWS kinesis(實時數據流服務)、RabbitMQ(消息隊列)、NIFI(數據管道)、Twitter(API)

批處理方式:包含HDFS(分布式文件系統(tǒng))、HBase(分布式列式數據庫)、Amazon S3(文件系統(tǒng))、 MapR FS(文件系統(tǒng))、ALLuxio(基于內存分布式文件系統(tǒng))

右側輸出Connectors

流處理方式:包含Kafka(消息隊列)、AWS kinesis(實時數據流服務)、RabbitMQ(消息隊列)、NIFI(數據管道)、Cassandra(NOSQL數據庫)、ElasticSearch(全文檢索)、HDFS rolling file(滾動文件)

批處理方式:包含HBase(分布式列式數據庫)、HDFS(分布式文件系統(tǒng))文章來源地址http://www.zghlxwxcb.cn/news/detail-494905.html

到了這里,關于Flink流批一體計算(4):Flink功能模塊的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Flink流批一體計算(3):FLink作業(yè)調度

    Flink流批一體計算(3):FLink作業(yè)調度

    架構 所有的分布式計算引擎都需要有集群的資源管理器,例如:可以把MapReduce、Spark程序運行在YARN集群中、或者是Mesos中。Flink也是一個分布式計算引擎,要運行Flink程序,也需要一個資源管理器。而學習每一種分布式計算引擎,首先需要搞清楚的就是:我們開發(fā)的分布式應用

    2024年02月10日
    瀏覽(56)
  • Flink流批一體計算(5):部署運行模式

    目錄 集群運行模式 1.local模式 2.standalone模式 3.Flink on YARN模式 本地模式 Standalone 模式 Flink on Yarn 模式 集群運行模式 類似于 Spark , Flink 也有各種運行模式,其中主要支持三種: local 模式、 standalone 模式以及 Flink on YARN 模式。 每種模式都有特定的使用場景,接下來一起了解一

    2024年02月10日
    瀏覽(57)
  • Flink流批一體計算(16):PyFlink DataStream API

    Flink流批一體計算(16):PyFlink DataStream API

    目錄 概述 Pipeline Dataflow 代碼示例WorldCount.py 執(zhí)行腳本WorldCount.py 概述 Apache Flink 提供了 DataStream API,用于構建健壯的、有狀態(tài)的流式應用程序。它提供了對狀態(tài)和時間細粒度控制,從而允許實現高級事件驅動系統(tǒng)。 用戶實現的Flink程序是由Stream和Transformation這兩個基本構建塊組

    2024年02月11日
    瀏覽(25)
  • 流批一體計算引擎-4-[Flink]消費kafka實時數據

    流批一體計算引擎-4-[Flink]消費kafka實時數據

    Python3.6.9 Flink 1.15.2消費Kafaka Topic PyFlink基礎應用之kafka 通過PyFlink作業(yè)處理Kafka數據 PyFlink需要特定的Python版本,Python 3.6, 3.7, 3.8 or 3.9。 1.3.1 python3和pip3的配置 一、系統(tǒng)中安裝了多個版本的python3 。 二、環(huán)境變量path作用順序 三、安裝Pyflink 1.3.2 配置Flink Kafka連接 (1)在https://mvnr

    2024年02月06日
    瀏覽(35)
  • Flink流批一體計算(10):PyFlink Tabel API

    簡述 PyFlink 是 Apache Flink 的 Python API ,你可以使用它構建可擴展的批處理和流處理任務,例如實時數據處理管道、大規(guī)模探索性數據分析、機器學習( ML )管道和 ETL 處理。 如果你對 Python 和 Pandas 等庫已經比較熟悉,那么 PyFlink 可以讓你更輕松地利用 Flink 生態(tài)系統(tǒng)的全部功

    2024年02月11日
    瀏覽(27)
  • 流批一體計算引擎-7-[Flink]的DataStream連接器

    流批一體計算引擎-7-[Flink]的DataStream連接器

    參考官方手冊DataStream Connectors 一、預定義的Source和Sink 一些比較基本的Source和Sink已經內置在Flink里。 1、預定義data sources支持從文件、目錄、socket,以及collections和iterators中讀取數據。 2、預定義data sinks支持把數據寫入文件、標準輸出(stdout)、標準錯誤輸出(stderr)和 sock

    2023年04月08日
    瀏覽(22)
  • Flink流批一體計算(18):PyFlink DataStream API之計算和Sink

    Flink流批一體計算(18):PyFlink DataStream API之計算和Sink

    目錄 1. 在上節(jié)數據流上執(zhí)行轉換操作,或者使用 sink 將數據寫入外部系統(tǒng)。 2. File Sink File Sink Format Types? Row-encoded Formats? Bulk-encoded Formats? 桶分配 滾動策略 3. 如何輸出結果 Print 集合數據到客戶端,execute_and_collect方法將收集數據到客戶端內存 將結果發(fā)送到DataStream sink conne

    2024年02月11日
    瀏覽(23)
  • Flink流批一體計算(17):PyFlink DataStream API之StreamExecutionEnvironment

    目錄 StreamExecutionEnvironment Watermark watermark策略簡介 使用 Watermark 策略 內置水印生成器 處理空閑數據源 算子處理 Watermark 的方式 創(chuàng)建DataStream的方式 通過list對象創(chuàng)建 ??????使用DataStream connectors創(chuàng)建 使用Table SQL connectors創(chuàng)建 StreamExecutionEnvironment 編寫一個 Flink Python DataSt

    2024年02月11日
    瀏覽(55)
  • Flink流批一體計算(11):PyFlink Tabel API之TableEnvironment

    目錄 概述 設置重啟策略 什么是flink的重啟策略(Restartstrategy) flink的重啟策略(Restartstrategy)實戰(zhàn) flink的4種重啟策略 FixedDelayRestartstrategy(固定延時重啟策略) FailureRateRestartstrategy(故障率重啟策略) NoRestartstrategy(不重啟策略) 配置State Backends 以及 Checkpointing Checkpoint 啟用和配置

    2024年02月13日
    瀏覽(47)
  • Flink流批一體計算(12):PyFlink Tabel API之構建作業(yè)

    目錄 1.創(chuàng)建源表和結果表。 創(chuàng)建及注冊表名分別為 source 和 sink 的表 使用 TableEnvironment.execute_sql() 方法,通過 DDL 語句來注冊源表和結果表 2. 創(chuàng)建一個作業(yè) 3. 提交作業(yè)Submitting PyFlink Jobs 1.創(chuàng)建源表和結果表。 創(chuàng)建及注冊表名分別為 source 和 sink 的表 其中,源表 source 有一列

    2024年02月13日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包