作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù)
1.簡介
Apache Spark?Streaming是一個(gè)構(gòu)建在Apache Spark?之上的快速、微批次、容錯(cuò)的流式數(shù)據(jù)處理系統(tǒng),它可以對實(shí)時(shí)數(shù)據(jù)進(jìn)行高吞吐量、低延遲地處理。Spark Streaming既可用于流計(jì)算場景也可用于離線批處理場景,而且可以將結(jié)構(gòu)化或無結(jié)構(gòu)化數(shù)據(jù)源(如Kafka、Flume、Kinesis)的數(shù)據(jù)實(shí)時(shí)流式傳輸?shù)紿DFS、HBase、Kafka等存儲(chǔ)中。它具有高吞吐量、容錯(cuò)性、易擴(kuò)展性、復(fù)雜的容錯(cuò)機(jī)制和豐富的API支持。本文主要介紹了Spark Streaming的相關(guān)知識(shí),并通過例子幫助讀者快速上手Spark Streaming。
2.基本概念術(shù)語說明
2.1 Apache Spark?Streaming
Apache Spark?Streaming是基于Apache Spark?而開發(fā)的用于實(shí)時(shí)數(shù)據(jù)分析的模塊。它由驅(qū)動(dòng)程序和執(zhí)行引擎兩部分組成,其中驅(qū)動(dòng)程序負(fù)責(zé)從數(shù)據(jù)源接收輸入數(shù)據(jù)并將其劃分為多個(gè)批次進(jìn)行處理;執(zhí)行引擎則負(fù)責(zé)為各個(gè)批次分配任務(wù)并將結(jié)果輸出到外部系統(tǒng)。Apache Spark?Streaming在系統(tǒng)架構(gòu)上采用微批處理的方式,它可以處理實(shí)時(shí)流數(shù)據(jù)中的少量數(shù)據(jù),并且在數(shù)據(jù)處理過程中采用數(shù)據(jù)切片、持久化和容錯(cuò)策略,使得系統(tǒng)可以應(yīng)對各種異常情況。其內(nèi)部采用事件時(shí)間機(jī)制保證數(shù)據(jù)準(zhǔn)確性,同時(shí)還提供諸如窗口操作、狀態(tài)管理和計(jì)算圖等高級功能。Apache Spark?Streaming應(yīng)用場景包括流計(jì)算、機(jī)器學(xué)習(xí)、IoT、日志處理、數(shù)據(jù)采集等領(lǐng)域。文章來源:http://www.zghlxwxcb.cn/news/detail-735478.html
2.2 流數(shù)據(jù)與離線數(shù)據(jù)
一般來說,流數(shù)據(jù)與離線數(shù)據(jù)之間的區(qū)別僅僅是數(shù)據(jù)的時(shí)間維度不同。流數(shù)據(jù)通常是指連續(xù)不斷產(chǎn)生的數(shù)據(jù)流,這些數(shù)據(jù)按照固定周期、不間斷地生成。例如,互聯(lián)網(wǎng)網(wǎng)文章來源地址http://www.zghlxwxcb.cn/news/detail-735478.html
到了這里,關(guān)于Spark Streaming實(shí)時(shí)數(shù)據(jù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!