国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

一文看懂大數(shù)據(jù)生態(tài)圈完整知識體系【大數(shù)據(jù)技術(shù)及架構(gòu)圖解實戰(zhàn)派】

這篇具有很好參考價值的文章主要介紹了一文看懂大數(shù)據(jù)生態(tài)圈完整知識體系【大數(shù)據(jù)技術(shù)及架構(gòu)圖解實戰(zhàn)派】。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一文看懂大數(shù)據(jù)生態(tài)圈完整知識體系

徐葳

隨著大數(shù)據(jù)行業(yè)的發(fā)展,大數(shù)據(jù)生態(tài)圈中相關(guān)的技術(shù)也在一直迭代進步,作者有幸親身經(jīng)歷了國內(nèi)大數(shù)據(jù)行業(yè)從零到一的發(fā)展歷程,通過本文希望能夠幫助大家快速構(gòu)建大數(shù)據(jù)生態(tài)圈完整知識體系。

目前大數(shù)據(jù)生態(tài)圈中的核心技術(shù)總結(jié)下來如圖1所示,分為以下9類,下面分別介紹。

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖1

一、數(shù)據(jù)采集技術(shù)框架

數(shù)據(jù)采集也被稱為數(shù)據(jù)同步。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的興起,產(chǎn)生了海量數(shù)據(jù)。這些數(shù)據(jù)散落在各個地方,我們需要將這些數(shù)據(jù)融合到一起,然后從這些海量數(shù)據(jù)中計算出一些有價值的內(nèi)容。此時第一步需要做的是把數(shù)據(jù)采集過來。數(shù)據(jù)采集是大數(shù)據(jù)的基礎(chǔ),沒有數(shù)據(jù)采集,何談大數(shù)據(jù)!

數(shù)據(jù)采集技術(shù)框架包括以幾種。

  1. Flume、Logstash和FileBeat常用于日志數(shù)據(jù)實時監(jiān)控采集,它們之間的細節(jié)區(qū)別見表1;
  2. Sqoop和Datax常用于關(guān)系型數(shù)據(jù)庫離線數(shù)據(jù)采集,它們之間的細節(jié)區(qū)別見表2;
  3. Cannal和Maxwell常用于關(guān)系型數(shù)據(jù)庫實時數(shù)據(jù)采集,它們之間的細節(jié)區(qū)別見表3。

表1

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

表2

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

表3

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

Flume、Logstash和FileBeat的技術(shù)選型依據(jù)如圖2所示

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖2

Sqoop和Datax之間的技術(shù)選型依據(jù)如圖3所示。

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖3

Cannal和Maxwell之間的技術(shù)選型依據(jù)如圖4所示

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖4

二、數(shù)據(jù)存儲技術(shù)框架

數(shù)據(jù)的快速增長推動了技術(shù)的發(fā)展,涌現(xiàn)出了一批優(yōu)秀的、支持分布式的存儲系統(tǒng)。

數(shù)據(jù)存儲技術(shù)框架包括HDFS、HBase、Kudu、Kafka等。

  1. HDFS它可以解決海量數(shù)據(jù)存儲的問題,但是其最大的缺點是不支持單條數(shù)據(jù)的修改操作,因為它畢竟不是數(shù)據(jù)庫。
  2. HBase是一個基于HDFS的分布式NoSQL數(shù)據(jù)庫。這意味著,HBase可以利用HDFS的海量數(shù)據(jù)存儲能力,并支持修改操作。但HBase并不是關(guān)系型數(shù)據(jù)庫,所以它無法支持傳統(tǒng)的SQL語法。
  3. Kudu是介于HDFS和HBase之間的技術(shù)組件,既支持數(shù)據(jù)修改,也支持基于SQL的數(shù)據(jù)分析功能;目前Kudu的定位比較尷尬,屬于一個折中的方案,在實際工作中應用有限。
  4. Kafka常用于海量數(shù)據(jù)的臨時緩沖存儲,對外提供高吞吐量的讀寫能力。

三、分布式資源管理框架

在傳統(tǒng)的IT領(lǐng)域中,企業(yè)的服務器資源(內(nèi)存、CPU等)是有限的,也是固定的。但是,服務器的應用場景卻是靈活多變的。例如,今天臨時上線了一個系統(tǒng),需要占用幾臺服務器;過了幾天,需要把這個系統(tǒng)下線,把這幾臺服務器清理出來。

在大數(shù)據(jù)時代到來之前,服務器資源的變更對應的是系統(tǒng)的上線和下線,這些變動是有限的。隨著大數(shù)據(jù)時代的到來,臨時任務的需求量大增,這些任務往往需要大量的服務器資源。如果此時還依賴運維人人工對接服務器資源的變更,顯然是不現(xiàn)實的。因此,分布式資源管理系統(tǒng)應運而生,常見的包括YARN、Kubernetes和Mesos,它們的典型應用領(lǐng)域如圖5所示。

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖5

四、數(shù)據(jù)計算技術(shù)框架

數(shù)據(jù)計算分為離線數(shù)據(jù)計算和實時數(shù)據(jù)計算。

1)離線數(shù)據(jù)計算。

大數(shù)據(jù)中的離線數(shù)據(jù)計算引擎經(jīng)過十幾年的發(fā)展,到目前為止主要發(fā)生了3次大的變更。

  1. MapReduce可以稱得上是大數(shù)據(jù)行業(yè)的第一代離線數(shù)據(jù)計算引擎,主要用于解決大規(guī)模數(shù)據(jù)集的分布式并行計算。MapReduce計算引擎的核心思想是,將計算邏輯抽象成Map和Reduce兩個階段進行處理。
  2. Tez計算引擎在大數(shù)據(jù)技術(shù)生態(tài)圈中的存在感較弱,實際工作中很少會單獨使用Tez去開發(fā)計算程序。
  3. Spark最大的特點就是內(nèi)存計算:任務執(zhí)行階段的中間結(jié)果全部被放在內(nèi)存中,不需要讀寫磁盤,極大地提高了數(shù)據(jù)的計算性能。Spark提供了大量高階函數(shù)(也可以稱之為算子),可以實現(xiàn)各種復雜邏輯的迭代計算,非常適合應用在海量數(shù)據(jù)的快速且復雜計算需求中。

2實時數(shù)據(jù)計算。

業(yè)內(nèi)最典型的實時數(shù)據(jù)計算場景是天貓“雙十一”的數(shù)據(jù)大屏。數(shù)據(jù)大屏中展現(xiàn)的成交總金額、訂單總量等數(shù)據(jù)指標,都是實時計算出來的。用戶購買商品后,商品的金額就會被實時增加到數(shù)據(jù)大屏中的成交總金額中。

  1. Storm主要用于實現(xiàn)實時數(shù)據(jù)分布式計算;
  2. Flink屬于新一代實時數(shù)據(jù)分布式計算引擎,其計算性能和生態(tài)圈都優(yōu)于Storm。
  3. Spark中的SparkStreaming組件也可以提供基于秒級別的實時數(shù)據(jù)分布式計算功能。

他和Storm、Flink之間的區(qū)別見表4。

表4

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

Storm、Spark、Flink?之間的技術(shù)選型依據(jù)如圖6所示。

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖6

因此,目前企業(yè)中離線計算主要使用Spark,實時計算主要使用Flink。

五、數(shù)據(jù)分析技術(shù)框架

包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它們的典型應用場景如圖7所示。

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖7

Hive、Impala和Kylin屬于典型的離線OLAP數(shù)據(jù)分析引擎,主要應用在離線數(shù)據(jù)分析領(lǐng)域,它們之間的區(qū)別見表5。

  1. Hive的執(zhí)行效率一般,但是穩(wěn)定性極高;
  2. Impala基于內(nèi)存可以提供優(yōu)秀的執(zhí)行效率,但是穩(wěn)定性一般;
  3. Kylin通過預計算可以提供PB級別數(shù)據(jù)毫秒級響應。

表5

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

Clickhouse、DruidDrois屬于典型的實時OLAP數(shù)據(jù)分析引擎,主要應用在實時數(shù)據(jù)分析領(lǐng)域,它們之間的區(qū)別見表6。

  1. Druid和Doris是可以支持高并發(fā)的,ClickHouse的并發(fā)能力有限;Druid中的SQL支持是有限的,ClickHouse支持非標準SQL,Doris支持標準SQL,對SQL支持比較好。
  2. 目前Druid和ClickHouse的成熟程度相對比較高,Doris處于快速發(fā)展階段。

表6

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

六、任務調(diào)度技術(shù)框架

包括Azkaban、Ooize、DolphinScheduler等。它們適用于普通定時執(zhí)行的例行化任務,以及包含復雜依賴關(guān)系的多級任務進行調(diào)度,支持分布式,保證調(diào)度系統(tǒng)的性能和穩(wěn)定性,它們之間的區(qū)別見表7,它們之前的技術(shù)選型依據(jù)如圖8所示。

表7大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

?大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

圖8

七、大數(shù)據(jù)底層基礎(chǔ)技術(shù)框架

大數(shù)據(jù)底層基礎(chǔ)技術(shù)框架主要是指Zookeeper。Zookeepe主要提供常用的基礎(chǔ)功能(例如:命名空間、配置服務等),大數(shù)據(jù)生態(tài)圈中的Hadoop(HA)、HBase、Kafka等技術(shù)組件的運行都會用到Zookeeper。

八、數(shù)據(jù)檢索技術(shù)框架

隨著企業(yè)中數(shù)據(jù)的逐步積累,針對海量數(shù)據(jù)的統(tǒng)計分析需求會變得越來越多樣化:不僅要進行分析,還要實現(xiàn)多條件快速復雜查詢。例如,電商網(wǎng)站中的商品搜索功能,以及各種搜索引擎中的信息檢索功能,這些功能都屬于多條件快速復雜查詢的范疇。

在選擇全文檢索引擎工具時,可以從易用性、擴展性、穩(wěn)定性、集群運維難度、項目集成程度、社區(qū)活躍度這幾個方面進行對比。Lucene、Solr和Elasticsearch的對比見表8。

表8

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

九、大數(shù)據(jù)集群安裝管理框架

企業(yè)如果想從傳統(tǒng)的數(shù)據(jù)處理轉(zhuǎn)型到大數(shù)據(jù)處理,首先要做就是搭建一個穩(wěn)定可靠的大數(shù)據(jù)平臺。

一個完整的大數(shù)據(jù)平臺需要包含數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)分析、集群監(jiān)控等功能,這就意味著其中需要包含F(xiàn)lume、Kafka、Haodop、Hive、HBase、Spark、Flink等組件,這些組件需要部署到上百臺甚至上千臺機器中。

如果依靠運維人員單獨安裝每一個組件,則工作量比較大,而且需要考慮版本之間的匹配問題及各種沖突問題,并且后期集群維護工作也會給運維人員造成很大的壓力。

于是,國外一些廠商就對大數(shù)據(jù)中的組件進行了封裝,提供了一體化的大數(shù)據(jù)平臺,利用它可以快速安裝大數(shù)據(jù)組件。目前業(yè)內(nèi)最常見的是包括CDH、HDP、CDP等。

  1. HDP:全稱是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 進行了封裝,借助于 Ambari 工具提供界面化安裝和管理,并且集成了大數(shù)據(jù)中的常見組件, 可以提供一站式集群管理。HDP 屬于開源版免費大數(shù)據(jù)平臺,沒有提供商業(yè)化服務;
  2. CDH:全稱是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 進行了商業(yè)化,借助于 Cloudera Manager 工具提供界面化安裝和管理,并且集成了大數(shù)據(jù)中的常見組件,可以提供一站式集群管理。CDH 屬于商業(yè)化收費大 數(shù)據(jù)平臺,默認可以試用 30 天。之后,如果想繼續(xù)使用高級功能及商業(yè)化服務,則需要付費購買授權(quán),如果只使用基礎(chǔ)功能,則可以繼續(xù)免費使用;
  3. CDP:Cloudera 公司在 2018 年 10 月份收購了 Hortonworks,之后推出了新一代的大數(shù)據(jù)平臺產(chǎn)品 CDP(Cloudera Data Center)。CDP 的版本號延續(xù)了之前 CDH 的版本號。從 7.0 版本開始, CDP 支持 Private Cloud(私有云)和 Hybrid Cloud(混合云)。 CDP 將 HDP 和 CDH 中比較優(yōu)秀的組件進行了整合,并且增加了一些新的組件。

三者的關(guān)系如圖9所示

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark圖9

以上內(nèi)容出自于《大數(shù)據(jù)技術(shù)及架構(gòu)圖解實戰(zhàn)派》一書。

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

?大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark

?大數(shù)據(jù)生態(tài)架構(gòu)圖,大數(shù)據(jù),大數(shù)據(jù),hadoop,spark文章來源地址http://www.zghlxwxcb.cn/news/detail-516420.html

目前本書已在京東平臺上架,歡迎選購。

直達鏈接:https://item.jd.com/13264403.html

到了這里,關(guān)于一文看懂大數(shù)據(jù)生態(tài)圈完整知識體系【大數(shù)據(jù)技術(shù)及架構(gòu)圖解實戰(zhàn)派】的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • 一文讀懂大數(shù)據(jù)工具Phoenix:讓你的數(shù)據(jù)管理更高效!

    一文讀懂大數(shù)據(jù)工具Phoenix:讓你的數(shù)據(jù)管理更高效!

    介紹:Phoenix,最初由saleforce開發(fā)并開源,后成為Apache基金會的頂級項目。它是一個構(gòu)建在HBase上的SQL層,可以使用標準的JDBC APIs而不是HBase客戶端APIs來創(chuàng)建表、插入數(shù)據(jù)和查詢HBase中的數(shù)據(jù)。此外,Phoenix還完全使用Java編寫,作為HBase內(nèi)嵌的JDBC驅(qū)動,將SQL查詢轉(zhuǎn)換為一個或多個

    2024年01月20日
    瀏覽(25)
  • 科普|一文看懂虛擬人技術(shù)原理

    本文作者來自即構(gòu)開發(fā)者社區(qū)@ Daniel 投稿,為我們分享時下熱門的數(shù)字人技術(shù)。IDC 預計,到 2026 年,中國 AI 數(shù)字人市場規(guī)模將達到 102.4 億元。開發(fā)者有必要對數(shù)字人技術(shù)有完整的認知和理解。 自從人類探索虛擬現(xiàn)實技術(shù)以來,虛擬人技術(shù)一直是人工智能和元宇宙技術(shù)領(lǐng)域的

    2024年02月09日
    瀏覽(15)
  • 一文看懂開源許可證丨開源知識科普

    一文看懂開源許可證丨開源知識科普

    編者按: 在很多人眼中, 「開源」是一個時髦且有情懷的詞匯, 始終伴隨有理想主義色彩, 因此不少公司開始給自己貼上\\\"開源\\\"標簽。但一個優(yōu)秀的開源項目遠遠不止是簡單的公開源代碼, 而是需要將其當作公司戰(zhàn)略進行貫徹, 才能架設(shè)起牢不可破的信任橋梁。 PingCAP 從第一行代

    2023年04月08日
    瀏覽(22)
  • 【基礎(chǔ)知識】一文看懂深度優(yōu)先算法和廣度優(yōu)先算法

    【基礎(chǔ)知識】一文看懂深度優(yōu)先算法和廣度優(yōu)先算法

    先上個圖 現(xiàn)在我們要訪問圖中的每個節(jié)點,即圖的遍歷。 圖的遍歷是指,從給定圖中任意指定的頂點(稱為初始點)出發(fā),按照某種搜索方法沿著圖的邊訪問圖中的所有頂點,使每個頂點僅被訪問一次,這個過程稱為圖的遍歷。 我們根據(jù)訪問節(jié)點的順序與方式(根據(jù)搜索方

    2024年02月09日
    瀏覽(27)
  • 一文看懂業(yè)界在離線混部技術(shù)

    一文看懂業(yè)界在離線混部技術(shù)

    前 言 剛剛過去的 2021 年,在全球經(jīng)濟增長放緩、疫情時起時伏、中美關(guān)系摩擦不斷、國家平臺監(jiān)管趨嚴等宏觀趨勢疊加影響下,很多互聯(lián)網(wǎng)廠商都遭遇了明顯的市值下滑以及虧損加大,裁員消息時有耳聞,所以在 2022 年,降本增效無疑將進一步成為業(yè)界大勢所趨。 在保持業(yè)

    2024年02月08日
    瀏覽(34)
  • 【LlamaIndex 教程】一文看懂LlamaIndex用法,為LLMs學習私有知識

    我是卷了又沒卷,薛定諤的卷的AI算法工程師「 陳城南 」(全網(wǎng)平臺同名)~ 擔任某大廠的算法工程師,帶來最新的前沿AI知識,分享 AI 有趣工具和實用玩法 ,包括 ChatGPT、AI繪圖等,歡迎 大家交流 ~ 交流「cchengnan113」備注「AI交流」可進裙 知乎「陳城南」 :https://www.zhihu

    2024年02月06日
    瀏覽(20)
  • 完整攻防知識體系-你值得擁有

    完整攻防知識體系-你值得擁有

    根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第51次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,截至2022年12月,我國網(wǎng)民規(guī)模為10.67億,互聯(lián)網(wǎng)普及率達75.6%。 我國有潛力建設(shè)全球規(guī)模最大、應用滲透最強的數(shù)字社會。在此背景下,網(wǎng)絡(luò)安全事關(guān)國家安全和經(jīng)濟社會穩(wěn)定,事關(guān)廣大人

    2024年02月06日
    瀏覽(21)
  • 一文讀懂大語言模型

    一文讀懂大語言模型

    以ChatGPT為代表的大語言模型被很多人認為是新一輪科技革命的起點,本文旨在通過概念性介紹,讓普通人能夠盡可能理解人工智能以及大語言模型的基本概念,從而了解這些技術(shù)能做以及不能做什么。原文: A Very Gentle Introduction to Large Language Models without the Hype [1] 0. 簡介 本文

    2024年02月12日
    瀏覽(20)
  • 大數(shù)據(jù)構(gòu)建知識圖譜:從技術(shù)到實戰(zhàn)的完整指南

    大數(shù)據(jù)構(gòu)建知識圖譜:從技術(shù)到實戰(zhàn)的完整指南

    本文深入探討了知識圖譜的構(gòu)建全流程,涵蓋了基礎(chǔ)理論、數(shù)據(jù)獲取與預處理、知識表示方法、知識圖譜構(gòu)建技術(shù)等關(guān)鍵環(huán)節(jié)。 知識圖譜,作為人工智能和語義網(wǎng)技術(shù)的重要組成部分,其核心在于將現(xiàn)實世界的對象和概念以及它們之間的多種關(guān)系以圖形的方式組織起來。它不

    2024年02月22日
    瀏覽(23)
  • 一文梳理清楚 Python OpenCV 的知識體系

    一文梳理清楚 Python OpenCV 的知識體系

    本篇文章為你詳細羅列 Python OpenCV 的學習路線與重要知識點。核心分成 24 個小節(jié)點,全部掌握,OpenCV 入門階段就順利通過了。 本部分要了解 OpenCV (Open Source Computer Vision Library)的相關(guān)簡介,OpenCv 可以運行在多平臺之上,輕量級而且高效,由一系列 C 函數(shù)和少量 C++類構(gòu)成,

    2024年02月16日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包