国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【大數(shù)據(jù)開發(fā)】數(shù)據(jù)開發(fā)必要知識及框架流程圖

2年前作者：Bug專員分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了【大數(shù)據(jù)開發(fā)】數(shù)據(jù)開發(fā)必要知識及框架流程圖。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

廢話不多說先上圖

大數(shù)據(jù)開發(fā)流程圖,hadoop,hive,flink,hdfs,大數(shù)據(jù),Powered by 金山文檔

大數(shù)據(jù)開發(fā)常見框架

數(shù)據(jù)傳輸組件：

①Kafka是用Scala編寫的分布式消息處理平臺。

②Logstash是用JRuby編寫的一種分布式日志收集框架。

③Flume是用Java編寫的分布式實時日志收集框架。

數(shù)據(jù)存儲組件：

HDFS (Hadoop Distributed File System)用Java編寫，是谷歌的GFS（Google File S ystem）的一種開源實現(xiàn)。

Redis是用ANSIC編寫的一種基于內存的Key-Value鍵值對數(shù)據(jù)庫。

HBase是用Java 編寫的分布式列式數(shù)據(jù)庫。

Hive是用Java編寫的，他是建立在Hadoop之上的分布式數(shù)據(jù)倉庫。

Elasticsearch是以Apache Lucene為核心打造的分布式全文搜索引擎。

數(shù)據(jù)計算組件：

Hadoop是主要核心MapReduce和HDFS，Yarn，common可利用分布式架構來存儲海量數(shù)據(jù)，以及實現(xiàn)分布式的計算。（加黑最重要）

Storm是用Clojure語言編寫的分布式實時流處理系統(tǒng)。

Spark是用Scala語言編寫的分布式數(shù)據(jù)處理平臺。

大數(shù)據(jù)處理流程圖

大數(shù)據(jù)開發(fā)流程圖,hadoop,hive,flink,hdfs,大數(shù)據(jù),Powered by 金山文檔

是不是把框架看的很明白；

詳解

1.數(shù)據(jù)保存到數(shù)據(jù)庫中，分為關系型數(shù)據(jù)庫（常用mysql）以及非關系型數(shù)據(jù)庫（Hbase分布式列式數(shù)據(jù)庫），redis鍵值對數(shù)據(jù)庫，以及clickhouse列式數(shù)據(jù)庫。

2.數(shù)據(jù)采集工具：實時產生的日志或者文件視頻等數(shù)據(jù)、以及已經存儲到數(shù)據(jù)庫里的數(shù)據(jù)需要查詢出來進行計算，涉及到的一些工具，例如sqoop能夠將關系型數(shù)據(jù)庫的數(shù)據(jù)和HDFS分布式文件存儲系統(tǒng)進行轉換。DataX不僅可以對關系型數(shù)據(jù)庫，也可以對非關系型數(shù)據(jù)庫的數(shù)據(jù)進行離線同步以及采集功能。

Flume一般針對日志文件進行收集，消息隊列可以緩存隊列進行緩沖數(shù)據(jù)。

CDC工具：例如Flink CDC可以將數(shù)據(jù)庫中數(shù)據(jù)增刪改查的變更捕獲到，然后寫入到消息隊列例如kafka中，然后Flink計算框架進行處理計算。

3.數(shù)據(jù)存儲：HDFS，因為一般數(shù)據(jù)庫存儲是存到安裝數(shù)據(jù)庫的機器上，只能向上擴展，但是hdfs采用分布式存儲，其中hbase數(shù)據(jù)庫就是基于hdfs文件存儲的列式數(shù)據(jù)庫。

4.數(shù)據(jù)倉庫：HIVE，對不同數(shù)據(jù)源的所有數(shù)據(jù)進行處理，挖掘和分析工作。其中數(shù)據(jù)查詢引擎效率不高，所以可以采用presto分布式sql交互式查詢引擎。

5.元數(shù)據(jù)管理和數(shù)據(jù)治理工具Atlas：hive中的元數(shù)據(jù)因為有很多庫，表，字段，

如何才能更好地管理，將這些元數(shù)據(jù)做成一個字典形式方便查看，就叫數(shù)據(jù)字典。

資源管理：yarn可以通過按需進行獨立分配資源，

6.數(shù)據(jù)計算：根據(jù)不同的計算模型，處理不同的數(shù)據(jù)類型（批量和流式數(shù)據(jù)）進行分為不同的計算框架。

重點：storm、flink

7.部署中CDH：如果hadoop自己部署，會產生版本管理混亂、部署過程繁瑣、升級過程復雜的問題，

為什么需要CDH？

假如公司要求給500臺機器，進行安裝hadoop集群。只給你一天時間，完成以上工作。

或者如果對于以上集群進行hadoop版本升級，你會選擇什么升級方案，最少要花費多長時間？

你在過程中會大大考慮新版本的Hadoop，與Hive、Hbase、Flume、Kafka、Spark等等兼容？

CDH通過基于Web的用戶界面,支持大多數(shù)Hadoop組件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,簡化了大數(shù)據(jù)平臺的安裝、使用難度。

最重要的放在最后（針對初學者）

Hadoop（目前是最重要的）

HDFS（Hadoop Distributed File System ），意為：Hadoop分布式文件系統(tǒng)。

源自谷歌的論文：《TheGoogle File System》，由Doug Cutting 設計實現(xiàn)的。

是Apache Hadoop核心組件之一，作為大數(shù)據(jù)生態(tài)圈最底層的分布式存儲服務而存在。

HDFS主要是解決大數(shù)據(jù)如何存儲問題的。分布式意味著是HDFS是橫跨在多臺計算機上的存儲系統(tǒng)。

HDFS是一種能夠在普通硬件上運行的分布式文件系統(tǒng)，它是高度容錯的，適應于具有大數(shù)據(jù)集的應用程序，它非常適于存儲大型數(shù)據(jù) (比如 TB 和 PB)。

HDFS使用多臺計算機存儲文件, 并且提供統(tǒng)一的訪問接口, 像是訪問一個普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。

Flink架構

Flink 是一個分布式的并行流處理系統(tǒng)。簡單來說，它會由多個進程構成，這些進程一般會分布運行在不同的機器上。

Flink 可以配置為獨立（Standalone）集群運行，也可以方便地跟一些集群資源管理工具集成使用，比如 YARN、 Kubernetes 和 Mesos。 Flink 也不會自己去提供持久化的分布式存儲，而是直接利用了已有的分布式文件系統(tǒng)（比如 HDFS）或者對象存儲。而對于高可用的配置， Flink 是依靠 ZooKeeper 來完成的。

我們所要重點了解的，就是在 Flink 中有哪些組件，是怎樣具體實現(xiàn)一個分布式流處理系統(tǒng)的。

最重要的兩大組件：作業(yè)管理器（JobManger）和任務管理器（TaskManager）。（大廠都在用）

其他自己可以查閱資料

大數(shù)據(jù)思維導圖

大數(shù)據(jù)開發(fā)流程圖,hadoop,hive,flink,hdfs,大數(shù)據(jù),Powered by 金山文檔

其他等待更新吧??文章來源地址http://www.zghlxwxcb.cn/news/detail-600210.html

到了這里，關于【大數(shù)據(jù)開發(fā)】數(shù)據(jù)開發(fā)必要知識及框架流程圖的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

Scrum敏捷開發(fā)流程圖怎么畫？
Scrum敏捷開發(fā)流程圖是一種可視化工具，用于形象地描述Scrum敏捷開發(fā)方法中的工作流程和活動。Scrum敏捷開發(fā)流程圖展示了項目從需求收集到產品交付的整個開發(fā)過程，幫助團隊理解和跟蹤項目進展，促進團隊合作和決策。 ? ? ? ? ? ? ? ? ? ? 在繪制Scrum敏捷開發(fā)流程圖時
2024年02月14日
瀏覽(22)
動靜態(tài)網頁、Django創(chuàng)建表關系、Django框架的請求生命周期流程圖
2024年02月15日
瀏覽(20)
藍牙開發(fā)之-Android12及以下權限申請及藍牙詳細流程圖
一、藍牙開發(fā)之-權限申請，直接上代碼第一步、在 AndroidManifest.xml 中聲明下需要的權限第三步、權限拿到了，就掃描、連接、進行通信吧附上流程圖
2024年04月13日
瀏覽(25)
使用antv/G6在vue項目中開發(fā)較復雜樣式流程圖
設計師提供了一版樣式較復雜的流程圖，我搜了一些常用的vue-super-flow和vue-x6-flow等都只支持簡單的樣式。之前自己寫過純展示流程圖不涉及太多交互，感覺還是找一個成熟的插件開發(fā)更適合，也方便其他同事參考，所以最后選擇了用antv/G6自己個性化開發(fā)，總結了使用antv/G6在
2023年04月09日
瀏覽(782)
【軟件工程】數(shù)據(jù)流圖/DFD概念符號/流程圖分層/數(shù)據(jù)字典
目錄【軟件工程】數(shù)據(jù)流圖/DFD概念符號/流程圖分層/數(shù)據(jù)字典一、數(shù)據(jù)流圖 ( DFD ) 簡介二、數(shù)據(jù)流圖 ( DFD ) 概念符號 1、數(shù)據(jù)流 ?2、加工 ( 核心 ) 3、數(shù)據(jù)存儲 4、外部實體三、數(shù)據(jù)流圖 ( DFD ) 分層? 1、分層說明? 2、頂層數(shù)據(jù)流圖 3、中層數(shù)據(jù)流圖 4、底層數(shù)據(jù)流圖四、數(shù)
2024年02月13日
瀏覽(48)
前端-relation-graph實現(xiàn)關系數(shù)據(jù)展示（關系圖/流程圖）
前言： 1. relation-graph 2. relation-graph數(shù)據(jù)關系組件---官方地址relation-graph - A Relationship Graph Componenthttps://www.relation-graph.com/ 3. 選擇relation-graph的理由 4. 項目中引用relation-graph 4.1 下載命令 4.2?在Vue 2 中使用 4.3?在Vue 3?中使用 4.4?在React中使用 5. 簡單的實例代碼 6. 參考文獻 ? ? ?
2024年02月04日
瀏覽(22)
【每日算法 && 數(shù)據(jù)結構(C++)】—— 03 | 合并兩個有序數(shù)組（解題思路、流程圖、代碼片段）
An inch of time is an inch of gold, but you can’t buy that inch of time with an inch of gold. An inch of time is an inch of gold, but you can\\\'t buy that inch of time with an inch of gold 給你兩個有序數(shù)組，請將兩個數(shù)組進行合并，并且合并后的數(shù)組也必須有序這個題目要求將兩個有序數(shù)組合并成一個有序數(shù)組。在數(shù)
2024年02月11日
瀏覽(21)
【每日算法 && 數(shù)據(jù)結構(C++)】—— 02 | 數(shù)組的并交集（解題思路、流程圖、代碼片段）
When you feel like giving up, remember why you started. 當你想放棄時，請記住為什么你開始給你兩個數(shù)組，請分別求出兩個數(shù)組的交集和并集在數(shù)學中，我們可以通過交集和并集來描述兩個集合之間的關系。交集（Intersection）：指的是兩個集合中共有的元素組成的集合?？梢杂梅?/p>
2024年02月11日
瀏覽(20)
G6框架Dagre流程圖第三個自左向右的 Dagre 上對齊改造，對齊結點和邊添加樣式，并添加修改節(jié)點和展示結點詳細信息交互
?? 標題修改具體項設置結點的樣式設置邊的樣式添加修改結點名稱功能添加展示結點詳細信息功能參考鏈接基本圖形：https://g6.antv.vision/zh/examples/net/dagreFlow#lrDagreUL 展示結點詳細信息功能：https://g6.antv.vision/zh/examples/tool/tooltip#tooltipClick 修改結點名稱功能：https://g6.ant
2024年02月10日
瀏覽(91)
【每日算法 && 數(shù)據(jù)結構(C++)】—— 13 | 求最長自增子序列（解題思路、流程圖、代碼片段）
Today’s quote is: \\\"Actions speak louder than words. 今天的一句話是：“行動勝于言辭求最長遞增子序列最長遞增子序列是指在給定序列中，找到一個最長的子序列，使得子序列中的元素按照遞增的順序排列。例如，對于序列 [1, 3, 2, 5, 4, 7, 6]，其中的最長遞增子序列可以是 [1, 2, 4,
2024年02月12日
瀏覽(19)

<tr id="k6js0"><button id="k6js0"></button></tr>

<label id="k6js0"></label>