廢話不多說先上圖

大數(shù)據(jù)開發(fā)常見框架
數(shù)據(jù)傳輸組件:
①Kafka是用Scala編寫的分布式消息處理平臺。
②Logstash是用JRuby編寫的一種分布式日志收集框架。
③Flume是用Java編寫的分布式實時日志收集框架。
數(shù)據(jù)存儲組件:
HDFS (Hadoop Distributed File System)用Java編寫,是谷歌的GFS(Google File S ystem)的一種開源實現(xiàn)。
Redis是用ANSIC編寫的一種基于內存的Key-Value鍵值對數(shù)據(jù)庫。
HBase是用Java 編寫的分布式列式數(shù)據(jù)庫。
Hive是用Java編寫的,他是建立在Hadoop之上的分布式數(shù)據(jù)倉庫。
Elasticsearch是以Apache Lucene為核心打造的分布式全文搜索引擎。
數(shù)據(jù)計算組件:
Hadoop是主要核心MapReduce和HDFS,Yarn,common可利用分布式架構來存儲海量數(shù)據(jù),以及實現(xiàn)分布式的計算。(加黑最重要)
Storm是用Clojure語言編寫的分布式實時流處理系統(tǒng)。
Spark是用Scala語言編寫的分布式數(shù)據(jù)處理平臺。
大數(shù)據(jù)處理流程圖

是不是把框架看的很明白;
詳解
1.數(shù)據(jù)保存到數(shù)據(jù)庫中,分為關系型數(shù)據(jù)庫(常用mysql)以及非關系型數(shù)據(jù)庫(Hbase分布式列式數(shù)據(jù)庫),redis鍵值對數(shù)據(jù)庫,以及clickhouse列式數(shù)據(jù)庫。
2.數(shù)據(jù)采集工具:實時產生的日志或者文件視頻等數(shù)據(jù)、以及已經存儲到數(shù)據(jù)庫里的數(shù)據(jù)需要查詢出來進行計算,涉及到的一些工具,例如sqoop能夠將關系型數(shù)據(jù)庫的數(shù)據(jù)和HDFS分布式文件存儲系統(tǒng)進行轉換。DataX不僅可以對關系型數(shù)據(jù)庫,也可以對非關系型數(shù)據(jù)庫的數(shù)據(jù)進行離線同步以及采集功能。
Flume一般針對日志文件進行收集,消息隊列可以緩存隊列進行緩沖數(shù)據(jù)。
CDC工具:例如Flink CDC可以將數(shù)據(jù)庫中數(shù)據(jù)增刪改查的變更捕獲到,然后寫入到消息隊列例如kafka中,然后Flink計算框架進行處理計算。
3.數(shù)據(jù)存儲:HDFS,因為一般數(shù)據(jù)庫存儲是存到安裝數(shù)據(jù)庫的機器上,只能向上擴展,但是hdfs采用分布式存儲,其中hbase數(shù)據(jù)庫就是基于hdfs文件存儲的列式數(shù)據(jù)庫。
4.數(shù)據(jù)倉庫:HIVE,對不同數(shù)據(jù)源的所有數(shù)據(jù)進行處理,挖掘和分析工作。其中數(shù)據(jù)查詢引擎效率不高,所以可以采用presto分布式sql交互式查詢引擎。
5.元數(shù)據(jù)管理和數(shù)據(jù)治理工具Atlas:hive中的元數(shù)據(jù)因為有很多庫,表,字段,
如何才能更好地管理,將這些元數(shù)據(jù)做成一個字典形式方便查看,就叫數(shù)據(jù)字典。
資源管理:yarn可以通過按需進行獨立分配資源,
6.數(shù)據(jù)計算:根據(jù)不同的計算模型,處理不同的數(shù)據(jù)類型(批量和流式數(shù)據(jù))進行分為不同的計算框架。
重點:storm、flink
7.部署中CDH:如果hadoop自己部署,會產生版本管理混亂、部署過程繁瑣、升級過程復雜的問題,
為什么需要CDH?
假如公司要求給500臺機器,進行安裝hadoop集群。只給你一天時間,完成以上工作。
或者如果對于以上集群進行hadoop版本升級,你會選擇什么升級方案,最少要花費多長時間?
你在過程中會大大考慮新版本的Hadoop,與Hive、Hbase、Flume、Kafka、Spark等等兼容?
CDH通過基于Web的用戶界面,支持大多數(shù)Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,簡化了大數(shù)據(jù)平臺的安裝、使用難度。
最重要的放在最后(針對初學者)
Hadoop(目前是最重要的)
HDFS(Hadoop Distributed File System ),意為:Hadoop分布式文件系統(tǒng)。
源自谷歌的論文:《TheGoogle File System》,由Doug Cutting 設計實現(xiàn)的。
是Apache Hadoop核心組件之一,作為大數(shù)據(jù)生態(tài)圈最底層的分布式存儲服務而存在。
HDFS主要是解決大數(shù)據(jù)如何存儲問題的。分布式意味著是HDFS是橫跨在多臺計算機上的存儲系統(tǒng)。
HDFS是一種能夠在普通硬件上運行的分布式文件系統(tǒng),它是高度容錯的,適應于具有大數(shù)據(jù)集的應用程序,它非常適于存儲大型數(shù)據(jù) (比如 TB 和 PB)。
HDFS使用多臺計算機存儲文件, 并且提供統(tǒng)一的訪問接口, 像是訪問一個普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。
Flink架構
Flink 是一個分布式的并行流處理系統(tǒng)。簡單來說,它會由多個進程構成,這些進程一般會分布運行在不同的機器上。
Flink 可以配置為獨立(Standalone)集群運行,也可以方便地跟一些集群資源管理工具集成使用,比如 YARN、 Kubernetes 和 Mesos。 Flink 也不會自己去提供持久化的分布式存儲,而是直接利用了已有的分布式文件系統(tǒng)(比如 HDFS)或者對象存儲。而對于高可用的配置, Flink 是依靠 ZooKeeper 來完成的。
我們所要重點了解的,就是在 Flink 中有哪些組件,是怎樣具體實現(xiàn)一個分布式流處理系統(tǒng)的。
最重要的兩大組件:作業(yè)管理器(JobManger)和任務管理器(TaskManager)。(大廠都在用)
其他自己可以查閱資料文章來源:http://www.zghlxwxcb.cn/news/detail-600210.html
大數(shù)據(jù)思維導圖

其他等待更新吧??文章來源地址http://www.zghlxwxcb.cn/news/detail-600210.html
到了這里,關于【大數(shù)據(jù)開發(fā)】數(shù)據(jù)開發(fā)必要知識及框架流程圖的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!