目錄
一、大數(shù)據(jù)
? ? ? ? 1、大數(shù)據(jù)架構(gòu)
? ? ? ? 2、大數(shù)據(jù)技術(shù)生態(tài)
? ? ? ? 3、Lambda架構(gòu)
? ? ? ? 4、Kappa架構(gòu)
? ? ? ? 5、Lambda架構(gòu)與Kappa架構(gòu)對(duì)比
一、大數(shù)據(jù)
? ? ? ? 1、大數(shù)據(jù)架構(gòu)
? ? ? ? ? ? ? ? 大數(shù)據(jù)是指其大小或復(fù)雜性無法通過現(xiàn)有常用的軟件工具,以合理的成本并在可接受的時(shí)限內(nèi)對(duì)其進(jìn)行捕獲、管理和處理的數(shù)據(jù)集。這些困難包括數(shù)據(jù)的收入、存儲(chǔ)、搜索、共享、分析和可視化。
? ? ? ? ? ? ? ? 5個(gè)V:大規(guī)模(Volume)、高速度(Velocity)、多樣化(Variety)、價(jià)值密度低(Value)、真實(shí)性(Veracity)
? ? ? ? ? ? ? ? 大數(shù)據(jù)的應(yīng)用領(lǐng)域:制造業(yè)的應(yīng)用、服務(wù)業(yè)的應(yīng)用、交通行業(yè)的應(yīng)用、醫(yī)療行業(yè)的應(yīng)用等。
? ? ? ? ? ? ? ? 大數(shù)據(jù)面臨著5個(gè)主要問題,分別是異構(gòu)性(Heterogeneity)、規(guī)模(Scale)、時(shí)間性(Timeliness)、復(fù)雜性(Complexity)和隱私性(Privacy)。
? ? ? ? ? ? ? ? 大數(shù)據(jù)研究工作將面臨5個(gè)方面的挑戰(zhàn):
? ? ? ? ? ? ? ? (1)挑戰(zhàn)一:數(shù)據(jù)獲取問題。
? ? ? ? ? ? ? ? (2)挑戰(zhàn)二:數(shù)據(jù)結(jié)構(gòu)問題。
? ? ? ? ? ? ? ? (3)挑戰(zhàn)三:數(shù)據(jù)集成問題。
? ? ? ? ? ? ? ? (4)挑戰(zhàn)四:數(shù)據(jù)分析、阻止、抽取和建模是大數(shù)據(jù)本質(zhì)的功能性挑戰(zhàn)。
? ? ? ? ? ? ? ? (5)挑戰(zhàn)五:如何呈現(xiàn)數(shù)據(jù)分析的結(jié)果,并與非技術(shù)的領(lǐng)域?qū)<疫M(jìn)行交互/
? ? ? ? ? ? ? ? 建議采用成熟技術(shù)解決大數(shù)據(jù)帶來的挑戰(zhàn),并給出了大數(shù)據(jù)分析的分析步驟,大致分為數(shù)據(jù)獲取/記錄、信息抽取/清晰/標(biāo)注、數(shù)據(jù)集成/聚集/表現(xiàn)、數(shù)據(jù)分析/建模和數(shù)據(jù)解釋5個(gè)主要階段。
? ? ? ? 2、大數(shù)據(jù)技術(shù)生態(tài)
? ? ? ? ? ? ? ? Hbase:分布式、面向列的開源數(shù)據(jù)庫,適合于非結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)。【實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)均支持】
? ? ? ? ? ? ? ? HDFS(Hadoop分布式文件系統(tǒng)):適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)(Distributed File System)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。【通常用于處理離線數(shù)據(jù)的存儲(chǔ)】
? ? ? ? ? ? ? ? Flume:高可用/可靠,分布式海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方(可定制)的能力。
? ? ? ? ? ? ? ? Kafka:一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者在網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。
? ? ? ? ? ? ? ? ZooKeeper:開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。
? ? ? ? 3、Lambda架構(gòu)
? ? ? ? (1)批處理層(Batch Layer):兩個(gè)核心功能:存儲(chǔ)數(shù)據(jù)集和生成Batch View。
? ? ? ? (2)加速層(Speed layer):存儲(chǔ)實(shí)時(shí)視圖并處理傳入的數(shù)據(jù)流,以更新這些視圖。
? ? ? ? (3)服務(wù)層(Serving Layer):用于響應(yīng)用戶的查詢請(qǐng)求,合并Batch View和Real-time View中的結(jié)果數(shù)據(jù)集到最終的數(shù)據(jù)集。
? ? ? ? ? ? ? ? 【優(yōu)缺點(diǎn)】
? ? ? ? 4、Kappa架構(gòu)
? ? ? ? ? ? ? ? (1)輸入數(shù)據(jù)直接由實(shí)時(shí)層的實(shí)時(shí)數(shù)據(jù)處理引擎對(duì)源源不斷的源數(shù)據(jù)進(jìn)行處理。
? ? ? ? ? ? ? ? (2)再由服務(wù)層的服務(wù)后端進(jìn)一步處理以提供上層的業(yè)務(wù)查詢。
? ? ? ? ? ? ? ? (3)而中間結(jié)果的數(shù)據(jù)都是需要存儲(chǔ)的,這些數(shù)據(jù)包括歷史數(shù)據(jù)與結(jié)果數(shù)據(jù),統(tǒng)一存儲(chǔ)在存儲(chǔ)介質(zhì)中。
? ? ? ? ? ? ? ? 【優(yōu)缺點(diǎn)】
? ? ? ? 5、Lambda架構(gòu)與Kappa架構(gòu)對(duì)比
????????????????【某網(wǎng)奧運(yùn)中的Lambda架構(gòu)】
????????????????????????【某證券大數(shù)據(jù)系統(tǒng)Kappa架構(gòu)】文章來源:http://www.zghlxwxcb.cn/news/detail-729332.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-729332.html
到了這里,關(guān)于系統(tǒng)架構(gòu)設(shè)計(jì)師-大數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!