這篇具有很好參考價值的文章主要介紹了【新星計劃】Hadoop入門介紹。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

?
目錄
一、 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)是什么
1.2 大數(shù)據(jù)的特點
1.3大數(shù)據(jù)的應(yīng)用場景
1.4 大數(shù)據(jù)生態(tài)圈
1.5 開發(fā)工具補(bǔ)充:
二、 Hadoop介紹
2.1 Hadoop是什么
?2.2 Hadoop的背景
2.3 Hadoop就業(yè)前景
一、 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)是什么
????????大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、
管理
和處理的數(shù)據(jù)集合。
大數(shù)據(jù)技
術(shù),是指從各種各樣類型的
數(shù)據(jù)
中,快速獲得有價值信息的
能力
。適用于大數(shù)據(jù)的
技術(shù)
,包括大規(guī)模并行處理(MPP
)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),
分布式文件系統(tǒng)
,分布式數(shù)據(jù)庫,
云計算平臺
,
互聯(lián)網(wǎng)
,和可 擴(kuò)展的存儲系統(tǒng)。
????????大數(shù)據(jù)主要解決的問題是:采集
,
存儲
,
處理
。
1.2 大數(shù)據(jù)的特點

?
具體來說,大數(shù)據(jù)的基本特征可以歸納為
4V
:
????????一是數(shù)據(jù)體量巨大(Volume
)。
百度資料表明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過
1.5PB
(
1PB=1024TB
),這些數(shù)據(jù)如果打印出來將超過
5
千億張
A4
紙。有資料證實,到目前為止,人類生產(chǎn)的所有印刷材料的
數(shù)據(jù)量
僅為
200PB
。
數(shù)據(jù)量單位
????????二是多樣性(Variety
)。
現(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。另一方面,數(shù)據(jù)的來源的是多樣性的,我們采集的數(shù)據(jù)它通過不同的渠道,不同平臺產(chǎn)生的多樣化。
????????三是處理速度快(Velocity
)。
數(shù)據(jù)處理遵循
“1
秒定律
”
,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息。
????????四是價值密度低(Value
)。
以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
1.3大數(shù)據(jù)的應(yīng)用場景
????????眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進(jìn)行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。大數(shù)據(jù)技術(shù)可以幫助您處理從客戶體驗到分析的一系列業(yè)務(wù)活動。這里僅舉幾例。

????????1. 可視化分析。大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專。家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
????????2. 產(chǎn)品開發(fā)。
Netflix
和寶潔(
Procter & Gamble
)等公司使用大數(shù)據(jù)來預(yù)測客戶需求。他們通過對過去和當(dāng)前產(chǎn)品或服務(wù)的關(guān)鍵屬性進(jìn)行分類,并對這些屬性與產(chǎn)品的商業(yè)成功之間的關(guān)系進(jìn)行建模,為新產(chǎn)品和服務(wù)構(gòu)建預(yù)測模型。此外,寶潔使用來自焦點小組、社交媒體、測試市場和早期商店推出的數(shù)據(jù)和分析來規(guī)劃、生產(chǎn)和推出新產(chǎn)品。
?
????????3. 客戶體驗。
爭奪客戶的競賽正在進(jìn)行中?,F(xiàn)在比以往任何時候都更有可能更清楚地了解客戶體驗。大數(shù)據(jù)使您能夠從社交媒體、Web
訪問、通話記錄和其他來源收集數(shù)據(jù),以改善交互體驗并最大化交付的價值。開始提供個性化優(yōu)惠,減少客戶流失,并主動處理問題。

????????4. 機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)是目前的熱門話題。數(shù)據(jù)(尤其是大數(shù)據(jù))是原因之一。我們現(xiàn)在能夠教機(jī)器,而不是給它們編程。大數(shù)據(jù)的可用性用于訓(xùn)練機(jī)器學(xué)習(xí)模型使這成為可能。
1.4 大數(shù)據(jù)生態(tài)圈
?

?
數(shù)據(jù)采集工具:
????????日志收集框架:
Flume
、
Logstash
、
Filebeat
????????數(shù)據(jù)遷移工具:
Sqoop
數(shù)據(jù)存儲工具:
????????分布式文件存儲系統(tǒng):
Hadoop HDFS
????????數(shù)據(jù)庫系統(tǒng):
Mongodb
、
HBase
數(shù)據(jù)處理工具:
????????分布式計算框架:
????????批處理框架:Hadoop MapReduce
????????流處理框架:Storm
????????混合處理框架:Spark
、
Flink
查詢分析框架
:
Hive
、
Spark SQL
、
Flink SQL
、
Pig
、
Phoenix
????????資源和任務(wù)管理:集群資源管理器
:
Hadoop YARN
????????分布式協(xié)調(diào)服務(wù):
Zookeeper
????????任務(wù)調(diào)度框架:
Azkaban
、
Oozie
????????集群部署和監(jiān)控:
Ambari
、
Cloudera Manager
上面列出的都是比較主流的大數(shù)據(jù)框架,社區(qū)都很活躍,學(xué)習(xí)資源也比較豐富。建議從
Hadoop
開始入門學(xué)習(xí),因為它是整個大數(shù)據(jù)生態(tài)圈的基石,其它框架都直接或者間接依賴于 Hadoop
。
1.5 開發(fā)工具補(bǔ)充:
????????大數(shù)據(jù)生態(tài)圈中有非常多組件是使用Java
進(jìn)行開發(fā),因此學(xué)習(xí)大數(shù)據(jù)的過程比較多使用
Java
語言進(jìn)行開發(fā)。除此之外,大數(shù)據(jù)講究的就是分布式數(shù)據(jù)的存儲與處理,因此在學(xué)習(xí)大數(shù)據(jù)框架的過程中需要用虛擬機(jī)搭建集群和服務(wù),并要連接集群中的服務(wù)器進(jìn)行操作。這里推薦一些大數(shù)據(jù)學(xué)習(xí)常用的開發(fā)工具:
JavaIDE
:
IDEA
、
Eclipse
。
虛擬機(jī)管理軟件:
VMWare
、
VirtualBox
、
VMWare Fusion
終端連接工具:
MobaXterm
、
Xshell
二、 Hadoop介紹
2.1 Hadoop是什么

?
1.
Apache Hadoop
是
Apache
軟件基金會下用
Java
語言開發(fā)的一個
開源分布式系統(tǒng)基礎(chǔ)架構(gòu)平臺
。。
2. Hadoop
提供的功能:利用服務(wù)器集群,根據(jù)用戶的自定義業(yè)務(wù)邏輯,對
海量數(shù)據(jù)進(jìn)行分布式處理 。
3. Hadoop
的核心組件有:
????????1. HDFS
(
Hadoop Distributed File System
): 分布式文件系統(tǒng),提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問。
????????2. YARN
:任務(wù)分配和集群資源管理調(diào)度模塊。
????????3. MapReduce
:基于
Hadoop Yarn
,為大數(shù)據(jù)提供并行計算的模塊。
????????4. 廣義上來說,
Hadoop
通常是指一個更廣泛的概念
——Hadoop
生態(tài)圈
?2.2 Hadoop的背景

?
1. Hadoop
最早起源于
Nutch
。
Nutch
的設(shè)計目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、 索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問題
——
如何解決數(shù)十億網(wǎng)頁的存儲和索引 問題。
2. 2003-2004
年,
谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案
。
????????---分布式文件系統(tǒng)(
GFS
),可用于處理海量網(wǎng)頁的
存儲
。
????????---分布式計算框架
MapReduce
,可用于處理海量網(wǎng)頁的
索引計算
問題。
3. Nutch
的開發(fā)人員完成了相應(yīng)的
開源實現(xiàn)
HDFS
和
MapReduce
,并從
Nutch
中剝離成為獨立項目Hadoop
,到
2008
年
1
月,
Hadoop
成為
Apache
頂級項目,迎來了它的快速發(fā)展期。
2.3 Hadoop就業(yè)前景
Hadoop
就業(yè)整體情況
????????大數(shù)據(jù)產(chǎn)業(yè)已納入國家十三五規(guī)劃
????????各大城市都在進(jìn)行智慧城市項目
建設(shè),而智慧城市的根基就是大數(shù)據(jù)綜合平臺
????????互聯(lián)網(wǎng)時代數(shù)據(jù)的種類,增長都呈現(xiàn)爆發(fā)式增長
,各行業(yè)對數(shù)據(jù)的價值日益重視
????????相對于傳統(tǒng) JAVAEE
技術(shù)領(lǐng)域來說,大數(shù)據(jù)領(lǐng)域的
人才相對稀缺
????????隨著現(xiàn)代社會的發(fā)展,數(shù)據(jù)處理和數(shù)據(jù)挖掘的重要性只會增不會減,因此,大數(shù)據(jù)技術(shù)是一個尚在蓬勃發(fā)展且具有長遠(yuǎn)前景的領(lǐng)域
Hadoop
就業(yè)職位要求
大數(shù)據(jù)是個復(fù)合專業(yè),包括應(yīng)用開發(fā)、軟件平臺、算法、數(shù)據(jù)挖掘等,因此,
大數(shù)據(jù)技術(shù)領(lǐng)域的就
業(yè)選擇是多樣的
,但就
Hadoop
而言,通常都需要具備以下技能或知識:
????????Hadoop 分布式集群的平臺搭建
????????Hadoop 分布式文件系統(tǒng)
HDFS
的原理理解及使用
????????Hadoop 分布式運算框架
MapReduce
的原理理解及編程
????????Hive 數(shù)據(jù)倉庫工具的熟練應(yīng)用
????????Flume、
sqoop
、
oozie
等輔助工具的熟練使用
????????Shell/python 等腳本語言的開發(fā)能力
Hadoop
相關(guān)職位的薪資水平
大數(shù)據(jù)技術(shù)或具體到
Hadoop
的就業(yè)需求目前主要集中在北上廣深一線城市,
薪資待遇普遍高于傳
統(tǒng)
JAVAEE
開發(fā)人員
,以廣州為例:

?
關(guān)注博主下篇更精彩
一鍵三連!??!
一鍵三連!?。?/strong>
一鍵三連?。?!
感謝一鍵三連?。?!

文章來源:http://www.zghlxwxcb.cn/news/detail-521633.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-521633.html
到了這里,關(guān)于【新星計劃】Hadoop入門介紹的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!
本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!