作者:禪與計算機程序設(shè)計藝術(shù)
1.簡介
Hadoop 是 Apache 基金會于 2007 年推出的開源分布式計算框架。它是一個通用計算平臺,可用于存儲、處理和分析大量的數(shù)據(jù)集。它是一個分布式文件系統(tǒng)(HDFS),一個資源管理器(YARN),和一些常用的組件如 MapReduce、Hive 和 Pig。在數(shù)據(jù)量達(dá)到海量或者規(guī)模不斷擴大的情況下,傳統(tǒng)的數(shù)據(jù)處理方式已無法滿足需求。Hadoop 自身具備了非常強大的處理能力,可以將復(fù)雜任務(wù)分布到多臺服務(wù)器上并行運行。
隨著 HDFS 的普及以及各種大數(shù)據(jù)處理工具的出現(xiàn),越來越多的人開始使用 Hadoop 來進(jìn)行大數(shù)據(jù)處理。然而,由于其分布式特性,Hadoop 在實際應(yīng)用中仍存在諸多缺陷。比如:
-
大數(shù)據(jù)集處理速度慢
在 HDFS 中存儲的數(shù)據(jù)塊分布在多個節(jié)點上,需要從不同節(jié)點讀取才能組成完整的數(shù)據(jù)集。對于海量的數(shù)據(jù)集來說,每次讀取的時間可能長達(dá)數(shù)十秒甚至幾分鐘。
-
數(shù)據(jù)處理容錯率低
當(dāng)某個節(jié)點出現(xiàn)故障時,整個集群的服務(wù)不可用。另外,當(dāng)某些節(jié)點的數(shù)據(jù)丟失或損壞時,也會影響數(shù)據(jù)的可用性。
-
大數(shù)據(jù)集的規(guī)模受限
在傳統(tǒng)的單機系統(tǒng)中,內(nèi)存大小決定了數(shù)據(jù)集的處理容量;而在 Hadoop 中則沒有這樣的限制。
-
管理復(fù)雜
Hadoop 系統(tǒng)本身包括多個組件,每個組件都有相應(yīng)的配置參數(shù),且組件間相互依賴。系統(tǒng)調(diào)優(yōu)往往要耗費大量的人力物力。
此外,由于各個組件的架構(gòu)不同,難以統(tǒng)一管理,因此無法實現(xiàn)統(tǒng)一的集群管理、監(jiān)控、日志采集等功能。文章來源:http://www.zghlxwxcb.cn/news/detail-714892.html
為了解決上述問題,文章來源地址http://www.zghlxwxcb.cn/news/detail-714892.html
到了這里,關(guān)于“大數(shù)據(jù)處理”的現(xiàn)狀 Scaling up and out: Towards an efficient processing of big Data的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!