国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

分布式處理框架 MapReduce

2年前作者：WziDeng(也會有發(fā)光的一天吖！)分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了分布式處理框架 MapReduce。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

3.2.1 什么是MapReduce

源于Google的MapReduce論文(2004年12月)
Hadoop的MapReduce是Google論文的開源實現(xiàn)
MapReduce優(yōu)點: 海量數(shù)據(jù)離線處理&易開發(fā)
MapReduce缺點: 實時流式計算

3.2.2 MapReduce編程模型

MapReduce分而治之的思想
- 數(shù)錢實例：一堆鈔票，各種面值分別是多少
  - 單點策略
    - 一個人數(shù)所有的鈔票，數(shù)出各種面值有多少張
  - 分治策略
    - 每個人分得一堆鈔票，數(shù)出各種面值有多少張
    - 匯總，每個人負(fù)責(zé)統(tǒng)計一種面值
  - 解決數(shù)據(jù)可以切割進(jìn)行計算的應(yīng)用
MapReduce編程分Map和Reduce階段
- 將作業(yè)拆分成Map階段和Reduce階段
- Map階段 Map Tasks 分：把復(fù)雜的問題分解為若干"簡單的任務(wù)"
- Reduce階段: Reduce Tasks 合：reduce
MapReduce編程執(zhí)行步驟
- 準(zhǔn)備MapReduce的輸入數(shù)據(jù)
- 準(zhǔn)備Mapper數(shù)據(jù)
- Shuffle
- Reduce處理
- 結(jié)果輸出
編程模型
- 借鑒函數(shù)式編程方式
- 用戶只需要實現(xiàn)兩個函數(shù)接口：
  - Map(in_key,in_value)
    
    —>(out_key,intermediate_value) list
  - Reduce(out_key,intermediate_value) list
    
    —>out_value list
- Word Count 詞頻統(tǒng)計案例

3.2.3 Hadoop Streaming 實現(xiàn)wordcount （實驗了解）

Mapper

import sys

#輸入為標(biāo)準(zhǔn)輸入stdin
for line in sys.stdin:
    #刪除開頭和結(jié)尾的空行
    line = line.strip()
    #以默認(rèn)空格分隔單詞到words列表
    words = line.split()
    for word in words:
        #輸出所有單詞，格式為“單詞 1”以便作為Reduce的輸入
        print("%s %s"%(word,1))

Reducer

import sys

current_word = None
current_count = 0
word = None

#獲取標(biāo)準(zhǔn)輸入，即mapper.py的標(biāo)準(zhǔn)輸出
for line in sys.stdin:
    #刪除開頭和結(jié)尾的空行
    line = line.strip()

    #解析mapper.py輸出作為程序的輸入，以tab作為分隔符
    word,count = line.split()

    #轉(zhuǎn)換count從字符型到整型
    try:
        count = int(count)
    except ValueError:
        #count非數(shù)字時，忽略此行
        continue

    #要求mapper.py的輸出做排序（sort）操作，以便對連續(xù)的word做判斷
    if current_word == word:
        current_count += count
    else :
        #出現(xiàn)了一個新詞
        #輸出當(dāng)前word統(tǒng)計結(jié)果到標(biāo)準(zhǔn)輸出
        if current_word :
            print('%s\t%s' % (current_word,current_count))
        #開始對新詞的統(tǒng)計
        current_count = count
        current_word = word

#輸出最后一個word統(tǒng)計
if current_word == word:
    print("%s\t%s"% (current_word,current_count))

cat xxx.txt|python3 map.py|sort|python3 red.py

得到最終的輸出

注：hadoop-streaming會主動將map的輸出數(shù)據(jù)進(jìn)行字典排序

通過Hadoop Streaming 提交作業(yè)到Hadoop集群

STREAM_JAR_PATH="/root/bigdata/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.9.1.jar"    # hadoop streaming jar包所在位置
INPUT_FILE_PATH_1="/The_Man_of_Property.txt"  #要進(jìn)行詞頻統(tǒng)計的文檔在hdfs中的路徑
OUTPUT_PATH="/output"                         #MR作業(yè)后結(jié)果的存放路徑

hadoop fs -rm -r -skipTrash $OUTPUT_PATH    # 輸出路徑如果之前存在 先刪掉否則會報錯

hadoop jar $STREAM_JAR_PATH \   
		-input $INPUT_FILE_PATH_1 \ # 指定輸入文件位置
		-output $OUTPUT_PATH \      #指定輸出結(jié)果位置
		-mapper "python map.py" \   #指定mapper執(zhí)行的程序
		-reducer "python red.py" \  # 指定reduce階段執(zhí)行的程序
		-file ./map.py \            # 通過-file 把python源文件分發(fā)到集群的每一臺機(jī)器上  
		-file ./red.py

到Hadoop集群查看運(yùn)行結(jié)果

文章來源地址http://www.zghlxwxcb.cn/news/detail-515500.html

到了這里，關(guān)于分布式處理框架 MapReduce的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

分布式計算MapReduce | Spark實驗
題目1 輸入文件為學(xué)生成績信息，包含了必修課與選修課成績，格式如下：班級1, 姓名1, 科目1, 必修, 成績1 br （注： br 為換行符）班級2, 姓名2, 科目1, 必修, 成績2 br 班級1, 姓名1, 科目2, 選修, 成績3 br ………., ………, ………, ………, ……… br 編寫兩個Hadoop平臺上的MapRed
2024年02月08日
瀏覽(91)
大數(shù)據(jù)中的分布式文件系統(tǒng)MapReduce的選擇題
一. 單選題（共9題，49.5分） (單選題)下列傳統(tǒng)并行計算框架,說法錯誤的是哪一項? A. 刀片服務(wù)器、高速網(wǎng)、SAN,價格貴,擴(kuò)展性差上 B. 共享式(共享內(nèi)存/共享存儲),容錯性好 C. 編程難度高 D. 實時、細(xì)粒度計算、計算密集型正確答案: B:共享式(共享內(nèi)存/共享存儲),容錯性好; 5.5分
2024年02月04日
瀏覽(18)
ES是一個分布式全文檢索框架，隱藏了復(fù)雜的處理機(jī)制，核心數(shù)據(jù)分片機(jī)制、集群發(fā)現(xiàn)、分片負(fù)載均衡請求路由
ES是一個分布式框架，隱藏了復(fù)雜的處理機(jī)制，核心數(shù)據(jù)分片機(jī)制、集群發(fā)現(xiàn)、分片負(fù)載均衡請求路由。 ES的高可用架構(gòu)，總體如下圖：說明：本文會以pdf格式持續(xù)更新，更多最新尼恩3高pdf筆記，請從下面的鏈接獲?。赫Z雀或者碼云 ES基本概念名詞 Cluster 代表一個集群，集
2024年02月10日
瀏覽(23)
Linux從零搭建Hadoop集群(CentOS7+hadoop 3.2.0+JDK1.8+Mapreduce完全分布式集群案例)
和相關(guān)配置版本：Linux CentOS Hadoop Java 版本： CentOS7 Hadoop3.2.0 JDK1.8 虛擬機(jī)參數(shù)信息內(nèi)存3.2G、處理器2x2、內(nèi)存50G ISO：CentOS-7-x86_64-DVD-2009.iso 基本主從思路：先把基礎(chǔ)的設(shè)置（SSH、JDK、Hadooop、環(huán)境變量、Hadoop和MapReduce配置信息）在一臺虛擬機(jī)（master）上配好，通過
2024年02月05日
瀏覽(29)
（快手一面）分布式系統(tǒng)是什么？為什么要分布式系統(tǒng)？分布式環(huán)境下會有哪些問題？分布式系統(tǒng)是如何實現(xiàn)事務(wù)的？
《分布式系統(tǒng)原理與泛型》中這么定義分布式系統(tǒng)： “ 分布式系統(tǒng)是若干獨立計算機(jī)的集合，這些計算機(jī)對于用戶來說就像單個相關(guān)系統(tǒng) ”，分布式系統(tǒng)（distributed system）是建立在網(wǎng)絡(luò)之上的軟件系統(tǒng)。就比如：用戶在使用京東這個分布式系統(tǒng)的時候，會感覺是在使用一
2024年02月08日
瀏覽(26)
分布式服務(wù)框架_Zookeeper--管理分布式環(huán)境中的數(shù)據(jù)
安裝和配置詳解本文介紹的 Zookeeper 是以 3.2.2 這個穩(wěn)定版本為基礎(chǔ)，最新的版本可以通過官網(wǎng) ? http://hadoop.apache.org/zookeeper/ 來獲取， Zookeeper 的安裝非常簡單，下面將從單機(jī)模式和集群模式兩個方面介紹 Zookeeper 的安裝和配置。單機(jī)模式
2024年02月12日
瀏覽(23)
什么是分布式系統(tǒng)，如何學(xué)習(xí)分布式系統(tǒng)
正文雖然本人在前面也寫過好幾篇分布式系統(tǒng)相關(guān)的文章，主要包CAP理論，分布式儲存與分布式事務(wù)，但對于分布式系統(tǒng)，并沒有一個跟清晰的概念。分布式系統(tǒng)涉及到很多的技術(shù)、理論與協(xié)議，很多人也說，分布式系統(tǒng)是“入門容易，深入難”，我之前的學(xué)習(xí)也只算是管中
2024年02月13日
瀏覽(26)
分布式 - 談?wù)勀銓Ψ植际降睦斫猓瑸槭裁匆敕植际剑?/a>
不啰嗦，我們直接開始！真正了解分布式系統(tǒng)的概念，日后工作中具有分布式系統(tǒng)設(shè)計思想。能否在設(shè)計中對系統(tǒng)穩(wěn)定性方面考慮周全。能構(gòu)建高 QPS 健壯的系統(tǒng)架構(gòu)。問題分析：各種分布式框架層出不窮，Spring Cloud，阿里的 Dubbo，無論使用哪一個，原理都相同，考察下基
2024年02月15日
瀏覽(28)
什么是分布式操作系統(tǒng)？我們?yōu)槭裁葱枰植际讲僮飨到y(tǒng)？
分布式操作系統(tǒng)是一種特殊的操作系統(tǒng)，本質(zhì)上屬于多機(jī)操作系統(tǒng)，是傳統(tǒng)單機(jī)操作系統(tǒng)的發(fā)展和延伸。它是將一個計算機(jī)系統(tǒng)劃分為多個獨立的計算單元(或者也可稱為節(jié)點)，這些節(jié)點被部署到每臺計算機(jī)上，然后被網(wǎng)絡(luò)連接起來，并保持著持續(xù)的通信狀態(tài)。在分布式操作
2024年02月16日
瀏覽(38)
SpringSecurity分布式安全框架
Spring Security是一個基于Spring框架的安全框架，它提供了全面的安全解決方案，包括用戶認(rèn)證和用戶授權(quán)等Web應(yīng)用安全性問題。Spring Security可以輕松擴(kuò)展以滿足自定義需求，它的真正強(qiáng)大之處在于它可以輕松擴(kuò)展以滿足自定義要求。對于分布式系統(tǒng)來說，Spring Security可以結(jié)合
2024年02月08日
瀏覽(24)