国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

hadoop 學(xué)習(xí):mapreduce 入門案例一:WordCount 統(tǒng)計一個文本中單詞的個數(shù)

這篇具有很好參考價值的文章主要介紹了hadoop 學(xué)習(xí):mapreduce 入門案例一:WordCount 統(tǒng)計一個文本中單詞的個數(shù)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

一 需求

這個案例的需求很簡單

現(xiàn)在這里有一個文本wordcount.txt,內(nèi)容如下

hadoop 學(xué)習(xí):mapreduce 入門案例一:WordCount 統(tǒng)計一個文本中單詞的個數(shù),hadoop,學(xué)習(xí),mapreduce

現(xiàn)要求你使用 mapreduce 框架統(tǒng)計每個單詞的出現(xiàn)個數(shù)?

這樣一個案例雖然簡單但可以讓新學(xué)習(xí)大數(shù)據(jù)的同學(xué)熟悉 mapreduce 框架

二 準(zhǔn)備工作

(1)創(chuàng)建一個 maven 工程,maven 工程框架可以選擇quickstart

(2)在properties中添加 hadoop.version,導(dǎo)入依賴,pom.xml內(nèi)容如下

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>maven_hadoop</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-common</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
    </dependencies>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <hadoop.version>3.1.3</hadoop.version>
    </properties>

</project>

(3)準(zhǔn)備數(shù)據(jù),創(chuàng)建兩個文件夾 in,out(一個是輸入文件,一個是輸出文件),輸入文件放在 in 文件夾中文章來源地址http://www.zghlxwxcb.cn/news/detail-680829.html

三 編寫 WordCountMapper 類

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

//                                              <0,       hello java, hello, 1       >
//                                              <0,       hello java, java, 1       >
//  alt + ins
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {

    Text text = new Text();
    IntWritable intWritable =  new IntWritable();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        System.out.println("WordCountMap stage Key:"+key+"  Value:"+value);
        String[] words = value.toString().split(" ");  // "hello java"--->[hello,java]
        for (String word :
                words) {
            text.set(word);
            intWritable.set(1);
            context.write(text,intWritable);   //<hello,1>,<java,1>
        }
    }
}

四 編寫 WordCountReducer 類

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReduce extends Reducer<Text, IntWritable, Text, LongWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        System.out.println("Reduce stage Key:" + key + "  Values:" + values.toString());
        int count = 0;
        for (IntWritable intWritable :
                values) {
            count+=intWritable.get();
        }

        LongWritable longWritable = new LongWritable(count);
        System.out.println("ReduceResult key:"+key+" resultValue:"+longWritable.get());
        context.write(key,longWritable);
    }
}

五 編寫WordCountDriver 類

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCountDriver.class);

        // 設(shè)置job的map階段 工作任務(wù)
        job.setMapperClass(WordCountMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 設(shè)置job的reduce階段 工作任務(wù)
        job.setReducerClass(WordCountReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        // 指定job map階段的輸入文件的路徑
        FileInputFormat.setInputPaths(job, new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\in\\wordcount.txt"));

        // 指定job reduce階段的輸出文件路徑
        Path path = new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\out1");
        FileSystem fileSystem = FileSystem.get(path.toUri(), conf);
        if (fileSystem.exists(path))
            fileSystem.delete(path,true);
        FileOutputFormat.setOutputPath(job, path);

        // 啟動job
        job.waitForCompletion(true);


    }
}

到了這里,關(guān)于hadoop 學(xué)習(xí):mapreduce 入門案例一:WordCount 統(tǒng)計一個文本中單詞的個數(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • hadoop學(xué)習(xí):mapreduce入門案例四:partitioner 和 combiner

    hadoop學(xué)習(xí):mapreduce入門案例四:partitioner 和 combiner

    先簡單介紹一下partitioner 和 combiner? Partitioner類 用于在Map端對key進(jìn)行分區(qū) 默認(rèn)使用的是HashPartitioner 獲取key的哈希值 使用key的哈希值對Reduce任務(wù)數(shù)求模 決定每條記錄應(yīng)該送到哪個Reducer處理 自定義Partitioner 繼承抽象類Partitioner,重寫getPartition方法 job.setPartitionerClass(MyPartitione

    2024年02月10日
    瀏覽(24)
  • YARN On Mapreduce搭建與wordCount案例實現(xiàn)

    YARN On Mapreduce搭建與wordCount案例實現(xiàn)

    YARN的基本思想是將資源管理RM,和作業(yè)調(diào)度、監(jiān)控功能拆分成單獨(dú)的守護(hù)進(jìn)程。這個思想中擁有一個全局的資源管理器以及每個應(yīng)用的MASTER,AM。每一個應(yīng)用 都是單個作業(yè)或者一個DAG作業(yè)。 架構(gòu)圖: mapred-site.xml yarn-site.xml 配置節(jié)點(diǎn)分發(fā)到其他節(jié)點(diǎn)。 啟動yarn 啟動rm資源管理 訪

    2023年04月24日
    瀏覽(18)
  • Hadoop 實戰(zhàn) | 詞頻統(tǒng)計WordCount

    通過分析大量文本數(shù)據(jù)中的詞頻,可以識別常見詞匯和短語,從而抽取文本的關(guān)鍵信息和概要,有助于識別文本中頻繁出現(xiàn)的,這對于理解文本內(nèi)容和主題非常關(guān)鍵。同時,通過分析詞在文本中的相對頻率,可以幫助理解詞在不同上下文中的含義和語境。 \\\"紐約時報\\\"評

    2024年02月02日
    瀏覽(25)
  • 第三節(jié) Hadoop學(xué)習(xí)案例——MapReduce課程設(shè)計 好友推薦功能

    第三節(jié) Hadoop學(xué)習(xí)案例——MapReduce課程設(shè)計 好友推薦功能

    提示:文章內(nèi)容主要以案例為主 目錄 前言 項目說明 一,程序需求 1.需求 2.數(shù)據(jù) 二,編碼操作 1.項目建包目錄 2.FriendsRecommend.java ?3.FriendsRecommendMapper.java 4.FriendsRecommendReduce.java 三,Xshell運(yùn)行的步驟 1.創(chuàng)建目錄 2.上傳程序 ?3.分布式文件系統(tǒng)上傳測試數(shù)據(jù) ?4.執(zhí)行程序 5. 查看結(jié)

    2024年02月07日
    瀏覽(28)
  • Hadoop快速入門+MapReduce案例(贈送17到23年往年真題答案+MapReduce代碼文件)-----大數(shù)據(jù)與人工智能比賽

    Hadoop快速入門+MapReduce案例(贈送17到23年往年真題答案+MapReduce代碼文件)-----大數(shù)據(jù)與人工智能比賽

    Hadoop的核心就是HDFS和MapReduce HDFS為海量數(shù)據(jù)提供了 存儲 而MapReduce為海量數(shù)據(jù)提供了 計算框架 一.HDFS 整個HDFS有三個重要角色: NameNode (名稱節(jié)點(diǎn))、 DataNode (數(shù)據(jù)節(jié)點(diǎn))和 Client (客戶機(jī)) NameNode :是Master節(jié)點(diǎn)(主節(jié)點(diǎn)) DataNode : 是Slave節(jié)點(diǎn)(從節(jié)點(diǎn)),是文件存儲的基本

    2024年02月20日
    瀏覽(15)
  • Hadoop之——WordCount案例與執(zhí)行本地jar包

    Hadoop之——WordCount案例與執(zhí)行本地jar包

    目錄 一、WordCount代碼 (一)WordCount簡介 1.wordcount.txt (二)WordCount的java代碼 1.WordCountMapper 2.WordCountReduce 3.WordCountDriver (三)IDEA運(yùn)行結(jié)果 (四)Hadoop運(yùn)行wordcount 1.在HDFS上新建一個文件目錄 2.新建一個文件,并上傳至該目錄下 3.執(zhí)行wordcount命令 4.查看運(yùn)行結(jié)果 5.第二次提交報錯原因 6.進(jìn)

    2024年02月08日
    瀏覽(43)
  • Hadoop入門學(xué)習(xí)筆記——四、MapReduce的框架配置和YARN的部署

    Hadoop入門學(xué)習(xí)筆記——四、MapReduce的框架配置和YARN的部署

    視頻課程地址:https://www.bilibili.com/video/BV1WY4y197g7 課程資料鏈接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入門學(xué)習(xí)筆記(匯總) 本次YARN的部署結(jié)構(gòu)如下圖所示: 當(dāng)前,共有三臺服務(wù)器(虛擬機(jī))構(gòu)成集群,集群規(guī)劃如下所示: 主機(jī) 部署的服務(wù) node1 ResourceManager、N

    2024年02月04日
    瀏覽(18)
  • Hadoop MapReduce 統(tǒng)計汽車銷售信息

    Hadoop MapReduce 統(tǒng)計汽車銷售信息

    本文將討論如何使用Hadoop MapReduce來統(tǒng)計汽車銷售信息。 汽車銷售的記錄文件名叫Cars.csv,里面記錄了汽車的銷售信息,數(shù)據(jù)內(nèi)容如下: 格式為: 第1列:銷售的省份 第3列:銷售的城市 第7列:汽車生產(chǎn)商 第8列:汽車品牌名 第12列:汽車銷售數(shù)量 已經(jīng)將Cars.csv上傳到HDFS文件

    2024年02月03日
    瀏覽(96)
  • 【入門Flink】- 02Flink經(jīng)典案例-WordCount

    【入門Flink】- 02Flink經(jīng)典案例-WordCount

    需求:統(tǒng)計一段文字中,每個單詞出現(xiàn)的頻次 基本思路:先逐行讀入文件數(shù)據(jù),然后將每一行文字拆分成單詞;接著按照單詞分組,統(tǒng)計每組數(shù)據(jù)的個數(shù)。 1.1.數(shù)據(jù)準(zhǔn)備 resources目錄下新建一個 input 文件夾,并在下面創(chuàng)建文本文件words.txt words.txt 1.2.代碼編寫 打印結(jié)果如下:(

    2024年02月06日
    瀏覽(29)
  • Hadoop3 - MapReduce COVID-19 案例實踐

    Hadoop3 - MapReduce COVID-19 案例實踐

    上篇文章對 MapReduce 進(jìn)行了介紹,并編寫了 WordCount 經(jīng)典案例的實現(xiàn),本篇為繼續(xù)加深 MapReduce 的用法,實踐 COVID-19 新冠肺炎案例,下面是上篇文章的地址: https://blog.csdn.net/qq_43692950/article/details/127195121 COVID-19,簡稱“新冠肺炎”,世界衛(wèi)生組織命名為“2019冠狀病毒病” [1-

    2024年02月08日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包