国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ul id="dj4fz"></ul>

hadoop 學(xué)習(xí)：mapreduce 入門案例一：WordCount 統(tǒng)計一個文本中單詞的個數(shù)

2年前作者：超愛慢分類：Toy博客閱讀(19)違法舉報

這篇具有很好參考價值的文章主要介紹了hadoop 學(xué)習(xí)：mapreduce 入門案例一：WordCount 統(tǒng)計一個文本中單詞的個數(shù)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

一需求

這個案例的需求很簡單

現(xiàn)在這里有一個文本wordcount.txt，內(nèi)容如下

hadoop 學(xué)習(xí)：mapreduce 入門案例一：WordCount 統(tǒng)計一個文本中單詞的個數(shù),hadoop,學(xué)習(xí),mapreduce

現(xiàn)要求你使用 mapreduce 框架統(tǒng)計每個單詞的出現(xiàn)個數(shù)?

這樣一個案例雖然簡單但可以讓新學(xué)習(xí)大數(shù)據(jù)的同學(xué)熟悉 mapreduce 框架

二準(zhǔn)備工作

（1）創(chuàng)建一個 maven 工程，maven 工程框架可以選擇quickstart

（2）在properties中添加 hadoop.version，導(dǎo)入依賴，pom.xml內(nèi)容如下

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>maven_hadoop</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-common</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
    </dependencies>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <hadoop.version>3.1.3</hadoop.version>
    </properties>

</project>

（3）準(zhǔn)備數(shù)據(jù)，創(chuàng)建兩個文件夾 in，out（一個是輸入文件，一個是輸出文件），輸入文件放在 in 文件夾中文章來源地址http://www.zghlxwxcb.cn/news/detail-680829.html

三編寫 WordCountMapper 類

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

//                                              <0,       hello java, hello, 1       >
//                                              <0,       hello java, java, 1       >
//  alt + ins
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {

    Text text = new Text();
    IntWritable intWritable =  new IntWritable();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        System.out.println("WordCountMap stage Key:"+key+"  Value:"+value);
        String[] words = value.toString().split(" ");  // "hello java"--->[hello,java]
        for (String word :
                words) {
            text.set(word);
            intWritable.set(1);
            context.write(text,intWritable);   //<hello,1>,<java,1>
        }
    }
}

四編寫 WordCountReducer 類

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReduce extends Reducer<Text, IntWritable, Text, LongWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        System.out.println("Reduce stage Key:" + key + "  Values:" + values.toString());
        int count = 0;
        for (IntWritable intWritable :
                values) {
            count+=intWritable.get();
        }

        LongWritable longWritable = new LongWritable(count);
        System.out.println("ReduceResult key:"+key+" resultValue:"+longWritable.get());
        context.write(key,longWritable);
    }
}

五編寫WordCountDriver 類

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCountDriver.class);

        // 設(shè)置job的map階段 工作任務(wù)
        job.setMapperClass(WordCountMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 設(shè)置job的reduce階段 工作任務(wù)
        job.setReducerClass(WordCountReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        // 指定job map階段的輸入文件的路徑
        FileInputFormat.setInputPaths(job, new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\in\\wordcount.txt"));

        // 指定job reduce階段的輸出文件路徑
        Path path = new Path("D:\\bigdataworkspace\\kb23\\hadoopstu\\out1");
        FileSystem fileSystem = FileSystem.get(path.toUri(), conf);
        if (fileSystem.exists(path))
            fileSystem.delete(path,true);
        FileOutputFormat.setOutputPath(job, path);

        // 啟動job
        job.waitForCompletion(true);


    }
}

到了這里，關(guān)于hadoop 學(xué)習(xí)：mapreduce 入門案例一：WordCount 統(tǒng)計一個文本中單詞的個數(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

hadoop學(xué)習(xí)：mapreduce入門案例四：partitioner 和 combiner
先簡單介紹一下partitioner 和 combiner? Partitioner類用于在Map端對key進(jìn)行分區(qū) 默認(rèn)使用的是HashPartitioner 獲取key的哈希值使用key的哈希值對Reduce任務(wù)數(shù)求模決定每條記錄應(yīng)該送到哪個Reducer處理自定義Partitioner 繼承抽象類Partitioner，重寫getPartition方法 job.setPartitionerClass(MyPartitione
2024年02月10日
瀏覽(24)
YARN On Mapreduce搭建與wordCount案例實現(xiàn)
YARN的基本思想是將資源管理RM，和作業(yè)調(diào)度、監(jiān)控功能拆分成單獨(dú)的守護(hù)進(jìn)程。這個思想中擁有一個全局的資源管理器以及每個應(yīng)用的MASTER,AM。每一個應(yīng)用都是單個作業(yè)或者一個DAG作業(yè)。架構(gòu)圖： mapred-site.xml yarn-site.xml 配置節(jié)點(diǎn)分發(fā)到其他節(jié)點(diǎn)。啟動yarn 啟動rm資源管理訪
2023年04月24日
瀏覽(18)
Hadoop 實戰(zhàn) | 詞頻統(tǒng)計WordCount
通過分析大量文本數(shù)據(jù)中的詞頻，可以識別常見詞匯和短語，從而抽取文本的關(guān)鍵信息和概要，有助于識別文本中頻繁出現(xiàn)的，這對于理解文本內(nèi)容和主題非常關(guān)鍵。同時，通過分析詞在文本中的相對頻率，可以幫助理解詞在不同上下文中的含義和語境。 \\\"紐約時報\\\"評
2024年02月02日
瀏覽(25)
第三節(jié) Hadoop學(xué)習(xí)案例——MapReduce課程設(shè)計好友推薦功能
提示：文章內(nèi)容主要以案例為主目錄前言項目說明一，程序需求 1.需求 2.數(shù)據(jù) 二，編碼操作 1.項目建包目錄 2.FriendsRecommend.java ?3.FriendsRecommendMapper.java 4.FriendsRecommendReduce.java 三，Xshell運(yùn)行的步驟 1.創(chuàng)建目錄 2.上傳程序 ?3.分布式文件系統(tǒng)上傳測試數(shù)據(jù) ?4.執(zhí)行程序 5. 查看結(jié)
2024年02月07日
瀏覽(28)
Hadoop快速入門+MapReduce案例（贈送17到23年往年真題答案+MapReduce代碼文件）-----大數(shù)據(jù)與人工智能比賽
Hadoop的核心就是HDFS和MapReduce HDFS為海量數(shù)據(jù)提供了存儲而MapReduce為海量數(shù)據(jù)提供了計算框架一.HDFS 整個HDFS有三個重要角色： NameNode （名稱節(jié)點(diǎn)）、 DataNode （數(shù)據(jù)節(jié)點(diǎn)）和 Client （客戶機(jī)） NameNode ：是Master節(jié)點(diǎn)（主節(jié)點(diǎn)） DataNode : 是Slave節(jié)點(diǎn)（從節(jié)點(diǎn)），是文件存儲的基本
2024年02月20日
瀏覽(15)
Hadoop之——WordCount案例與執(zhí)行本地jar包
目錄一、WordCount代碼 (一)WordCount簡介 1.wordcount.txt (二)WordCount的java代碼 1.WordCountMapper 2.WordCountReduce 3.WordCountDriver (三)IDEA運(yùn)行結(jié)果 (四)Hadoop運(yùn)行wordcount 1.在HDFS上新建一個文件目錄 2.新建一個文件，并上傳至該目錄下 3.執(zhí)行wordcount命令 4.查看運(yùn)行結(jié)果 5.第二次提交報錯原因 6.進(jìn)
2024年02月08日
瀏覽(43)
Hadoop入門學(xué)習(xí)筆記——四、MapReduce的框架配置和YARN的部署
視頻課程地址：https://www.bilibili.com/video/BV1WY4y197g7 課程資料鏈接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd=5ay8 Hadoop入門學(xué)習(xí)筆記（匯總）本次YARN的部署結(jié)構(gòu)如下圖所示：當(dāng)前，共有三臺服務(wù)器（虛擬機(jī)）構(gòu)成集群，集群規(guī)劃如下所示：主機(jī) 部署的服務(wù) node1 ResourceManager、N
2024年02月04日
瀏覽(18)
Hadoop MapReduce 統(tǒng)計汽車銷售信息
本文將討論如何使用Hadoop MapReduce來統(tǒng)計汽車銷售信息。汽車銷售的記錄文件名叫Cars.csv，里面記錄了汽車的銷售信息，數(shù)據(jù)內(nèi)容如下：格式為：第1列：銷售的省份第3列：銷售的城市第7列：汽車生產(chǎn)商第8列：汽車品牌名第12列：汽車銷售數(shù)量已經(jīng)將Cars.csv上傳到HDFS文件
2024年02月03日
瀏覽(96)
【入門Flink】- 02Flink經(jīng)典案例-WordCount
需求：統(tǒng)計一段文字中，每個單詞出現(xiàn)的頻次基本思路：先逐行讀入文件數(shù)據(jù)，然后將每一行文字拆分成單詞；接著按照單詞分組，統(tǒng)計每組數(shù)據(jù)的個數(shù)。 1.1.數(shù)據(jù)準(zhǔn)備 resources目錄下新建一個 input 文件夾，并在下面創(chuàng)建文本文件words.txt words.txt 1.2.代碼編寫打印結(jié)果如下：（
2024年02月06日
瀏覽(29)
Hadoop3 - MapReduce COVID-19 案例實踐
上篇文章對 MapReduce 進(jìn)行了介紹，并編寫了 WordCount 經(jīng)典案例的實現(xiàn)，本篇為繼續(xù)加深 MapReduce 的用法，實踐 COVID-19 新冠肺炎案例，下面是上篇文章的地址： https://blog.csdn.net/qq_43692950/article/details/127195121 COVID-19，簡稱“新冠肺炎”，世界衛(wèi)生組織命名為“2019冠狀病毒病” [1-
2024年02月08日
瀏覽(18)