需求:計(jì)算數(shù)據(jù)文件中的數(shù)值的平均值
背景:
- 你有一個(gè)數(shù)據(jù)文件,其中包含一系列數(shù)值,每行一個(gè)數(shù)值,數(shù)值之間用逗號(hào)分隔。
- 你想使用Apache Spark分布式計(jì)算框架來(lái)讀取數(shù)據(jù)文件中的數(shù)值并計(jì)算它們的平均值。
功能要求:
- 通過(guò)Spark配置和上下文初始化Spark應(yīng)用程序。
- 從數(shù)據(jù)文件中讀取數(shù)值,并將每行文本表示為一個(gè)RDD。
- 將文本行中的數(shù)值提取出來(lái),以便進(jìn)行數(shù)值計(jì)算。
- 計(jì)算所有數(shù)值的平均值。
- 打印計(jì)算得到的平均值。
- 關(guān)閉Spark上下文以釋放資源。
輸入:文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-697215.html
- 數(shù)據(jù)文件,其中包含逗號(hào)分隔的數(shù)值。
輸出:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-697215.html
- 控制臺(tái)打印出的平均值。
package com.bigdata;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import java.text.DecimalFormat;
public class CalculateMeanForEachLineWithSpark {
public static void main(String[] args) {
SparkConf conf = new SparkConf()
.setAppName("CalculateMeanForEachLineWithSpark")
.se
到了這里,關(guān)于11 | Spark計(jì)算數(shù)據(jù)文件中每行數(shù)值的平均值的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!