国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析

2年前作者：汪子熙分類：Toy博客閱讀(41)違法舉報

這篇具有很好參考價值的文章主要介紹了Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

之前筆者參加了公司內(nèi)部舉辦的一個 Big Data Workshop，接觸了一些 Spark 的皮毛，后來在工作中陸陸續(xù)續(xù)又學(xué)習(xí)了一些 Spark 的實戰(zhàn)知識。

本文筆者從小白的視角出發(fā)，給大家普及 Spark 的應(yīng)用知識。

什么是 Spark

Spark 集群是基于 Apache Spark 的分布式計算環(huán)境，用于處理大規(guī)模數(shù)據(jù)集的計算任務(wù)。Apache Spark 是一個開源的、快速而通用的集群計算系統(tǒng)，提供了高級的數(shù)據(jù)處理接口，包括 Spark SQL、Spark Streaming、MLlib（機器學(xué)習(xí)庫）和GraphX（圖計算庫）。Spark 的一個主要特點是能夠在內(nèi)存中進行數(shù)據(jù)處理，從而大大加速計算速度。

Scala 編程語言是 Spark 的首選編程語言之一。Spark 最初是用 Scala 編寫的，而且 Scala 具有強大的靜態(tài)類型系統(tǒng)和函數(shù)式編程特性，使其成為 Spark 的理想選擇。Spark 支持多種編程語言，包括 Java、Python 和 R，但 Scala 在 Spark 社區(qū)中仍然占據(jù)重要地位。

Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析,開源,Cloud,大數(shù)據(jù),spark,分布式

什么是 RDD？它在 Spark 架構(gòu)中扮演著怎樣的角色？

提到 Spark 就不能不提到 RDD.

Spark 架構(gòu)中的RDD（Resilient Distributed Dataset，彈性分布式數(shù)據(jù)集）是一種基本的數(shù)據(jù)結(jié)構(gòu)，它在 Spark 分布式計算中扮演著關(guān)鍵的角色。RDD 是 Spark 的核心抽象，它提供了一種容錯的、可并行處理的數(shù)據(jù)結(jié)構(gòu)，用于在集群中存儲和操作數(shù)據(jù)。

RDD 將數(shù)據(jù)劃分為多個分區(qū)，這些分區(qū)可以并行地在集群中進行處理。RDD 提供了一種高度抽象的數(shù)據(jù)處理接口，使得開發(fā)者可以方便地執(zhí)行并行計算任務(wù)。

Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析,開源,Cloud,大數(shù)據(jù),spark,分布式

Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析,開源,Cloud,大數(shù)據(jù),spark,分布式

RDD 顧名思義，具有下面這些特性：

彈性（Resilient）：RDD 具有容錯性，即使在節(jié)點故障時也能夠自動從先前的轉(zhuǎn)換中恢復(fù)。這通過 RDD 的依賴信息和轉(zhuǎn)換操作日志實現(xiàn)，使得 Spark 能夠在節(jié)點失敗時重新計算丟失的數(shù)據(jù)。
分布式（Distributed）：RDD 將數(shù)據(jù)劃分為多個分區(qū)，并在集群中分布存儲這些分區(qū)。這樣，計算可以在分布式環(huán)境中并行執(zhí)行，提高了處理速度。
不可變（Immutable）：RDD 是不可變的數(shù)據(jù)結(jié)構(gòu)，一旦創(chuàng)建就不能被修改。這確保了數(shù)據(jù)的一致性，并簡化了并行計算的實現(xiàn)。

Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析,開源,Cloud,大數(shù)據(jù),spark,分布式

RDD 實戰(zhàn)(一)：平方和的計算

我們通過一個計算整數(shù)集合平方和的簡單例子，來學(xué)習(xí) RDD 的實戰(zhàn)。

首先，我們創(chuàng)建一個RDD：

`data = [1, 2, 3, 4, 5]`
`rdd = sparkContext.parallelize(data)`

接下來，我們可以使用轉(zhuǎn)換操作對 RDD 執(zhí)行平方操作：

`squared_rdd = rdd.map(lambda x: x ** 2)`

現(xiàn)在，我們得到了一個新的 RDD squared_rdd，它包含了原始 RDD 中每個元素的平方。最后，我們可以使用行動操作計算平方和：

`result = squared_rdd.reduce(lambda x, y: x + y)`

在這個例子中，RDD 允許我們以并行的方式對數(shù)據(jù)執(zhí)行轉(zhuǎn)換和計算操作，而不需要顯式的循環(huán)或迭代。同時，RDD 的容錯性確保了在計算過程中節(jié)點失敗時的可靠性。

RDD 實戰(zhàn)(二)：統(tǒng)計 text 文件中每個單詞的出現(xiàn)次數(shù)

有了前面的基礎(chǔ)，我們再來完成一個稍微復(fù)雜一些的大數(shù)據(jù)分析任務(wù)。

我用 Java 編寫了一個應(yīng)用程序，這個 Java 應(yīng)用接收一個輸入?yún)?shù)，該參數(shù)代表一個 text 文件的絕對路徑，這個 text 文件的內(nèi)容是一本英文小說。

這個 Java 應(yīng)用，可以使用 Spark RDD 的 API，來高效統(tǒng)計 text 文件里，每個單詞的出現(xiàn)頻次。

完整的可運行的 Java 代碼如下：


package org.apache.spark.examples;

import scala.Tuple2;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;

import java.util.Arrays;
import java.util.List;
import java.util.regex.Pattern;

// Maven source
public final class JavaWordCount {
	private static final Pattern SPACE = Pattern.compile(" ");

	@SuppressWarnings({ "resource", "serial" })
	public static void main(String[] args) throws Exception {

		if (args.length < 1) {
			System.err.println("Usage: JavaWordCount <file>");
			System.exit(1);
		}

		SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");
		JavaSparkContext ctx = new JavaSparkContext(sparkConf);
		JavaRDD<String> lines = ctx.textFile(args[0], 1);

		JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
			@Override
			public Iterable<String> call(String s) {
				return Arrays.asList(SPACE.split(s));
			}
		});

		JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
			@Override
			public Tuple2<String, Integer> call(String s) {
				return new Tuple2<String, Integer>(s, 1);
			}
		});

		JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
			@Override
			public Integer call(Integer i1, Integer i2) {
				return i1 + i2;
			}
		});

		List<Tuple2<String, Integer>> output = counts.collect();
		for (Tuple2<?, ?> tuple : output) {
			System.out.println(tuple._1() + ": " + tuple._2());
		}
		ctx.stop();
	}
}

package org.apache.spark.examples;

import scala.Tuple2;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;

import java.util.Arrays;
import java.util.List;
import java.util.regex.Pattern;

// Maven source
public final class JavaWordCount {
    private static final Pattern SPACE = Pattern.compile(" ");

    @SuppressWarnings({ "resource", "serial" })
    public static void main(String[] args) throws Exception {

        if (args.length < 1) {
            System.err.println("Usage: JavaWordCount <file>");
            System.exit(1);
        }

        SparkConf sparkConf = new SparkConf().setAppName(`JavaWordCount`);
        JavaSparkContext ctx = new JavaSparkContext(sparkConf);
        JavaRDD<String> lines = ctx.textFile(args[0], 1);

        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterable<String> call(String s) {
                return Arrays.asList(SPACE.split(s));
            }
        });

        JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) {
                return new Tuple2<String, Integer>(s, 1);
            }
        });

        JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer i1, Integer i2) {
                return i1 + i2;
            }
        });

        List<Tuple2<String, Integer>> output = counts.collect();
        for (Tuple2<?, ?> tuple : output) {
            System.out.println(tuple._1() + `: ` + tuple._2());
        }
        ctx.stop();
    }
}

這段 Java 程序從 Apache Spark 中導(dǎo)入 RDD API：org.apache.spark.api.java.JavaRDD，然后進行下面的邏輯：

定義一個正則表達式模式 SPACE，用于按空格分隔單詞。
創(chuàng)建一個JavaSparkContext對象 ctx，它是Spark的入口點，用于連接到集群。
通過命令行參數(shù)獲取輸入文件路徑，如果參數(shù)數(shù)量小于1，則打印用法說明并退出程序。
創(chuàng)建一個SparkConf對象 sparkConf，設(shè)置應(yīng)用程序名稱為 “JavaWordCount”。
使用 ctx.textFile 讀取輸入文件，將每一行作為一個元素組成的RDD（Resilient Distributed Dataset）。
使用 flatMap 操作將每行文本拆分為單詞，并生成一個包含所有單詞的新RDD words。
使用 mapToPair 操作將每個單詞映射為鍵值對（單詞, 1），生成新的Pair RDD ones。
使用 reduceByKey 操作對相同鍵的值進行累加，得到最終的單詞計數(shù)結(jié)果，生成新的Pair RDD counts。
使用 collect 操作將結(jié)果收集到Driver程序中，得到一個包含單詞和計數(shù)的列表 output。
遍歷輸出列表，將結(jié)果打印到控制臺。
停止SparkContext，釋放資源。

將這個 Java 程序編譯成 .class 文件后，使用下面的命令行，將該 class 文件包含的 RDD 計算邏輯，以 Job 的形式，提交到 spark 集群上：

./spark-submit --class "org.apache.spark.examples.JavawordCount" --master spark://NKGV50849583FV1:7077 /root/devExpert/spark-1.4.l
1/bin/test.txt

Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析,開源,Cloud,大數(shù)據(jù),spark,分布式

命令行里的 spark://NKGV50849583FV1:7077 是我在一臺 Linux 服務(wù)器上安裝的 Spark 集群，如下圖所示：

Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析,開源,Cloud,大數(shù)據(jù),spark,分布式

至此，我們完成了通過 Spark RDD 進行大數(shù)據(jù)處理分析的一個實際需求。文章來源地址http://www.zghlxwxcb.cn/news/detail-824704.html

到了這里，關(guān)于Spark 大數(shù)據(jù)實戰(zhàn)：基于 RDD 的大數(shù)據(jù)處理分析的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Spark大數(shù)據(jù)處理講課筆記3.5 RDD持久化機制
2023年05月06日
瀏覽(32)
分布式計算中的大數(shù)據(jù)處理:Hadoop與Spark的性能優(yōu)化
大數(shù)據(jù)處理是現(xiàn)代計算機科學(xué)的一個重要領(lǐng)域，它涉及到處理海量數(shù)據(jù)的技術(shù)和方法。隨著互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)的規(guī)模不斷增長，傳統(tǒng)的計算方法已經(jīng)無法滿足需求。因此，分布式計算技術(shù)逐漸成為了主流。 Hadoop和Spark是目前最為流行的分布式計算框架之一，它們都提供了高
2024年01月23日
瀏覽(93)
大數(shù)據(jù)開源框架之基于Spark的氣象數(shù)據(jù)處理與分析
Spark配置請看： (30條消息) 大數(shù)據(jù)開源框架環(huán)境搭建(七)——Spark完全分布式集群的安裝部署_木子一個Lee的博客-CSDN博客目錄實驗說明：實驗要求：實驗步驟：數(shù)據(jù)獲?。?數(shù)據(jù)分析：可視化：參考代碼(適用于python3)：運行結(jié)果： ????????本次實驗所采用的數(shù)據(jù)，從中
2024年02月03日
瀏覽(27)
大數(shù)據(jù)期末課設(shè)~基于spark的氣象數(shù)據(jù)處理與分析
目錄 ? ? ? 一、項目背景 .......................................... 3 ? ? ??二、實驗環(huán)境 .......................................... 3 三、實驗數(shù)據(jù)來源 ...................................?4 四、數(shù)據(jù)獲取 .......................................... 5 五、數(shù)據(jù)分析 ......................................... 17 六、數(shù)據(jù)
2023年04月09日
瀏覽(25)
數(shù)據(jù)分享|基于Python、Hadoop零售交易數(shù)據(jù)的Spark數(shù)據(jù)處理與Echarts可視化分析
案例數(shù)據(jù)集是在線零售業(yè)務(wù)的交易數(shù)據(jù)，采用Python為編程語言，采用Hadoop存儲數(shù)據(jù)，采用Spark對數(shù)據(jù)進行處理分析，并使用Echarts做數(shù)據(jù)可視化。由于案例公司商業(yè)模式類似新零售，或者說有向此方向發(fā)展利好的趨勢，所以本次基于利于公司經(jīng)營與發(fā)展的方向進行數(shù)據(jù)分析。
2024年02月11日
瀏覽(37)
數(shù)據(jù)中臺系統(tǒng)是一個重要的數(shù)字化轉(zhuǎn)型方式之一，它基于現(xiàn)代的大數(shù)據(jù)處理技術(shù)，通過構(gòu)建統(tǒng)一的數(shù)據(jù)倉庫，將不同來源、格式的數(shù)據(jù)進行整合、清洗、融合，并提供給業(yè)務(wù)人員進行分析挖掘的數(shù)據(jù)集合
作者：禪與計算機程序設(shè)計藝術(shù) 數(shù)據(jù)中臺系統(tǒng)是一個重要的數(shù)字化轉(zhuǎn)型方式之一，它基于現(xiàn)代的大數(shù)據(jù)處理技術(shù)，通過構(gòu)建統(tǒng)一的數(shù)據(jù)倉庫，將不同來源、格式的數(shù)據(jù)進行整合、清洗、融合，并提供給業(yè)務(wù)人員進行分析挖掘的數(shù)據(jù)集合。其目標(biāo)就是為了實現(xiàn)數(shù)字化進程中的各
2024年02月11日
瀏覽(24)
Elasticsearch的大數(shù)據(jù)處理與分析
Elasticsearch是一個開源的搜索和分析引擎，基于Lucene庫構(gòu)建。它具有高性能、可擴展性和實時性等優(yōu)勢，適用于大數(shù)據(jù)處理和分析場景。Elasticsearch可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，支持多種數(shù)據(jù)源和格式，如JSON、XML、CSV等。 Elasticsearch的核心功能包括搜索、分析、聚合和監(jiān)控
2024年02月19日
瀏覽(25)
機器翻譯的大數(shù)據(jù)挑戰(zhàn)：數(shù)據(jù)清洗與處理
機器翻譯是人工智能領(lǐng)域的一個重要研究方向，其目標(biāo)是讓計算機能夠自動地將一種自然語言翻譯成另一種自然語言。隨著大數(shù)據(jù)時代的到來，機器翻譯面臨著巨大的數(shù)據(jù)挑戰(zhàn)。這篇文章將從數(shù)據(jù)清洗和處理的角度探討機器翻譯的大數(shù)據(jù)挑戰(zhàn)。機器翻譯具有廣泛的應(yīng)用，例如
2024年04月15日
瀏覽(19)
Spark重溫筆記（二）：快如閃電的大數(shù)據(jù)計算框架——你真的了解SparkCore的 RDD 嗎？（包含企業(yè)級搜狗案例和網(wǎng)站點擊案例）
前言：今天是溫習(xí) Spark 的第 2 天啦！主要梳理了 Spark 核心數(shù)據(jù)結(jié)構(gòu)：RDD(彈性分布式數(shù)據(jù)集)，其中包括基于內(nèi)存計算的 SparkCore 各類技術(shù)知識點希望對大家有幫助！ Tips：\\\"分享是快樂的源泉??，在我的博客里，不僅有知識的海洋??，還有滿滿的正能量加持??，快來和我一起
2024年03月25日
瀏覽(22)
云計算中的大數(shù)據(jù)處理：嘗試HDFS和MapReduce的應(yīng)用
在實驗開始之前我們需要在虛擬機里面啟動HDFS，進入到Hadoop安裝目錄里面的sbin目錄里面執(zhí)行 start-all.sh 命令即可啟動成功，然后使用 jps 查看全部節(jié)點是否已經(jīng)啟動了，在昨天的做題的時候我在最開始上傳文件到hdfs 的時候報錯： could only be written to 0 of the 1 minReplication nodes,
2024年02月09日
瀏覽(96)