大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

2年前作者：煉獄鯰魚分類：Toy博客閱讀(28)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、實(shí)驗(yàn)題目

熟悉常用的Spark操作。

二、實(shí)驗(yàn)?zāi)康?/h2>
1.熟悉Spark Shell的使用；
2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。

三、實(shí)驗(yàn)平臺(tái)

操作系統(tǒng)：Linux
Spark版本: 1.6
Hadoop版本: 3.3.0
JDK版本：1.8

四、實(shí)驗(yàn)內(nèi)容和要求

使用Spark shell完成如下習(xí)題：

1.Spark RDD部分：

a)讀取Spark安裝目錄下的文件README.md（/usr/local/spark/README.md）；
b)統(tǒng)計(jì)包含“Spark”的單詞（區(qū)分大小寫）的出現(xiàn)次數(shù)，給出執(zhí)行語(yǔ)句與結(jié)果截圖；
c)統(tǒng)計(jì)空白行的出現(xiàn)次數(shù)，給出執(zhí)行語(yǔ)句與結(jié)果截圖。

2.Spark SQL部分（分別使用Spark SQL API和Spark DataFrames API完成）：

a)在Spark安裝目錄下建立一個(gè)文件example.json，內(nèi)容如下：
{“name”: “Michael”, “age”: 25, “gender”: “male”}
{“name”: “Andy”, “age”: 30, “gender”: “female”}
{“name”: “Justin”, “age”: 19, “gender”: “female”}
b)讀取該文件（/usr/local/spark/example.json）
c)篩選性別為”female”的記錄并顯示結(jié)果，給出執(zhí)行語(yǔ)句與結(jié)果截圖；
d)統(tǒng)計(jì)性別為”male”和”female”的人數(shù)并顯示結(jié)果，給出執(zhí)行語(yǔ)句與結(jié)果截圖。
（提示：使用DataFrames API判斷字符串相等，應(yīng)使用”===”操作符；使用SQL API判斷字符串相等，應(yīng)使用”=”操作符）

五、實(shí)驗(yàn)步驟

1. Spark RDD部分

1.1 讀取文件

val textFile = sc.textFile("file:///usr/local/spark/README.md");

1.2 統(tǒng)計(jì)"Spark"詞頻

textFile.filter(word => word.contains("Spark")).count();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

1.3 統(tǒng)計(jì)空白行出現(xiàn)次數(shù)

textFile.flatMap(_.split("\n")).filter(_.size == 0) .count();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

2. Spark SQL部分

2.1 建立文件

路徑：/usr/local/spark/example.json
內(nèi)容：
{“name”: “Michael”, “age”: 25, “gender”: “male”}
{“name”: “Andy”, “age”: 30, “gender”: “female”}
{“name”: “Justin”, “age”: 19, “gender”: “female”}
大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

2.2 Spark DataFrames API實(shí)現(xiàn)

a)讀取文件

val df = sqlContext.read.json("file:///usr/local/spark/example.json");
df.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
b)篩選性別為"female"的記錄

df.filter(df("gender") === "female").show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
c)統(tǒng)計(jì)性別為"male"和"female"的人數(shù)

df.groupBy("gender").count().show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

2.3 Spark SQL API實(shí)現(xiàn)

a)將df注冊(cè)為臨時(shí)表people

df.registerTempTable("people");

b)讀取文件

val result = sqlContext.sql("SELECT * FROM people");
result.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
c)篩選性別為"female"的記錄

val result = sqlContext.sql("SELECT * FROM people WHERE gender = 'female' ");
result.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
d)統(tǒng)計(jì)性別為"male"和"female"的人數(shù)

val result = sqlContext.sql("SELECT gender, COUNT (*) AS count FROM people GROUP BY gender");
result.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-489469.html

到了這里，關(guān)于大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Spark與其他大數(shù)據(jù)技術(shù)的集成：實(shí)現(xiàn)數(shù)據(jù)處理的融合
大數(shù)據(jù)技術(shù)已經(jīng)成為當(dāng)今企業(yè)和組織中不可或缺的一部分。隨著數(shù)據(jù)的規(guī)模和復(fù)雜性的增加，需要更高效、可靠的數(shù)據(jù)處理和分析方法。Apache Spark作為一個(gè)開(kāi)源的大數(shù)據(jù)處理框架，已經(jīng)成為了許多企業(yè)和組織中的首選。然而，在實(shí)際應(yīng)用中，Spark往往需要與其他大數(shù)據(jù)技術(shù)進(jìn)
2024年02月21日
瀏覽(40)
Python與大數(shù)據(jù)：Hadoop、Spark和Pyspark的應(yīng)用和數(shù)據(jù)處理技巧
? 在當(dāng)今的數(shù)字時(shí)代，數(shù)據(jù)成為了無(wú)處不在的關(guān)鍵資源。大數(shù)據(jù)的崛起為企業(yè)提供了無(wú)限的機(jī)遇，同時(shí)也帶來(lái)了前所未有的挑戰(zhàn)。為了有效地處理和分析大規(guī)模數(shù)據(jù)集，必須依靠強(qiáng)大的工具和技術(shù)。在本文中，我們將探討Python在大數(shù)據(jù)領(lǐng)域的應(yīng)用，重點(diǎn)介紹Hadoop、Spark和Pysp
2024年02月16日
瀏覽(27)
實(shí)時(shí)大數(shù)據(jù)流處理技術(shù)：Spark Streaming與Flink的深度對(duì)比
引言在當(dāng)前的大數(shù)據(jù)時(shí)代，企業(yè)和組織越來(lái)越多地依賴于實(shí)時(shí)數(shù)據(jù)流處理技術(shù)來(lái)洞察和響應(yīng)業(yè)務(wù)事件。實(shí)時(shí)數(shù)據(jù)流處理不僅能夠加快數(shù)據(jù)分析的速度，還能提高決策的效率和準(zhǔn)確性。Apache Spark Streaming和Apache Flink是目前兩個(gè)主要的實(shí)時(shí)數(shù)據(jù)流處理框架，它們各自擁有獨(dú)特的特
2024年03月10日
瀏覽(26)
數(shù)據(jù)存儲(chǔ)和分布式計(jì)算的實(shí)際應(yīng)用：如何使用Spark和Flink進(jìn)行數(shù)據(jù)處理和分析
作為一名人工智能專家，程序員和軟件架構(gòu)師，我經(jīng)常涉及到數(shù)據(jù)處理和分析。在當(dāng)前大數(shù)據(jù)和云計(jì)算的時(shí)代，分布式計(jì)算已經(jīng)成為了一個(gè)重要的技術(shù)方向。Spark和Flink是當(dāng)前比較流行的分布式計(jì)算框架，它們提供了強(qiáng)大的分布式計(jì)算和數(shù)據(jù)分析功能，為數(shù)據(jù)處理和分析提供了
2024年02月16日
瀏覽(92)
處理大數(shù)據(jù)的基礎(chǔ)架構(gòu)，OLTP和OLAP的區(qū)別，數(shù)據(jù)庫(kù)與Hadoop、Spark、Hive和Flink大數(shù)據(jù)技術(shù)
2022找工作是學(xué)歷、能力和運(yùn)氣的超強(qiáng)結(jié)合體，遇到寒冬，大廠不招人，可能很多算法學(xué)生都得去找開(kāi)發(fā)，測(cè)開(kāi) 測(cè)開(kāi)的話，你就得學(xué)數(shù)據(jù)庫(kù)，sql，oracle，尤其sql要學(xué)，當(dāng)然，像很多金融企業(yè)、安全機(jī)構(gòu)啥的，他們必須要用oracle數(shù)據(jù)庫(kù) 這oracle比sql安全，強(qiáng)大多了，所以你需要學(xué)
2024年02月08日
瀏覽(33)
海量遙感數(shù)據(jù)處理與GEE云計(jì)算技術(shù)應(yīng)用【基礎(chǔ)、進(jìn)階】
目前，GEE以其強(qiáng)大的功能受到了國(guó)外越來(lái)越多的科技工作者的重視和應(yīng)用，然而在國(guó)內(nèi)應(yīng)用還十分有限。應(yīng)廣大科學(xué)工作者的要求，本學(xué)習(xí)將結(jié)合具體范例，重點(diǎn)介紹利用GEE進(jìn)行數(shù)據(jù)處理的常用方法，并通過(guò)土地遙感信息提取進(jìn)行進(jìn)階訓(xùn)練，掌握實(shí)際操作能力。 ?海量遙感
2024年01月21日
瀏覽(34)
深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)的進(jìn)步在自然語(yǔ)言處理領(lǐng)域的應(yīng)用
隨著深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)的迅猛發(fā)展，自然語(yǔ)言處理（Natural Language Processing，NLP）取得了顯著的進(jìn)步。人們正在積極研究如何使計(jì)算機(jī)更好地理解和生成人類語(yǔ)言，并且在搜索引擎、語(yǔ)音助手、機(jī)器翻譯等領(lǐng)域廣泛應(yīng)用NLP技術(shù)。本文將重點(diǎn)探討深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)在NLP領(lǐng)
2024年01月23日
瀏覽(35)
什么是API網(wǎng)關(guān)，解釋API網(wǎng)關(guān)的作用和特點(diǎn)？解釋什么是數(shù)據(jù)流處理，如Apache Flink和Spark Streaming的應(yīng)用？
API網(wǎng)關(guān)是一種在分布式系統(tǒng)中的組件，用于管理不同系統(tǒng)之間的通信和交互。API網(wǎng)關(guān)的作用是在不同系統(tǒng)之間提供統(tǒng)一的接口和協(xié)議，從而簡(jiǎn)化系統(tǒng)之間的集成和互操作性。 API網(wǎng)關(guān)的特點(diǎn)包括：路由和分發(fā)請(qǐng)求：API網(wǎng)關(guān)可以根據(jù)請(qǐng)求的URL、方法、參數(shù)等信息，將請(qǐng)求分發(fā)到
2024年02月11日
瀏覽(26)
CMIP6數(shù)據(jù)處理及在氣候變化、水文、生態(tài)等領(lǐng)域中的實(shí)踐技術(shù)應(yīng)用
查看原文最新CMIP6數(shù)據(jù)處理及在氣候變化、水文、生態(tài)等領(lǐng)域中的實(shí)踐技術(shù)應(yīng)用氣候變化對(duì)農(nóng)業(yè)、生態(tài)系統(tǒng)、社會(huì)經(jīng)濟(jì)以及人類的生存與發(fā)展具有深遠(yuǎn)影響，是當(dāng)前全球關(guān)注的核心議題之一。IPCC（Intergovernmental Panel on Climate Change，政府間氣候變化專門委員會(huì)）的第六次評(píng)估報(bào)
2024年02月15日
瀏覽(29)
大數(shù)據(jù)處理：利用Spark進(jìn)行大規(guī)模數(shù)據(jù)處理
大數(shù)據(jù)處理是指對(duì)大規(guī)模、高速、多源、多樣化的數(shù)據(jù)進(jìn)行處理、分析和挖掘的過(guò)程。隨著互聯(lián)網(wǎng)、人工智能、物聯(lián)網(wǎng)等領(lǐng)域的發(fā)展，大數(shù)據(jù)處理技術(shù)已經(jīng)成為當(dāng)今科技的核心技術(shù)之一。Apache Spark是一個(gè)開(kāi)源的大數(shù)據(jù)處理框架，它可以處理批量數(shù)據(jù)和流式數(shù)據(jù)，并提供了一系
2024年03月22日
瀏覽(22)

国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Toy模板網(wǎng)

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

一、實(shí)驗(yàn)題目

二、實(shí)驗(yàn)?zāi)康?/h2>
1.熟悉Spark Shell的使用；
2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。

三、實(shí)驗(yàn)平臺(tái)

四、實(shí)驗(yàn)內(nèi)容和要求

1.Spark RDD部分：

2.Spark SQL部分（分別使用Spark SQL API和Spark DataFrames API完成）：

五、實(shí)驗(yàn)步驟

1. Spark RDD部分

1.1 讀取文件

1.2 統(tǒng)計(jì)"Spark"詞頻

1.3 統(tǒng)計(jì)空白行出現(xiàn)次數(shù)

2. Spark SQL部分

2.1 建立文件

2.2 Spark DataFrames API實(shí)現(xiàn)

2.3 Spark SQL API實(shí)現(xiàn)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)

二維碼1

二維碼2

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

一、實(shí)驗(yàn)題目

二、實(shí)驗(yàn)?zāi)康?/h2> 1.熟悉Spark Shell的使用； 2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。

三、實(shí)驗(yàn)平臺(tái)

四、實(shí)驗(yàn)內(nèi)容和要求

1.Spark RDD部分：

2.Spark SQL部分（分別使用Spark SQL API和Spark DataFrames API完成）：

五、實(shí)驗(yàn)步驟

1. Spark RDD部分

1.1 讀取文件

1.2 統(tǒng)計(jì)"Spark"詞頻

1.3 統(tǒng)計(jì)空白行出現(xiàn)次數(shù)

2. Spark SQL部分

2.1 建立文件

2.2 Spark DataFrames API實(shí)現(xiàn)

2.3 Spark SQL API實(shí)現(xiàn)

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)

二維碼1

二維碼2

大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

二、實(shí)驗(yàn)?zāi)康?/h2>
1.熟悉Spark Shell的使用；
2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。

四、實(shí)驗(yàn)內(nèi)容和要求

五、實(shí)驗(yàn)步驟

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)