国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

這篇具有很好參考價(jià)值的文章主要介紹了大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、實(shí)驗(yàn)題目

熟悉常用的Spark操作。

二、實(shí)驗(yàn)?zāi)康?/h2>

1.熟悉Spark Shell的使用;
2.熟悉常用的Spark RDD API、Spark SQL API和Spark DataFrames API。

三、實(shí)驗(yàn)平臺(tái)

操作系統(tǒng):Linux
Spark版本: 1.6
Hadoop版本: 3.3.0
JDK版本:1.8

四、實(shí)驗(yàn)內(nèi)容和要求

使用Spark shell完成如下習(xí)題:

1.Spark RDD部分:

a)讀取Spark安裝目錄下的文件README.md(/usr/local/spark/README.md);
b)統(tǒng)計(jì)包含“Spark”的單詞(區(qū)分大小寫)的出現(xiàn)次數(shù),給出執(zhí)行語(yǔ)句與結(jié)果截圖;
c)統(tǒng)計(jì)空白行的出現(xiàn)次數(shù),給出執(zhí)行語(yǔ)句與結(jié)果截圖。

2.Spark SQL部分(分別使用Spark SQL API和Spark DataFrames API完成):

a)在Spark安裝目錄下建立一個(gè)文件example.json,內(nèi)容如下:
{“name”: “Michael”, “age”: 25, “gender”: “male”}
{“name”: “Andy”, “age”: 30, “gender”: “female”}
{“name”: “Justin”, “age”: 19, “gender”: “female”}
b)讀取該文件(/usr/local/spark/example.json)
c)篩選性別為”female”的記錄并顯示結(jié)果,給出執(zhí)行語(yǔ)句與結(jié)果截圖;
d)統(tǒng)計(jì)性別為”male”和”female”的人數(shù)并顯示結(jié)果,給出執(zhí)行語(yǔ)句與結(jié)果截圖。
(提示:使用DataFrames API判斷字符串相等,應(yīng)使用”===”操作符;使用SQL API判斷字符串相等,應(yīng)使用”=”操作符)

五、實(shí)驗(yàn)步驟

1. Spark RDD部分

1.1 讀取文件

val textFile = sc.textFile("file:///usr/local/spark/README.md");

1.2 統(tǒng)計(jì)"Spark"詞頻

textFile.filter(word => word.contains("Spark")).count();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

1.3 統(tǒng)計(jì)空白行出現(xiàn)次數(shù)

textFile.flatMap(_.split("\n")).filter(_.size == 0) .count();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

2. Spark SQL部分

2.1 建立文件

路徑:/usr/local/spark/example.json
內(nèi)容:
{“name”: “Michael”, “age”: 25, “gender”: “male”}
{“name”: “Andy”, “age”: 30, “gender”: “female”}
{“name”: “Justin”, “age”: 19, “gender”: “female”}
大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

2.2 Spark DataFrames API實(shí)現(xiàn)

a)讀取文件

val df = sqlContext.read.json("file:///usr/local/spark/example.json");
df.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
b)篩選性別為"female"的記錄

df.filter(df("gender") === "female").show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
c)統(tǒng)計(jì)性別為"male"和"female"的人數(shù)

df.groupBy("gender").count().show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建

2.3 Spark SQL API實(shí)現(xiàn)

a)將df注冊(cè)為臨時(shí)表people

df.registerTempTable("people");

b)讀取文件

val result = sqlContext.sql("SELECT * FROM people");
result.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
c)篩選性別為"female"的記錄

val result = sqlContext.sql("SELECT * FROM people WHERE gender = 'female' ");
result.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建
d)統(tǒng)計(jì)性別為"male"和"female"的人數(shù)

val result = sqlContext.sql("SELECT gender, COUNT (*) AS count FROM people GROUP BY gender");
result.show();

大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-489469.html

到了這里,關(guān)于大數(shù)據(jù)技術(shù)原理與應(yīng)用 實(shí)驗(yàn)6 Spark數(shù)據(jù)處理系統(tǒng)的搭建的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Spark與其他大數(shù)據(jù)技術(shù)的集成:實(shí)現(xiàn)數(shù)據(jù)處理的融合

    大數(shù)據(jù)技術(shù)已經(jīng)成為當(dāng)今企業(yè)和組織中不可或缺的一部分。隨著數(shù)據(jù)的規(guī)模和復(fù)雜性的增加,需要更高效、可靠的數(shù)據(jù)處理和分析方法。Apache Spark作為一個(gè)開(kāi)源的大數(shù)據(jù)處理框架,已經(jīng)成為了許多企業(yè)和組織中的首選。然而,在實(shí)際應(yīng)用中,Spark往往需要與其他大數(shù)據(jù)技術(shù)進(jìn)

    2024年02月21日
    瀏覽(40)
  • Python與大數(shù)據(jù):Hadoop、Spark和Pyspark的應(yīng)用和數(shù)據(jù)處理技巧

    Python與大數(shù)據(jù):Hadoop、Spark和Pyspark的應(yīng)用和數(shù)據(jù)處理技巧

    ? 在當(dāng)今的數(shù)字時(shí)代,數(shù)據(jù)成為了無(wú)處不在的關(guān)鍵資源。大數(shù)據(jù)的崛起為企業(yè)提供了無(wú)限的機(jī)遇,同時(shí)也帶來(lái)了前所未有的挑戰(zhàn)。為了有效地處理和分析大規(guī)模數(shù)據(jù)集,必須依靠強(qiáng)大的工具和技術(shù)。在本文中,我們將探討Python在大數(shù)據(jù)領(lǐng)域的應(yīng)用,重點(diǎn)介紹Hadoop、Spark和Pysp

    2024年02月16日
    瀏覽(27)
  • 實(shí)時(shí)大數(shù)據(jù)流處理技術(shù):Spark Streaming與Flink的深度對(duì)比

    引言 在當(dāng)前的大數(shù)據(jù)時(shí)代,企業(yè)和組織越來(lái)越多地依賴于實(shí)時(shí)數(shù)據(jù)流處理技術(shù)來(lái)洞察和響應(yīng)業(yè)務(wù)事件。實(shí)時(shí)數(shù)據(jù)流處理不僅能夠加快數(shù)據(jù)分析的速度,還能提高決策的效率和準(zhǔn)確性。Apache Spark Streaming和Apache Flink是目前兩個(gè)主要的實(shí)時(shí)數(shù)據(jù)流處理框架,它們各自擁有獨(dú)特的特

    2024年03月10日
    瀏覽(26)
  • 數(shù)據(jù)存儲(chǔ)和分布式計(jì)算的實(shí)際應(yīng)用:如何使用Spark和Flink進(jìn)行數(shù)據(jù)處理和分析

    作為一名人工智能專家,程序員和軟件架構(gòu)師,我經(jīng)常涉及到數(shù)據(jù)處理和分析。在當(dāng)前大數(shù)據(jù)和云計(jì)算的時(shí)代,分布式計(jì)算已經(jīng)成為了一個(gè)重要的技術(shù)方向。Spark和Flink是當(dāng)前比較流行的分布式計(jì)算框架,它們提供了強(qiáng)大的分布式計(jì)算和數(shù)據(jù)分析功能,為數(shù)據(jù)處理和分析提供了

    2024年02月16日
    瀏覽(92)
  • 處理大數(shù)據(jù)的基礎(chǔ)架構(gòu),OLTP和OLAP的區(qū)別,數(shù)據(jù)庫(kù)與Hadoop、Spark、Hive和Flink大數(shù)據(jù)技術(shù)

    處理大數(shù)據(jù)的基礎(chǔ)架構(gòu),OLTP和OLAP的區(qū)別,數(shù)據(jù)庫(kù)與Hadoop、Spark、Hive和Flink大數(shù)據(jù)技術(shù)

    2022找工作是學(xué)歷、能力和運(yùn)氣的超強(qiáng)結(jié)合體,遇到寒冬,大廠不招人,可能很多算法學(xué)生都得去找開(kāi)發(fā),測(cè)開(kāi) 測(cè)開(kāi)的話,你就得學(xué)數(shù)據(jù)庫(kù),sql,oracle,尤其sql要學(xué),當(dāng)然,像很多金融企業(yè)、安全機(jī)構(gòu)啥的,他們必須要用oracle數(shù)據(jù)庫(kù) 這oracle比sql安全,強(qiáng)大多了,所以你需要學(xué)

    2024年02月08日
    瀏覽(33)
  • 海量遙感數(shù)據(jù)處理與GEE云計(jì)算技術(shù)應(yīng)用【基礎(chǔ)、進(jìn)階】

    海量遙感數(shù)據(jù)處理與GEE云計(jì)算技術(shù)應(yīng)用【基礎(chǔ)、進(jìn)階】

    目前,GEE以其強(qiáng)大的功能受到了國(guó)外越來(lái)越多的科技工作者的重視和應(yīng)用,然而在國(guó)內(nèi)應(yīng)用還十分有限。應(yīng)廣大科學(xué)工作者的要求,本學(xué)習(xí)將結(jié)合具體范例,重點(diǎn)介紹利用GEE進(jìn)行數(shù)據(jù)處理的常用方法,并通過(guò)土地遙感信息提取進(jìn)行進(jìn)階訓(xùn)練,掌握實(shí)際操作能力。 ?海 量 遙 感

    2024年01月21日
    瀏覽(34)
  • 深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)的進(jìn)步在自然語(yǔ)言處理領(lǐng)域的應(yīng)用

    隨著深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)的迅猛發(fā)展,自然語(yǔ)言處理(Natural Language Processing,NLP)取得了顯著的進(jìn)步。人們正在積極研究如何使計(jì)算機(jī)更好地理解和生成人類語(yǔ)言,并且在搜索引擎、語(yǔ)音助手、機(jī)器翻譯等領(lǐng)域廣泛應(yīng)用NLP技術(shù)。本文將重點(diǎn)探討深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)在NLP領(lǐng)

    2024年01月23日
    瀏覽(35)
  • 什么是API網(wǎng)關(guān),解釋API網(wǎng)關(guān)的作用和特點(diǎn)?解釋什么是數(shù)據(jù)流處理,如Apache Flink和Spark Streaming的應(yīng)用?

    API網(wǎng)關(guān)是一種在分布式系統(tǒng)中的組件,用于管理不同系統(tǒng)之間的通信和交互。API網(wǎng)關(guān)的作用是在不同系統(tǒng)之間提供統(tǒng)一的接口和協(xié)議,從而簡(jiǎn)化系統(tǒng)之間的集成和互操作性。 API網(wǎng)關(guān)的特點(diǎn)包括: 路由和分發(fā)請(qǐng)求:API網(wǎng)關(guān)可以根據(jù)請(qǐng)求的URL、方法、參數(shù)等信息,將請(qǐng)求分發(fā)到

    2024年02月11日
    瀏覽(26)
  • CMIP6數(shù)據(jù)處理及在氣候變化、水文、生態(tài)等領(lǐng)域中的實(shí)踐技術(shù)應(yīng)用

    CMIP6數(shù)據(jù)處理及在氣候變化、水文、生態(tài)等領(lǐng)域中的實(shí)踐技術(shù)應(yīng)用

    查看原文 最新CMIP6數(shù)據(jù)處理及在氣候變化、水文、生態(tài)等領(lǐng)域中的實(shí)踐技術(shù)應(yīng)用 氣候變化對(duì)農(nóng)業(yè)、生態(tài)系統(tǒng)、社會(huì)經(jīng)濟(jì)以及人類的生存與發(fā)展具有深遠(yuǎn)影響,是當(dāng)前全球關(guān)注的核心議題之一。IPCC(Intergovernmental Panel on Climate Change,政府間氣候變化專門委員會(huì))的第六次評(píng)估報(bào)

    2024年02月15日
    瀏覽(29)
  • 大數(shù)據(jù)處理:利用Spark進(jìn)行大規(guī)模數(shù)據(jù)處理

    大數(shù)據(jù)處理是指對(duì)大規(guī)模、高速、多源、多樣化的數(shù)據(jù)進(jìn)行處理、分析和挖掘的過(guò)程。隨著互聯(lián)網(wǎng)、人工智能、物聯(lián)網(wǎng)等領(lǐng)域的發(fā)展,大數(shù)據(jù)處理技術(shù)已經(jīng)成為當(dāng)今科技的核心技術(shù)之一。Apache Spark是一個(gè)開(kāi)源的大數(shù)據(jù)處理框架,它可以處理批量數(shù)據(jù)和流式數(shù)據(jù),并提供了一系

    2024年03月22日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包