国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第二章 Spark基礎(chǔ)-05）

2年前作者：想你依然心痛分類：Toy博客閱讀(100)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第二章 Spark基礎(chǔ)-05）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

每日一句正能量

成長(zhǎng)是一條必走的路路上我們傷痛在所難免。

前言

在大數(shù)據(jù)處理和分析領(lǐng)域，Spark被廣泛應(yīng)用于解決海量數(shù)據(jù)處理和實(shí)時(shí)計(jì)算的挑戰(zhàn)。作為一個(gè)快速、可擴(kuò)展且易于使用的分布式計(jì)算框架，Spark為開(kāi)發(fā)人員提供了豐富的API和工具來(lái)處理和分析大規(guī)模數(shù)據(jù)集。

其中，Spark-Shell是Spark提供的一個(gè)交互式工具，它基于Scala語(yǔ)言，使得用戶能夠更加靈活和便捷地與Spark進(jìn)行交互。通過(guò)Spark-Shell，我們可以直接在命令行終端中編寫(xiě)和執(zhí)行Spark代碼，進(jìn)行數(shù)據(jù)探索和處理，以及進(jìn)行實(shí)時(shí)數(shù)據(jù)分析。

啟動(dòng)Spark-Shell只需幾個(gè)簡(jiǎn)單的步驟，然后我們就可以享受到交互式數(shù)據(jù)分析和開(kāi)發(fā)的樂(lè)趣。一旦啟動(dòng)了Spark-Shell，我們可以使用各種Spark命令來(lái)操作和處理數(shù)據(jù)，包括數(shù)據(jù)加載、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析等。

本次教程將帶領(lǐng)你快速啟動(dòng)Spark-Shell，并介紹一些常用的Spark命令，幫助你更好地利用Spark進(jìn)行數(shù)據(jù)處理和分析。無(wú)論你是數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家還是對(duì)大數(shù)據(jù)感興趣的初學(xué)者，本教程都將為你提供一個(gè)良好的起點(diǎn)，讓你能夠盡快上手Spark-Shell，并利用其強(qiáng)大的功能來(lái)解決實(shí)際問(wèn)題。

讓我們一起開(kāi)始探索Spark-Shell的奇妙世界吧！

2.5 啟動(dòng)Spark-Shell

Spark-Shell是一個(gè)強(qiáng)大的交互式數(shù)據(jù)分析工具，初學(xué)者可以很好的使用它來(lái)學(xué)習(xí)相關(guān)API，用戶可以在命令行下使用Scala編寫(xiě)Spark程序，并且每當(dāng)輸入一條語(yǔ)句，Spark-Shell就會(huì)立即執(zhí)行語(yǔ)句并返回結(jié)果，這就是我們所說(shuō)的REPL（Read-Eval-Print Loop，交互式解釋器），Spark-Shell支持Scala和Python，如果需要進(jìn)入Python語(yǔ)言的交互式執(zhí)行環(huán)境，只需要執(zhí)行“pyspark”命令即可。

2.5.1 運(yùn)行Spark-Shell命令

在spark/bin目錄中，執(zhí)行下列命令進(jìn)入Spark-Shell交互環(huán)境：
bin/spark-shell --master <master-url>

–master”表示指定當(dāng)前連接的Master節(jié)點(diǎn)
用于指定Spark的運(yùn)行模式

可取的詳細(xì)值如下所示。
Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第二章 Spark基礎(chǔ)-05）,spark,數(shù)據(jù)分析,筆記
如需查詢Spark-Shell的更多使用方式可以執(zhí)行“–help命令“獲取幫助選項(xiàng)列表,如下圖所示。

2.5.2 運(yùn)行Spark-Shell讀取HDFS文件

下面通過(guò)啟動(dòng)Spark-Shell,并組使用Scala語(yǔ)言開(kāi)發(fā)單詞計(jì)數(shù)的Spark程序,現(xiàn)有文本文件words.txt (讀者需要使用vi words.txt命令在本地創(chuàng)建文件并上傳至指定目錄)在HDFS中的/spark/test路徑下，且文本內(nèi)容如下。

hello hadoop
hello spark
hellp itcast

使用 hadoop fs -mkdir -p /spark/test命令創(chuàng)建文件夾，使用 hadoop fs -put words.txt /spark/test命令上傳文件。

如果使用Spark Shell來(lái)讀取HDFS中的/spark/test/ words.txt文件，具體步驟如下:

整合Spark和HDFS。

Spark加載HDFS上的文件,需要修改spark-env.sh配置文件，添加HADOOP_CONF_ DIR配置參數(shù)，指定Hadoop配置文件的目錄，添加配置參數(shù)如下。

#指定HDFS配置文件目錄
export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop

在Hadoop01上修改后，將該spark-env.sh配置文件分發(fā)給hadoop02和hadoop03。命令如下

scp spark-env.sh hadoop02:/export/servers/spark/conf/
scp spark-env.sh hadoop03:/export/servers/spark/conf/

啟動(dòng)Hadoop、Spark服務(wù)。

配置完畢后，啟動(dòng)Hadoop集群服務(wù),并重新啟動(dòng)Spark集群服務(wù)，使配置文件生效。

要重啟Hadoop，先要停掉Hadoop。
重啟Hadoop。
查看jps。

要先將它停了。返回上一級(jí)目錄，停掉spark，如下圖所示：

重啟spark。如下圖所示：

啟動(dòng)Spark –Shell編寫(xiě)程序。
啟動(dòng)Spark-Shell交互式界面，執(zhí)行命令如下。
bin/spark-shell --master local[2]
執(zhí)行上述命令, Spark-Shell啟動(dòng)成功后，就會(huì)進(jìn)入如下圖所示的程序交互界面。

SparkShell本身就是一個(gè)Driver, 它會(huì)初始化-個(gè)SparkContext對(duì)象為“sc”，用戶可以直接調(diào)用。下面編寫(xiě)Scala代碼實(shí)現(xiàn)單詞計(jì)數(shù)，具體代碼如下。

scala > sc.textFile("/spark/test/words.txt").
flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res0: Array[(String, Int)] = Array((itcast,1), (hello,3), (spark,1), (hadoop,1))

上述代碼中，res0表示返回的結(jié)果對(duì)象，該對(duì)象中是一個(gè)Array[ ](String, Int)]類型的集合, (itcast, 1)則表示"itcast"單詞總計(jì)為1個(gè)。

4.退出Spark-Shell客戶端。

可以使用命令“:quit”退出Spark-Shell，如下所示。
scala > :quit
也可以使用快捷鍵“Ctrl+D"，退出Spark Shell。

后記

在本次對(duì)Spark-Shell的啟動(dòng)和運(yùn)行命令的介紹中，我們學(xué)習(xí)了如何啟動(dòng)Spark-Shell并運(yùn)行Spark命令。

Spark-Shell是一個(gè)強(qiáng)大的交互式工具，可以讓我們快速地嘗試和測(cè)試Spark代碼，以及進(jìn)行數(shù)據(jù)探索和分析。通過(guò)在Spark-Shell中編寫(xiě)和運(yùn)行Spark命令，我們可以使用Spark的分布式計(jì)算能力來(lái)處理大規(guī)模的數(shù)據(jù)，進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、建模和分析等操作。

了解Spark-Shell的基本使用方法和常見(jiàn)的Spark命令對(duì)于進(jìn)行Spark開(kāi)發(fā)和數(shù)據(jù)處理非常重要。在實(shí)際應(yīng)用中，可以根據(jù)具體需求使用Spark-Shell來(lái)進(jìn)行交互式數(shù)據(jù)分析和開(kāi)發(fā)，從而提高工作效率。

在使用Spark-Shell時(shí)，我們還可以使用其他輔助工具和庫(kù)來(lái)增強(qiáng)其功能，如使用Spark SQL進(jìn)行SQL查詢和分析、使用Spark Streaming進(jìn)行實(shí)時(shí)數(shù)據(jù)處理、使用Spark MLlib進(jìn)行機(jī)器學(xué)習(xí)等。

通過(guò)不斷學(xué)習(xí)和探索，我們可以更好地掌握Spark-Shell的使用技巧，并將其應(yīng)用于實(shí)際項(xiàng)目中。希望本次介紹能夠幫助你快速入門(mén)和使用Spark-Shell，并在Spark開(kāi)發(fā)中取得更好的成果。

轉(zhuǎn)載自：
歡迎 ??點(diǎn)贊?評(píng)論?收藏，歡迎指正文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-777267.html

到了這里，關(guān)于Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第二章 Spark基礎(chǔ)-05）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

NanoEdge AI Studio 教程第二章--異常數(shù)據(jù)分析
OK，好久不見(jiàn)，各位，最近挺忙，歡迎回來(lái)。讓我們開(kāi)始第二章節(jié)，異常判斷。目錄一 Nano Edge AI Studio 簡(jiǎn)單概述二異常判斷 1.工程選擇 2.進(jìn)行工程設(shè)置 2.1 MCU選擇 2.2 數(shù)據(jù)設(shè)定 3.輸入數(shù)據(jù) 4.模型訓(xùn)練 5.驗(yàn)證 6.生成模型 7.布置模型 NanoEdge AI Studio主要可以實(shí)現(xiàn)的功能主要分為四
2024年04月17日
瀏覽(24)
從零開(kāi)始學(xué)數(shù)據(jù)分析之——《線性代數(shù)》第二章矩陣
元素全為實(shí)數(shù)的矩陣稱為實(shí)矩陣 ?元素全為負(fù)數(shù)的矩陣稱為復(fù)矩陣只有一行（列）的矩陣稱為行（列）矩陣元素全為零的矩陣稱為零矩陣行數(shù)和列數(shù)都等于n的矩陣稱為n階矩陣或n階方陣主對(duì)角線元素全為1，其余元素全為0的矩陣稱為單位矩陣，記作E或I 兩個(gè)矩陣行數(shù)和列數(shù)
2023年04月23日
瀏覽(26)
Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第三章 Spark RDD 彈性分布式數(shù)據(jù)集-02）
人生很長(zhǎng)，不必慌張。你未長(zhǎng)大，我要擔(dān)當(dāng)。傳統(tǒng)的MapReduce雖然具有自動(dòng)容錯(cuò)、平衡負(fù)載和可拓展性的優(yōu)點(diǎn)，但是其最大缺點(diǎn)是采用非循環(huán)式的數(shù)據(jù)流模型，使得在迭代計(jì)算式要進(jìn)行大量的磁盤(pán)IO操作。Spark中的RDD可以很好的解決這一缺點(diǎn)。 RDD是Spark提供的最重要的抽象概念
2024年02月22日
瀏覽(373)
Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第一章 Scala語(yǔ)言基礎(chǔ)-3）
對(duì)于每一門(mén)編程語(yǔ)言來(lái)說(shuō)，數(shù)組（Array）都是重要的數(shù)據(jù)結(jié)構(gòu)之一，主要用來(lái)存儲(chǔ)數(shù)據(jù)類型相同的元素。Scala中的數(shù)組分為定長(zhǎng)數(shù)組和變長(zhǎng)數(shù)組，定義定長(zhǎng)數(shù)組，需要使用new，而定義變長(zhǎng)數(shù)組時(shí)，則需要導(dǎo)包 import scala.collection.mutable.ArrayBuffer 。數(shù)組（Array）主要用來(lái)存儲(chǔ)
2024年02月10日
瀏覽(84)
Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第一章 Scala語(yǔ)言基礎(chǔ)-1）
Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎，它是由Scala語(yǔ)言開(kāi)發(fā)實(shí)現(xiàn)的，關(guān)于大數(shù)據(jù)技術(shù)，本身就是計(jì)算數(shù)據(jù)，而Scala既有面向?qū)ο蠼M織項(xiàng)目工程的能力，又具備計(jì)算數(shù)據(jù)的功能，同時(shí)Spark和Scala的緊密集成，本書(shū)將采用Scala語(yǔ)言開(kāi)發(fā)Spark程序，所以學(xué)好Scala將有助
2024年02月11日
瀏覽(102)
Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)筆記（第一章 Scala語(yǔ)言基礎(chǔ)-2）
Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎，它是由Scala語(yǔ)言開(kāi)發(fā)實(shí)現(xiàn)的，關(guān)于大數(shù)據(jù)技術(shù)，本身就是計(jì)算數(shù)據(jù)，而Scala既有面向?qū)ο蠼M織項(xiàng)目工程的能力，又具備計(jì)算數(shù)據(jù)的功能，同時(shí)Spark和Scala的緊密集成，本書(shū)將采用Scala語(yǔ)言開(kāi)發(fā)Spark程序，所以學(xué)好Scala將有助
2024年02月11日
瀏覽(92)
Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)課后答案
一、填空題 1、Scala語(yǔ)言的特性包含面向?qū)ο缶幊?、函數(shù)式編程的、靜態(tài)類型的、可擴(kuò)展的、可以交互操作的。 2、在Scala數(shù)據(jù)類型層級(jí)結(jié)構(gòu)的底部有兩個(gè)數(shù)據(jù)類型，分別是 Nothing 和 Null 。 3、在Scala中，聲明變量的有 var 聲明變量和 val 聲明常量。 4、在Scala中，獲取
2024年01月17日
瀏覽(95)
企業(yè)Spark案例--酒店數(shù)據(jù)分析實(shí)戰(zhàn)提交
第1關(guān)：數(shù)據(jù)清洗--過(guò)濾字段長(zhǎng)度不足的且將出生日期轉(zhuǎn)： package?com.yy ? import?org.apache.spark.rdd.RDD import?org.apache.spark.sql.{DataFrame,?Dataset,?SparkSession} object?edu{ ????/**********Begin**********/ ????//?此處可填寫(xiě)相關(guān)代碼 ????case?class?Person(id:String,Name:String,CtfTp:String,CtfId:String,G
2024年02月09日
瀏覽(111)
Spark大數(shù)據(jù)分析與實(shí)戰(zhàn)課后習(xí)題參考答案
項(xiàng)目一：一、選擇題 DCCDAD 二、簡(jiǎn)答題 1、Hadoop MapReduce要求每個(gè)步驟間的數(shù)據(jù)序列化到磁盤(pán)，所以I/O成本很高，導(dǎo)致交互分析和迭代算法開(kāi)銷很大；Spark 提供了內(nèi)存計(jì)算，把中間結(jié)果放到內(nèi)存中，帶來(lái)了更高的迭代運(yùn)算效率。通過(guò)支持有向無(wú)環(huán)圖（DAG）的分布式并行計(jì)算的編
2024年02月11日
瀏覽(23)
大數(shù)據(jù)實(shí)戰(zhàn)（hadoop+spark+python）：淘寶電商數(shù)據(jù)分析
虛擬機(jī)：Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python，pyspark, pandas，matplotlib mysql，mysql-connector-j-8.0.32.jar（下載不需要積分什么的）淘寶用戶數(shù)據(jù) 以上的技術(shù)積累需要自行完成創(chuàng)建容器（##ubuntu的代碼塊，在ubuntu中運(yùn)行，無(wú)特殊說(shuō)明的在docker中運(yùn)行）更新軟件
2024年02月11日
瀏覽(31)