国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<optgroup id="8rvnx"><strike id="8rvnx"></strike></optgroup>

<tfoot id="8rvnx"></tfoot>

<tfoot id="8rvnx"><object id="8rvnx"><big id="8rvnx"></big></object></tfoot>

大數(shù)據(jù)編程實(shí)驗(yàn)一：HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)

1年前作者：-北天-分類：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了大數(shù)據(jù)編程實(shí)驗(yàn)一：HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

大數(shù)據(jù)編程實(shí)驗(yàn)一：HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)

一、前言

這是我們大數(shù)據(jù)專業(yè)開(kāi)設(shè)的第二門(mén)課程——大數(shù)據(jù)編程，使用的參考書(shū)是《Spark編程基礎(chǔ)》，這門(mén)課跟大數(shù)據(jù)技術(shù)基礎(chǔ)是分開(kāi)學(xué)習(xí)的，但這門(mén)課是用的我們自己在電腦上搭建的虛擬環(huán)境進(jìn)行實(shí)驗(yàn)的，不是在那個(gè)平臺(tái)上，而且搭建的還是偽分布式，這門(mén)課主要偏向于有關(guān)大數(shù)據(jù)編程方面的，而且使用的編程語(yǔ)言是Python。

我上課的時(shí)候也沒(méi)有怎么聽(tīng)，所以我再自己做一遍實(shí)驗(yàn)。

二、實(shí)驗(yàn)?zāi)康呐c要求

掌握在Linux虛擬機(jī)中安裝Hadoop和Spark的方法
熟悉HDFS的基本使用方法
掌握使用Spark訪問(wèn)本地文件和HDFS文件的方法

三、實(shí)驗(yàn)內(nèi)容

安裝Hadoop和Spark

進(jìn)入Linux系統(tǒng)，完成Hadoop偽分布式模式的安裝。完成Hadoop的安裝以后，再安裝Spark（Local模式）。
HDFS常用操作

使用Hadoop提供的Shell命令完成如下操作：
- 啟動(dòng)Hadoop，在HDFS中創(chuàng)建用戶目錄“/user/hadoop”
- 在Linux系統(tǒng)的本地文件系統(tǒng)的“/home/hadoop”目錄下新建一個(gè)文本文件test.txt，并在該文件中隨便輸入一些內(nèi)容，然后上傳到HDFS的“/user/hadoop”目錄下
- 把HDFS中“/user/hadoop”目錄下的test.txt文件，下載到Linux系統(tǒng)的本地文件系統(tǒng)中的“/home/hadoop/下載”目錄下
- 將HDFS中“/user/hadoop”目錄下的test.txt文件的內(nèi)容輸出到終端中進(jìn)行顯示
- 在HDFS中的“/user/hadoop”目錄下，創(chuàng)建子目錄input，把HDFS中“/user/hadoop”目錄下的test.txt文件，復(fù)制到“/user/hadoop/input”目錄下
- 刪除HDFS中“/user/hadoop”目錄下的test.txt文件，刪除HDFS中“/user/hadoop”目錄下的input子目錄及其子目錄下的所有內(nèi)容
Spark讀取文件系統(tǒng)的數(shù)據(jù)
- 在pyspark中讀取Linux系統(tǒng)本地文件“/home/hadoop/test.txt”，然后統(tǒng)計(jì)出文件的行數(shù)
- 在pyspark中讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”（如果該文件不存在，請(qǐng)先創(chuàng)建），然后，統(tǒng)計(jì)出文件的行數(shù)
- 編寫(xiě)?yīng)毩?yīng)用程序，讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”（如果該文件不存在，請(qǐng)先創(chuàng)建），然后，統(tǒng)計(jì)出文件的行數(shù)；通過(guò) spark-submit 提交到 Spark 中運(yùn)行程序

四、實(shí)驗(yàn)步驟

這里我們已經(jīng)提前在課上安裝好Hadoop和Spark，所以就不演示了，如果不會(huì)的話可以上網(wǎng)查閱一下有很多教程或者等我后面有空寫(xiě)一遍博客也許，我得先把實(shí)驗(yàn)做完才行。

我們直接進(jìn)行后面兩個(gè)步驟。

1、HDFS常用操作

首先啟動(dòng)Hadoop集群，我們輸入如下命令進(jìn)入到hadoop的sbin目錄下面，然后執(zhí)行啟動(dòng)指令：

cd /usr/local/servers/hadoop/sbin/
start-dfs.sh

然后使用jps查看進(jìn)程驗(yàn)證是否啟動(dòng)成功：

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

然后我們?cè)龠M(jìn)入hadoop目錄下的bin目錄中，輸入如下命令創(chuàng)建用戶目錄“/user/hadoop”：

hdfs dfs -mkdir -p /user/hadoop

然后我們?cè)趍aster主機(jī)內(nèi)的“/home/hadoop”目錄下新建一個(gè)文本文件test.txt：

vi /home/hadoop/test.txt

然后再文件中隨便輸入一些內(nèi)容：

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

然后我們我們重新進(jìn)入hadoop的bin目錄中并將這個(gè)文件上傳到HDFS的“/user/hadoop”目錄下：

hdfs dfs -put /home/hadoop/test.txt /user/hadoop

查看一些我們是否成功上傳到HDFS中：

hdfs dfs -ls /user/hadoop

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

可以看出我們上傳成功了。

然后我們?cè)偻ㄟ^(guò)如下命令把HDFS中“/user/hadoop”目錄下的test.txt文件，下載到Linux系統(tǒng)的本地文件系統(tǒng)中的“/home/hadoop/下載”目錄下：

hdfs dfs -get /user/hadoop/test.txt /home/hadoop/

然后我們使用如下命令將HDFS中“/user/hadoop”目錄下的test.txt文件的內(nèi)容輸出到終端中進(jìn)行顯示：

hdfs dfs -cat /user/hadoop/test.txt

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

我們?cè)僭贖DFS中的“/user/hadoop”目錄下，創(chuàng)建子目錄input：

 hdfs dfs -mkdir /user/hadoop/input

并把HDFS中“/user/hadoop”目錄下的test.txt文件，復(fù)制到“/user/hadoop/input”目錄下：

hdfs dfs -cp /user/hadoop/test.txt /user/hadoop/input/

并查看一下是否復(fù)制成功：

hdfs dfs -ls /user/hadoop/input

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

最后我們刪除HDFS中“/user/hadoop”目錄下的test.txt文件：

hdfs dfs -rm -r /user/hadoop/test.txt

并刪除HDFS中“/user/hadoop”目錄下的input子目錄及其子目錄下的所有內(nèi)容：

hdfs dfs -rm -r /user/hadoop/input

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

2、Spark讀取文件系統(tǒng)的數(shù)據(jù)

我們首先啟動(dòng)pyspark：

cd /usr/local/spark/bin/
pyspark

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

啟動(dòng)pyspark之后我們就可以直接在這里面進(jìn)行編程。

我們?cè)趐yspark中讀取Linux系統(tǒng)本地文件“/home/hadoop/test.txt”，然后統(tǒng)計(jì)出文件的行數(shù)：

lines = sc.textFile("file:/home/hadoop/test.txt")
lines.count()

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

然后我們?cè)趐yspark中讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”（如果該文件不存在，請(qǐng)先創(chuàng)建），然后，統(tǒng)計(jì)出文件的行數(shù)：

lines = sc.textFile("/user/hadoop/test.txt")
lines.count()

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

最后我們先在/home/hadoop中創(chuàng)建一個(gè)py文件并編寫(xiě)?yīng)毩?yīng)用程序，讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”（如果該文件不存在，請(qǐng)先創(chuàng)建），然后統(tǒng)計(jì)出文件的行數(shù)：

sudo vi st-app.py

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

最后通過(guò) spark-submit 提交到 Spark 中運(yùn)行程序：

/usr/local/spark/bin/spark-submit --master local[4] st-app.py 2>&1 | grep "The HDFS"

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

五、最后我想說(shuō)

到這里本次實(shí)驗(yàn)就結(jié)束了，我重新做了一遍加深了一下印象，也更加熟練的使用這些Linux命令了。

后面一個(gè)實(shí)驗(yàn)就是RDD編程，我馬上就會(huì)更新，Hold on！文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-846546.html

到了這里，關(guān)于大數(shù)據(jù)編程實(shí)驗(yàn)一：HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Spark讀取HDFS路徑文件
有些時(shí)候我們希望直接讀取HDFS上的文件進(jìn)行處理，那么我們可以使用 textFile 這個(gè)方法，這個(gè)方法可以將指定路徑的文件將其讀出，然后轉(zhuǎn)化為Spark中的RDD數(shù)據(jù)類型。 textFile 是 Spark 中的一個(gè)函數(shù)，用于從文本文件中讀取數(shù)據(jù)并創(chuàng)建一個(gè) RDD。它可以用于加載文本數(shù)據(jù)，并將每行
2024年02月05日
瀏覽(26)
大數(shù)據(jù)技術(shù)原理及應(yīng)用課實(shí)驗(yàn)2 ：熟悉常用的HDFS操作
實(shí)驗(yàn)2 ?熟悉常用的HDFS操作目錄實(shí)驗(yàn)2 ?熟悉常用的HDFS操作一、實(shí)驗(yàn)?zāi)康?二、實(shí)驗(yàn)平臺(tái) 三、實(shí)驗(yàn)步驟（每個(gè)步驟下均需有運(yùn)行截圖）（一）編程實(shí)現(xiàn)以下功能，并利用Hadoop提供的Shell命令完成相同任務(wù)：（1）向HDFS中上傳任意文本文件，如果指定的文件在HDFS中已經(jīng)存在，則
2024年04月14日
瀏覽(36)
熟悉常用的HDFS操作（大數(shù)據(jù)技術(shù)原理與應(yīng)用-第三章實(shí)驗(yàn)）
首先啟動(dòng)Hadoop，命令如下：在終端輸入如下命令，查看 hdfs dfs 總共支持哪些操作：上述命令執(zhí)行后，會(huì)顯示如下的結(jié)果：如果顯示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable ，說(shuō)明環(huán)境變量 JAVA_LIBRARY_PATH 并未定義，首
2024年02月01日
瀏覽(20)
Spark - 獲取一定時(shí)間內(nèi)的 Hdfs 全部文件并讀取
目錄一.引言二.獲取 Interval 內(nèi)文件 1.獲取 FileSystem 2.獲取全部 File 3.讀取 Hdfs File 有一個(gè)需求要求定時(shí)獲取距離目前時(shí)間 Interval 范圍之內(nèi)的文件并讀取，例如現(xiàn)在是 7:00，interval 為 30 min，則我們需要讀取 6:30 - 7:00 的全部文件并讀取。這里思路是通過(guò) FileSystem 獲取文件的 modo
2024年02月06日
瀏覽(20)
實(shí)驗(yàn)2熟悉常用的HDFS操作
（1）理解HDFS在Hadoop體系結(jié)構(gòu)中的角色；（2）熟練使用HDFS操作常用的Shell命令；（3）熟悉HDFS操作常用的Java API。（1）操作系統(tǒng)：Linux；（2）Hadoop版本：2.7.4 ；（3）JDK版本1.8；（4）Java IDE：eclipse ?。（一）編程實(shí)現(xiàn)以下功能，并利用Hadoop提供的Shell命令完成相同任務(wù)：
2023年04月18日
瀏覽(26)
大數(shù)據(jù)實(shí)驗(yàn) 實(shí)驗(yàn)二：熟悉HDFS常用操作
附件中有word版本的實(shí)驗(yàn)報(bào)告理解HDFS在Hadoop體系結(jié)構(gòu)中的角色。熟練使用HDFS操作常用的Shell命令。熟悉HDFS操作常用的Java API。 Oracle VM VirtualBox虛擬機(jī) 系統(tǒng)版本centos7 JDK1.8版本 Hadoop-3.1.3 Windows11 Java IDE：IDEA 1.向HDFS中上傳任意文本文件，如果指定的文件在HDFS中已經(jīng)存在，由用戶
2024年04月12日
瀏覽(27)
云計(jì)算技術(shù) 實(shí)驗(yàn)四 HDFS操作方法和基礎(chǔ)編程
參考資料為：教材代碼-林子雨編著《大數(shù)據(jù)基礎(chǔ)編程、實(shí)驗(yàn)和案例教程（第2版）》教材所有章節(jié)代碼_廈大數(shù)據(jù)庫(kù)實(shí)驗(yàn)室博客 1 . 實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí) 2 . 實(shí)驗(yàn)?zāi)康?熟悉HDFS的基本shell命令熟悉HDFS的web管理掌握HDFS編程實(shí)踐 3 . 實(shí)驗(yàn)內(nèi)容（一）參考實(shí)驗(yàn)指南的內(nèi)容，完成相關(guān)的HDF
2024年02月08日
瀏覽(24)
大數(shù)據(jù)技術(shù)基礎(chǔ)實(shí)驗(yàn)四：HDFS實(shí)驗(yàn)——讀寫(xiě)HDFS文件
在前面的實(shí)驗(yàn)中我們進(jìn)行了HDFS的部署，并設(shè)置了一鍵啟動(dòng)HDFS操作，本期實(shí)驗(yàn)我們將使用HDFS開(kāi)發(fā)環(huán)境進(jìn)行HDFS寫(xiě)、讀的編寫(xiě)，以及程序的運(yùn)行，了解HDFS讀寫(xiě)文件的調(diào)用流程，理解HDFS讀寫(xiě)文件的原理。好啦廢話不多說(shuō)，我們開(kāi)始今天的實(shí)驗(yàn)操作。會(huì)在Linux環(huán)境下編寫(xiě)讀寫(xiě)HDFS文
2023年04月16日
瀏覽(21)
大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)指南——HDFS JAVA API編程實(shí)踐
1. 實(shí)驗(yàn)?zāi)康?（1）熟練使用HDFS操作常用的Shell命令。（2）熟悉HDFS操作常用的Java API。 2. 實(shí)驗(yàn)內(nèi)容（1）編程實(shí)現(xiàn)指定功能，并利用Hadoop提供的Shell命令完成相同任務(wù)（文件的上傳、下載、輸出、刪除、移動(dòng)等操作）。（2）有余力編寫(xiě)一個(gè)Java程序，讀取HDFS中的指定文件。
2024年02月19日
瀏覽(20)
Spark流式讀取文件數(shù)據(jù)
流式讀取文件數(shù)據(jù) from pyspark.sql import SparkSession ss = SparkSession.builder.getOrCreate() df_csv = ss.readStream.csv(‘hdfs://node1:8020/目錄’) df_json = ss.readStream.json(‘hdfs://node1:8020/目錄’) options2 ={ ‘host’:‘192.168.88.100’, ‘port’:9999 } options={ # 每個(gè)批次讀取1個(gè)文件 ‘maxFilesPerTrigger’:1, ‘lat
2024年01月21日
瀏覽(28)

<thead id="jtngf"></thead>