国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù)編程實(shí)驗(yàn)一:HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)

這篇具有很好參考價(jià)值的文章主要介紹了大數(shù)據(jù)編程實(shí)驗(yàn)一:HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

大數(shù)據(jù)編程實(shí)驗(yàn)一:HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)

一、前言

這是我們大數(shù)據(jù)專業(yè)開(kāi)設(shè)的第二門(mén)課程——大數(shù)據(jù)編程,使用的參考書(shū)是《Spark編程基礎(chǔ)》,這門(mén)課跟大數(shù)據(jù)技術(shù)基礎(chǔ)是分開(kāi)學(xué)習(xí)的,但這門(mén)課是用的我們自己在電腦上搭建的虛擬環(huán)境進(jìn)行實(shí)驗(yàn)的,不是在那個(gè)平臺(tái)上,而且搭建的還是偽分布式,這門(mén)課主要偏向于有關(guān)大數(shù)據(jù)編程方面的,而且使用的編程語(yǔ)言是Python。

我上課的時(shí)候也沒(méi)有怎么聽(tīng),所以我再自己做一遍實(shí)驗(yàn)。

二、實(shí)驗(yàn)?zāi)康呐c要求

  1. 掌握在Linux虛擬機(jī)中安裝Hadoop和Spark的方法
  2. 熟悉HDFS的基本使用方法
  3. 掌握使用Spark訪問(wèn)本地文件和HDFS文件的方法

三、實(shí)驗(yàn)內(nèi)容

  1. 安裝Hadoop和Spark

    進(jìn)入Linux系統(tǒng),完成Hadoop偽分布式模式的安裝。完成Hadoop的安裝以后,再安裝Spark(Local模式)。

  2. HDFS常用操作

    使用Hadoop提供的Shell命令完成如下操作:

    • 啟動(dòng)Hadoop,在HDFS中創(chuàng)建用戶目錄“/user/hadoop”
    • 在Linux系統(tǒng)的本地文件系統(tǒng)的“/home/hadoop”目錄下新建一個(gè)文本文件test.txt,并在該文件中隨便輸入一些內(nèi)容,然后上傳到HDFS的“/user/hadoop”目錄下
    • 把HDFS中“/user/hadoop”目錄下的test.txt文件,下載到Linux系統(tǒng)的本地文件系統(tǒng)中的“/home/hadoop/下載”目錄下
    • 將HDFS中“/user/hadoop”目錄下的test.txt文件的內(nèi)容輸出到終端中進(jìn)行顯示
    • 在HDFS中的“/user/hadoop”目錄下,創(chuàng)建子目錄input,把HDFS中“/user/hadoop”目錄下的test.txt文件,復(fù)制到“/user/hadoop/input”目錄下
    • 刪除HDFS中“/user/hadoop”目錄下的test.txt文件,刪除HDFS中“/user/hadoop”目錄下的input子目錄及其子目錄下的所有內(nèi)容
  3. Spark讀取文件系統(tǒng)的數(shù)據(jù)

    • 在pyspark中讀取Linux系統(tǒng)本地文件“/home/hadoop/test.txt”,然后統(tǒng)計(jì)出文件的行數(shù)
    • 在pyspark中讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”(如果該文件不存在,請(qǐng)先創(chuàng)建),然后,統(tǒng)計(jì)出文件的行數(shù)
    • 編寫(xiě)?yīng)毩?yīng)用程序,讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”(如果該文件不存在,請(qǐng)先創(chuàng)建),然后,統(tǒng)計(jì)出文件的行數(shù);通過(guò) spark-submit 提交到 Spark 中運(yùn)行程序

四、實(shí)驗(yàn)步驟

這里我們已經(jīng)提前在課上安裝好Hadoop和Spark,所以就不演示了,如果不會(huì)的話可以上網(wǎng)查閱一下有很多教程或者等我后面有空寫(xiě)一遍博客也許,我得先把實(shí)驗(yàn)做完才行。

我們直接進(jìn)行后面兩個(gè)步驟。

1、HDFS常用操作

首先啟動(dòng)Hadoop集群,我們輸入如下命令進(jìn)入到hadoop的sbin目錄下面,然后執(zhí)行啟動(dòng)指令:

cd /usr/local/servers/hadoop/sbin/
start-dfs.sh

然后使用jps查看進(jìn)程驗(yàn)證是否啟動(dòng)成功:

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

然后我們?cè)龠M(jìn)入hadoop目錄下的bin目錄中,輸入如下命令創(chuàng)建用戶目錄“/user/hadoop”:

hdfs dfs -mkdir -p /user/hadoop

然后我們?cè)趍aster主機(jī)內(nèi)的“/home/hadoop”目錄下新建一個(gè)文本文件test.txt:

vi /home/hadoop/test.txt

然后再文件中隨便輸入一些內(nèi)容:

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

然后我們我們重新進(jìn)入hadoop的bin目錄中并將這個(gè)文件上傳到HDFS的“/user/hadoop”目錄下:

hdfs dfs -put /home/hadoop/test.txt /user/hadoop

查看一些我們是否成功上傳到HDFS中:

hdfs dfs -ls /user/hadoop

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

可以看出我們上傳成功了。

然后我們?cè)偻ㄟ^(guò)如下命令把HDFS中“/user/hadoop”目錄下的test.txt文件,下載到Linux系統(tǒng)的本地文件系統(tǒng)中的“/home/hadoop/下載”目錄下:

hdfs dfs -get /user/hadoop/test.txt /home/hadoop/

然后我們使用如下命令將HDFS中“/user/hadoop”目錄下的test.txt文件的內(nèi)容輸出到終端中進(jìn)行顯示:

hdfs dfs -cat /user/hadoop/test.txt

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

我們?cè)僭贖DFS中的“/user/hadoop”目錄下,創(chuàng)建子目錄input:

 hdfs dfs -mkdir /user/hadoop/input

并把HDFS中“/user/hadoop”目錄下的test.txt文件,復(fù)制到“/user/hadoop/input”目錄下:

hdfs dfs -cp /user/hadoop/test.txt /user/hadoop/input/

并查看一下是否復(fù)制成功:

hdfs dfs -ls /user/hadoop/input

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

最后我們刪除HDFS中“/user/hadoop”目錄下的test.txt文件:

hdfs dfs -rm -r /user/hadoop/test.txt

并刪除HDFS中“/user/hadoop”目錄下的input子目錄及其子目錄下的所有內(nèi)容:

hdfs dfs -rm -r /user/hadoop/input

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

2、Spark讀取文件系統(tǒng)的數(shù)據(jù)

我們首先啟動(dòng)pyspark:

cd /usr/local/spark/bin/
pyspark

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

啟動(dòng)pyspark之后我們就可以直接在這里面進(jìn)行編程。

我們?cè)趐yspark中讀取Linux系統(tǒng)本地文件“/home/hadoop/test.txt”,然后統(tǒng)計(jì)出文件的行數(shù):

lines = sc.textFile("file:/home/hadoop/test.txt")
lines.count()

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

然后我們?cè)趐yspark中讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”(如果該文件不存在,請(qǐng)先創(chuàng)建),然后,統(tǒng)計(jì)出文件的行數(shù):

lines = sc.textFile("/user/hadoop/test.txt")
lines.count()

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

最后我們先在/home/hadoop中創(chuàng)建一個(gè)py文件并編寫(xiě)?yīng)毩?yīng)用程序,讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”(如果該文件不存在,請(qǐng)先創(chuàng)建),然后統(tǒng)計(jì)出文件的行數(shù):

sudo vi st-app.py

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

最后通過(guò) spark-submit 提交到 Spark 中運(yùn)行程序:

/usr/local/spark/bin/spark-submit --master local[4] st-app.py 2>&1 | grep "The HDFS"

spark處理hdfs,大數(shù)據(jù)學(xué)習(xí),大數(shù)據(jù),spark,hdfs

五、最后我想說(shuō)

到這里本次實(shí)驗(yàn)就結(jié)束了,我重新做了一遍加深了一下印象,也更加熟練的使用這些Linux命令了。

后面一個(gè)實(shí)驗(yàn)就是RDD編程,我馬上就會(huì)更新,Hold on!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-846546.html

到了這里,關(guān)于大數(shù)據(jù)編程實(shí)驗(yàn)一:HDFS常用操作和Spark讀取文件系統(tǒng)數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Spark讀取HDFS路徑文件

    Spark讀取HDFS路徑文件

    有些時(shí)候我們希望直接讀取HDFS上的文件進(jìn)行處理,那么我們可以使用 textFile 這個(gè)方法,這個(gè)方法可以將指定路徑的文件將其讀出,然后轉(zhuǎn)化為Spark中的RDD數(shù)據(jù)類型。 textFile 是 Spark 中的一個(gè)函數(shù),用于從文本文件中讀取數(shù)據(jù)并創(chuàng)建一個(gè) RDD。它可以用于加載文本數(shù)據(jù),并將每行

    2024年02月05日
    瀏覽(26)
  • 大數(shù)據(jù)技術(shù)原理及應(yīng)用課實(shí)驗(yàn)2 :熟悉常用的HDFS操作

    大數(shù)據(jù)技術(shù)原理及應(yīng)用課實(shí)驗(yàn)2 :熟悉常用的HDFS操作

    實(shí)驗(yàn)2 ?熟悉常用的HDFS操作 目錄 實(shí)驗(yàn)2 ?熟悉常用的HDFS操作 一、實(shí)驗(yàn)?zāi)康?二、實(shí)驗(yàn)平臺(tái) 三、實(shí)驗(yàn)步驟(每個(gè)步驟下均需有運(yùn)行截圖) (一)編程實(shí)現(xiàn)以下功能,并利用Hadoop提供的Shell命令完成相同任務(wù): (1)向HDFS中上傳任意文本文件,如果指定的文件在HDFS中已經(jīng)存在,則

    2024年04月14日
    瀏覽(36)
  • 熟悉常用的HDFS操作(大數(shù)據(jù)技術(shù)原理與應(yīng)用-第三章實(shí)驗(yàn))

    熟悉常用的HDFS操作(大數(shù)據(jù)技術(shù)原理與應(yīng)用-第三章實(shí)驗(yàn))

    首先啟動(dòng)Hadoop,命令如下: 在終端輸入如下命令,查看 hdfs dfs 總共支持哪些操作: 上述命令執(zhí)行后,會(huì)顯示如下的結(jié)果: 如果顯示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable ,說(shuō)明環(huán)境變量 JAVA_LIBRARY_PATH 并未定義,首

    2024年02月01日
    瀏覽(20)
  • Spark - 獲取一定時(shí)間內(nèi)的 Hdfs 全部文件并讀取

    目錄 一.引言 二.獲取 Interval 內(nèi)文件 1.獲取 FileSystem 2.獲取全部 File 3.讀取 Hdfs File 有一個(gè)需求要求定時(shí)獲取距離目前時(shí)間 Interval 范圍之內(nèi)的文件并讀取,例如現(xiàn)在是 7:00,interval 為 30 min,則我們需要讀取 6:30 - 7:00 的全部文件并讀取。這里思路是通過(guò) FileSystem 獲取文件的 modo

    2024年02月06日
    瀏覽(20)
  • 實(shí)驗(yàn)2熟悉常用的HDFS操作

    實(shí)驗(yàn)2熟悉常用的HDFS操作

    (1)理解HDFS在Hadoop體系結(jié)構(gòu)中的角色; (2)熟練使用HDFS操作常用的Shell命令; (3)熟悉HDFS操作常用的Java API。 (1)操作系統(tǒng):Linux; (2)Hadoop版本:2.7.4 ; (3)JDK版本1.8; (4)Java IDE:eclipse ?。 (一)編程實(shí)現(xiàn)以下功能,并利用Hadoop提供的Shell命令完成相同任務(wù):

    2023年04月18日
    瀏覽(26)
  • 大數(shù)據(jù)實(shí)驗(yàn) 實(shí)驗(yàn)二:熟悉HDFS常用操作

    大數(shù)據(jù)實(shí)驗(yàn) 實(shí)驗(yàn)二:熟悉HDFS常用操作

    附件中有word版本的實(shí)驗(yàn)報(bào)告 理解HDFS在Hadoop體系結(jié)構(gòu)中的角色。 熟練使用HDFS操作常用的Shell命令。 熟悉HDFS操作常用的Java API。 Oracle VM VirtualBox虛擬機(jī) 系統(tǒng)版本centos7 JDK1.8版本 Hadoop-3.1.3 Windows11 Java IDE:IDEA 1.向HDFS中上傳任意文本文件,如果指定的文件在HDFS中已經(jīng)存在,由用戶

    2024年04月12日
    瀏覽(27)
  • 云計(jì)算技術(shù) 實(shí)驗(yàn)四 HDFS操作方法和基礎(chǔ)編程

    云計(jì)算技術(shù) 實(shí)驗(yàn)四 HDFS操作方法和基礎(chǔ)編程

    參考資料為: 教材代碼-林子雨編著《大數(shù)據(jù)基礎(chǔ)編程、實(shí)驗(yàn)和案例教程(第2版)》教材所有章節(jié)代碼_廈大數(shù)據(jù)庫(kù)實(shí)驗(yàn)室博客 1 . 實(shí)驗(yàn)學(xué)時(shí) 4學(xué)時(shí) 2 . 實(shí)驗(yàn)?zāi)康?熟悉HDFS的基本shell命令 熟悉HDFS的web管理 掌握HDFS編程實(shí)踐 3 . 實(shí)驗(yàn)內(nèi)容 (一)參考實(shí)驗(yàn)指南的內(nèi)容,完成相關(guān)的HDF

    2024年02月08日
    瀏覽(24)
  • 大數(shù)據(jù)技術(shù)基礎(chǔ)實(shí)驗(yàn)四:HDFS實(shí)驗(yàn)——讀寫(xiě)HDFS文件

    大數(shù)據(jù)技術(shù)基礎(chǔ)實(shí)驗(yàn)四:HDFS實(shí)驗(yàn)——讀寫(xiě)HDFS文件

    在前面的實(shí)驗(yàn)中我們進(jìn)行了HDFS的部署,并設(shè)置了一鍵啟動(dòng)HDFS操作,本期實(shí)驗(yàn)我們將使用HDFS開(kāi)發(fā)環(huán)境進(jìn)行HDFS寫(xiě)、讀的編寫(xiě),以及程序的運(yùn)行,了解HDFS讀寫(xiě)文件的調(diào)用流程,理解HDFS讀寫(xiě)文件的原理。 好啦廢話不多說(shuō),我們開(kāi)始今天的實(shí)驗(yàn)操作。 會(huì)在Linux環(huán)境下編寫(xiě)讀寫(xiě)HDFS文

    2023年04月16日
    瀏覽(21)
  • 大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)指南——HDFS JAVA API編程實(shí)踐

    大數(shù)據(jù)技術(shù)原理與應(yīng)用實(shí)驗(yàn)指南——HDFS JAVA API編程實(shí)踐

    1. 實(shí)驗(yàn)?zāi)康?(1) 熟練使用HDFS操作常用的Shell命令。 (2) 熟悉HDFS操作常用的Java API。 2. 實(shí)驗(yàn)內(nèi)容 (1) 編程實(shí)現(xiàn)指定功能,并利用Hadoop提供的Shell命令完成相同任務(wù)(文件的上傳、下載、輸出、刪除、移動(dòng)等操作)。 (2) 有余力編寫(xiě)一個(gè)Java程序,讀取HDFS中的指定文件。

    2024年02月19日
    瀏覽(20)
  • Spark流式讀取文件數(shù)據(jù)

    Spark流式讀取文件數(shù)據(jù)

    流式讀取文件數(shù)據(jù) from pyspark.sql import SparkSession ss = SparkSession.builder.getOrCreate() df_csv = ss.readStream.csv(‘hdfs://node1:8020/目錄’) df_json = ss.readStream.json(‘hdfs://node1:8020/目錄’) options2 ={ ‘host’:‘192.168.88.100’, ‘port’:9999 } options={ # 每個(gè)批次讀取1個(gè)文件 ‘maxFilesPerTrigger’:1, ‘lat

    2024年01月21日
    瀏覽(28)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包