国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

HDFS常用操作以及使用Spark讀取文件系統(tǒng)數(shù)據(jù)

這篇具有很好參考價(jià)值的文章主要介紹了HDFS常用操作以及使用Spark讀取文件系統(tǒng)數(shù)據(jù)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、實(shí)驗(yàn)?zāi)康?/h2>
  1. 掌握在Linux虛擬機(jī)中安裝Hadoop和Spark的方法;
  2. 熟悉HDFS的基本使用方法;
  3. 掌握使用Spark訪問本地文件和HDFS文件的方法。

二、實(shí)驗(yàn)具體內(nèi)容

2.1 HDFS常用操作

  1. 啟動(dòng)Hadoop,在HDFS中創(chuàng)建用戶目錄“/user/hadoop”

    cd /usr/local/hadoop/
    ./bin/hdfs dfs -mkdir -p /user/hadoop
    

    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  2. 在Linux系統(tǒng)的本地文件系統(tǒng)的“/home/hadoop”目錄下新建一個(gè)文本文件test.txt,并在該文件中隨便輸入一些內(nèi)容,然后上傳到HDFS的“/user/hadoop”目錄下;
    使用vim命令在本地新建一個(gè)文件,使用hdfs dfs -put將文件上傳到hdfs,使用hdfs dfs -ls命令查看是否上傳成功。

    vim /home/hadoop/test.txt
    ./bin/hdfs dfs -put /home/hadoop/test.txt
    ./bin/hdfs dfs -ls
    

    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  3. 把HDFS中“/user/hadoop”目錄下的test.txt文件,下載到Linux系統(tǒng)的本地文件系統(tǒng)中的“/home/hadoop/下載”目錄下;
    使用hdfs dfs -get命令下載hdfs文件到本地
    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  4. 將HDFS中“/user/hadoop”目錄下的test.txt文件的內(nèi)容輸出到終端中進(jìn)行顯示;
    使用hdfs dfs -cat將文件內(nèi)容輸出到終端顯示
    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  5. 在HDFS中的“/user/hadoop”目錄下,創(chuàng)建子目錄input,把HDFS中“/user/hadoop”目錄下的test.txt文件,復(fù)制到“/user/hadoop/input”目錄下;
    hdfs dfs -mkdir /user/hadoop/input來創(chuàng)建目錄,
    hdfs dfs -cp來進(jìn)行文件復(fù)制操作
    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  6. 刪除HDFS中“/user/hadoop”目錄下的test.txt文件,刪除HDFS中“/user/hadoop”目錄下的input子目錄及其子目錄下的所有內(nèi)容。

    hdfs dfs -rm /user/hadoop/test.txt
    hdfs dfs -rm -r /user/hadoop/input
    

    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

2.2 Spark讀取文件系統(tǒng)數(shù)據(jù)(本地和HDFS)

  1. 下面是我們的test.txt文件的內(nèi)容(該文件已經(jīng)在Linux本地和hdfs中存在了):
    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  2. 在pyspark中讀取Linux系統(tǒng)本地文件“/home/hadoop/test.txt”(如果該文件不存在,請先創(chuàng)建),然后統(tǒng)計(jì)出文件的行數(shù);

    在shell中依次輸入下面的代碼:
    file_path = "file:///home/hadoop/test.txt" # 這是你自己的文件地址
    data = sc.textFile(file_path)
    print("該文件的行數(shù)為:", data.count())
    

    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  3. 在pyspark中讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”(如果該文件不存在,請先創(chuàng)建),然后,統(tǒng)計(jì)出文件的行數(shù);

    在shell中依次輸入下面代碼:
    file_path = "hdfs://localhost:9000/user/hadoop/test.txt"
    data = sc.textFile(file_path)
    print("該文件的行數(shù)為:", data.count())
    

    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python

  4. 編寫?yīng)毩?yīng)用程序,讀取HDFS系統(tǒng)文件“/user/hadoop/test.txt”(如果該文件不存在,請先創(chuàng)建),然后,統(tǒng)計(jì)出文件的行數(shù);通過spark-submit提交到Spark中運(yùn)行程序。
    創(chuàng)建~/mycode/LineCount.py文件,其中代碼如下:

    from pyspark import SparkConf, SparkContext
    conf = SparkConf().setMaster("local").setAppName("line count")
    sc = SparkContext(conf = conf)
    file_path = "hdfs://localhost:9000/user/hadoop/test.txt"
    data = sc.textFile(file_path)
    print("該文件的行數(shù)為:", data.count())
    

    使用/usr/local/spark/bin/spark-submit ~/mycode/LineCount.py提交程序

    spark讀取hdfs數(shù)據(jù),大數(shù)據(jù)基礎(chǔ),hdfs,spark,hadoop,大數(shù)據(jù),python文章來源地址http://www.zghlxwxcb.cn/news/detail-855280.html

到了這里,關(guān)于HDFS常用操作以及使用Spark讀取文件系統(tǒng)數(shù)據(jù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Hadoop HDFS分布式文件系統(tǒng)(介紹以及基礎(chǔ)操作命令)

    Hadoop HDFS分布式文件系統(tǒng)(介紹以及基礎(chǔ)操作命令)

    目錄 一、為什么需要分布式存儲(chǔ)? 二、分布式的基礎(chǔ)架構(gòu)分析 ?三、HDFS基礎(chǔ)架構(gòu) 1.HDFS簡介 四、HDFS集群啟停命令 1.一鍵啟停腳本 2.單進(jìn)程啟停 五、HDFS基本操作命令 1.創(chuàng)建文件夾 ?2.查看指定目錄下內(nèi)容? 3.上傳文件到HDFS指定目錄下 ?4.查看HDFS文件內(nèi)容 5.下載HDFS文件 ?6.拷貝

    2024年02月05日
    瀏覽(167)
  • Hadoop 使用Linux操作系統(tǒng)與Java熟悉常用的HDFS操作

    Hadoop 使用Linux操作系統(tǒng)與Java熟悉常用的HDFS操作

    注意看評(píng)論區(qū)獲取完整代碼資料 目錄 一、實(shí)驗(yàn)?zāi)康?二、實(shí)驗(yàn)平臺(tái) 三、實(shí)驗(yàn)步驟 理解HDFS在Hadoop體系結(jié)構(gòu)中的角色; 熟練使用HDFS操作常用的Shell命令; 熟悉HDFS操作常用的Java API。 操作系統(tǒng):Linux(建議Ubuntu16.04); Hadoop版本:2.7.1; JDK版本:1.8或以上版本; Java IDE:Eclipse。

    2024年02月03日
    瀏覽(22)
  • 使用Java API對HDFS進(jìn)行如下操作:文件的創(chuàng)建、上傳、下載以及刪除等操作

    使用Java API對HDFS進(jìn)行如下操作:文件的創(chuàng)建、上傳、下載以及刪除等操作

    HDFS-JAVA接口:上傳文件 將一個(gè)本地文件(無具體要求)上傳至HDFS中的/hdfs-test路徑下(如無此路徑,新建一個(gè))。 新建路徑: ? 首先在路徑/usr/test/ 下新建test.txt,指令為:/usr/test/test.txt,然后進(jìn)行上傳操作。 ? ? ?2.HDFS-JAVA接口:創(chuàng)建文件 在HDFS中的/hdfs-test路徑下新建一個(gè)da

    2024年02月07日
    瀏覽(29)
  • python hdfs遠(yuǎn)程連接以及上傳文件,讀取文件內(nèi)容,刪除文件

    目錄 一、python連接操作hdfs 1 往hdfs上傳文件 2 處理并存儲(chǔ)到hdfs 3 讀取hdfs上的txt文件 這里使用的是 pip 安裝,很方便: ? ? ?

    2024年02月11日
    瀏覽(23)
  • 使用命令操作HDFS文件系統(tǒng)

    使用命令操作HDFS文件系統(tǒng)

    HDFS作為分布式存儲(chǔ)的文件系統(tǒng),有其對數(shù)據(jù)的路徑表達(dá)方式。 HDFS同Linux系統(tǒng)一樣,均是以/作為根目錄的組織形式 Linux:/usr/local/hello.txt HDFS:/usr/local/hello.txt http://node1:9870/explorer.html#/ https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-common/FileSystemShell.html

    2024年02月08日
    瀏覽(23)
  • 2.2 如何使用FlinkSQL讀取&寫入到文件系統(tǒng)(HDFS\Local\Hive)

    2.2 如何使用FlinkSQL讀取&寫入到文件系統(tǒng)(HDFS\Local\Hive)

    目錄 1、文件系統(tǒng) SQL 連接器 2、如何指定文件系統(tǒng)類型 3、如何指定文件格式 4、讀取文件系統(tǒng) 4.1 開啟?目錄監(jiān)控? 4.2?可用的 Metadata 5、寫出文件系統(tǒng) 5.1 創(chuàng)建分區(qū)表 5.2 滾動(dòng)策略、文件合并、分區(qū)提交 5.3 指定 Sink Parallelism 6、示例_通過FlinkSQL讀取kafka在寫入hive表 6.1、創(chuàng)建

    2024年02月07日
    瀏覽(15)
  • “遠(yuǎn)程客戶端操作hdfs創(chuàng)建文件夾”,驗(yàn)證環(huán)境是否配置成功,以及HDFS錯(cuò)誤整改

    “遠(yuǎn)程客戶端操作hdfs創(chuàng)建文件夾”,驗(yàn)證環(huán)境是否配置成功,以及HDFS錯(cuò)誤整改

    編寫“遠(yuǎn)程客戶端操作hdfs創(chuàng)建文件夾”代碼,驗(yàn)證環(huán)境是否配置成功! 1、錯(cuò)誤點(diǎn)1: 改正方法: 第一步:點(diǎn)擊文件項(xiàng)目文件模塊 第二步:會(huì)發(fā)現(xiàn)紅色框里的顯示的是15,這里我們需要改成8,如下圖: 2、錯(cuò)誤點(diǎn)2: 改正方法: 第一步:點(diǎn)擊文件項(xiàng)目文件設(shè)置,后按照圖中步

    2024年02月12日
    瀏覽(99)
  • 大數(shù)據(jù) | 實(shí)驗(yàn)一:大數(shù)據(jù)系統(tǒng)基本實(shí)驗(yàn) | 熟悉常用的HDFS操作

    大數(shù)據(jù) | 實(shí)驗(yàn)一:大數(shù)據(jù)系統(tǒng)基本實(shí)驗(yàn) | 熟悉常用的HDFS操作

    1 )理解 HDFS 在 Hadoop 體系結(jié)構(gòu)中的角色。 2 )熟練使用 HDFS 操作常用的 shell 命令。 3 )熟悉 HDFS 操作常用的 Java API。 1 )操作系統(tǒng):Linux; 2 )Hadoop 版本:3.2.2; 3 )JDK 版本:1.8; 4 )Java IDE:Eclipse。 編程實(shí)現(xiàn) 以下功能,并利用 Hadoop 提供的 Shell 命令 完成相同任務(wù) 1)向

    2024年02月02日
    瀏覽(25)
  • Hadoop3教程(三):HDFS文件系統(tǒng)常用命令一覽

    hdfs命令的完整形式: 其中subcommand有三種形式: admin commands client commands:如本節(jié)重點(diǎn)要講的dfs daemon commands dfs(文件系統(tǒng)命令),這個(gè)是HDFS里,日常使用 最為頻繁的一種命令 ,用來在HDFS的文件系統(tǒng)上運(yùn)行各種文件系統(tǒng)命令,如查看文件、刪除文件等。 基本語法: 這倆基本

    2024年02月06日
    瀏覽(111)
  • 分布式文件系統(tǒng)與HDFS的shell操作及查看元數(shù)據(jù)

    分布式文件系統(tǒng)與HDFS的shell操作及查看元數(shù)據(jù)

    ? 啟動(dòng)hadoop和hive的metastore 查看sbin的目錄下的文件 執(zhí)行./start-all.sh ?查看相關(guān)的進(jìn)程

    2024年02月16日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包