国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

這篇具有很好參考價值的文章主要介紹了Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、安裝Hadoop

環(huán)境

使用Ubuntu 14.04 64位 作為系統(tǒng)環(huán)境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),請自行安裝系統(tǒng)。

Hadoop版本: Hadoop 2.7.4

創(chuàng)建hadoop用戶

如果你安裝 Ubuntu 的時候不是用的 "hadoop" 用戶,那么需要增加一個名為 hadoop 的用戶。

首先按 ctrl+alt+t 打開終端窗口,輸入如下命令創(chuàng)建新用戶 :

sudo useradd -m hadoop -s /bin/bash

這條命令創(chuàng)建了可以登陸的 hadoop 用戶,并使用 /bin/bash 作為 shell。

接著使用如下命令設(shè)置密碼,可簡單設(shè)置為 hadoop,按提示輸入兩次密碼:

sudo passwd hadoop

可為 hadoop 用戶增加管理員權(quán)限,方便部署,避免一些對新手來說比較棘手的權(quán)限問題:

sudo adduser hadoop sudo

最后注銷當前用戶(點擊屏幕右上角的齒輪,選擇注銷),返回登陸界面。在登陸界面中選擇剛創(chuàng)建的 hadoop 用戶進行登陸。

更新apt

用 hadoop 用戶登錄后,我們先更新一下 apt,后續(xù)我們使用 apt 安裝軟件,如果沒更新可能有一些軟件安裝不了。按 ctrl+alt+t 打開終端窗口,執(zhí)行如下命令:

sudo apt-get update

若出現(xiàn)如下 "Hash校驗和不符" 的提示,可通過更改軟件源來解決。若沒有該問題,則不需要更改。從軟件源下載某些軟件的過程中,可能由于網(wǎng)絡(luò)方面的原因出現(xiàn)沒法下載的情況,那么建議更改軟件源。在學(xué)習Hadoop過程中,即使出現(xiàn)“Hash校驗和不符”的提示,也不會影響Hadoop的安裝。

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

首先點擊左側(cè)任務(wù)欄的【系統(tǒng)設(shè)置】(齒輪圖標),選擇【軟

件和更新】

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

點擊 “下載自” 右側(cè)的方框,選擇【其他節(jié)點】

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

在列表中選中【mirrors.aliyun.com】,并點擊右下角的【選擇服務(wù)器】,會要求輸入用戶密碼,輸入即可。

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

接著點擊關(guān)閉。

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

此時會提示列表信息過時,點擊【重新載入】,

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

最后耐心等待更新緩存即可。更新完成會自動關(guān)閉【軟件和更新】這個窗口。如果還是提示錯誤,請選擇其他服務(wù)器節(jié)點如mirrors.163.com再次進行嘗試。更新成功后,再次執(zhí)行 sudo apt-get update 就正常了。

安裝SSH、配置SSH無密碼登陸

sudo apt-get install openssh-server

安裝后,可以使用如下命令登陸本機:

ssh localhost

此時會有如下提示(SSH首次登陸提示),輸入 yes 。然后按提示輸入密碼 hadoop,這樣就登陸到本機了。

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

但這樣登陸是需要每次輸入密碼的,我們需要配置成SSH無密碼登陸比較方便。

首先退出剛才的 ssh,就回到了我們原先的終端窗口,然后利用 ssh-keygen 生成密鑰,并將密鑰加入到授權(quán)中:

exit                           # 退出剛才的 ssh localhost
cd ~/.ssh/                     # 若沒有該目錄,請先執(zhí)行一次ssh localhost
ssh-keygen -t rsa              # 會有提示,都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授權(quán)

此時再用 ssh localhost 命令,無需輸入密碼就可以直接登陸了,如下圖所示。

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

安裝Java環(huán)境

請把壓縮格式的文件jdk-8u162-linux-x64.tar.gz下載到本地電腦,假設(shè)保存在“/home/linziyu/Downloads/”目錄下。

在Linux命令行界面中,執(zhí)行如下Shell命令(注意:當前登錄用戶名是hadoop):

cd /usr/lib
sudo mkdir jvm #創(chuàng)建/usr/lib/jvm目錄用來存放JDK文件
cd ~ #進入hadoop用戶的主目錄
cd Downloads  #注意區(qū)分大小寫字母,剛才已經(jīng)通過FTP軟件把JDK安裝包jdk-8u162-linux-x64.tar.gz上傳到該目錄下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK文件解壓到/usr/lib/jvm目錄下

JDK文件解壓縮以后,可以執(zhí)行如下命令到/usr/lib/jvm目錄查看一下:

cd /usr/lib/jvm
ls

可以看到,在/usr/lib/jvm目錄下有個jdk1.8.0_162目錄。

下面繼續(xù)執(zhí)行如下命令,設(shè)置環(huán)境變量:

cd ~
vi ~/.bashrc

上面命令使用vi編輯器打開了hadoop這個用戶的環(huán)境變量配置文件,請在這個文件的開頭位置,添加如下幾行內(nèi)容:

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存.bashrc文件并退出vim編輯器。然后,繼續(xù)執(zhí)行如下命令讓.bashrc文件的配置立即生效:

source ~/.bashrc

這時,可以使用如下命令查看是否安裝成功:

java -version

如果能夠在屏幕上返回如下信息,則說明安裝成功:

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

安裝 Hadoop 2

下載hadoop-2.7.4.tar.gz并上傳到~/Downloads目錄,將 Hadoop 安裝至 /usr/local/ 中:

sudo tar -zxf ~/下載/hadoop-2.6.0.tar.gz -C /usr/local    # 解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 將文件夾名改為hadoop
sudo chown -R hadoop ./hadoop       # 修改文件權(quán)限

Hadoop 解壓后即可使用。輸入如下命令來檢查 Hadoop 是否可用,成功則會顯示 Hadoop 版本信息:

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

二、安裝Spark

下載Spark安裝文件spark-2.4.0-bin-without-hadoop.tgz,默認會被瀏覽器保存在“/home/hadoop/下載”目錄下。

這里介紹Local模式(單機模式)的 Spark安裝。我們選擇Spark 2.4.0版本,并且當前用戶hadoop登錄了Linux操作系統(tǒng)。

sudo tar -zxf ~/下載/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.4.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark          # 此處的 hadoop 為你的用戶名

修改相關(guān)配置文件

安裝后,還需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

編輯spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

有了上面的配置信息以后,Spark就可以把數(shù)據(jù)存儲到Hadoop分布式文件系統(tǒng)HDFS中,也可以從HDFS中讀取數(shù)據(jù)。如果沒有配置上面信息,Spark就只能讀寫本地數(shù)據(jù),無法讀寫HDFS數(shù)據(jù)。

然后通過如下命令,修改環(huán)境變量:

vi ~/.bashrc

在.bashrc文件中添加如下內(nèi)容:

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=$PATH:${JAVA_HOME}/lib:/usr/local/hbase/bin
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

PYTHONPATH環(huán)境變量主要是為了在Python3中引入pyspark庫,PYSPARK_PYTHON變量主要是設(shè)置pyspark運行的python版本。

.bashrc中必須包含JAVA_HOME,HADOOP_HOME,SPARK_HOME,PYTHONPATH,PYSPARK_PYTHON,PATH這些環(huán)境變量。如果已經(jīng)設(shè)置了這些變量則不需要重新添加設(shè)置。另外需要注意,上面的配置項中,PYTHONPATH這一行有個py4j-0.10.4-src.zip,這個zip文件的版本號一定要和“/usr/local/spark/python/lib”目錄下的py4j-0.10.4-src.zip文件保持版本一致。比如,如果“/usr/local/spark/python/lib”目錄下是py4j-0.10.7-src.zip,那么,PYTHONPATH這一行后面也要寫py4j-0.10.7-src.zip,從而使二者版本一致。

接著還需要讓該環(huán)境變量生效,執(zhí)行如下代碼:

source ~/.bashrc

驗證Spark是否安裝成功

配置完成后就可以直接使用,不需要像Hadoop運行啟動命令。

通過運行Spark自帶的示例,驗證Spark是否安裝成功。

cd /usr/local/spark
./bin/run-example SparkPi

執(zhí)行時會輸出非常多的運行信息,輸出結(jié)果不容易找到,可以通過 grep 命令進行過濾(命令中的 2>&1 可以將所有的信息都輸出到 stdout 中,否則由于輸出日志的性質(zhì),還是會輸出到屏幕中):

bin/run-example SparkPi 2>&1 | grep "Pi is"

這里涉及到Linux Shell中管道的知識,詳情可以參考Linux Shell中的管道命令

過濾后的運行結(jié)果如下圖示,可以得到π 的 5 位小數(shù)近似值:

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

Spark和Hadoop的交互

Hadoop 和Spark 可以相互協(xié)作,由Hadoop的HDFS 、HBase 等組件負責數(shù)據(jù)的存儲和管理,由Spark負責數(shù)據(jù)的計算。

為了能夠讓Spark操作HDFS中的數(shù)據(jù),需要先啟動HDFS。打開一個Linux終端,在Linux shell中輸入如下命令啟動HDFS:

cd /usr/local/hadoop
./sbin/start-dfs.sh
Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

HDFS啟動完成后,可以通過命令jps來判斷是否成功啟動,命令如下:

jps
Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

若成功啟動,則會列出如下進程:NameNode、DataNode、和SecondaryNameNode。然后就可以對HDFS中的數(shù)據(jù)進行讀取或?qū)懭氩僮?/p>

使用結(jié)束后,可以使用如下命令關(guān)閉HDFS:

./sbin/stop-dfs.sh

啟動pyspark

按照上面的配置相關(guān)文件設(shè)置了PYSPARK_PYTHON環(huán)境變量,就可以直接使用如下命令啟動pyspark:

cd /usr/local/spark
./bin/pyspark

如果沒有設(shè)置PYSPARK_PYTHON環(huán)境變量,則需要使用如下命令啟動pyspark:

PYSPARK_PYTHON=python3
cd /usr/local/spark
./bin/pyspark

啟動以后會進入pyspark交互式執(zhí)行環(huán)境,如圖:

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

就可以在里面輸入python代碼進行調(diào)試:

Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境

最后,可以使用如下命令"exit()"退出pyspark:文章來源地址http://www.zghlxwxcb.cn/news/detail-400364.html

>>> exit()

到了這里,關(guān)于Hadoop(偽分布式)+Spark(local模式)搭建Hadoop和Spark組合環(huán)境的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Spark Standalone 模式的安裝和部署 第1關(guān): Standalone 分布式集群搭建

    我們已經(jīng)掌握了 Spark 單機版安裝,那么分布式集群怎么搭建呢? 接下來我們學(xué)習 Standalone 分布式集群搭建。 課程視頻 如果你需要在本地配置 Spark 完全分布式環(huán)境,可以通過查看課程視頻來學(xué)習。 課程視頻《Spark配置文件設(shè)置》 Spark分布式安裝模式 Spark 分布式環(huán)境安裝目前

    2024年02月03日
    瀏覽(25)
  • Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆級超詳細含圖文)

    Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆級超詳細含圖文)

    說明: 本篇將詳細介紹用二進制安裝包部署hadoop等組件,注意事項,各組件的使用,常用的一些命令,以及在部署中遇到的問題解決思路等等,都將詳細介紹。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系統(tǒng)版本 1.2.2內(nèi)存建議最少4g、2cpu、50G以上的磁盤容量 本次

    2024年02月12日
    瀏覽(37)
  • ubuntu下Hadoop以及Spark的偽分布式安裝:一

    1.1 安裝前說明: 很多初學(xué)者在安裝的時候會碰到各種各樣的問題,尤其各種版本的搭配問題。所以特意做一個初步安裝的引導(dǎo),希望大家都能一次調(diào)試出來。 經(jīng)過測試,jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1,這是暫時來說scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完

    2024年04月23日
    瀏覽(29)
  • hadoop(偽分布式)上的spark和Scala安裝與配置詳細版

    hadoop(偽分布式)上的spark和Scala安裝與配置詳細版

    在搭建spark和Scala前提下,必需安裝好hive和java,和 Hadoop的偽分布式 哦 1、安裝與配置Scale? ? ? ? (1)去官網(wǎng)下載Scala ? ? ? ? 官網(wǎng)地址: The Scala Programming Language (scala-lang.org) https://www.scala-lang.org/ 這里我要的是scala-2.2.12.12.tgz 然后我們點擊 all releases 點進去之后往下找 然后

    2024年04月28日
    瀏覽(21)
  • 搭建完全分布式Hadoop

    搭建完全分布式Hadoop

    登錄三個虛擬機 執(zhí)行命令: vim /etc/hosts 1、上傳安裝包 上傳hadoop安裝包 查看hadoop安裝包 2、解壓縮安裝包 執(zhí)行命令: tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local 查看解壓后的目錄 3、配置環(huán)境變量 執(zhí)行命令: vim /etc/profile 存盤退出,執(zhí)行命令: source /etc/profile ,讓配置生效 查看had

    2024年02月04日
    瀏覽(26)
  • 搭建偽分布式Hadoop

    搭建偽分布式Hadoop

    在獨立模式下,所有程序都在單個JVM上執(zhí)行,調(diào)試Hadoop集群的MapReduce程序也非常方便。一般情況下,該模式常用于學(xué)習或開發(fā)階段進行調(diào)試程序。 在偽分布式模式下, Hadoop程序的守護進程都運行在一臺節(jié)點上,該模式主要用于調(diào)試Hadoop分布式程序的代碼,以及程序執(zhí)行是否

    2024年02月06日
    瀏覽(20)
  • Hadoop完全分布式搭建

    Hadoop完全分布式搭建

    1.下載VM 2.下載Centos鏡像 3.下載hadoop 4.下載FinalShell 5.下載jdk文件 ?6.下載hive,數(shù)據(jù)倉庫學(xué)習大數(shù)據(jù)專業(yè)的用的到 ? ? 注:開啟虛擬機把鼠標放入屏幕點擊后消失,使用鍵盤上下鍵進行選擇 ? 注:點擊之后,什么都不動,再點擊完成(因為它自動幫我們分區(qū)了) 注:我們配置

    2024年02月04日
    瀏覽(24)
  • Hadoop分布式集群搭建

    Hadoop分布式集群搭建

    集群以三臺電腦搭建,每臺電腦創(chuàng)建一個UbuntuKylin虛擬機,集群以三臺UbuntuKylin虛擬機為基礎(chǔ)搭建,虛擬機主機名分別為hadoop101、hadoop111和hadoop121。IP地址分別為192.168.214.101、192.168.214.111和192.168.214.121。 主機名 IP地址: hadoop101 192.168.214.101 hadoop111 192.168.214.111 hadoop121 192.168.214

    2024年02月03日
    瀏覽(23)
  • 分布式計算中的大數(shù)據(jù)處理:Hadoop與Spark的性能優(yōu)化

    大數(shù)據(jù)處理是現(xiàn)代計算機科學(xué)的一個重要領(lǐng)域,它涉及到處理海量數(shù)據(jù)的技術(shù)和方法。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的規(guī)模不斷增長,傳統(tǒng)的計算方法已經(jīng)無法滿足需求。因此,分布式計算技術(shù)逐漸成為了主流。 Hadoop和Spark是目前最為流行的分布式計算框架之一,它們都提供了高

    2024年01月23日
    瀏覽(93)
  • hadoop平臺完全分布式搭建

    安裝前準備 一、設(shè)置ssh免密登錄 1.編輯hosts文件,添加主機名映射內(nèi)容 vim ?/etc/hosts 添加內(nèi)容: 172.17.0.2 ?????master 172.17.0.3 ?????slave1 172.17.0.4 ?????slave2 2.生成公鑰和私鑰 ssh-keygen –t rsa 然后按三次回車 3.復(fù)制公鑰到其他容器(包括自己) ssh-copy-id master ssh-copy-id slav

    2024年03月17日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包