国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<span id="b6nly"></span>

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

2年前作者：It's a cinch!分類：Toy博客閱讀(38)違法舉報

這篇具有很好參考價值的文章主要介紹了Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、安裝Hadoop

環(huán)境

使用Ubuntu 14.04 64位作為系統(tǒng)環(huán)境（Ubuntu 12.04，Ubuntu16.04 也行，32位、64位均可），請自行安裝系統(tǒng)。

Hadoop版本: Hadoop 2.7.4

創(chuàng)建hadoop用戶

如果你安裝 Ubuntu 的時候不是用的 "hadoop" 用戶，那么需要增加一個名為 hadoop 的用戶。

首先按 ctrl+alt+t 打開終端窗口，輸入如下命令創(chuàng)建新用戶 :

sudo useradd -m hadoop -s /bin/bash

這條命令創(chuàng)建了可以登陸的 hadoop 用戶，并使用 /bin/bash 作為 shell。

接著使用如下命令設(shè)置密碼，可簡單設(shè)置為 hadoop，按提示輸入兩次密碼：

sudo passwd hadoop

可為 hadoop 用戶增加管理員權(quán)限，方便部署，避免一些對新手來說比較棘手的權(quán)限問題：

sudo adduser hadoop sudo

最后注銷當前用戶（點擊屏幕右上角的齒輪，選擇注銷），返回登陸界面。在登陸界面中選擇剛創(chuàng)建的 hadoop 用戶進行登陸。

更新apt

用 hadoop 用戶登錄后，我們先更新一下 apt，后續(xù)我們使用 apt 安裝軟件，如果沒更新可能有一些軟件安裝不了。按 ctrl+alt+t 打開終端窗口，執(zhí)行如下命令：

sudo apt-get update

若出現(xiàn)如下 "Hash校驗和不符" 的提示，可通過更改軟件源來解決。若沒有該問題，則不需要更改。從軟件源下載某些軟件的過程中，可能由于網(wǎng)絡(luò)方面的原因出現(xiàn)沒法下載的情況，那么建議更改軟件源。在學(xué)習Hadoop過程中，即使出現(xiàn)“Hash校驗和不符”的提示，也不會影響Hadoop的安裝。

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

首先點擊左側(cè)任務(wù)欄的【系統(tǒng)設(shè)置】（齒輪圖標），選擇【軟

件和更新】

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

點擊 “下載自” 右側(cè)的方框，選擇【其他節(jié)點】

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

在列表中選中【mirrors.aliyun.com】，并點擊右下角的【選擇服務(wù)器】，會要求輸入用戶密碼，輸入即可。

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

接著點擊關(guān)閉。

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

此時會提示列表信息過時，點擊【重新載入】，

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

最后耐心等待更新緩存即可。更新完成會自動關(guān)閉【軟件和更新】這個窗口。如果還是提示錯誤，請選擇其他服務(wù)器節(jié)點如mirrors.163.com再次進行嘗試。更新成功后，再次執(zhí)行 sudo apt-get update 就正常了。

安裝SSH、配置SSH無密碼登陸

sudo apt-get install openssh-server

安裝后，可以使用如下命令登陸本機：

ssh localhost

此時會有如下提示(SSH首次登陸提示)，輸入 yes 。然后按提示輸入密碼 hadoop，這樣就登陸到本機了。

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

但這樣登陸是需要每次輸入密碼的，我們需要配置成SSH無密碼登陸比較方便。

首先退出剛才的 ssh，就回到了我們原先的終端窗口，然后利用 ssh-keygen 生成密鑰，并將密鑰加入到授權(quán)中：

exit                           # 退出剛才的 ssh localhost
cd ~/.ssh/                     # 若沒有該目錄，請先執(zhí)行一次ssh localhost
ssh-keygen -t rsa              # 會有提示，都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授權(quán)

此時再用 ssh localhost 命令，無需輸入密碼就可以直接登陸了，如下圖所示。

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

安裝Java環(huán)境

請把壓縮格式的文件jdk-8u162-linux-x64.tar.gz下載到本地電腦，假設(shè)保存在“/home/linziyu/Downloads/”目錄下。

在Linux命令行界面中，執(zhí)行如下Shell命令（注意：當前登錄用戶名是hadoop）：

cd /usr/lib
sudo mkdir jvm #創(chuàng)建/usr/lib/jvm目錄用來存放JDK文件
cd ~ #進入hadoop用戶的主目錄
cd Downloads  #注意區(qū)分大小寫字母，剛才已經(jīng)通過FTP軟件把JDK安裝包jdk-8u162-linux-x64.tar.gz上傳到該目錄下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK文件解壓到/usr/lib/jvm目錄下

JDK文件解壓縮以后，可以執(zhí)行如下命令到/usr/lib/jvm目錄查看一下：

cd /usr/lib/jvm
ls

可以看到，在/usr/lib/jvm目錄下有個jdk1.8.0_162目錄。

下面繼續(xù)執(zhí)行如下命令，設(shè)置環(huán)境變量：

cd ~
vi ~/.bashrc

上面命令使用vi編輯器打開了hadoop這個用戶的環(huán)境變量配置文件，請在這個文件的開頭位置，添加如下幾行內(nèi)容：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存.bashrc文件并退出vim編輯器。然后，繼續(xù)執(zhí)行如下命令讓.bashrc文件的配置立即生效：

source ~/.bashrc

這時，可以使用如下命令查看是否安裝成功：

java -version

如果能夠在屏幕上返回如下信息，則說明安裝成功：

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

安裝 Hadoop 2

下載hadoop-2.7.4.tar.gz并上傳到~/Downloads目錄，將 Hadoop 安裝至 /usr/local/ 中：

sudo tar -zxf ~/下載/hadoop-2.6.0.tar.gz -C /usr/local    # 解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 將文件夾名改為hadoop
sudo chown -R hadoop ./hadoop       # 修改文件權(quán)限

Hadoop 解壓后即可使用。輸入如下命令來檢查 Hadoop 是否可用，成功則會顯示 Hadoop 版本信息：

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

二、安裝Spark

下載Spark安裝文件spark-2.4.0-bin-without-hadoop.tgz,默認會被瀏覽器保存在“/home/hadoop/下載”目錄下。

這里介紹Local模式（單機模式）的 Spark安裝。我們選擇Spark 2.4.0版本，并且當前用戶hadoop登錄了Linux操作系統(tǒng)。

sudo tar -zxf ~/下載/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.4.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark          # 此處的 hadoop 為你的用戶名

修改相關(guān)配置文件

安裝后，還需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

編輯spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

有了上面的配置信息以后，Spark就可以把數(shù)據(jù)存儲到Hadoop分布式文件系統(tǒng)HDFS中，也可以從HDFS中讀取數(shù)據(jù)。如果沒有配置上面信息，Spark就只能讀寫本地數(shù)據(jù)，無法讀寫HDFS數(shù)據(jù)。

然后通過如下命令，修改環(huán)境變量：

vi ~/.bashrc

在.bashrc文件中添加如下內(nèi)容：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=$PATH:${JAVA_HOME}/lib:/usr/local/hbase/bin
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

PYTHONPATH環(huán)境變量主要是為了在Python3中引入pyspark庫，PYSPARK_PYTHON變量主要是設(shè)置pyspark運行的python版本。

.bashrc中必須包含JAVA_HOME,HADOOP_HOME,SPARK_HOME,PYTHONPATH,PYSPARK_PYTHON,PATH這些環(huán)境變量。如果已經(jīng)設(shè)置了這些變量則不需要重新添加設(shè)置。另外需要注意，上面的配置項中，PYTHONPATH這一行有個py4j-0.10.4-src.zip，這個zip文件的版本號一定要和“/usr/local/spark/python/lib”目錄下的py4j-0.10.4-src.zip文件保持版本一致。比如，如果“/usr/local/spark/python/lib”目錄下是py4j-0.10.7-src.zip，那么，PYTHONPATH這一行后面也要寫py4j-0.10.7-src.zip，從而使二者版本一致。

接著還需要讓該環(huán)境變量生效，執(zhí)行如下代碼：

source ~/.bashrc

驗證Spark是否安裝成功

配置完成后就可以直接使用，不需要像Hadoop運行啟動命令。

通過運行Spark自帶的示例，驗證Spark是否安裝成功。

cd /usr/local/spark
./bin/run-example SparkPi

執(zhí)行時會輸出非常多的運行信息，輸出結(jié)果不容易找到，可以通過 grep 命令進行過濾（命令中的 2>&1 可以將所有的信息都輸出到 stdout 中，否則由于輸出日志的性質(zhì)，還是會輸出到屏幕中）:

bin/run-example SparkPi 2>&1 | grep "Pi is"

這里涉及到Linux Shell中管道的知識，詳情可以參考Linux Shell中的管道命令

過濾后的運行結(jié)果如下圖示，可以得到π 的 5 位小數(shù)近似值：

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

Spark和Hadoop的交互

Hadoop 和Spark 可以相互協(xié)作，由Hadoop的HDFS 、HBase 等組件負責數(shù)據(jù)的存儲和管理，由Spark負責數(shù)據(jù)的計算。

為了能夠讓Spark操作HDFS中的數(shù)據(jù)，需要先啟動HDFS。打開一個Linux終端，在Linux shell中輸入如下命令啟動HDFS:

cd /usr/local/hadoop
./sbin/start-dfs.sh

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

HDFS啟動完成后，可以通過命令jps來判斷是否成功啟動，命令如下：

jps

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

若成功啟動，則會列出如下進程：NameNode、DataNode、和SecondaryNameNode。然后就可以對HDFS中的數(shù)據(jù)進行讀取或?qū)懭氩僮?/p>

使用結(jié)束后，可以使用如下命令關(guān)閉HDFS:

./sbin/stop-dfs.sh

啟動pyspark

按照上面的配置相關(guān)文件設(shè)置了PYSPARK_PYTHON環(huán)境變量，就可以直接使用如下命令啟動pyspark:

cd /usr/local/spark
./bin/pyspark

如果沒有設(shè)置PYSPARK_PYTHON環(huán)境變量，則需要使用如下命令啟動pyspark:

PYSPARK_PYTHON=python3
cd /usr/local/spark
./bin/pyspark

啟動以后會進入pyspark交互式執(zhí)行環(huán)境，如圖：

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

就可以在里面輸入python代碼進行調(diào)試：

Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境

最后，可以使用如下命令"exit()"退出pyspark:文章來源地址http://www.zghlxwxcb.cn/news/detail-400364.html

>>> exit()

到了這里，關(guān)于Hadoop（偽分布式）+Spark（local模式）搭建Hadoop和Spark組合環(huán)境的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Spark Standalone 模式的安裝和部署第1關(guān)： Standalone 分布式集群搭建
我們已經(jīng)掌握了 Spark 單機版安裝，那么分布式集群怎么搭建呢？接下來我們學(xué)習 Standalone 分布式集群搭建。課程視頻如果你需要在本地配置 Spark 完全分布式環(huán)境，可以通過查看課程視頻來學(xué)習。課程視頻《Spark配置文件設(shè)置》 Spark分布式安裝模式 Spark 分布式環(huán)境安裝目前
2024年02月03日
瀏覽(25)
Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆級超詳細含圖文)
說明: 本篇將詳細介紹用二進制安裝包部署hadoop等組件，注意事項，各組件的使用，常用的一些命令，以及在部署中遇到的問題解決思路等等，都將詳細介紹。 ip hostname 192.168.1.11 node1 192.168.1.12 node2 192.168.1.13 node3 1.2.1系統(tǒng)版本 1.2.2內(nèi)存建議最少4g、2cpu、50G以上的磁盤容量本次
2024年02月12日
瀏覽(37)
ubuntu下Hadoop以及Spark的偽分布式安裝：一
1.1 安裝前說明：很多初學(xué)者在安裝的時候會碰到各種各樣的問題，尤其各種版本的搭配問題。所以特意做一個初步安裝的引導(dǎo)，希望大家都能一次調(diào)試出來。經(jīng)過測試，jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1，這是暫時來說scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完
2024年04月23日
瀏覽(29)
hadoop（偽分布式）上的spark和Scala安裝與配置詳細版
在搭建spark和Scala前提下，必需安裝好hive和java，和 Hadoop的偽分布式哦 1、安裝與配置Scale? ? ? ? （1）去官網(wǎng)下載Scala ? ? ? ? 官網(wǎng)地址： The Scala Programming Language (scala-lang.org) https://www.scala-lang.org/ 這里我要的是scala-2.2.12.12.tgz 然后我們點擊 all releases 點進去之后往下找然后
2024年04月28日
瀏覽(21)
搭建完全分布式Hadoop
登錄三個虛擬機執(zhí)行命令： vim /etc/hosts 1、上傳安裝包上傳hadoop安裝包查看hadoop安裝包 2、解壓縮安裝包執(zhí)行命令： tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local 查看解壓后的目錄 3、配置環(huán)境變量執(zhí)行命令： vim /etc/profile 存盤退出，執(zhí)行命令： source /etc/profile ，讓配置生效查看had
2024年02月04日
瀏覽(26)
搭建偽分布式Hadoop
在獨立模式下，所有程序都在單個JVM上執(zhí)行，調(diào)試Hadoop集群的MapReduce程序也非常方便。一般情況下，該模式常用于學(xué)習或開發(fā)階段進行調(diào)試程序。在偽分布式模式下， Hadoop程序的守護進程都運行在一臺節(jié)點上，該模式主要用于調(diào)試Hadoop分布式程序的代碼，以及程序執(zhí)行是否
2024年02月06日
瀏覽(20)
Hadoop完全分布式搭建
1.下載VM 2.下載Centos鏡像 3.下載hadoop 4.下載FinalShell 5.下載jdk文件 ?6.下載hive，數(shù)據(jù)倉庫學(xué)習大數(shù)據(jù)專業(yè)的用的到 ? ? 注：開啟虛擬機把鼠標放入屏幕點擊后消失，使用鍵盤上下鍵進行選擇 ? 注：點擊之后，什么都不動，再點擊完成（因為它自動幫我們分區(qū)了）注：我們配置
2024年02月04日
瀏覽(24)
Hadoop分布式集群搭建
集群以三臺電腦搭建，每臺電腦創(chuàng)建一個UbuntuKylin虛擬機，集群以三臺UbuntuKylin虛擬機為基礎(chǔ)搭建，虛擬機主機名分別為hadoop101、hadoop111和hadoop121。IP地址分別為192.168.214.101、192.168.214.111和192.168.214.121。主機名 IP地址： hadoop101 192.168.214.101 hadoop111 192.168.214.111 hadoop121 192.168.214
2024年02月03日
瀏覽(23)
分布式計算中的大數(shù)據(jù)處理:Hadoop與Spark的性能優(yōu)化
大數(shù)據(jù)處理是現(xiàn)代計算機科學(xué)的一個重要領(lǐng)域，它涉及到處理海量數(shù)據(jù)的技術(shù)和方法。隨著互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)的規(guī)模不斷增長，傳統(tǒng)的計算方法已經(jīng)無法滿足需求。因此，分布式計算技術(shù)逐漸成為了主流。 Hadoop和Spark是目前最為流行的分布式計算框架之一，它們都提供了高
2024年01月23日
瀏覽(93)
hadoop平臺完全分布式搭建
安裝前準備一、設(shè)置ssh免密登錄 1.編輯hosts文件，添加主機名映射內(nèi)容 vim ?/etc/hosts 添加內(nèi)容： 172.17.0.2 ?????master 172.17.0.3 ?????slave1 172.17.0.4 ?????slave2 2.生成公鑰和私鑰 ssh-keygen –t rsa 然后按三次回車 3.復(fù)制公鑰到其他容器（包括自己） ssh-copy-id master ssh-copy-id slav
2024年03月17日
瀏覽(30)

<span id="nhsnp"><small id="nhsnp"></small></span>

<track id="nhsnp"><ol id="nhsnp"></ol></track>

<ul id="nhsnp"></ul>