国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數據開發(fā)之Hadoop(入門)

這篇具有很好參考價值的文章主要介紹了大數據開發(fā)之Hadoop(入門)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

第 1 章:Hadoop概述

1.1 Hadoop是什么

1、Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。
2、主要解決,海量數據的存儲和海量數據的分析計算問題。
3、Hadoop通常是指一個更廣泛的概念-Hadoop生態(tài)圈

1.2 Hadoop優(yōu)勢(4高)

1、高可靠性:Hadoop底層維護多個數據副本,所以即使Hadoop某個計算元素或存儲出現故障,也不會導致數據的丟失。
2、高擴展性:再集群間分配任務數據,可方便的擴展數以千計的節(jié)點。
3、高效性:再MapReduce的思想下,Hadoop是并行工作的,以加快任務處理速度。
4、高容錯性:能夠自動將失敗的任務重新分配。

1.3 Hadoop組成(面試重點)

在Hadoop1.x時代,Hadoop中的MapReduce同時處理業(yè)務邏輯運算和資源的調度,耦合度較大。
在Hadoop2.x時代,增加了Yarn。Yarn只負責資源的調度,MaoReduce只負責運算。

1.3.1 HDFS架構概述

Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。
1、NameNode(nn):存儲文件的元數據,如文件名,文件目錄結構,文件屬性(生成時間、副本數、文件權限),以及每個文件的塊列表和塊所在的DataNode等。
2、DataNode(dn):在本地文件系統(tǒng)存儲文件塊數據,以及塊數據的校驗和。
3、Secondary NameNode(2nn):每隔一段時間對NameNode元數據備份。

1.3.2 YARN架構概述

Yet Another Resource Negotiator簡稱YARN,另一種資源協調者,是Hadoop的資源管理器。
YARN架構概述
1)ResourceManager(RM):整個集群資源(內存、CPU等)老大
2)NodeManager(NM):單個節(jié)點服務器資源老大
3)ApplicationMaster(AN):單個文物運行的老大
4)Container容器:相當于一臺獨立的服務器,里面封裝了任務運行所需的資源,如內存、cpu、磁盤、網絡等。
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

1.3.3 MapReduce架構概述

MapReduce將計算過程分為兩個階段:Map和Reduce
1、Map階段并行處理輸入數據
2、Reduce階段對Map結果進行匯總

1.4 大數據技術生態(tài)體系

1、Sqoop:Sqoop是一款開源的工具,主要用于在Hadoop、Hive與傳統(tǒng)的數據庫(MySQL)間進行數據的傳遞,可以將一個關系型數據庫(例如:MySQL,Oracle等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
2、Flume:Flume是一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳遞的系統(tǒng),Flume支持在日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據。
3、Kafka:Kafka是一個高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。
4、Spark:Spark是當前最流行的開源大數據內存計算框架??梢曰贖adoop上存儲的大數據進行計算。
5、Flink:Flink是當前最流行的開源大數據內存計算框架,用于實時計算的場景較多。
6、Oozie:Oozie是一個管理Hadoop作業(yè)(job)的工作流程調用管理系統(tǒng)。
7、HBase:HBase是一個分布式的、面向列的開源數據塊。HBase不同于一般的關系數據塊,它是一個非常適合于非結構化數據存儲的數據塊。
8、Hive:Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。其優(yōu)點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數據倉庫的統(tǒng)計分析。
9、ZooKeeper:它是一個針對大型分布式系統(tǒng)的可靠協調系統(tǒng),提供的功能包括:配置維護、名字服務、分布式同步、組服務等。

第 2 章:Hadoop運行模式

本地模式:單機運行,只是用來演示以下官方案例。生產環(huán)境不用。
偽分布式模式:也是單機運行,但是具備Hadoop集群的所有功能,一臺服務器模擬一個分布式的環(huán)境。個別缺錢的公司用來測試,生產環(huán)境不用。
完全分布式模式:多臺服務器組成分布式環(huán)境。生產環(huán)境使用。

3.1 本地運行模式(官方WordCount)

1、創(chuàng)建在hadoop-3.1.3文件下面創(chuàng)建一個wcinput文件夾

mkdir wcinput

2、在wcinput文件下創(chuàng)建一個word.txt文件

cd wcinput

3、編輯word.txt文件

vim word.txt
hadoop yarn
hadoop mapreduce
atguigu
atguigu

4、回到Hadoop目錄/opt/module/hadoop-3.1.3
5、執(zhí)行程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

6、查看結果

cat wcoutput/part-r-00000
atguigu 2
hadoop  2
mapreduce       1
yarn    1

3.2 完全分布式運行模式(開發(fā)重點)

1、分析:
1)準備3臺客戶機(關閉防火墻、靜態(tài)IP、主機名稱)
2)安裝JDK
3)配置環(huán)境變量
4)安裝Hadoop
5)配置環(huán)境變量
6)配置集群
7)單點啟動
8)配置ssh
9)群起并測試集群

3.2.1 編寫集群分發(fā)腳本xsync

1、scp(secure copy)安全拷貝
1)scp定義
scp可以實現服務器與服務器之間的數據拷貝。
2)基本語法

scp    -r        $pdir/$fname             $user@$host:$pdir/$fname
命令   遞歸     要拷貝的文件路徑/名稱   目的地用戶@主機:目的地路徑/名稱

3)案例實操
前提:在hadoop102、103、104都創(chuàng)建好的/opt/module、/opt/software兩個目錄,并且已經把這兩個目錄修改為atguigu:atguigu

sudo chown atguigu:atguigu -R /opt/module

(1)在hadoop102上,將102中/opt/module/jdk目錄拷貝到103上

scp -r /opt/module/jdk1.8.0_212  atguigu@hadoop103:/opt/module

(2)在103上,將102中/opt/module/hadoop目錄拷貝到103上

$ scp -r atguigu@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

(3)在103上操作,將102中/opt/module目錄下所有目錄拷貝到104上

scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module

2、rsync遠程同步工具
rsync主要用于備份和鏡像。具有速度塊、避免復制相同內容和支持符號鏈接的優(yōu)點。
rsync和scp區(qū)別:用rsync做文件的復制要比scp的速度塊,rsync只對差異文件做更新。scp是把所有文件都復制過去。
1)基本語法

rsync    -av       $pdir/$fname             $user@$host:$pdir/$fname
命令   選項參數   要拷貝的文件路徑/名稱   目的地用戶@主機:目的地路徑/名稱
選項 功能
-a 歸檔拷貝
-v 顯示復制過程
2)實操
(1)刪除103中/opt/module/hadoop-3.1.3/wcinput
rm -rf wcinput/

(2)同步hadoop102中/opt/~~/hadoop-3.1.3到103

$ rsync -av hadoop-3.1.3/ atguigu@hadoop103:/opt/module/hadoop-3.1.3/

3、xsync群發(fā)腳本
1)需求:循環(huán)復制文件到所有節(jié)點的相同目錄下
2)需求分析:
(1)rsync命令原始拷貝

rsync  -av     /opt/module  		 atguigu@hadoop103:/opt/

(2)期望腳本:xsync要同步的文件名稱
(3)期望腳本在任何路徑都能使用(腳本放在聲明了全局環(huán)境變量的路徑)

echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atguigu/.local/bin:/home/atguigu/bin:/opt/module/jdk1.8.0_212/bin

3)腳本實現
(1)在/home/atguigu/bin目錄下創(chuàng)建xsync文件

cd /home/atguigu
mkdir bin
cd bin
vim xsync

在文件中編寫如下代碼

#!/bin/bash

#1. 判斷參數個數
if [ $# -lt 1 ]
then
    echo "Not Enough Arguement!"
    exit
fi

#2. 遍歷集群所有機器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍歷所有目錄,挨個發(fā)送

    for file in $@
    do
        #4. 判斷文件是否存在
        if [ -e $file ]
            then
                #5. 獲取父目錄
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 獲取當前文件的名稱
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

(2)修改腳本xsync具有執(zhí)行權限

chmod +x xsync

(3)測試腳本

xsync /home/atguigu/bin

(4)將腳本復制到/bin中,以便全局調用

xsync /home/atguigu/bin

(5)同步環(huán)境變量配置(root所有者)

sudo xsync /etc/profile.d/my_env.sh

讓環(huán)境變量生效

source /etc/profile

3.2.3 SSH無密登錄配置

1、配置ssh
1)基本語法
ssh另一臺電腦的IP地址
2)ssh連接時出現Host key verification failed的解決方法

ssh hadoop103

如果出現如下內容

Are you sure you want to continue connecting (yes/no)? 

輸入yes,并回車
3)退回到hadoop102
2、無密鑰配置
1)免密登錄原理
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

2)生成公鑰和私鑰

 pwd /home/atguigu/.ssh
ssh-keygen -t rsa

然后敲(三個回車),就會生成兩個文件id_rsa(私鑰)、id_rsa.put(公鑰)
3)將公鑰拷貝到要免密登錄的目標機器上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

注意:
還需要再hadoop103上采用root賬號配置一下無密登錄到102、103、104服務器上。102、104同樣。

3.2.4 集群配置

1、集群部署規(guī)劃
注意:
NameNode和SecondaryNameNode不要安裝再同一臺服務器
ResourceManager也很消耗內存,不要和NameNode、SecondarryNameNode配置再同一臺機器上。
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

2、配置文件說明
Hadoop配置文件分兩類:默認配置文件和自定義配置文件,只有用戶想修改某一默認值時,才需要修改自定義配置文件,更改相應屬性值。
1)默認配置文件:

要獲取的默認文件 文件存放在Hadoop的jar包中的位置
core-default.xml hadoop-common-3.1.3.jar/core-default.xnk
hdfs-default.xml hadoop-hdfs-3.1.3.jar/hdfs-default.xml
yarn-default.xml hadoop-yarn-common-3.1.3.jar/yarn-default.xml
mapred-default.xml hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

2)自定義配置文件:
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四個配置文件存放在$HADOOP_HOME/etc/hadoop這個路徑上,用戶可以根據項目需求重新進行修改配置。
3、配置集群
1)核心配置文件
core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml

文件內容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>

    <!-- 指定hadoop數據的存儲目錄 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>

    <!-- 配置HDFS網頁登錄使用的靜態(tài)用戶為atguigu -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>atguigu</value>
    </property>
</configuration>

2)HDFS配置文件
配置hdfi-site.xml

vim hdfs-site.xml

文件內容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- nn web端訪問地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
	<!-- 2nn web端訪問地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

3)YARN配置文件
配置yarn-site.xml

vim yarn-site.xml

文件內容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 環(huán)境變量的繼承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

4)MapReduce配置文件
配置mapred-site.xml

vim mapred-site.xml

文件內容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 指定MapReduce程序運行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4、在集群上分發(fā)配置好的Hadoop配置文件

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

5)去103和104上查看文件分發(fā)清空

cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

3.2.5 群起集群

1、配置workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在該文件中增加如下內容

hadoop102
hadoop103
hadoop104

注意:該文件中添加的內容結尾不允許有空格,文件中不允許有空行。
同步所有節(jié)點配置文件

xsync /opt/module/hadoop-3.1.3/etc

2、啟動群起
1)如果集群是第一次啟動,需要在hadoop102節(jié)點格式化NameNode(注意:格式化NameNode,會產生新的集群id,導致NameNode和DataNode的集群id不一致,集群找不到以往數據。如果集群在運行過程中報錯,需要重新格式化NameNode的話,一定要先停止namenode和datanode進程,并且要刪除所有機器的data和logs目錄,然后再進行格式化。)

hdfs namenode -format

2)啟動HDFS

sbin/start-dfs.sh

3)在配置了ResourceManager的節(jié)點(hadoop103)啟動YARN

sbin/start-yarn.sh

3.2.6 集群啟動/停止方式總結

1、各個模塊分開啟動/停止(配置ssh是前提)常用
1)整體啟動/停止HDFS

start-dfs.sh/stop-dfs.sh

2)整體啟動/停止YARN

start-yarn.sh/stop-yarn.sh

2、各個服務組件逐一啟動/停止
1)分別啟動/停止HDFS組件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

2)啟動/停止YARN

yarn --daemon start/stop resourcemanager/nodemanager

3.2.7 編寫Hadoop集群常用腳本

1、Hadoop集群啟停腳本(包含HDFS,Yarn,Historyserver):myhadoop.sh

cd /home/atguigu/bin
vim myhadoop.sh

輸入以下內容:

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " ======啟動 hadoop集群 ======="
        echo " --------------- 啟動 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 啟動 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
;;
"stop")
        echo " ==========關閉 hadoop集群 ========="
        echo " --------------- 關閉 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 關閉 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

保存后退出,然后賦予腳本執(zhí)行權限

chmod +x myhadoop.sh

2、查看三臺服務器Java進程腳本:jpsall

cd /home/atguigu/bin
vim jpsall

輸入如下內容

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

保存后退出,然后賦予腳本執(zhí)行權限

chmod +x jpsall

3、分發(fā)/home/atguigu/bin目錄,保證自定義腳本在三臺機器上都可以使用

xsync /home/atguigu/bin/

1)Web端查看HDFS的NameNode
(1)瀏覽器輸入:http://hadoop102:9870
(2)查看HDFS上存儲的數據信息

2)Web端查看YARN的ResourceManager
(1)瀏覽器中輸入:http://hadoop103:8088
(2)查看YARN上運行的Job信息
4、集群基本測試
1)上傳文件到集群
創(chuàng)建目錄
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

上傳文件
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

2)執(zhí)行wordcount程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

3)注意:如果在執(zhí)行過程中報錯超出虛擬內存限制
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

解決方案:在yarn-site.xml中添加如下內容(配置后進行分發(fā))

<!-- 解決Yarn在執(zhí)行程序遇到超出虛擬內存限制,Container被kill  -->
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>

3.2.8 配置歷史服務器

為了查看程序的歷史運行情況,需要配置以下歷史服務器。具體配置步驟如下:
1、配置mapred-site.xml

vim mapred-site.xml

在該文件里面增加如下配置:

<!-- 歷史服務器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 歷史服務器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

2、分發(fā)配置

xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

3、在hadoop102啟動歷史服務器

mapred --daemon start historyserver

4、查看歷史服務器是否啟動

jps

5、查看JobHistory

http://hadoop102:19888/jobhistory

3.2.9 配置日志的聚集

日志聚集概念:應用運行完成以后,將程序運行日志上傳到HDFS系統(tǒng)上。
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式
日志聚集功能好處:可以方便的查看到程序運行詳情,方便開發(fā)調試。
注意:開啟日志聚集功能,需要重新啟動NodeManager、ResourceManager和HistoryServer。
開啟日志聚集功能具體步驟如下:
1、配置yarn-site.xml

vim yarn-site.xml

在該文件里面增加如下配置:

<!-- 開啟日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 設置日志聚集服務器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 設置日志保留時間為7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

2)分發(fā)配置

xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

3)關閉NodeManager、ResourceManager和HistoryServer

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[atguigu@hadoop102 hadoop-3.1.3]$ mapred --daemon stop historyserver

4)啟動NodeManager、ResourceManager和HistoryServer

[atguigu@hadoop103 ~]$ start-yarn.sh
[atguigu@hadoop102 ~]$ mapred --daemon start historyserver

5)刪除HDFS上已經存在的輸出文件(可以通過頁面刪除)

[atguigu@hadoop102 ~]$ hadoop fs -rm -r /output

6)執(zhí)行WordCount程序

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

7)查看日志
(1)歷史服務器地址
http://hadoop102:19888/jobhistory
(2)歷史任務列表
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

(3)查看任務運行日志
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

(4)運行日志詳情
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

3.2.10 常用端口號說明

端口名稱 Hadoop2.x Hadoop3.x
NameNode內部通信端口 8020/9000 8020/9000/9820
NameNode HTTP UI 50070 9870
MapReduce查看執(zhí)行任務端口 8088 8088
歷史服務器通信端口 19888 19888

3.2.11 集群時間同步

如果服務器在公網環(huán)境(能連接外網),可以不采用集群時間同步,因為服務器會定期和公網時間進行校準;
如果服務器在內網環(huán)境,必須要配置集群時間同步,否則時間久了,會產生時間偏差,導致集群執(zhí)行任務時間不同步。
1、需求
找一個機器,作為時間服務器,所有的機器與這臺集群時間進行定時的同步,生產環(huán)境根據任務對事件的準確程度要求周期同步。測試環(huán)境為了盡快看到效果,采用1分組同步一次。
大數據開發(fā)之Hadoop(入門),大數據,hadoop,分布式

2、事件服務器配置(必須root用戶)
1)查看hadoop102服務狀態(tài)和開機自啟動狀態(tài)(如果開著就關掉)

[atguigu@hadoop102 ~]$ sudo systemctl status ntpd
[atguigu@hadoop102 ~]$ sudo systemctl is-enabled ntpd

2)修改hadoop102的ntp.conf配置文件

[atguigu@hadoop102 ~]$ sudo vim /etc/ntp.conf

修改內容如下:
(1)修改1(授權192.168.10.0-192.168.10.255網段上的所有機器可以從這臺機器上查詢和同步事件)

#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

將上面的注釋去掉(并將192.168.1.0改成192.168.10.0)

restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

(2)修改2(集群在局域網中,不使用其他互聯網上的時間)

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
給上面的內容添加注釋
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

(3)添加3(當該節(jié)點丟失網絡連接,依然可以采用該本地時間作為時間服務器為集群中的其它節(jié)點提供時間同步)

server 127.127.1.0
fudge 127.127.1.0 stratum 10

3)修改hadoop102的/etc/sysconfig/ntpd文件

[atguigu@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

增加內容如下(讓硬件時間與系統(tǒng)時間一起同步)

SYNC_HWCLOCK=yes

4)重新啟動ntpd服務

[atguigu@hadoop102 ~]$ sudo systemctl start ntpd

5)設置ntpd服務開機啟動

[atguigu@hadoop102 ~]$ sudo systemctl enable ntpd

3、其它機器配置(必須root用戶)
1)關閉所有節(jié)點ntp服務和自啟動

[root@hadoop103 ~]$ systemctl stop ntpd
[root@hadoop103 ~]$ systemctl disable ntpd

[root@hadoop104 ~]$ systemctl stop ntpd
[root@hadoop104 ~]$ systemctl disable ntpd

2)在其他機器配置1分鐘與時間服務器同步一次

[root@hadoop103 ~]$ sudo crontab -e

編輯定時任務如下:

*/1 * * * * /usr/sbin/ntpdate hadoop102

3)修改任意機器時間

[root@hadoop103 ~]$ date -s "2021-9-11 11:11:11"

4)1分鐘后查看機器是否與時間服務器同步文章來源地址http://www.zghlxwxcb.cn/news/detail-811397.html

[root@hadoop103 ~]$ date

到了這里,關于大數據開發(fā)之Hadoop(入門)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 大數據之Hadoop分布式數據倉庫HBase

    大數據之Hadoop分布式數據倉庫HBase

    HBase 是一個構建在 Hadoop 文件系統(tǒng)之上的面向列的數據庫管理系統(tǒng)。 要想明白為什么產生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通過 HDFS 來存儲結構化、半結構甚至非結構化的數據,它是傳統(tǒng)數據庫的補充,是海量數據存儲的最佳方法,它針對大文件的存儲,

    2024年02月02日
    瀏覽(27)
  • 大數據學習02-Hadoop分布式集群部署

    大數據學習02-Hadoop分布式集群部署

    操作系統(tǒng):centos7 軟件環(huán)境:jdk8、hadoop-2.8.5 1.下載VMware,建議支持正版 2.安裝到Widows目錄下任意位置即可,安裝目錄自定義。打開VMware,界面如下: 3.創(chuàng)建虛擬機 創(chuàng)建虛擬機—選擇自定義 這一步按照默認的配置就好 選擇系統(tǒng),安裝程序光盤映像文件iso,這里需要下載cenos鏡像

    2024年02月16日
    瀏覽(22)
  • 《Hadoop大數據技術》實驗報告(1)Hadoop的偽分布式安裝和配置

    《Hadoop大數據技術》實驗報告(1)Hadoop的偽分布式安裝和配置

    《Hadoop大數據技術》實驗報告(1) 班級 學號 姓名 Hadoop的偽分布式安裝和配置 一、實驗目的 1、理解Hadoop偽分布式的安裝過程; 2、學會JDK的安裝和SSH免密碼配置; 3、學會Hadoop的偽分布式安裝和配置。 二、實驗內容 在linux平臺中安裝Hadoop,包括JDK安裝、SSH免密碼配置和偽分

    2023年04月23日
    瀏覽(28)
  • 頭歌Hadoop 開發(fā)環(huán)境搭建及HDFS初體驗(第2關:配置開發(fā)環(huán)境 - Hadoop安裝與偽分布式集群搭建)

    頭歌Hadoop 開發(fā)環(huán)境搭建及HDFS初體驗(第2關:配置開發(fā)環(huán)境 - Hadoop安裝與偽分布式集群搭建)

    注: 1 頭歌《Hadoop 開發(fā)環(huán)境搭建及HDFS初體驗》三關在一個實驗環(huán)境下,需要三關從前往后按順序評測,跳關或者實驗環(huán)境結束后重新打開 不能單獨評測通過 2 復制粘貼請用右鍵粘貼,CTRL+C/V不管用哦~ 第1關:配置開發(fā)環(huán)境 - JavaJDK的配置: 解壓: 配置環(huán)境變量: 細節(jié): vi

    2024年02月08日
    瀏覽(352)
  • 大數據Hadoop完全分布式及心得體會

    大數據Hadoop完全分布式及心得體會

    Hadoop是一個 分布式系統(tǒng) 基礎技術框架,利用hadoop,開發(fā)用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,從而達到充分利用集群的威力高速運算和存儲的目的;而在本學期中,我們的專業(yè)老師帶我們學習了Hadoop框架中最 核心 的設計: MapReduce 和 HDFS 。 MapReduc

    2024年02月08日
    瀏覽(23)
  • 大數據 | 實驗零:安裝 Hadoop 偽分布式系統(tǒng)

    大數據 | 實驗零:安裝 Hadoop 偽分布式系統(tǒng)

    ?? 前言 :本篇是個人配置環(huán)境的總結,基于指導書,補充了許多在配置過程中出現的問題的解決細節(jié)。希望能幫到你??。 Vmware workstation pro 16 Ubuntu 20.04 JDK 1.8 Hadoop 3.2.2 下邊資源是本篇博客會用到的相關文件 (建議直接下載,相關代碼直接對應的下述文件, 下載完先不要動

    2023年04月17日
    瀏覽(15)
  • hadoop完全分布式集群搭建(超詳細)-大數據集群搭建

    hadoop完全分布式集群搭建(超詳細)-大數據集群搭建

    本次搭建完全分布式集群用到的環(huán)境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需環(huán)境也給大家準備了,下載鏈接地址:https://share.weiyun.com/dk7WgaVk 密碼:553ubk 本次完全分布式集群搭建需要提前建立好三臺虛擬機,我分別把它們的主機名命名為:master,slave1,slave2 一.配置免密登陸 首先

    2024年02月10日
    瀏覽(29)
  • 大數據內容分享(九):Hadoop-生產集群搭建(完全分布式)

    大數據內容分享(九):Hadoop-生產集群搭建(完全分布式)

    目錄 Hadoop運行模式——完全分布式 1、準備3臺虛擬機(關閉防火墻、配置靜態(tài)IP 和 主機名稱) 2、安裝JDK 和 Hadoop 并配置JDK和Hadoop的環(huán)境變量 3、配置完全分布式集群 4、集群配置 1)集群部署規(guī)劃 2)配置文件說明 3)配置集群 5、集群啟動 與 測試 1)workers的配置 2)啟動集

    2024年02月21日
    瀏覽(24)
  • 分布式計算 第五章 大數據多機計算:Hadoop

    分布式計算 第五章 大數據多機計算:Hadoop

    5.2.1 從硬件思考大數據 從硬件角度看,一臺或是幾臺機器似乎難以勝任大數據的存儲和計算工作。 ? 大量機器的集群構成數據中心 ? 使用高速互聯網絡對大量機器進行連接以確保數據傳遞 ? 綜合考量數據中心的散熱問題、能耗問題,以及各方面成本 ? 集群中硬件發(fā)生故

    2024年02月05日
    瀏覽(23)
  • 在macOS上安裝Hadoop: 從零到分布式大數據處理

    在macOS上安裝Hadoop: 從零到分布式大數據處理

    要在 macOS 上安裝 Hadoop,您可以按照以下步驟進行操作: 前往Hadoop的官方網站下載最新版本的Hadoop。選擇一個穩(wěn)定的發(fā)行版本并下載壓縮文件(通常是.tar.gz格式)。 將下載的 Hadoop 壓縮文件解壓縮到您選擇的目錄中。可以使用終端執(zhí)行以下命令: 請將 hadoop-version 替換為您下

    2024年02月06日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包