分布式集群是由多個節(jié)點組成的系統(tǒng),可以提供高性能、高可用、高擴展的數據處理能力。本文介紹如何啟動和關閉一個包含hadoop、zookeeper、hbase和spark的分布式集群。
目錄
啟動順序
關閉順序
啟動和關閉hadoop
啟動hadoop
關閉hadoop
查看網頁
啟動和關閉zookeeper
啟動zookeeper
關閉zookeeper
查看狀態(tài)
啟動和關閉hbase
啟動hbase
關閉hbase
查看網頁
驗證hbase
啟動和關閉spark
啟動spark
關閉spark
啟動Spark History Server
查看網頁
驗證spark
?
啟動順序
啟動分布式集群的順序是:
- 先啟動hadoop
- 再啟動zookeeper
- 最后啟動hbase和spark
這樣可以保證各個組件之間的依賴關系和協(xié)調關系。
關閉順序
關閉分布式集群的順序是:
- 先關閉hbase和spark
- 再關閉zookeeper
- 最后關閉hadoop
這樣可以避免數據丟失和服務異常。
啟動和關閉hadoop
hadoop是一個分布式文件系統(tǒng)和計算框架,它提供了存儲和處理海量數據的能力。hadoop主要由兩個部分組成:HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator)。
啟動hadoop
啟動hadoop之前,需要先初始化hadoop的namenode,這是HDFS的主節(jié)點,負責管理元數據。只有在第一次啟動時才需要執(zhí)行這一步,以后就不用了。在namenode所在的節(jié)點上執(zhí)行以下命令:
# 初始化namenode
hadoop namenode -format
然后,在namenode所在的節(jié)點上執(zhí)行以下命令,啟動HDFS:
# 啟動HDFS
start-dfs.sh
接著,在resourcemanager所在的節(jié)點上執(zhí)行以下命令,啟動YARN:
# 啟動YARN
start-yarn.sh
最后,可以在任意節(jié)點上執(zhí)行以下命令,查看各個進程是否正常運行:
# 查看進程
jps
也可直接快捷啟動HDFS和YARN:
start-all.sh
?如果輸出結果中包含以下進程,則說明啟動成功:
- NameNode:HDFS的主節(jié)點
- DataNode:HDFS的從節(jié)點,負責存儲數據塊
- ResourceManager:YARN的主節(jié)點,負責管理資源和調度任務
- NodeManager:YARN的從節(jié)點,負責執(zhí)行任務
關閉hadoop
關閉hadoop時,只需要在任意節(jié)點上執(zhí)行以下命令即可:
# 關閉hadoop
stop-all.sh
這個命令會自動停止所有的HDFS和YARN進程。
查看網頁
如果想要查看hadoop的運行狀態(tài)和數據情況,可以通過瀏覽器訪問以下網址:
- http://192.168.1.100:9870/:這是namenode的網頁界面,可以查看HDFS的概況、文件系統(tǒng)、快照等信息。
- http://192.168.1.100:8088/cluster/:這是resourcemanager的網頁界面,可以查看YARN的概況、應用、隊列等信息。
其中,192.168.1.100是namenode和resourcemanager所在節(jié)點的IP地址,如果你的IP地址不同,請自行替換。
啟動和關閉zookeeper
zookeeper是一個分布式協(xié)調服務,它提供了一致性、可靠性、原子性等特性,可以用于實現分布式鎖、配置管理、服務發(fā)現等功能。zookeeper由多個服務器組成一個集群,每個服務器都有一個唯一的ID,并且其中一個服務器會被選舉為leader,負責處理客戶端的請求。
啟動zookeeper
啟動zookeeper時,需要在每個服務器上執(zhí)行以下命令:
# 啟動zookeeper
zkServer.sh start
這個命令會在后臺運行zookeeper,并輸出日志到指定的目錄。如果想要在前臺運行zookeeper,并查看控制臺輸出的信息,可以執(zhí)行以下命令:
# 啟動zookeeper并輸出日志到控制臺
zkServer.sh start-foreground
關閉zookeeper
關閉zookeeper時,需要在每個服務器上執(zhí)行以下命令:
# 關閉zookeeper
zkServer.sh stop
這個命令會停止zookeeper的進程,并刪除相關的文件。
查看狀態(tài)
查看zookeeper的狀態(tài)時,有兩種方法:
- 在每個服務器上執(zhí)行以下命令,查看本地的狀態(tài):
# 查看本地狀態(tài)
zkServer.sh status
這個命令會輸出本地服務器的ID、角色(leader或follower)、連接數等信息。
- 在任意節(jié)點上執(zhí)行以下命令,查看遠程的狀態(tài):
# 查看遠程狀態(tài)
nc -v 192.168.1.100 2181
stat
這個命令會連接到指定的服務器(192.168.1.100是服務器的IP地址,2181是zookeeper的默認端口),并發(fā)送stat命令,然后輸出遠程服務器的ID、角色、連接數等信息。
啟動和關閉hbase
hbase是一個分布式的列式數據庫,它基于HDFS和zookeeper,提供了高性能、高可用、高擴展的數據存儲和查詢能力。hbase主要由兩個部分組成:HMaster和HRegionServer。
啟動hbase
啟動hbase時,需要先確保hadoop和zookeeper已經啟動,并且配置文件中指定了正確的HDFS和zookeeper地址。然后,在任意節(jié)點上執(zhí)行以下命令即可:
# 啟動hbase
start-hbase.sh
這個命令會自動啟動一個HMaster進程和多個HRegionServer進程。HMaster是hbase的主節(jié)點,負責管理元數據和協(xié)調任務。HRegionServer是hbase的從節(jié)點,負責存儲和處理數據。啟動hbase時,會根據配置文件中指定的master節(jié)點來啟動HMaster進程,如果沒有指定,則隨機選擇一個節(jié)點。
關閉hbase
關閉hbase時,需要先確保所有的客戶端連接已經斷開,并且沒有正在運行的任務。然后,在任意節(jié)點上執(zhí)行以下命令即可:
# 關閉hbase
stop-hbase.sh
這個命令會自動停止所有的HMaster和HRegionServer進程。關閉hbase時,要保證HMaster節(jié)點沒有掛掉,否則可能導致數據丟失或服務異常。
查看網頁
如果想要查看hbase的運行狀態(tài)和數據情況,可以通過瀏覽器訪問以下網址:
- http://192.168.1.100:16010/:這是HMaster的網頁界面,可以查看hbase的概況、表、快照等信息。
其中,192.168.1.100是HMaster所在節(jié)點的IP地址,如果你的IP地址不同,請自行替換。
驗證hbase
如果想要驗證hbase是否正常工作,可以通過交互式shell來操作hbase。在任意節(jié)點上執(zhí)行以下命令,打開交互式shell:
# 打開交互式shell
hbase shell
然后,在交互式shell中輸入各種命令,例如:
# 列出所有表
list
# 創(chuàng)建一個表test,有兩個列族cf1和cf2
create 'test', 'cf1', 'cf2'
# 插入一條數據到test表中,行鍵為row1,列族為cf1,列為c1,值為v1
put 'test', 'row1', 'cf1:c1', 'v1'
# 查詢test表中row1行的所有數據
get 'test', 'row1'
# 關閉然后刪除test表
disable 'test'
drop 'test'
這些命令可以對hbase進行基本的增刪改查操作。如果想要了解更多的命令和用法,可以參考官方文檔或者輸入help命令。
啟動和關閉spark
spark是一個分布式的計算框架,它基于HDFS和YARN,提供了高性能、高可用、高擴展的數據處理能力。spark可以運行在多種模式下,例如standalone、yarn、mesos等。在本文中,我將介紹如何在yarn模式下啟動和關閉spark。
啟動spark
啟動spark時,只需要在主節(jié)點上執(zhí)行以下命令即可:
# 啟動spark
start-all.sh
這個命令會自動啟動一個SparkMaster進程和多個SparkWorker進程。SparkMaster是spark的主節(jié)點,負責管理資源和調度任務。SparkWorker是spark的從節(jié)點,負責執(zhí)行任務。啟動spark時,會根據配置文件中指定的master節(jié)點來啟動SparkMaster進程,如果沒有指定,則隨機選擇一個節(jié)點。
關閉spark
關閉spark時,只需要在主節(jié)點上執(zhí)行以下命令即可:
# 關閉spark
stop-all.sh
這個命令會自動停止所有的SparkMaster和SparkWorker進程。
啟動Spark History Server
Spark History Server是一個可選的組件,它可以提供歷史任務的監(jiān)控和分析功能。如果想要啟動Spark History Server,需要在主節(jié)點上執(zhí)行以下命令:
# 啟動Spark History Server
start-history-server.sh
這個命令會在后臺運行Spark History Server,并輸出日志到指定的目錄。
查看網頁
如果想要查看spark的運行狀態(tài)和數據情況,可以通過瀏覽器訪問以下網址:
- http://192.168.1.100:8080/:這是SparkMaster的網頁界面,可以查看spark的概況、應用、工作、執(zhí)行器等信息。
- http://192.168.1.100:18080/:這是Spark History Server的網頁界面,可以查看歷史任務的概況、應用、作業(yè)、階段等信息。
其中,192.168.1.100是主節(jié)點的IP地址,如果你的IP地址不同,請自行替換。
驗證spark
如果想要驗證spark是否正常工作,可以通過提交一個示例程序來測試spark。在任意節(jié)點上的spark根目錄執(zhí)行以下命令,提交一個計算圓周率的程序:
# 提交一個計算圓周率的程序
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.12-3.2.3.jar 10
這個命令會在客戶端模式下提交一個程序到y(tǒng)arn上,并輸出結果到控制臺。如果輸出結果中包含以下內容,則說明運行成功:
# 輸出結果
Pi is roughly 3.1418
如果想要在集群模式下提交一個程序到y(tǒng)arn上,并在yarn上查看結果,可以執(zhí)行以下命令:文章來源:http://www.zghlxwxcb.cn/news/detail-487964.html
# 提交一個計算圓周率的程序
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.2.3.jar 10
這個命令會在集群模式下提交一個程序到y(tǒng)arn上,并輸出結果到日志文件中。可以通過yarn的網頁界面或者日志目錄來查看結果。文章來源地址http://www.zghlxwxcb.cn/news/detail-487964.html
到了這里,關于如何啟動和關閉分布式集群的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!