国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù)學習06-Spark分布式集群部署

2年前作者：小火柴012分類：Toy博客閱讀(96)違法舉報

這篇具有很好參考價值的文章主要介紹了大數(shù)據(jù)學習06-Spark分布式集群部署。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前期準備，每臺服務器都需要配置

配置好IP
vim /etc/sysconfig/network-scripts/ifcfg-ens33

TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static"
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="bcd315b9-9d9a-4ad7-8f75-9546f71e49a4"
DEVICE="ens33"
ONBOOT="yes"

IPADDR=192.168.245.200 #IP地址
GATEWAY=192.168.245.1  #默認網關
NETWORK=255.255.255.0  #子網掩碼
DNS1=114.114.114.114   #DNS
DNS2=8.8.8.8

修改主機名
vi /etc/hostname

做好IP映射
vim /etc/hosts

192.168.245.200 master
192.168.245.201 slave1
192.168.245.202 slave2

關閉防火墻
systemctl status firewalld
systemctl stop firewalld
systemctl disable firewalld
配置SSH免密登錄
ssh-keygen -t rsa

for i in {1..2};do scp -r ~/.ssh/authorized_keys root@slave${i}:~/.ssh/;done

安裝Scala

下載Scala安裝包

tar -zxvf scala-2.11.12.tgz -C /home/local

配置環(huán)境變量

vim /etc/profile

添加如下配置

export SCALA_HOME=/home/local/scala
export PATH=$SCALA_HOME/bin:$PATH

使環(huán)境生效

source /etc/profile

驗證

scala -version

安裝spark

Spark官網
大數(shù)據(jù)學習06-Spark分布式集群部署,大數(shù)據(jù),大數(shù)據(jù),分布式,學習

解壓

上傳軟件安裝包至linux系統(tǒng) /home/tools目錄下

tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz -C /home/local

移動文件目錄至spark

mv spark-2.2.3-bin-hadoop2.6 spark

配置環(huán)境

export SPARK_HOME=/home/local/spark
export PATH=$PATH:${SPARK_HOME}/bin:${SPARK_HOME}/sbin

修改配置

進入${SPARK_HOME}/conf路徑下，拷貝spark-env.sh.template為spark-env.sh

cp spark-env.sh.template spark-env.sh

修改spark-env.sh文件

vim spark-env.sh

添加如下配置


export JAVA_HOME=/home/local/java

export SCALA_HOME=/home/local/scala

export SPARK_DIST_CLASSPATH=$(/home/local/hadoop/bin/hadoop classpath)

export HADOOP_CONF_DIR=/home/local/hadoop/etc/hadoop
#指定spark主節(jié)點,通過主機映射
export SPARK_MASTER_HOST=master
#指定從節(jié)點worker并行數(shù)量
export SPARK_WORKER_CORES=2
#指定內存大小
export SPARK_WORKER_MEMORY=2g
#指定主節(jié)點端口
export SPARK_MAETER_PORT=7070

拷貝slave.template為slaves

cp slaves.template slaves

修改slaves文件

[root@master conf]# vim slaves
master
slave1
slave2

分發(fā)spark目錄至每個服務器節(jié)點

for i in {1..2};do scp -r /home/local/spark/ root@slave${i}:/home/local/;done

在${SPARK_HOME}/sbin目錄下啟動spark

./start-all.sh

在Spark Shell中，你可以使用以下方法來讀取HDFS文件：

1.讀取文本文件：

val textFile = sc.textFile("hdfs://<HDFS路徑>")

統(tǒng)計包含mike的數(shù)據(jù)記錄

textFile.filter(line=>line.contains("mike")).count()

2.讀取多個文本文件：

val textFiles = sc.wholeTextFiles("hdfs://<HDFS目錄>")

3.讀取二進制文件：

val binaryFiles = sc.binaryFiles("hdfs://<HDFS目錄>")

4.讀取其他格式的文件（如Parquet、Avro等）：

 val dataframe = sqlContext.read.format("<文件格式>").load("hdfs://<HDFS路徑>")
 這將返回一個 DataFrame 對象，可以使用Spark SQL進行數(shù)據(jù)分析。

pyspark讀取文件

1.導入PySpark模塊：

from pyspark.sql import SparkSession

2.創(chuàng)建SparkSession：

spark = SparkSession.builder \
    .appName("PySpark Example") \
    .getOrCreate()

3.加載數(shù)據(jù)

# 加載文本文件
text_data = spark.read.text("path/to/text/file.txt")

# 加載CSV文件
csv_data = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True)

# 加載JSON文件
json_data = spark.read.json("path/to/json/file.json")

4.數(shù)據(jù)處理和轉換

# 顯示DataFrame的內容
df.show()

# 選擇特定的列
df.select("column1", "column2")

# 過濾數(shù)據(jù)
df.filter(df.column1 > 10)

# 聚合操作
df.groupBy("column1").agg({"column2": "sum"})

# 排序數(shù)據(jù)
df.orderBy("column1", ascending=False)

# 添加新列
df.withColumn("new_column", df.column1 * 2)

5.執(zhí)行sql查詢

# 創(chuàng)建臨時視圖
df.createOrReplaceTempView("my_view")

# 執(zhí)行SQL查詢
result = spark.sql("SELECT * FROM my_view WHERE column1 > 10")

6.將數(shù)據(jù)保存到文件：

# 保存為文本文件
df.write.text("path/to/save/text/file.txt")

# 保存為CSV文件
df.write.csv("path/to/save/csv/file.csv")

# 保存為Parquet文件
df.write.parquet("path/to/save/parquet/file.parquet")

7.關閉SparkSession文章來源地址http://www.zghlxwxcb.cn/news/detail-687492.html

spark.stop()

到了這里，關于大數(shù)據(jù)學習06-Spark分布式集群部署的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

大數(shù)據(jù)開源框架環(huán)境搭建(五)——Hbase完全分布式集群的安裝部署
目錄實驗環(huán)境：實驗步驟：〇、Zookeeper安裝配置：一、安裝前注意事項二、HBase安裝 ?三、Hbase集群配置 1.配置hbase-env.sh文件，位于Hbase安裝目錄/conf/ 2.配置hbase-site.xml文件，位于Hbase安裝目錄/conf/ 3.配置regionservers 4.新建 backup-masters文件，添加備份HMaster機器名四、將配置好
2024年02月08日
瀏覽(31)
大數(shù)據(jù)開源框架環(huán)境搭建(四)——HDFS完全分布式集群的安裝部署
前言：本實驗的所有路徑均為本人計算機路徑，有些路徑需要看自己的，跟著我的一起做最好。普通用戶下大部分命令需要加sudo，root模式下不用。如果怕麻煩，直接在root用戶下操作。目錄實驗環(huán)境：實驗步驟：一、配置NAT網絡?，分配靜態(tài)IP地址 1.打開VMware，選擇編輯，
2024年02月05日
瀏覽(36)
分布式內存計算Spark環(huán)境部署與分布式內存計算Flink環(huán)境部署
目錄分布式內存計算Spark環(huán)境部署 1.? 簡介 2.? 安裝 2.1【node1執(zhí)行】下載并解壓 2.2【node1執(zhí)行】修改配置文件名稱 2.3【node1執(zhí)行】修改配置文件，spark-env.sh 2.4 【node1執(zhí)行】修改配置文件，slaves 2.5【node1執(zhí)行】分發(fā) 2.6【node2、node3執(zhí)行】設置軟鏈接 2.7【node1執(zhí)行】啟動Spark集群
2024年02月08日
瀏覽(126)
spark 基于物理機centos7環(huán)境搭建分布式集群
非生產環(huán)境，就使用一個新一點的版本，提前先踩踩坑，版本的選型真是一個頭疼的問題，先看一下apache的官網的測試圖：偽分布式看這里：配置之前：若是用偽分布式時，在本機必須生成key-gen 與ssh-copy-id到本機，且hosts中必須加入127.0.0.1 ?本機名并關閉防火墻這幾步才可
2024年02月03日
瀏覽(26)
Mysql分布式集群部署---MySQL集群Cluster將數(shù)據(jù)分成多個片段，每個片段存儲在不同的服務器上
部署MysqlCluster集群環(huán)境 MySQL集群Cluster將數(shù)據(jù)分成多個片段，每個片段存儲在不同的服務器上。這樣可以將數(shù)據(jù)負載分散到多個服務器上，提高系統(tǒng)的性能和可擴展性。 MySQL集群Cluster使用多個服務器來存儲數(shù)據(jù)，因此需要確保數(shù)據(jù)在不同的服務器之間同步。MySQL集群Cluster使用
2024年02月02日
瀏覽(18)
部署SeaTunnel分布式集群
深入理解SeaTunnel：易用、高性能、支持實時流式和離線批處理的海量數(shù)據(jù)集成平臺 SeaTunnel Engine 是 SeaTunnel 的默認引擎。SeaTunnel的安裝包中已經包含了SeaTunnel Engine的所有內容。在/etc/profile.d/seatunnel.sh中配置環(huán)境變量 SeaTunnel Engine 支持兩種設置 jvm 選項的方式。將 JVM 選項添加
2024年02月09日
瀏覽(26)
【頭歌實訓】Spark 完全分布式的安裝和部署
掌握 Standalone 分布式集群搭建。我們已經掌握了 Spark 單機版安裝，那么分布式集群怎么搭建呢？接下來我們學習 Standalone 分布式集群搭建。課程視頻如果你需要在本地配置 Spark 完全分布式環(huán)境，可以通過查看課程視頻來學習。課程視頻《克隆虛擬機與配置網絡》課程視
2024年02月04日
瀏覽(27)
GreenPlum分布式集群部署實戰(zhàn)
???????????? 哈嘍！大家好，我是【IT邦德】，江湖人稱jeames007，10余年DBA及大數(shù)據(jù)工作經驗一位上進心十足的【大數(shù)據(jù)領域博主】！?????? 中國DBA聯(lián)盟(ACDU)成員，目前服務于工業(yè)互聯(lián)網擅長主流Oracle、MySQL、PG、高斯及Greenplum運維開發(fā)，備份恢復，安裝遷移，性能優(yōu)
2024年02月08日
瀏覽(18)
【頭歌實訓】Spark 完全分布式的安裝和部署（新）
第1關： Standalone 分布式集群搭建任務描述掌握 Standalone 分布式集群搭建。相關知識我們已經掌握了 Spark 單機版安裝，那么分布式集群怎么搭建呢？接下來我們學習 Standalone 分布式集群搭建。課程視頻如果你需要在本地配置 Spark 完全分布式環(huán)境，可以通過查看課程視頻來
2024年02月03日
瀏覽(132)
分布式應用：Zookeeper 集群與kafka 集群部署
目錄一、理論 1.Zookeeper? ?2.部署 Zookeeper 集群 3.消息隊列 ?4.Kafka 5.部署 kafka 集群 6.Filebeat+Kafka+ELK 二、實驗 1.Zookeeper 集群部署 2.kafka集群部署 3.Filebeat+Kafka+ELK 三、問題 ? ? ? ? ?1.解壓文件異常 2.kafka集群建立失敗 3.啟動 filebeat報錯 4.VIM報錯 5.?kibana無法匹配四、總結
2024年02月14日
瀏覽(99)