国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大數(shù)據(jù)學習06-Spark分布式集群部署

這篇具有很好參考價值的文章主要介紹了大數(shù)據(jù)學習06-Spark分布式集群部署。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

前期準備,每臺服務器都需要配置

配置好IP
vim /etc/sysconfig/network-scripts/ifcfg-ens33

TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static"
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="bcd315b9-9d9a-4ad7-8f75-9546f71e49a4"
DEVICE="ens33"
ONBOOT="yes"

IPADDR=192.168.245.200 #IP地址
GATEWAY=192.168.245.1  #默認網關
NETWORK=255.255.255.0  #子網掩碼
DNS1=114.114.114.114   #DNS
DNS2=8.8.8.8

修改主機名
vi /etc/hostname

做好IP映射
vim /etc/hosts

192.168.245.200 master
192.168.245.201 slave1
192.168.245.202 slave2

關閉防火墻
systemctl status firewalld
systemctl stop firewalld
systemctl disable firewalld
配置SSH免密登錄
ssh-keygen -t rsa

for i in {1..2};do scp -r ~/.ssh/authorized_keys root@slave${i}:~/.ssh/;done

安裝Scala

下載Scala安裝包

tar -zxvf scala-2.11.12.tgz -C /home/local

配置環(huán)境變量

vim /etc/profile

添加如下配置

export SCALA_HOME=/home/local/scala
export PATH=$SCALA_HOME/bin:$PATH

使環(huán)境生效

source /etc/profile

驗證

scala -version

安裝spark

Spark官網
大數(shù)據(jù)學習06-Spark分布式集群部署,大數(shù)據(jù),大數(shù)據(jù),分布式,學習

解壓

上傳軟件安裝包至linux系統(tǒng) /home/tools目錄下

tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz -C /home/local

移動文件目錄至spark

mv spark-2.2.3-bin-hadoop2.6 spark

配置環(huán)境

export SPARK_HOME=/home/local/spark
export PATH=$PATH:${SPARK_HOME}/bin:${SPARK_HOME}/sbin

修改配置

進入${SPARK_HOME}/conf路徑下,拷貝spark-env.sh.template為spark-env.sh

cp spark-env.sh.template spark-env.sh

修改spark-env.sh文件

vim spark-env.sh

添加如下配置


export JAVA_HOME=/home/local/java

export SCALA_HOME=/home/local/scala

export SPARK_DIST_CLASSPATH=$(/home/local/hadoop/bin/hadoop classpath)

export HADOOP_CONF_DIR=/home/local/hadoop/etc/hadoop
#指定spark主節(jié)點,通過主機映射
export SPARK_MASTER_HOST=master
#指定從節(jié)點worker并行數(shù)量
export SPARK_WORKER_CORES=2
#指定內存大小
export SPARK_WORKER_MEMORY=2g
#指定主節(jié)點端口
export SPARK_MAETER_PORT=7070

拷貝slave.template為slaves

cp slaves.template slaves

修改slaves文件

[root@master conf]# vim slaves
master
slave1
slave2

分發(fā)spark目錄至每個服務器節(jié)點

for i in {1..2};do scp -r /home/local/spark/ root@slave${i}:/home/local/;done

在${SPARK_HOME}/sbin目錄下啟動spark

./start-all.sh

在Spark Shell中,你可以使用以下方法來讀取HDFS文件:

1.讀取文本文件:

val textFile = sc.textFile("hdfs://<HDFS路徑>")

統(tǒng)計包含mike的數(shù)據(jù)記錄

textFile.filter(line=>line.contains("mike")).count()

2.讀取多個文本文件:

val textFiles = sc.wholeTextFiles("hdfs://<HDFS目錄>")

3.讀取二進制文件:

val binaryFiles = sc.binaryFiles("hdfs://<HDFS目錄>")

4.讀取其他格式的文件(如Parquet、Avro等):

 val dataframe = sqlContext.read.format("<文件格式>").load("hdfs://<HDFS路徑>")
 這將返回一個 DataFrame 對象,可以使用Spark SQL進行數(shù)據(jù)分析。

pyspark讀取文件

1.導入PySpark模塊:

from pyspark.sql import SparkSession

2.創(chuàng)建SparkSession:

spark = SparkSession.builder \
    .appName("PySpark Example") \
    .getOrCreate()

3.加載數(shù)據(jù)

# 加載文本文件
text_data = spark.read.text("path/to/text/file.txt")

# 加載CSV文件
csv_data = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True)

# 加載JSON文件
json_data = spark.read.json("path/to/json/file.json")

4.數(shù)據(jù)處理和轉換

# 顯示DataFrame的內容
df.show()

# 選擇特定的列
df.select("column1", "column2")

# 過濾數(shù)據(jù)
df.filter(df.column1 > 10)

# 聚合操作
df.groupBy("column1").agg({"column2": "sum"})

# 排序數(shù)據(jù)
df.orderBy("column1", ascending=False)

# 添加新列
df.withColumn("new_column", df.column1 * 2)

5.執(zhí)行sql查詢

# 創(chuàng)建臨時視圖
df.createOrReplaceTempView("my_view")

# 執(zhí)行SQL查詢
result = spark.sql("SELECT * FROM my_view WHERE column1 > 10")

6.將數(shù)據(jù)保存到文件:

# 保存為文本文件
df.write.text("path/to/save/text/file.txt")

# 保存為CSV文件
df.write.csv("path/to/save/csv/file.csv")

# 保存為Parquet文件
df.write.parquet("path/to/save/parquet/file.parquet")

7.關閉SparkSession文章來源地址http://www.zghlxwxcb.cn/news/detail-687492.html

spark.stop()

到了這里,關于大數(shù)據(jù)學習06-Spark分布式集群部署的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 大數(shù)據(jù)開源框架環(huán)境搭建(五)——Hbase完全分布式集群的安裝部署

    大數(shù)據(jù)開源框架環(huán)境搭建(五)——Hbase完全分布式集群的安裝部署

    目錄 實驗環(huán)境: 實驗步驟: 〇、Zookeeper安裝配置: 一、安裝前注意事項 二、HBase安裝 ?三、Hbase集群配置 1.配置hbase-env.sh文件,位于Hbase安裝目錄/conf/ 2.配置hbase-site.xml文件,位于Hbase安裝目錄/conf/ 3.配置regionservers 4.新建 backup-masters文件,添加備份HMaster機器名 四、將配置好

    2024年02月08日
    瀏覽(31)
  • 大數(shù)據(jù)開源框架環(huán)境搭建(四)——HDFS完全分布式集群的安裝部署

    大數(shù)據(jù)開源框架環(huán)境搭建(四)——HDFS完全分布式集群的安裝部署

    前言:本實驗的所有路徑均為本人計算機路徑,有些路徑需要看自己的,跟著我的一起做最好。普通用戶下大部分命令需要加sudo,root模式下不用。如果怕麻煩,直接在root用戶下操作。 目錄 實驗環(huán)境: 實驗步驟: 一、配置NAT網絡?,分配靜態(tài)IP地址 1.打開VMware,選擇編輯,

    2024年02月05日
    瀏覽(36)
  • 分布式內存計算Spark環(huán)境部署與分布式內存計算Flink環(huán)境部署

    分布式內存計算Spark環(huán)境部署與分布式內存計算Flink環(huán)境部署

    目錄 分布式內存計算Spark環(huán)境部署 1.? 簡介 2.? 安裝 2.1【node1執(zhí)行】下載并解壓 2.2【node1執(zhí)行】修改配置文件名稱 2.3【node1執(zhí)行】修改配置文件,spark-env.sh 2.4 【node1執(zhí)行】修改配置文件,slaves 2.5【node1執(zhí)行】分發(fā) 2.6【node2、node3執(zhí)行】設置軟鏈接 2.7【node1執(zhí)行】啟動Spark集群

    2024年02月08日
    瀏覽(126)
  • spark 基于物理機centos7環(huán)境搭建分布式集群

    非生產環(huán)境,就使用一個新一點的版本,提前先踩踩坑,版本的選型真是一個頭疼的問題,先看一下apache的官網的測試圖: 偽分布式看這里: 配置之前:若是用偽分布式時,在本機必須生成key-gen 與ssh-copy-id到本機,且hosts中必須加入127.0.0.1 ?本機名并關閉防火墻這幾步才可

    2024年02月03日
    瀏覽(26)
  • Mysql分布式集群部署---MySQL集群Cluster將數(shù)據(jù)分成多個片段,每個片段存儲在不同的服務器上

    Mysql分布式集群部署---MySQL集群Cluster將數(shù)據(jù)分成多個片段,每個片段存儲在不同的服務器上

    部署MysqlCluster集群環(huán)境 MySQL集群Cluster將數(shù)據(jù)分成多個片段,每個片段存儲在不同的服務器上。這樣可以將數(shù)據(jù)負載分散到多個服務器上,提高系統(tǒng)的性能和可擴展性。 MySQL集群Cluster使用多個服務器來存儲數(shù)據(jù),因此需要確保數(shù)據(jù)在不同的服務器之間同步。MySQL集群Cluster使用

    2024年02月02日
    瀏覽(18)
  • 部署SeaTunnel分布式集群

    深入理解SeaTunnel:易用、高性能、支持實時流式和離線批處理的海量數(shù)據(jù)集成平臺 SeaTunnel Engine 是 SeaTunnel 的默認引擎。SeaTunnel的安裝包中已經包含了SeaTunnel Engine的所有內容。 在/etc/profile.d/seatunnel.sh中配置環(huán)境變量 SeaTunnel Engine 支持兩種設置 jvm 選項的方式。 將 JVM 選項添加

    2024年02月09日
    瀏覽(26)
  • 【頭歌實訓】Spark 完全分布式的安裝和部署

    掌握 Standalone 分布式集群搭建。 我們已經掌握了 Spark 單機版安裝,那么分布式集群怎么搭建呢? 接下來我們學習 Standalone 分布式集群搭建。 課程視頻 如果你需要在本地配置 Spark 完全分布式環(huán)境,可以通過查看課程視頻來學習。 課程視頻《克隆虛擬機與配置網絡》 課程視

    2024年02月04日
    瀏覽(27)
  • GreenPlum分布式集群部署實戰(zhàn)

    ???????????? 哈嘍!大家好,我是【IT邦德】,江湖人稱jeames007,10余年DBA及大數(shù)據(jù)工作經驗 一位上進心十足的【大數(shù)據(jù)領域博主】!?????? 中國DBA聯(lián)盟(ACDU)成員,目前服務于工業(yè)互聯(lián)網 擅長主流Oracle、MySQL、PG、高斯及Greenplum運維開發(fā),備份恢復,安裝遷移,性能優(yōu)

    2024年02月08日
    瀏覽(18)
  • 【頭歌實訓】Spark 完全分布式的安裝和部署(新)

    【頭歌實訓】Spark 完全分布式的安裝和部署(新)

    第1關: Standalone 分布式集群搭建 任務描述 掌握 Standalone 分布式集群搭建。 相關知識 我們已經掌握了 Spark 單機版安裝,那么分布式集群怎么搭建呢? 接下來我們學習 Standalone 分布式集群搭建。 課程視頻 如果你需要在本地配置 Spark 完全分布式環(huán)境,可以通過查看課程視頻來

    2024年02月03日
    瀏覽(132)
  • 分布式應用:Zookeeper 集群與kafka 集群部署

    分布式應用:Zookeeper 集群與kafka 集群部署

    目錄 一、理論 1.Zookeeper? ?2.部署 Zookeeper 集群 3.消息隊列 ?4.Kafka 5.部署 kafka 集群 6.Filebeat+Kafka+ELK 二、實驗 1.Zookeeper 集群部署 2.kafka集群部署 3.Filebeat+Kafka+ELK 三、問題 ? ? ? ? ?1.解壓文件異常 2.kafka集群建立失敗 3.啟動 filebeat報錯 4.VIM報錯 5.?kibana無法匹配 四、總結

    2024年02月14日
    瀏覽(99)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包