SparkBase環(huán)境基礎(chǔ)
Spark學(xué)習(xí)方法:不斷重復(fù),28原則(使用80%時間完成20%重要內(nèi)容)
Spark框架概述
Spark風(fēng)雨十年s
- 2012年Hadoop1.x出現(xiàn),里程碑意義
- 2013年Hadoop2.x出現(xiàn),改進(jìn)HDFS,Yarn,基于Hadoop1.x框架提出基于內(nèi)存迭代式計算框架Spark
- 1-Spark全家桶,實現(xiàn)離線,實時,機(jī)器學(xué)習(xí),圖計算
- 2-spark版本從2.x到3.x很多優(yōu)化
- 3-目前企業(yè)中最多使用Spark仍然是在離線處理部分,SparkSQL On Hive
Spark 是什么
- Spark是一個處理大規(guī)模數(shù)據(jù)的計算引擎
擴(kuò)展閱讀:Spark VS Hadoop
- Spark和Hadoop對比
- 面試題:Hadoop的基于進(jìn)程的計算和Spark基于線程方式優(yōu)缺點?
答案:Hadoop中的MR中每個map/reduce task都是一個java進(jìn)程方式運行,好處在于進(jìn)程之間是互相獨立的,每個task獨享進(jìn)程資源,沒有互相干擾,監(jiān)控方便,但是問題在于task之間不方便共享數(shù)據(jù),執(zhí)行效率比較低。比如多個map task讀取不同數(shù)據(jù)源文件需要將數(shù)據(jù)源加載到每個map task中,造成重復(fù)加載和浪費內(nèi)存。而基于線程的方式計算是為了數(shù)據(jù)共享和提高執(zhí)行效率,Spark采用了線程的最小的執(zhí)行單位,但缺點是線程之間會有資源競爭。
Spark 四大特點
1-速度快
2-非常好用
3-通用性
4-運行在很多地方
Spark 框架模塊了解
- Spark框架通信使用Netty框架,通信框架
- Spark數(shù)據(jù)結(jié)構(gòu):核心數(shù)據(jù)RDD(彈性 分布式Distrubyte 數(shù)據(jù)集dataset),DataFrame
- Spark部署模式(環(huán)境搭建)
- local
- local 單個線程
- local[*] 本地所有線程
- local【k】 k個線程
- Spark的RDD有很多分區(qū),基于線程執(zhí)行分區(qū)數(shù)據(jù)計算,并行計算
- standalone
- StandaloneHA
- Yarn
Spark環(huán)境搭建-Local
基本原理
1-Spark的Local模式使用的是單機(jī)多線程的方式模擬線程執(zhí)行Spark的計算任務(wù)
2-Spark的local[1] 1個線程執(zhí)行計算 local[*]本地的所有線程模擬
安裝包下載
1-搞清楚版本,本機(jī)一定得搭建Hadoop集群(Hadoop3.3.0)
2-上傳到Linux中,spark3.1.2-hadoop3.2-bin.tar.gz
3-解壓Spark的壓縮包
tar -zxvf xxx.tar.gz -C /export/server
ln -s spark-3.1.2-bin-hadoop3.2/ /export/server/spark
4-更改配置文件
這里對于local模式,開箱即用
5-測試
spark-shell方式 使用scala語言
pyspark方式 使用python語言
上午回顧:
為什么要學(xué)習(xí)Spark?
- 答案:首先Spark是基于Hadoop1.x改進(jìn)的大規(guī)模數(shù)據(jù)的計算引擎,Spark提供了多種模塊,比如機(jī)器學(xué)習(xí),圖計算
- 數(shù)據(jù)第三代計算引擎
什么是Spark?
- Spark是處理大規(guī)模數(shù)據(jù)的計算引擎
- 1-速度快,比Hadoop塊100倍(機(jī)器學(xué)習(xí)算法) 2-易用性(spark.read.json) 3-通用性 4-run anywhere
Spark有哪些組件?
- 1-SparkCore—以RDD(彈性,分布式,數(shù)據(jù)集)為數(shù)據(jù)結(jié)構(gòu)
- 2-SparkSQL----以DataFrame為數(shù)據(jù)結(jié)構(gòu)
- 3-SparkStreaming----以Seq[RDD],DStream離散化流構(gòu)建流式應(yīng)用
- 4-結(jié)構(gòu)化流structuredStreaming—DataFrame
- 5-SparkMllib,機(jī)器學(xué)習(xí),以RDD或DataFrame為例
- 6-SparkGraphX,圖計算,以RDPG彈性分布式屬性圖
Spark有哪些部署方式?
- local模式
- standalone模式(獨立部署模式)
- standaloneHA模式(高可用模式)
- Yarn模式(Hadoop中分布式資源調(diào)度框架)
注意:
后記
??博客主頁:https://manor.blog.csdn.net文章來源:http://www.zghlxwxcb.cn/news/detail-716473.html
??歡迎點贊 ?? 收藏 ?留言 ?? 如有錯誤敬請指正!
??本文由 Maynor 原創(chuàng),首發(fā)于 CSDN博客??
??感覺這輩子,最深情綿長的注視,都給了手機(jī)?
??專欄持續(xù)更新,歡迎訂閱:https://blog.csdn.net/xianyu120/category_12453356.html文章來源地址http://www.zghlxwxcb.cn/news/detail-716473.html
到了這里,關(guān)于Python大數(shù)據(jù)之PySpark(一)SparkBase的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!