国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python大數(shù)據(jù)之PySpark(一)SparkBase

這篇具有很好參考價值的文章主要介紹了Python大數(shù)據(jù)之PySpark(一)SparkBase。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

SparkBase環(huán)境基礎(chǔ)

Spark學(xué)習(xí)方法:不斷重復(fù),28原則(使用80%時間完成20%重要內(nèi)容)

Spark框架概述

Spark風(fēng)雨十年s

  • 2012年Hadoop1.x出現(xiàn),里程碑意義
  • 2013年Hadoop2.x出現(xiàn),改進(jìn)HDFS,Yarn,基于Hadoop1.x框架提出基于內(nèi)存迭代式計算框架Spark

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

  • 1-Spark全家桶,實現(xiàn)離線,實時,機(jī)器學(xué)習(xí),圖計算
  • 2-spark版本從2.x到3.x很多優(yōu)化
  • 3-目前企業(yè)中最多使用Spark仍然是在離線處理部分,SparkSQL On Hive

Spark 是什么

  • Spark是一個處理大規(guī)模數(shù)據(jù)的計算引擎

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

擴(kuò)展閱讀:Spark VS Hadoop

  • Spark和Hadoop對比

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

  • 面試題:Hadoop的基于進(jìn)程的計算和Spark基于線程方式優(yōu)缺點?

答案:Hadoop中的MR中每個map/reduce task都是一個java進(jìn)程方式運行,好處在于進(jìn)程之間是互相獨立的,每個task獨享進(jìn)程資源,沒有互相干擾,監(jiān)控方便,但是問題在于task之間不方便共享數(shù)據(jù),執(zhí)行效率比較低。比如多個map task讀取不同數(shù)據(jù)源文件需要將數(shù)據(jù)源加載到每個map task中,造成重復(fù)加載和浪費內(nèi)存。而基于線程的方式計算是為了數(shù)據(jù)共享和提高執(zhí)行效率,Spark采用了線程的最小的執(zhí)行單位,但缺點是線程之間會有資源競爭。

Spark 四大特點

1-速度快

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

2-非常好用

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

3-通用性

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

4-運行在很多地方

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

Spark 框架模塊了解

  • Spark框架通信使用Netty框架,通信框架
  • Spark數(shù)據(jù)結(jié)構(gòu):核心數(shù)據(jù)RDD(彈性 分布式Distrubyte 數(shù)據(jù)集dataset),DataFrame
  • Spark部署模式(環(huán)境搭建)
  • Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃
  • local
    • local 單個線程
    • local[*] 本地所有線程
    • local【k】 k個線程
    • Spark的RDD有很多分區(qū),基于線程執(zhí)行分區(qū)數(shù)據(jù)計算,并行計算
  • Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃
  • standalone
  • StandaloneHA
  • Yarn

Spark環(huán)境搭建-Local

基本原理

1-Spark的Local模式使用的是單機(jī)多線程的方式模擬線程執(zhí)行Spark的計算任務(wù)

2-Spark的local[1] 1個線程執(zhí)行計算 local[*]本地的所有線程模擬

安裝包下載

1-搞清楚版本,本機(jī)一定得搭建Hadoop集群(Hadoop3.3.0)

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

2-上傳到Linux中,spark3.1.2-hadoop3.2-bin.tar.gz

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

3-解壓Spark的壓縮包

tar -zxvf xxx.tar.gz -C /export/server

ln -s spark-3.1.2-bin-hadoop3.2/ /export/server/spark

4-更改配置文件

這里對于local模式,開箱即用

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

5-測試

spark-shell方式 使用scala語言

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

pyspark方式 使用python語言

上午回顧:

為什么要學(xué)習(xí)Spark?

  • 答案:首先Spark是基于Hadoop1.x改進(jìn)的大規(guī)模數(shù)據(jù)的計算引擎,Spark提供了多種模塊,比如機(jī)器學(xué)習(xí),圖計算
  • 數(shù)據(jù)第三代計算引擎

什么是Spark?

  • Spark是處理大規(guī)模數(shù)據(jù)的計算引擎
  • 1-速度快,比Hadoop塊100倍(機(jī)器學(xué)習(xí)算法) 2-易用性(spark.read.json) 3-通用性 4-run anywhere

Spark有哪些組件?

  • 1-SparkCore—以RDD(彈性,分布式,數(shù)據(jù)集)為數(shù)據(jù)結(jié)構(gòu)
  • 2-SparkSQL----以DataFrame為數(shù)據(jù)結(jié)構(gòu)
  • 3-SparkStreaming----以Seq[RDD],DStream離散化流構(gòu)建流式應(yīng)用
  • 4-結(jié)構(gòu)化流structuredStreaming—DataFrame
  • 5-SparkMllib,機(jī)器學(xué)習(xí),以RDD或DataFrame為例
  • 6-SparkGraphX,圖計算,以RDPG彈性分布式屬性圖

Spark有哪些部署方式?

  • local模式
  • standalone模式(獨立部署模式)
  • standaloneHA模式(高可用模式)
  • Yarn模式(Hadoop中分布式資源調(diào)度框架)

注意:

Python大數(shù)據(jù)之PySpark(一)SparkBase,# PySpark,python大數(shù)據(jù),python,大數(shù)據(jù),ajax,原力計劃

后記

??博客主頁:https://manor.blog.csdn.net

??歡迎點贊 ?? 收藏 ?留言 ?? 如有錯誤敬請指正!
??本文由 Maynor 原創(chuàng),首發(fā)于 CSDN博客??
??感覺這輩子,最深情綿長的注視,都給了手機(jī)?
??專欄持續(xù)更新,歡迎訂閱:https://blog.csdn.net/xianyu120/category_12453356.html文章來源地址http://www.zghlxwxcb.cn/news/detail-716473.html

到了這里,關(guān)于Python大數(shù)據(jù)之PySpark(一)SparkBase的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python小案例(九)PySpark讀寫數(shù)據(jù)

    有些業(yè)務(wù)場景需要Python直接讀寫Hive集群,也需要Python對MySQL進(jìn)行操作。pyspark就是為了方便python讀取Hive集群數(shù)據(jù),當(dāng)然環(huán)境搭建也免不了數(shù)倉的幫忙,常見的如開發(fā)企業(yè)內(nèi)部的 Jupyter Lab 。 ??注意:以下需要在企業(yè)服務(wù)器上的jupyter上操作,本地jupyter是無法連接公司hive集群的

    2024年02月12日
    瀏覽(16)
  • Python數(shù)據(jù)攻略-Hadoop集群中PySpark數(shù)據(jù)處理

    Hadoop是一個開源的分布式存儲和計算框架。它讓我們可以在多臺機(jī)器上存儲大量的數(shù)據(jù),并且進(jìn)行高效的數(shù)據(jù)處理。簡而言之,Hadoop就像一個巨大的倉庫,可以存放海量的數(shù)據(jù),并且有高效的工具來處理這些數(shù)據(jù)。

    2024年02月07日
    瀏覽(34)
  • Python大數(shù)據(jù)處理利器之Pyspark詳解

    Python大數(shù)據(jù)處理利器之Pyspark詳解

    在現(xiàn)代信息時代,數(shù)據(jù)是最寶貴的財富之一,如何處理和分析這些數(shù)據(jù)成為了關(guān)鍵。Python在數(shù)據(jù)處理方面表現(xiàn)得尤為突出。而 pyspark 作為一個強大的分布式計算框架,為大數(shù)據(jù)處理提供了一種高效的解決方案。本文將詳細(xì)介紹pyspark的基本概念和使用方法,并給出實際案例。

    2024年02月10日
    瀏覽(21)
  • Python大數(shù)據(jù)之PySpark(五)RDD詳解

    Python大數(shù)據(jù)之PySpark(五)RDD詳解

    為什么需要RDD? 首先Spark的提出為了解決MR的計算問題,諸如說迭代式計算,比如:機(jī)器學(xué)習(xí)或圖計算 希望能夠提出一套基于內(nèi)存的迭代式數(shù)據(jù)結(jié)構(gòu),引入RDD彈性分布式數(shù)據(jù)集,如下圖 為什么RDD是可以容錯? RDD依靠于依賴關(guān)系dependency relationship reduceByKeyRDD-----mapRDD-----flatMapRD

    2024年02月06日
    瀏覽(52)
  • Python大數(shù)據(jù)之PySpark(七)SparkCore案例

    Python大數(shù)據(jù)之PySpark(七)SparkCore案例

    PySpark實現(xiàn)SouGou統(tǒng)計分析 jieba分詞: pip install jieba 從哪里下載pypi 三種分詞模式 精確模式,試圖將句子最精確地切開,適合文本分析;默認(rèn)的方式 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義; 搜索引擎模式,在精確模式的基礎(chǔ)上,對

    2024年02月08日
    瀏覽(22)
  • Python大數(shù)據(jù)之PySpark(三)使用Python語言開發(fā)Spark程序代碼

    Python大數(shù)據(jù)之PySpark(三)使用Python語言開發(fā)Spark程序代碼

    Spark Standalone的PySpark的搭建----bin/pyspark --master spark://node1:7077 Spark StandaloneHA的搭建—Master的單點故障(node1,node2),zk的leader選舉機(jī)制,1-2min還原 【scala版本的交互式界面】bin/spark-shell --master xxx 【python版本交互式界面】bin/pyspark --master xxx 【提交任務(wù)】bin/spark-submit --master xxxx 【學(xué)

    2024年01月17日
    瀏覽(98)
  • Python 與 PySpark數(shù)據(jù)分析實戰(zhàn)指南:解鎖數(shù)據(jù)洞見

    Python 與 PySpark數(shù)據(jù)分析實戰(zhàn)指南:解鎖數(shù)據(jù)洞見

    ?? 個人網(wǎng)站:【 海擁】【神級代碼資源網(wǎng)站】【辦公神器】 ?? 基于Web端打造的:??輕量化工具創(chuàng)作平臺 ?? 想尋找共同學(xué)習(xí)交流的小伙伴,請點擊【全棧技術(shù)交流群】 數(shù)據(jù)分析是當(dāng)今信息時代中至關(guān)重要的技能之一。Python和PySpark作為強大的工具,提供了豐富的庫和功能,

    2024年02月03日
    瀏覽(22)
  • Python大數(shù)據(jù)之PySpark(六)RDD的操作

    Python大數(shù)據(jù)之PySpark(六)RDD的操作

    函數(shù)分類 *Transformation操作只是建立計算關(guān)系,而Action 操作才是實際的執(zhí)行者* 。 Transformation算子 轉(zhuǎn)換算子 操作之間不算的轉(zhuǎn)換,如果想看到結(jié)果通過action算子觸發(fā) Action算子 行動算子 觸發(fā)Job的執(zhí)行,能夠看到結(jié)果信息 Transformation函數(shù) 值類型valueType map flatMap filter mapValue 雙值

    2024年02月04日
    瀏覽(45)
  • Python與大數(shù)據(jù):Hadoop、Spark和Pyspark的應(yīng)用和數(shù)據(jù)處理技巧

    Python與大數(shù)據(jù):Hadoop、Spark和Pyspark的應(yīng)用和數(shù)據(jù)處理技巧

    ? 在當(dāng)今的數(shù)字時代,數(shù)據(jù)成為了無處不在的關(guān)鍵資源。大數(shù)據(jù)的崛起為企業(yè)提供了無限的機(jī)遇,同時也帶來了前所未有的挑戰(zhàn)。為了有效地處理和分析大規(guī)模數(shù)據(jù)集,必須依靠強大的工具和技術(shù)。在本文中,我們將探討Python在大數(shù)據(jù)領(lǐng)域的應(yīng)用,重點介紹Hadoop、Spark和Pysp

    2024年02月16日
    瀏覽(27)
  • 【Python】PySpark 數(shù)據(jù)計算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

    【Python】PySpark 數(shù)據(jù)計算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

    RDD#sortBy 方法 用于 按照 指定的 鍵 對 RDD 中的元素進(jìn)行排序 , 該方法 接受一個 函數(shù) 作為 參數(shù) , 該函數(shù)從 RDD 中的每個元素提取 排序鍵 ; 根據(jù) 傳入 sortBy 方法 的 函數(shù)參數(shù) 和 其它參數(shù) , 將 RDD 中的元素按 升序 或 降序 進(jìn)行排序 , 同時還可以指定 新的 RDD 對象的 分區(qū)數(shù) ; RDD

    2024年02月14日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包