国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Python】PySpark 數(shù)據(jù)處理 ② ( 安裝 PySpark | PySpark 數(shù)據(jù)處理步驟 | 構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象 )

這篇具有很好參考價值的文章主要介紹了【Python】PySpark 數(shù)據(jù)處理 ② ( 安裝 PySpark | PySpark 數(shù)據(jù)處理步驟 | 構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象 )。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。





一、安裝 PySpark




1、使用 pip 安裝 PySpark


執(zhí)行 Windows + R , 運行 cmd 命令行提示符 ,

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

在命令行提示符終端中 , 執(zhí)行

pip install pyspark

命令 , 安裝 PySpark , 安裝過程中 , 需要下載 310 M 的安裝包 , 耐心等待 ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

安裝完畢 :

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

命令行輸出 :

C:\Users\octop>pip install pyspark
Collecting pyspark
  Downloading pyspark-3.4.1.tar.gz (310.8 MB)
     |████████████████████████████████| 310.8 MB 126 kB/s
Collecting py4j==0.10.9.7
  WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProtocolError('Connection aborted.', ConnectionResetError(10054, '遠程主機強迫關(guān)閉了一個現(xiàn)有的連接。', None, 10054, None))': /packages/10/30/a58b32568f1623aaad7db22aa9eafc4c6c194b429ff35bdc55ca2726da47/py4j-0.10.9.7-py2.py3-none-any.whl
  Downloading py4j-0.10.9.7-py2.py3-none-any.whl (200 kB)
     |████████████████████████████████| 200 kB 1.1 MB/s
Using legacy setup.py install for pyspark, since package 'wheel' is not installed.
Installing collected packages: py4j, pyspark
    Running setup.py install for pyspark ... done
Successfully installed py4j-0.10.9.7 pyspark-3.4.1
WARNING: You are using pip version 20.1.1; however, version 23.2.1 is available.
You should consider upgrading via the 'y:\001_developtools\015_python\python37\python.exe -m pip install --upgrade pip' command.

C:\Users\octop>

2、國內(nèi)代理鏡像


如果使用 官方的源 下載安裝 PySpark 的速度太慢 ,

可以使用 國內(nèi)的 鏡像網(wǎng)站 https://pypi.tuna.tsinghua.edu.cn/simple/ ,

這是清華大學(xué)提供的源 ;

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

3、PyCharm 中安裝 PySpark


也可以參考 【Python】pyecharts 模塊 ② ( 命令行安裝 pyecharts 模塊 | PyCharm 安裝 pyecharts 模塊 ) 博客 , 在 PyCharm 中 , 安裝 PySpark ;

嘗試導(dǎo)入 pyspack 模塊中的類 , 如果報錯 , 使用報錯修復(fù)選項 , PyCharm 會自動安裝 PySpark ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃





二、PySpark 數(shù)據(jù)處理步驟



PySpark 編程時 , 先要構(gòu)建一個 PySpark 執(zhí)行環(huán)境入口對象 , 然后開始執(zhí)行數(shù)據(jù)處理操作 ;

數(shù)據(jù)處理的步驟如下 :

首先 , 要進行數(shù)據(jù)輸入 , 需要讀取要處理的原始數(shù)據(jù) , 一般通過 SparkContext 執(zhí)行環(huán)境入口對象 執(zhí)行 數(shù)據(jù)讀取操作 , 讀取后得到 RDD 類實例對象 ;

然后 , 進行 數(shù)據(jù)處理計算 , 對 RDD 類實例對象 成員方法進行各種計算處理 ;

最后 , 輸出 處理后的結(jié)果 , RDD 對象處理完畢后 , 寫出文件 , 或者存儲到內(nèi)存中 ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃


數(shù)據(jù)的初始形態(tài) , 一般是 JSON 文件 , 文本文件 , 數(shù)據(jù)庫文件 ;

通過 SparkContext 讀取 原始文件 到 RDD 中 , 進行數(shù)據(jù)處理 ;

數(shù)據(jù)處理完畢后 , 存儲到 內(nèi)存 / 磁盤 / 數(shù)據(jù)庫 中 ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃





三、構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象



如果想要使用 PySpark 進行數(shù)據(jù)處理 , 必須構(gòu)建一個 PySpark 執(zhí)行環(huán)境入口對象 ;

PySpark 執(zhí)行環(huán)境 入口對象 是 SparkContext 類實例對象 ;


首先 , 導(dǎo)入相關(guān)包 ;

# 導(dǎo)入 PySpark 相關(guān)包
from pyspark import SparkConf, SparkContext

然后 , 創(chuàng)建 SparkConf 實例對象 , 該對象用于配置 Spark 任務(wù) , 各種配置可以在鏈?zhǔn)秸{(diào)用中設(shè)置 ;

  • 調(diào)用 SparkConf#setMaster 函數(shù) , 可以設(shè)置運行模式 , 單機模式 / 集群模式 ;
  • 調(diào)用 SparkConf#setAppName函數(shù) , 可以設(shè)置 Spark 程序 名字 ;
# 創(chuàng)建 SparkConf 實例對象 , 該對象用于配置 Spark 任務(wù)
# setMaster("local[*]") 表示在單機模式下 本機運行
# setAppName("hello_spark") 是給 Spark 程序起一個名字
sparkConf = SparkConf()\
    .setMaster("local[*]")\
    .setAppName("hello_spark")

再后 , 創(chuàng)建 PySpark 執(zhí)行環(huán)境 入口對象 ;

# 創(chuàng)建 PySpark 執(zhí)行環(huán)境 入口對象
sparkContext = SparkContext(conf=sparkConf)

最后 , 執(zhí)行完 數(shù)據(jù)處理 任務(wù)后 , 調(diào)用 SparkContext#stop 方法 , 停止 Spark 程序 ;

# 停止 PySpark 程序
sparkContext.stop()




四、代碼示例



代碼示例 :

"""
PySpark 數(shù)據(jù)處理
"""

# 導(dǎo)入 PySpark 相關(guān)包
from pyspark import SparkConf, SparkContext

# 創(chuàng)建 SparkConf 實例對象 , 該對象用于配置 Spark 任務(wù)
# setMaster("local[*]") 表示在單機模式下 本機運行
# setAppName("hello_spark") 是給 Spark 程序起一個名字
sparkConf = SparkConf()\
    .setMaster("local[*]")\
    .setAppName("hello_spark")

# 創(chuàng)建 PySpark 執(zhí)行環(huán)境 入口對象
sparkContext = SparkContext(conf=sparkConf)

# 打印 PySpark 版本號
print(sparkContext.version)

# 停止 PySpark 程序
sparkContext.stop()

執(zhí)行結(jié)果 :

Y:\002_WorkSpace\PycharmProjects\pythonProject\venv\Scripts\python.exe Y:/002_WorkSpace/PycharmProjects/HelloPython/hello.py
23/07/29 23:08:04 WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/07/29 23:08:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
3.4.1

Process finished with exit code 0

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃文章來源地址http://www.zghlxwxcb.cn/news/detail-735376.html

到了這里,關(guān)于【Python】PySpark 數(shù)據(jù)處理 ② ( 安裝 PySpark | PySpark 數(shù)據(jù)處理步驟 | 構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象 )的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python生成器深度解析:構(gòu)建強大的數(shù)據(jù)處理管道

    生成器是Python的一種核心特性,允許我們在請求新元素時再生成這些元素,而不是在開始時就生成所有元素。它在處理大規(guī)模數(shù)據(jù)集、實現(xiàn)節(jié)省內(nèi)存的算法和構(gòu)建復(fù)雜的迭代器模式等多種情況下都有著廣泛的應(yīng)用。在本篇文章中,我們將從理論和實踐兩方面來探索Python生成器

    2024年02月07日
    瀏覽(128)
  • PySpark實戰(zhàn)指南:大數(shù)據(jù)處理與分析的終極指南【上進小菜豬大數(shù)據(jù)】

    PySpark實戰(zhàn)指南:大數(shù)據(jù)處理與分析的終極指南【上進小菜豬大數(shù)據(jù)】

    上進小菜豬,沈工大軟件工程專業(yè),愛好敲代碼,持續(xù)輸出干貨。 大數(shù)據(jù)處理與分析是當(dāng)今信息時代的核心任務(wù)之一。本文將介紹如何使用PySpark(Python的Spark API)進行大數(shù)據(jù)處理和分析的實戰(zhàn)技術(shù)。我們將探討PySpark的基本概念、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理和分析的關(guān)鍵步驟,并提

    2024年02月06日
    瀏覽(28)
  • ArcGIS處理nc數(shù)據(jù)步驟

    ArcGIS處理nc數(shù)據(jù)步驟

    使用ArcGIS讀取nc文件步驟: 1.打開ArcGIS,在多維工具下選擇“創(chuàng)建NetCDF柵格圖層” 2.輸入nc文件,其他參數(shù)可忽略,點擊確定 3.創(chuàng)建好后,右鍵點擊圖層,點擊屬性,選擇“NetCDF”,然后選擇波段緯度,接著點擊緯度對應(yīng)的值,這里維度值對應(yīng)的是時間,選擇任意一個時間。

    2024年02月15日
    瀏覽(27)
  • 圖像處理—數(shù)據(jù)集的構(gòu)建

    人類在認識世界的過程中,首先是獲取信息,如眼睛看、耳朵聽、鼻子聞等。只有獲取了信息后才能進行認知,而這些信息的質(zhì)量對我們的學(xué)習(xí)效果影響重大。深度學(xué)習(xí)也是類似的,我們提供了什么數(shù)據(jù),計算機才能分析什么樣的數(shù)據(jù),對于未提供的數(shù)據(jù),計算機往往無法判

    2024年02月04日
    瀏覽(20)
  • MapReduce與云計算:構(gòu)建大數(shù)據(jù)處理與分析平臺

    作者:禪與計算機程序設(shè)計藝術(shù) 引言 1.1. 背景介紹 隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,產(chǎn)生的數(shù)據(jù)量越來越大,其中大量的信息需要加以挖掘和分析,以實現(xiàn)商業(yè)價值和社會價值。傳統(tǒng)的數(shù)據(jù)處理和分析手段已經(jīng)難以滿足越來越高的需求。為此,云計算和大數(shù)據(jù)技術(shù)應(yīng)運而生,為

    2024年02月15日
    瀏覽(25)
  • 【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟

    【文本到上下文 #2】:NLP 的數(shù)據(jù)預(yù)處理步驟

    ????????歡迎閱讀此文,NLP 愛好者!當(dāng)我們繼續(xù)探索自然語言處理 (NLP) 的廣闊前景時,我們已經(jīng)在最初的博客中探討了它的歷史、應(yīng)用和挑戰(zhàn)。今天,我們更深入地探討 NLP 的核心——數(shù)據(jù)預(yù)處理的復(fù)雜世界。 ????????這篇文章是我們的“完整 NLP 指南:文本到上下文

    2024年01月18日
    瀏覽(34)
  • 構(gòu)建高性能云原生大數(shù)據(jù)處理平臺:融合人工智能優(yōu)化數(shù)據(jù)分析流程

    構(gòu)建高性能云原生大數(shù)據(jù)處理平臺:融合人工智能優(yōu)化數(shù)據(jù)分析流程

    ??個人主頁:程序員 小侯 ??CSDN新晉作者 ??歡迎 ??點贊?評論?收藏 ?收錄專欄:大數(shù)據(jù)系列 ?文章內(nèi)容:云原生大數(shù)據(jù) ??希望作者的文章能對你有所幫助,有不足的地方請在評論區(qū)留言指正,大家一起學(xué)習(xí)交流!?? 在云計算環(huán)境中構(gòu)建高性能的云原生大數(shù)據(jù)處理平

    2024年02月11日
    瀏覽(34)
  • Open3D點云數(shù)據(jù)處理(一):VSCode配置python,并安裝open3d教程

    Open3D點云數(shù)據(jù)處理(一):VSCode配置python,并安裝open3d教程

    專欄地址:https://blog.csdn.net/weixin_46098577/category_11392993.html 在很久很久以前,我寫過這么一篇博客,講的是open3d點云處理的基本方法。?? 當(dāng)時是 PyCharm + Anaconda + python3.8 + open3d 0.13 已經(jīng)是2023年了,現(xiàn)在有了全新版本。目前python由當(dāng)年的3.8更新到了3.11版本,open3d也從0.13來到了

    2024年02月07日
    瀏覽(38)
  • 大數(shù)據(jù)-Spark批處理實用廣播Broadcast構(gòu)建一個全局緩存Cache

    大數(shù)據(jù)-Spark批處理實用廣播Broadcast構(gòu)建一個全局緩存Cache

    在Spark中,broadcast是一種優(yōu)化技術(shù),它可以將一個只讀變量緩存到每個節(jié)點上,以便在執(zhí)行任務(wù)時使用。這樣可以避免在每個任務(wù)中重復(fù)傳輸數(shù)據(jù)。

    2024年02月15日
    瀏覽(27)
  • EMQ x 阿里云:云上高效構(gòu)建,IoT 數(shù)據(jù)一站處理|直播預(yù)告

    隨著物聯(lián)網(wǎng)與云計算的發(fā)展,進入云時代以來,各企業(yè)的數(shù)字化轉(zhuǎn)型也紛紛「云」化。在云上構(gòu)建可彈性伸縮、自動化管理、承載海量物聯(lián)網(wǎng)設(shè)備連接的數(shù)據(jù)中心,從而實現(xiàn)企業(yè)的降本增效,成為大勢所趨。 為了幫助企業(yè)應(yīng)對在云上構(gòu)建物聯(lián)網(wǎng)應(yīng)用過程中所面臨的協(xié)議選擇困

    2024年02月11日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包