国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Python】PySpark 數(shù)據(jù)處理 ② ( 安裝 PySpark | PySpark 數(shù)據(jù)處理步驟 | 構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象 )

2年前作者：韓曙亮分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了【Python】PySpark 數(shù)據(jù)處理 ② ( 安裝 PySpark | PySpark 數(shù)據(jù)處理步驟 | 構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象 )。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、安裝 PySpark

1、使用 pip 安裝 PySpark

執(zhí)行 Windows + R , 運行 cmd 命令行提示符 ,

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

在命令行提示符終端中 , 執(zhí)行

pip install pyspark

命令 , 安裝 PySpark , 安裝過程中 , 需要下載 310 M 的安裝包 , 耐心等待 ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

安裝完畢 :

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

命令行輸出 :

C:\Users\octop>pip install pyspark
Collecting pyspark
  Downloading pyspark-3.4.1.tar.gz (310.8 MB)
     |████████████████████████████████| 310.8 MB 126 kB/s
Collecting py4j==0.10.9.7
  WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProtocolError('Connection aborted.', ConnectionResetError(10054, '遠程主機強迫關(guān)閉了一個現(xiàn)有的連接。', None, 10054, None))': /packages/10/30/a58b32568f1623aaad7db22aa9eafc4c6c194b429ff35bdc55ca2726da47/py4j-0.10.9.7-py2.py3-none-any.whl
  Downloading py4j-0.10.9.7-py2.py3-none-any.whl (200 kB)
     |████████████████████████████████| 200 kB 1.1 MB/s
Using legacy setup.py install for pyspark, since package 'wheel' is not installed.
Installing collected packages: py4j, pyspark
    Running setup.py install for pyspark ... done
Successfully installed py4j-0.10.9.7 pyspark-3.4.1
WARNING: You are using pip version 20.1.1; however, version 23.2.1 is available.
You should consider upgrading via the 'y:\001_developtools\015_python\python37\python.exe -m pip install --upgrade pip' command.

C:\Users\octop>

2、國內(nèi)代理鏡像

如果使用官方的源下載安裝 PySpark 的速度太慢 ,

可以使用國內(nèi)的鏡像網(wǎng)站 https://pypi.tuna.tsinghua.edu.cn/simple/ ,

這是清華大學(xué)提供的源 ;

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

3、PyCharm 中安裝 PySpark

也可以參考【Python】pyecharts 模塊 ② ( 命令行安裝 pyecharts 模塊 | PyCharm 安裝 pyecharts 模塊 ) 博客 , 在 PyCharm 中 , 安裝 PySpark ;

嘗試導(dǎo)入 pyspack 模塊中的類 , 如果報錯 , 使用報錯修復(fù)選項 , PyCharm 會自動安裝 PySpark ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

二、PySpark 數(shù)據(jù)處理步驟

PySpark 編程時 , 先要構(gòu)建一個 PySpark 執(zhí)行環(huán)境入口對象 , 然后開始執(zhí)行數(shù)據(jù)處理操作 ;

數(shù)據(jù)處理的步驟如下 :

首先 , 要進行數(shù)據(jù)輸入 , 需要讀取要處理的原始數(shù)據(jù) , 一般通過 SparkContext 執(zhí)行環(huán)境入口對象執(zhí)行數(shù)據(jù)讀取操作 , 讀取后得到 RDD 類實例對象 ;

然后 , 進行數(shù)據(jù)處理計算 , 對 RDD 類實例對象成員方法進行各種計算處理 ;

最后 , 輸出處理后的結(jié)果 , RDD 對象處理完畢后 , 寫出文件 , 或者存儲到內(nèi)存中 ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

數(shù)據(jù)的初始形態(tài) , 一般是 JSON 文件 , 文本文件 , 數(shù)據(jù)庫文件 ;

通過 SparkContext 讀取原始文件到 RDD 中 , 進行數(shù)據(jù)處理 ;

數(shù)據(jù)處理完畢后 , 存儲到內(nèi)存 / 磁盤 / 數(shù)據(jù)庫中 ;

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃

三、構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象

如果想要使用 PySpark 進行數(shù)據(jù)處理 , 必須構(gòu)建一個 PySpark 執(zhí)行環(huán)境入口對象 ;

PySpark 執(zhí)行環(huán)境入口對象是 SparkContext 類實例對象 ;

首先 , 導(dǎo)入相關(guān)包 ;

# 導(dǎo)入 PySpark 相關(guān)包
from pyspark import SparkConf, SparkContext

然后 , 創(chuàng)建 SparkConf 實例對象 , 該對象用于配置 Spark 任務(wù) , 各種配置可以在鏈?zhǔn)秸{(diào)用中設(shè)置 ;

調(diào)用 SparkConf#setMaster 函數(shù) , 可以設(shè)置運行模式 , 單機模式 / 集群模式 ;
調(diào)用 SparkConf#setAppName函數(shù) , 可以設(shè)置 Spark 程序名字 ;

# 創(chuàng)建 SparkConf 實例對象 , 該對象用于配置 Spark 任務(wù)
# setMaster("local[*]") 表示在單機模式下 本機運行
# setAppName("hello_spark") 是給 Spark 程序起一個名字
sparkConf = SparkConf()\
    .setMaster("local[*]")\
    .setAppName("hello_spark")

再后 , 創(chuàng)建 PySpark 執(zhí)行環(huán)境入口對象 ;

# 創(chuàng)建 PySpark 執(zhí)行環(huán)境 入口對象
sparkContext = SparkContext(conf=sparkConf)

最后 , 執(zhí)行完數(shù)據(jù)處理任務(wù)后 , 調(diào)用 SparkContext#stop 方法 , 停止 Spark 程序 ;

# 停止 PySpark 程序
sparkContext.stop()

四、代碼示例

代碼示例 :

"""
PySpark 數(shù)據(jù)處理
"""

# 導(dǎo)入 PySpark 相關(guān)包
from pyspark import SparkConf, SparkContext

# 創(chuàng)建 SparkConf 實例對象 , 該對象用于配置 Spark 任務(wù)
# setMaster("local[*]") 表示在單機模式下 本機運行
# setAppName("hello_spark") 是給 Spark 程序起一個名字
sparkConf = SparkConf()\
    .setMaster("local[*]")\
    .setAppName("hello_spark")

# 創(chuàng)建 PySpark 執(zhí)行環(huán)境 入口對象
sparkContext = SparkContext(conf=sparkConf)

# 打印 PySpark 版本號
print(sparkContext.version)

# 停止 PySpark 程序
sparkContext.stop()

執(zhí)行結(jié)果 :

Y:\002_WorkSpace\PycharmProjects\pythonProject\venv\Scripts\python.exe Y:/002_WorkSpace/PycharmProjects/HelloPython/hello.py
23/07/29 23:08:04 WARN Shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/WindowsProblems
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/07/29 23:08:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
3.4.1

Process finished with exit code 0

pyspark安裝,Python,python,PyCharm,PySpark,Spark,數(shù)據(jù)處理,原力計劃文章來源地址http://www.zghlxwxcb.cn/news/detail-735376.html

到了這里，關(guān)于【Python】PySpark 數(shù)據(jù)處理 ② ( 安裝 PySpark | PySpark 數(shù)據(jù)處理步驟 | 構(gòu)建 PySpark 執(zhí)行環(huán)境入口對象 )的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Python生成器深度解析：構(gòu)建強大的數(shù)據(jù)處理管道
生成器是Python的一種核心特性，允許我們在請求新元素時再生成這些元素，而不是在開始時就生成所有元素。它在處理大規(guī)模數(shù)據(jù)集、實現(xiàn)節(jié)省內(nèi)存的算法和構(gòu)建復(fù)雜的迭代器模式等多種情況下都有著廣泛的應(yīng)用。在本篇文章中，我們將從理論和實踐兩方面來探索Python生成器
2024年02月07日
瀏覽(128)
PySpark實戰(zhàn)指南：大數(shù)據(jù)處理與分析的終極指南【上進小菜豬大數(shù)據(jù)】
上進小菜豬，沈工大軟件工程專業(yè)，愛好敲代碼，持續(xù)輸出干貨。大數(shù)據(jù)處理與分析是當(dāng)今信息時代的核心任務(wù)之一。本文將介紹如何使用PySpark（Python的Spark API）進行大數(shù)據(jù)處理和分析的實戰(zhàn)技術(shù)。我們將探討PySpark的基本概念、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理和分析的關(guān)鍵步驟，并提
2024年02月06日
瀏覽(28)
ArcGIS處理nc數(shù)據(jù)步驟
使用ArcGIS讀取nc文件步驟： 1.打開ArcGIS，在多維工具下選擇“創(chuàng)建NetCDF柵格圖層” 2.輸入nc文件，其他參數(shù)可忽略，點擊確定 3.創(chuàng)建好后，右鍵點擊圖層，點擊屬性，選擇“NetCDF”，然后選擇波段緯度，接著點擊緯度對應(yīng)的值，這里維度值對應(yīng)的是時間，選擇任意一個時間。
2024年02月15日
瀏覽(27)
圖像處理—數(shù)據(jù)集的構(gòu)建
人類在認識世界的過程中，首先是獲取信息，如眼睛看、耳朵聽、鼻子聞等。只有獲取了信息后才能進行認知，而這些信息的質(zhì)量對我們的學(xué)習(xí)效果影響重大。深度學(xué)習(xí)也是類似的，我們提供了什么數(shù)據(jù)，計算機才能分析什么樣的數(shù)據(jù)，對于未提供的數(shù)據(jù)，計算機往往無法判
2024年02月04日
瀏覽(20)
MapReduce與云計算：構(gòu)建大數(shù)據(jù)處理與分析平臺
作者：禪與計算機程序設(shè)計藝術(shù) 引言 1.1. 背景介紹隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展，產(chǎn)生的數(shù)據(jù)量越來越大，其中大量的信息需要加以挖掘和分析，以實現(xiàn)商業(yè)價值和社會價值。傳統(tǒng)的數(shù)據(jù)處理和分析手段已經(jīng)難以滿足越來越高的需求。為此，云計算和大數(shù)據(jù)技術(shù)應(yīng)運而生，為
2024年02月15日
瀏覽(25)
【文本到上下文 #2】：NLP 的數(shù)據(jù)預(yù)處理步驟
????????歡迎閱讀此文，NLP 愛好者！當(dāng)我們繼續(xù)探索自然語言處理 (NLP) 的廣闊前景時，我們已經(jīng)在最初的博客中探討了它的歷史、應(yīng)用和挑戰(zhàn)。今天，我們更深入地探討 NLP 的核心——數(shù)據(jù)預(yù)處理的復(fù)雜世界。 ????????這篇文章是我們的“完整 NLP 指南：文本到上下文
2024年01月18日
瀏覽(34)
構(gòu)建高性能云原生大數(shù)據(jù)處理平臺：融合人工智能優(yōu)化數(shù)據(jù)分析流程
??個人主頁：程序員小侯 ??CSDN新晉作者 ??歡迎 ??點贊?評論?收藏 ?收錄專欄：大數(shù)據(jù)系列 ?文章內(nèi)容：云原生大數(shù)據(jù) ??希望作者的文章能對你有所幫助，有不足的地方請在評論區(qū)留言指正，大家一起學(xué)習(xí)交流！?? 在云計算環(huán)境中構(gòu)建高性能的云原生大數(shù)據(jù)處理平
2024年02月11日
瀏覽(34)
Open3D點云數(shù)據(jù)處理（一）：VSCode配置python，并安裝open3d教程
專欄地址：https://blog.csdn.net/weixin_46098577/category_11392993.html 在很久很久以前，我寫過這么一篇博客，講的是open3d點云處理的基本方法。?? 當(dāng)時是 PyCharm + Anaconda + python3.8 + open3d 0.13 已經(jīng)是2023年了，現(xiàn)在有了全新版本。目前python由當(dāng)年的3.8更新到了3.11版本，open3d也從0.13來到了
2024年02月07日
瀏覽(38)
大數(shù)據(jù)-Spark批處理實用廣播Broadcast構(gòu)建一個全局緩存Cache
在Spark中，broadcast是一種優(yōu)化技術(shù)，它可以將一個只讀變量緩存到每個節(jié)點上，以便在執(zhí)行任務(wù)時使用。這樣可以避免在每個任務(wù)中重復(fù)傳輸數(shù)據(jù)。
2024年02月15日
瀏覽(27)
EMQ x 阿里云：云上高效構(gòu)建，IoT 數(shù)據(jù)一站處理｜直播預(yù)告
隨著物聯(lián)網(wǎng)與云計算的發(fā)展，進入云時代以來，各企業(yè)的數(shù)字化轉(zhuǎn)型也紛紛「云」化。在云上構(gòu)建可彈性伸縮、自動化管理、承載海量物聯(lián)網(wǎng)設(shè)備連接的數(shù)據(jù)中心，從而實現(xiàn)企業(yè)的降本增效，成為大勢所趨。為了幫助企業(yè)應(yīng)對在云上構(gòu)建物聯(lián)網(wǎng)應(yīng)用過程中所面臨的協(xié)議選擇困
2024年02月11日
瀏覽(19)