国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Spark的Windows本地化部署完整方案

這篇具有很好參考價值的文章主要介紹了Spark的Windows本地化部署完整方案。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

前言

對于Spark,網(wǎng)上涉及到Windows平臺搭建的資料不多。大多資料不全,而且很少說明注意事項,存在一定的挖坑行為。對于不是很熟悉spark環(huán)境搭建過程,但是又非常想在自己的電腦上搭建一個本地環(huán)境的小伙伴來說存在一定的繞路行為。本文借鑒了網(wǎng)上大部分的資料,在整理集成的同時,會以一次完整的環(huán)境搭建過程為演示內(nèi)容。

借鑒文章
  • vscode配置spark
  • Windows7-8-10安裝部署hadoop-2.7.5(最詳細(xì)的步驟,不需要cygwin
  • windows平臺下安裝配置Hadoop
  • windows10上配置pyspark工作環(huán)境

環(huán)境

  • 操作系統(tǒng): Windows 10 x64
  • 集成環(huán)境: 管理員模式運(yùn)行的VSCode
  • Python版本: 3.10.4 (env)
  • JAVA SDK: 1.8.0
    • 注意本文默認(rèn)已安裝JAVA,如未安裝JAVA請?zhí)崆鞍惭b。安裝時注意路徑不要有空格。
    • 安裝spark環(huán)境之前,需要檢查環(huán)境變量JAVA_HOME以及path內(nèi)java路徑一定不要有空格。如果有空格,就需要修改JDK路徑。具體方法本文不再贅述,請查閱JAVA改路徑相關(guān)資料。改完之后還要記得更新path。
    • 注意,本文是在本地環(huán)境部署Spark。

步驟

Spark環(huán)境強(qiáng)調(diào)版本依賴,所以搭建最重要的一環(huán)就是版本管理。Spark環(huán)境由下面四個工程組成:

Project Download Url
Spark https://spark.apache.org/downloads.html
Hadoop https://archive.apache.org/dist/hadoop/common/
Scala https://www.scala-lang.org/download/all.html
winutils-master https://github.com/cdarlint/winutils

這里面,Spark會決定Scala和Hadoop的版本;而Hadoop又會受到winutils-master版本的影響。他們的關(guān)系可以用下圖表示:

一、確定版本


1.1 確定winutils-master版本

通過訪問winutils-masterdownload url,可獲取目前為止所有的winutils-master版本。
Spark的Windows本地化部署完整方案
假定我們選擇最新的版本:

  • Hadoop 3.2.2/bin

它的名稱就是所兼容的Hadoop版本,是不是很貼心。


1.2 確定Hadoop版本

上一步給出了兼容的Hadoop版本為version<=3.2.2。
Spark的Windows本地化部署完整方案

  • Hadoop 3.2.2

接下來由它確定兼容的Spark版本。注意,暫時不要下載任何文件,因為我們不確定這個版本是不是最終需要的版本。


1.3 確定Spark版本

Spark主頁用多個關(guān)聯(lián)控件的形式幫助我們確定版本。
Spark的Windows本地化部署完整方案

  • Spark release = 3.1.3

上面是我選擇的版本,主頁顯示它兼容Hadoop3.2 and later。注意,暫時不要下載任何文件,因為我們不確定這個版本是不是最終需要的版本。


1.4 確定Scala版本

先不要關(guān)閉上一步的頁面,留意頁面中的這句話:

Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides additional pre-built distribution with Scala 2.13

他提示我們兼容的的Scala version = 2.12。這就方便了我們尋找最后一個工程的版本號碼。注意,暫時不要下載任何文件,因為我們不確定這個版本是不是最終需要的版本。
Spark的Windows本地化部署完整方案

  • Scala release = 2.12

二、下載各個版本

通過訪問上文列表中各個工程的download url,將全部工程下載到本地的某個文件夾里面。

  • winutils-master下載辦法:點(diǎn)擊github右上角的Code,選擇Download ZIP,將整個倉庫文件夾下下來,然后取需要的版本。

我假設(shè)所有文件都存放于C:\Users\zhhony\Downloads\,這個路徑無所謂,記得就行。
Spark的Windows本地化部署完整方案

三、安裝

準(zhǔn)備工作

  • 首先準(zhǔn)備一個文件夾,用于存儲Spark的環(huán)境文件。注意路徑不要有中文,不要有空格:
    • Spark環(huán)境建議路徑: D:\Spark_env
  • 其次給Hadoop工程準(zhǔn)備一組文件夾,用于存儲Hadoop運(yùn)行產(chǎn)生的文件。注意路徑不要有中文,不要有空格:
    • Hadoop倉庫建議路徑: D:\tmp
    • Hadoop倉庫建議子路徑: D:\tmp\dfs\data
    • Hadoop倉庫建議子路徑: D:\tmp\dfs\name

3.1 安裝Scala

  1. 按照本文步驟下載的Scala將是一個.msi文件,直接雙擊安裝,把默認(rèn)安裝路徑改到環(huán)境文件夾D:\Spark_env的下面。
    Spark的Windows本地化部署完整方案

  2. 在操作系統(tǒng)環(huán)境變量中新添加一個變量SCALA_HOME = D:\Spark_env\scala\bin
    Spark的Windows本地化部署完整方案

  3. 同時修改操作系統(tǒng)的Path變量,新增一個D:\Spark_env\scala\bin。如果系統(tǒng)已經(jīng)建好了這個值就不用再建了:
    Spark的Windows本地化部署完整方案

安裝完成之后,重新開啟一個CMD,輸入scala命令,如果顯示如下,則表示安裝成功:

Welcome to Scala 2.12.0 (OpenJDK 64-Bit Server VM, Java 1.8.0_332).
Type in expressions for evaluation. Or try :help.

scala>

3.2 安裝Spark

  1. 將下載的spark-3.1.3-bin-hadoop3.2.tgz直接解壓,解壓后會有一個spark-3.1.3-bin-hadoop3.2文件夾,將這個文件夾整體搬運(yùn)到D:\Spark_env下。
    Spark的Windows本地化部署完整方案

  2. 去到文件夾下面的python里,將pyspark搬運(yùn)到python庫目錄里(pyspark.egg-info存在則也搬過去)。庫目錄的尋找方法本文不再贅述,可以查閱相關(guān)資料。庫目錄一般路徑是:

     C:\Users\{youraccount}\AppData\Local\Programs\Python\Python38\Lib\site-packages
    
  3. 在操作系統(tǒng)環(huán)境變量中新添加一個變量SPARK_HOME = D:\Spark_env\spark-3.1.3-bin-hadoop3.2

    Spark的Windows本地化部署完整方案

  4. 同時修改操作系統(tǒng)的Path變量,新增一個%SPARK_HOME%\bin
    Spark的Windows本地化部署完整方案

  5. 這一步,如果電腦用戶名含有下劃線_,則需要多加一個環(huán)境變量SPARK_LOCAL_HOSTNAME = localhost。加的方法參考上文。

    同時,去spark的bin文件夾下尋找spark-shell.cmd,右鍵編輯,在@echo off下面加一行SPARK_LOCAL_IP=127.0.0.1

3.3 安裝Hadoop

  1. 將下載的hadoop-3.2.2.tar.gz直接解壓,解壓后會有一個hadoop-3.2.2文件夾,將這個文件夾整體搬運(yùn)到D:\Spark_env下。
    Spark的Windows本地化部署完整方案

  2. 在操作系統(tǒng)環(huán)境變量中新添加一個變量HADOOP_HOME = D:\Spark_env\hadoop-3.2.2,加的方法可以參考Spark環(huán)節(jié)。

  3. 同時修改操作系統(tǒng)的Path變量,新增一個%HADOOP_HOME%\bin,加的方法可以參考Spark環(huán)節(jié)。

3.4 安裝winutils-master

將下載的winutils-master.zip直接解壓,解壓后尋找hadoop-3.2.2\bin文件夾,將這個文件夾里面的文件,整體搬運(yùn)到D:\Spark_env\hadoop-3.2.2\bin下,直接覆蓋原文件。

winutils-master\hadoop-3.2.2\bin  --copy-->   D:\Spark_env\hadoop-3.2.2\bin

四、配置修改

  1. 在操作系統(tǒng)環(huán)境變量中新添加一個變量PYSPARK_PYTHON,用于指定python解釋器路徑,這一步請參考上文環(huán)境變量的修改方法來。下面是我的例子:

     PYSPARK_PYTHON = D:\WorkShop\python\.env\Scripts\python.exe # 我的解釋器放在虛擬環(huán)境里,和默認(rèn)路徑不一樣
    
  2. 通過pip install py4j命令在python中安裝py4j庫,pip的使用這里不再贅述。

五、Hadoop配置專項修改

  1. 編輯hadoop-3.2.2\etc\hadoop文件夾下的core-site.xml文件,將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

     <property>
         <name>hadoop.tmp.dir</name>
         <value>/D:/tmp</value>
     </property>
     <property>
         <name>dfs.name.dir</name>
         <value>/D:/tmp/name</value>
     </property>
     <property>
         <name>fs.default.name</name>
         <value>hdfs://localhost:9000</value>
     </property>
    
  2. 編輯hadoop-3.2.2\etc\hadoop文件夾下的mapred-site.xml文件,將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

     <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
     </property>
     <property>
        <name>mapred.job.tracker</name>
        <value>hdfs://localhost:9001</value>
     </property>
    
  3. 編輯hadoop-3.2.2\etc\hadoop文件夾下的hdfs-site.xml文件,將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
     <property>
         <name>dfs.data.dir</name>
         <value>/D:/tmp/data</value>
     </property>
    
  4. 編輯hadoop-3.2.2\etc\hadoop文件夾下的yarn-site.xml文件,將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

     <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
     </property>
     <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
     </property>
    
  5. 鼠標(biāo)右鍵編輯hadoop-3.2.2\etc\hadoop文件夾下的hadoop-env.cmd文件,將JAVA_HOME@rem注釋掉,改為系統(tǒng)環(huán)境變量中JAVA_HOME變量的路徑,然后保存。類似于下面這樣:

    @rem set JAVA_HOME=%JAVA_HOME%
    set JAVA_HOME=D:\Java\jdk1.8.0_181
    
    • 如果java是裝在C:\Program Files文件夾下面,這時候由于路徑含有空格,是無法供Hadoop使用的。這時候可以用progra~1替換Program Files。參考文章: 為什么文件路徑 Program Files 可以寫成 Progra~1。

六、格式化Hadoop

  1. 管理員模式運(yùn)行cmd窗口,執(zhí)行hdfs namenode -format。如果提示是否重新格式化,輸入y;
  2. 管理員模式運(yùn)行cmd窗口,切換到hadoop的sbin目錄,執(zhí)行start-all,啟動Hadoop。彈出的四個窗口不出現(xiàn)shutdown說明啟動成功。
    到這一步實際上環(huán)境就已經(jīng)搭建完畢了。需要hive的小伙伴可以繼續(xù)嘗試搭建hive。

七、嘗試在python中啟動spark

管理員模式運(yùn)行cmd窗口,鍵入命令pyspark,顯示如下內(nèi)容表示啟動成功

Python 3.10.4 (tags/v3.10.4:9d38120, Mar 23 2022, 23:13:41) [MSC v.1929 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.1.3
      /_/

Using Python version 3.10.4 (tags/v3.10.4:9d38120, Mar 23 2022 23:13:41)
Spark context Web UI available at http://localhost:4040
Spark context available as 'sc' (master = local[*], app id = local-1661958484812).
SparkSession available as 'spark'.
>>>

也可以按導(dǎo)入包的模式啟動spark文章來源地址http://www.zghlxwxcb.cn/news/detail-410769.html

>>> from pyspark import sql
>>> spark = sql.SparkSession.builder.enableHiveSupport().getOrCreate()
>>> l = [('Alice', 1)]
>>> spark.createDataFrame(l).collect()
[Row(_1='Alice', _2=1)]

到了這里,關(guān)于Spark的Windows本地化部署完整方案的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Remix 完全本地化部署

    Remix 完全本地化部署

    1.簡介 Remix 是我們開發(fā) Solidity 智能合約的常用工具,有時候我們會直接訪問在線版的 Remix-IDE。 https://remix.ethereum.org/ 但是,如何將在線Remix鏈接本地文件系統(tǒng)呢,下面則是部署步驟 2、部署 Remixd Remixd 的安裝使用步驟如下: 安裝 Remixd:? npm install -g @remix-project/remixd 啟動 Rem

    2024年02月17日
    瀏覽(32)
  • 本地化部署stable diffusion

    本地化部署stable diffusion

    本文是根據(jù)https://zhuanlan.zhihu.com/p/606825889 和 https://blog.csdn.net/cycyc123/article/details/129165844兩個教程進(jìn)行的部署測試,終端是windows 前期需要安裝python與git環(huán)境,這里不贅敘了,首先是幾個下載包,可以提前下載: stable diffusion的web界面環(huán)境 https://pan.xunlei.com/s/VNQ4LqoKBidPdqSj2xMioVhs

    2023年04月09日
    瀏覽(43)
  • 本地化部署大語言模型 ChatGLM

    本地化部署大語言模型 ChatGLM

    ChatGLM-6B 是一個開源的、支持中英雙語的對話語言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費(fèi)級的顯卡上進(jìn)行本地部署(INT4 量化級別下最低只需 6GB 顯存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技術(shù),針對中文問答和對話進(jìn)行了優(yōu)

    2023年04月20日
    瀏覽(32)
  • 實戰(zhàn)whisper:本地化部署通用語音識別模型

    實戰(zhàn)whisper:本地化部署通用語音識別模型

    ????????Whisper 是一種通用語音識別模型。它是在大量不同音頻數(shù)據(jù)集上進(jìn)行訓(xùn)練的,也是一個多任務(wù)模型,可以執(zhí)行多語言語音識別、語音翻譯和語言識別。 ? ? ? ? 這里呢,我將給出我的一些代碼,來幫助你盡快實現(xiàn)【語音轉(zhuǎn)文字】的服務(wù)部署。 ? ? ? ? 以下是該A

    2024年01月18日
    瀏覽(29)
  • 【AI工具】-Stable Diffusion本地化部署教程

    【AI工具】-Stable Diffusion本地化部署教程

    今天我們要介紹的是時下最流行的AI繪圖軟件Stable Diffusion,雖然Diffusion.ai已經(jīng)開放api,但是長時間的商業(yè)化調(diào)用我們需要購買很多的金幣。所以我們需要找一個平替的AI繪圖平臺,現(xiàn)在主流市場中AI繪圖軟件主要就是OpenAI的DALLE、midjourney以及今天要學(xué)習(xí)的Stable Diffusion,而前兩

    2024年02月13日
    瀏覽(29)
  • 使用nextjs本地化部署AI大模型gemma

    使用nextjs本地化部署AI大模型gemma

    博主是AI新手,如有不對還請評論區(qū)指教~ 這里介紹mac的部署方式,win也可以實現(xiàn)。 本案例使用到:ollama + nextjs + langchain.js + milvus 來實現(xiàn)知識庫問答和聊天。 ollama: 本地運(yùn)行模型服務(wù) nextjs: 前端框架項目 langchain.js: 調(diào)用模型服務(wù)并對話 milvus: 向量數(shù)據(jù)庫 開源代碼:G

    2024年04月13日
    瀏覽(26)
  • 自建類ChatGPT服務(wù):本地化部署與遠(yuǎn)程訪問教程

    自建類ChatGPT服務(wù):本地化部署與遠(yuǎn)程訪問教程

    ???? 博主貓頭虎 帶您 Go to New World.??? ?? 博客首頁——貓頭虎的博客?? ??《面試題大全專欄》 文章圖文并茂??生動形象??簡單易學(xué)!歡迎大家來踩踩~?? ?? 《IDEA開發(fā)秘籍專欄》學(xué)會IDEA常用操作,工作效率翻倍~?? ?? 《100天精通Golang(基礎(chǔ)入門篇)》學(xué)會Golang語言

    2024年02月14日
    瀏覽(24)
  • Window本地化部署stable diffusion AI繪圖

    Window本地化部署stable diffusion AI繪圖

    從零開始,手把手教你Window本地化部署stable diffusion AI繪圖 - 知乎 (zhihu.com) 解決MAC筆記本Stable Diffusion安裝時報No matching distribution found for tb-nightly的問題 - 阿貍哥哥 - 博客園 (cnblogs.com) ?修改啟動腳本啟動命令里加入了 --precision full --no-half?precision full就是全精度,no half是不使用

    2024年02月11日
    瀏覽(36)
  • FastChat 本地化安裝部署-擁有屬于私人的ChatGPT

    寫在前面:第一發(fā)稿把自己熬夜幾天的一些經(jīng)歷寫下來,希望能給AI愛好者一個前車之鑒,自從看到斯坦福-ALPACA項目就想著能否能否本地化部署一套AI CHAT,所以找了很多網(wǎng)站,都沒有FastChat部署能很完整的寫下來,所以有了本文: 1 前期準(zhǔn)備:? N卡(24G以上顯存),16G內(nèi)存

    2024年02月02日
    瀏覽(33)
  • 部署本地化stable-diffusion遇到問題,求解

    (stable-diffusion-webui) C:Usersqinchstable-diffusion-webuiwebui-user.bat venv \\\"C:Usersqstable-diffusion-webuivenvScriptsPython.exe\\\" Python 3.10.6 | packaged by conda-forge | (main, Oct 24 2022, 16:02:16) [MSC v.1916 64 bit (AMD64)] Commit hash: 076d624a297532d6e4abebe5807fd7c7504d7a73 Traceback (most recent call last): File \\\"C:Usersqstable-diffu

    2024年02月03日
    瀏覽(44)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包