国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<center id="srbo8"></center>

Spark的Windows本地化部署完整方案

2年前作者：大尾巴魚_root分類：Toy博客閱讀(25)違法舉報

這篇具有很好參考價值的文章主要介紹了Spark的Windows本地化部署完整方案。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

前言

對于Spark，網(wǎng)上涉及到Windows平臺搭建的資料不多。大多資料不全，而且很少說明注意事項，存在一定的挖坑行為。對于不是很熟悉spark環(huán)境搭建過程，但是又非常想在自己的電腦上搭建一個本地環(huán)境的小伙伴來說存在一定的繞路行為。本文借鑒了網(wǎng)上大部分的資料，在整理集成的同時，會以一次完整的環(huán)境搭建過程為演示內(nèi)容。

借鑒文章

vscode配置spark

Windows7-8-10安裝部署hadoop-2.7.5（最詳細(xì)的步驟，不需要cygwin

windows平臺下安裝配置Hadoop

windows10上配置pyspark工作環(huán)境

…

環(huán)境

操作系統(tǒng)： Windows 10 x64
集成環(huán)境：管理員模式運(yùn)行的VSCode
Python版本： 3.10.4 (env)
JAVA SDK： 1.8.0
- 注意本文默認(rèn)已安裝JAVA，如未安裝JAVA請?zhí)崆鞍惭b。安裝時注意路徑不要有空格。
- 安裝spark環(huán)境之前，需要檢查環(huán)境變量JAVA_HOME以及path內(nèi)java路徑一定不要有空格。如果有空格，就需要修改JDK路徑。具體方法本文不再贅述，請查閱JAVA改路徑相關(guān)資料。改完之后還要記得更新path。
- 注意，本文是在本地環(huán)境部署Spark。

步驟

Spark環(huán)境強(qiáng)調(diào)版本依賴，所以搭建最重要的一環(huán)就是版本管理。Spark環(huán)境由下面四個工程組成：

Project	Download Url
Spark	https://spark.apache.org/downloads.html
Hadoop	https://archive.apache.org/dist/hadoop/common/
Scala	https://www.scala-lang.org/download/all.html
winutils-master	https://github.com/cdarlint/winutils

這里面，Spark會決定Scala和Hadoop的版本；而Hadoop又會受到winutils-master版本的影響。他們的關(guān)系可以用下圖表示：

一、確定版本

1.1 確定winutils-master版本

通過訪問winutils-master的download url，可獲取目前為止所有的winutils-master版本。
Spark的Windows本地化部署完整方案
假定我們選擇最新的版本：

Hadoop 3.2.2/bin

它的名稱就是所兼容的Hadoop版本，是不是很貼心。

1.2 確定Hadoop版本

上一步給出了兼容的Hadoop版本為version<=3.2.2。
Spark的Windows本地化部署完整方案

Hadoop 3.2.2

接下來由它確定兼容的Spark版本。注意，暫時不要下載任何文件，因為我們不確定這個版本是不是最終需要的版本。

1.3 確定Spark版本

Spark主頁用多個關(guān)聯(lián)控件的形式幫助我們確定版本。
Spark的Windows本地化部署完整方案

Spark release = 3.1.3

上面是我選擇的版本，主頁顯示它兼容Hadoop3.2 and later。注意，暫時不要下載任何文件，因為我們不確定這個版本是不是最終需要的版本。

1.4 確定Scala版本

先不要關(guān)閉上一步的頁面，留意頁面中的這句話：

Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides additional pre-built distribution with Scala 2.13

他提示我們兼容的的Scala version = 2.12。這就方便了我們尋找最后一個工程的版本號碼。注意，暫時不要下載任何文件，因為我們不確定這個版本是不是最終需要的版本。
Spark的Windows本地化部署完整方案

Scala release = 2.12

二、下載各個版本

通過訪問上文列表中各個工程的download url，將全部工程下載到本地的某個文件夾里面。

winutils-master下載辦法：點(diǎn)擊github右上角的Code，選擇Download ZIP，將整個倉庫文件夾下下來，然后取需要的版本。

我假設(shè)所有文件都存放于C:\Users\zhhony\Downloads\，這個路徑無所謂，記得就行。
Spark的Windows本地化部署完整方案

三、安裝

準(zhǔn)備工作

首先準(zhǔn)備一個文件夾，用于存儲Spark的環(huán)境文件。注意路徑不要有中文，不要有空格:
- Spark環(huán)境建議路徑： D:\Spark_env
其次給Hadoop工程準(zhǔn)備一組文件夾，用于存儲Hadoop運(yùn)行產(chǎn)生的文件。注意路徑不要有中文，不要有空格:
- Hadoop倉庫建議路徑： D:\tmp
- Hadoop倉庫建議子路徑： D:\tmp\dfs\data
- Hadoop倉庫建議子路徑： D:\tmp\dfs\name

3.1 安裝Scala

按照本文步驟下載的Scala將是一個.msi文件，直接雙擊安裝，把默認(rèn)安裝路徑改到環(huán)境文件夾D:\Spark_env的下面。
在操作系統(tǒng)環(huán)境變量中新添加一個變量SCALA_HOME = D:\Spark_env\scala\bin：
同時修改操作系統(tǒng)的Path變量，新增一個D:\Spark_env\scala\bin。如果系統(tǒng)已經(jīng)建好了這個值就不用再建了：

安裝完成之后，重新開啟一個CMD，輸入scala命令，如果顯示如下，則表示安裝成功：

Welcome to Scala 2.12.0 (OpenJDK 64-Bit Server VM, Java 1.8.0_332).
Type in expressions for evaluation. Or try :help.

scala>

3.2 安裝Spark

將下載的spark-3.1.3-bin-hadoop3.2.tgz直接解壓，解壓后會有一個spark-3.1.3-bin-hadoop3.2文件夾，將這個文件夾整體搬運(yùn)到D:\Spark_env下。
去到文件夾下面的python里，將pyspark搬運(yùn)到python庫目錄里(pyspark.egg-info存在則也搬過去)。庫目錄的尋找方法本文不再贅述，可以查閱相關(guān)資料。庫目錄一般路徑是：
```
 C:\Users\{youraccount}\AppData\Local\Programs\Python\Python38\Lib\site-packages
```
在操作系統(tǒng)環(huán)境變量中新添加一個變量SPARK_HOME = D:\Spark_env\spark-3.1.3-bin-hadoop3.2：
同時修改操作系統(tǒng)的Path變量，新增一個%SPARK_HOME%\bin：
這一步，如果電腦用戶名含有下劃線_，則需要多加一個環(huán)境變量SPARK_LOCAL_HOSTNAME = localhost。加的方法參考上文。

同時，去spark的bin文件夾下尋找spark-shell.cmd，右鍵編輯，在@echo off下面加一行SPARK_LOCAL_IP=127.0.0.1

3.3 安裝Hadoop

將下載的hadoop-3.2.2.tar.gz直接解壓，解壓后會有一個hadoop-3.2.2文件夾，將這個文件夾整體搬運(yùn)到D:\Spark_env下。
在操作系統(tǒng)環(huán)境變量中新添加一個變量HADOOP_HOME = D:\Spark_env\hadoop-3.2.2，加的方法可以參考Spark環(huán)節(jié)。
同時修改操作系統(tǒng)的Path變量，新增一個%HADOOP_HOME%\bin，加的方法可以參考Spark環(huán)節(jié)。

3.4 安裝winutils-master

將下載的winutils-master.zip直接解壓，解壓后尋找hadoop-3.2.2\bin文件夾，將這個文件夾里面的文件，整體搬運(yùn)到D:\Spark_env\hadoop-3.2.2\bin下，直接覆蓋原文件。

winutils-master\hadoop-3.2.2\bin  --copy-->   D:\Spark_env\hadoop-3.2.2\bin

四、配置修改

在操作系統(tǒng)環(huán)境變量中新添加一個變量PYSPARK_PYTHON，用于指定python解釋器路徑，這一步請參考上文環(huán)境變量的修改方法來。下面是我的例子：
```
 PYSPARK_PYTHON = D:\WorkShop\python\.env\Scripts\python.exe # 我的解釋器放在虛擬環(huán)境里，和默認(rèn)路徑不一樣
```
通過pip install py4j命令在python中安裝py4j庫，pip的使用這里不再贅述。

五、Hadoop配置專項修改

編輯hadoop-3.2.2\etc\hadoop文件夾下的core-site.xml文件，將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

 <property>
     <name>hadoop.tmp.dir</name>
     <value>/D:/tmp</value>
 </property>
 <property>
     <name>dfs.name.dir</name>
     <value>/D:/tmp/name</value>
 </property>
 <property>
     <name>fs.default.name</name>
     <value>hdfs://localhost:9000</value>
 </property>

編輯hadoop-3.2.2\etc\hadoop文件夾下的mapred-site.xml文件，將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

 <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
 </property>
 <property>
    <name>mapred.job.tracker</name>
    <value>hdfs://localhost:9001</value>
 </property>

編輯hadoop-3.2.2\etc\hadoop文件夾下的hdfs-site.xml文件，將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

 <property>
     <name>dfs.replication</name>
     <value>1</value>
 </property>
 <property>
     <name>dfs.data.dir</name>
     <value>/D:/tmp/data</value>
 </property>

編輯hadoop-3.2.2\etc\hadoop文件夾下的yarn-site.xml文件，將下列文本放入<configuration> </configuration>標(biāo)簽內(nèi)并保存:

 <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
 <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>

鼠標(biāo)右鍵編輯hadoop-3.2.2\etc\hadoop文件夾下的hadoop-env.cmd文件，將JAVA_HOME用@rem注釋掉，改為系統(tǒng)環(huán)境變量中JAVA_HOME變量的路徑，然后保存。類似于下面這樣:
```
@rem set JAVA_HOME=%JAVA_HOME%
set JAVA_HOME=D:\Java\jdk1.8.0_181
```
- 如果java是裝在C:\Program Files文件夾下面，這時候由于路徑含有空格，是無法供Hadoop使用的。這時候可以用progra~1替換Program Files。參考文章：為什么文件路徑 Program Files 可以寫成 Progra~1。

六、格式化Hadoop

管理員模式運(yùn)行cmd窗口，執(zhí)行hdfs namenode -format。如果提示是否重新格式化，輸入y；
管理員模式運(yùn)行cmd窗口，切換到hadoop的sbin目錄，執(zhí)行start-all，啟動Hadoop。彈出的四個窗口不出現(xiàn)shutdown說明啟動成功。
到這一步實際上環(huán)境就已經(jīng)搭建完畢了。需要hive的小伙伴可以繼續(xù)嘗試搭建hive。

七、嘗試在python中啟動spark

管理員模式運(yùn)行cmd窗口，鍵入命令pyspark，顯示如下內(nèi)容表示啟動成功

Python 3.10.4 (tags/v3.10.4:9d38120, Mar 23 2022, 23:13:41) [MSC v.1929 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.1.3
      /_/

Using Python version 3.10.4 (tags/v3.10.4:9d38120, Mar 23 2022 23:13:41)
Spark context Web UI available at http://localhost:4040
Spark context available as 'sc' (master = local[*], app id = local-1661958484812).
SparkSession available as 'spark'.
>>>

也可以按導(dǎo)入包的模式啟動spark文章來源地址http://www.zghlxwxcb.cn/news/detail-410769.html

>>> from pyspark import sql
>>> spark = sql.SparkSession.builder.enableHiveSupport().getOrCreate()
>>> l = [('Alice', 1)]
>>> spark.createDataFrame(l).collect()
[Row(_1='Alice', _2=1)]

到了這里，關(guān)于Spark的Windows本地化部署完整方案的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Remix 完全本地化部署
1.簡介 Remix 是我們開發(fā) Solidity 智能合約的常用工具，有時候我們會直接訪問在線版的 Remix-IDE。 https://remix.ethereum.org/ 但是，如何將在線Remix鏈接本地文件系統(tǒng)呢，下面則是部署步驟 2、部署 Remixd Remixd 的安裝使用步驟如下：安裝 Remixd：? npm install -g @remix-project/remixd 啟動 Rem
2024年02月17日
瀏覽(32)
本地化部署stable diffusion
本文是根據(jù)https://zhuanlan.zhihu.com/p/606825889 和 https://blog.csdn.net/cycyc123/article/details/129165844兩個教程進(jìn)行的部署測試，終端是windows 前期需要安裝python與git環(huán)境，這里不贅敘了，首先是幾個下載包，可以提前下載： stable diffusion的web界面環(huán)境 https://pan.xunlei.com/s/VNQ4LqoKBidPdqSj2xMioVhs
2023年04月09日
瀏覽(43)
本地化部署大語言模型 ChatGLM
ChatGLM-6B 是一個開源的、支持中英雙語的對話語言模型，基于 General Language Model (GLM) 架構(gòu)，具有 62 億參數(shù)。結(jié)合模型量化技術(shù)，用戶可以在消費(fèi)級的顯卡上進(jìn)行本地部署（INT4 量化級別下最低只需 6GB 顯存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技術(shù)，針對中文問答和對話進(jìn)行了優(yōu)
2023年04月20日
瀏覽(32)
實戰(zhàn)whisper：本地化部署通用語音識別模型
????????Whisper 是一種通用語音識別模型。它是在大量不同音頻數(shù)據(jù)集上進(jìn)行訓(xùn)練的，也是一個多任務(wù)模型，可以執(zhí)行多語言語音識別、語音翻譯和語言識別。 ? ? ? ? 這里呢，我將給出我的一些代碼，來幫助你盡快實現(xiàn)【語音轉(zhuǎn)文字】的服務(wù)部署。 ? ? ? ? 以下是該A
2024年01月18日
瀏覽(29)
【AI工具】-Stable Diffusion本地化部署教程
今天我們要介紹的是時下最流行的AI繪圖軟件Stable Diffusion，雖然Diffusion.ai已經(jīng)開放api，但是長時間的商業(yè)化調(diào)用我們需要購買很多的金幣。所以我們需要找一個平替的AI繪圖平臺，現(xiàn)在主流市場中AI繪圖軟件主要就是OpenAI的DALLE、midjourney以及今天要學(xué)習(xí)的Stable Diffusion，而前兩
2024年02月13日
瀏覽(29)
使用nextjs本地化部署AI大模型gemma
博主是AI新手，如有不對還請評論區(qū)指教～這里介紹mac的部署方式，win也可以實現(xiàn)。本案例使用到：ollama + nextjs + langchain.js + milvus 來實現(xiàn)知識庫問答和聊天。 ollama：本地運(yùn)行模型服務(wù) nextjs：前端框架項目 langchain.js：調(diào)用模型服務(wù)并對話 milvus：向量數(shù)據(jù)庫開源代碼：G
2024年04月13日
瀏覽(26)
自建類ChatGPT服務(wù)：本地化部署與遠(yuǎn)程訪問教程
???? 博主貓頭虎帶您 Go to New World.??? ?? 博客首頁——貓頭虎的博客?? ??《面試題大全專欄》文章圖文并茂??生動形象??簡單易學(xué)！歡迎大家來踩踩~?? ?? 《IDEA開發(fā)秘籍專欄》學(xué)會IDEA常用操作，工作效率翻倍~?? ?? 《100天精通Golang(基礎(chǔ)入門篇）》學(xué)會Golang語言
2024年02月14日
瀏覽(24)
Window本地化部署stable diffusion AI繪圖
從零開始，手把手教你Window本地化部署stable diffusion AI繪圖 - 知乎 (zhihu.com) 解決MAC筆記本Stable Diffusion安裝時報No matching distribution found for tb-nightly的問題 - 阿貍哥哥 - 博客園 (cnblogs.com) ?修改啟動腳本啟動命令里加入了 --precision full --no-half?precision full就是全精度，no half是不使用
2024年02月11日
瀏覽(36)
FastChat 本地化安裝部署-擁有屬于私人的ChatGPT
寫在前面：第一發(fā)稿把自己熬夜幾天的一些經(jīng)歷寫下來，希望能給AI愛好者一個前車之鑒，自從看到斯坦福-ALPACA項目就想著能否能否本地化部署一套AI CHAT，所以找了很多網(wǎng)站，都沒有FastChat部署能很完整的寫下來，所以有了本文： 1 前期準(zhǔn)備：? N卡（24G以上顯存），16G內(nèi)存
2024年02月02日
瀏覽(33)
部署本地化stable-diffusion遇到問題，求解
(stable-diffusion-webui) C:Usersqinchstable-diffusion-webuiwebui-user.bat venv \\\"C:Usersqstable-diffusion-webuivenvScriptsPython.exe\\\" Python 3.10.6 | packaged by conda-forge | (main, Oct 24 2022, 16:02:16) [MSC v.1916 64 bit (AMD64)] Commit hash: 076d624a297532d6e4abebe5807fd7c7504d7a73 Traceback (most recent call last): File \\\"C:Usersqstable-diffu
2024年02月03日
瀏覽(44)

<span id="rjx81"></span>

<center id="rjx81"></center>