国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark

這篇具有很好參考價(jià)值的文章主要介紹了CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

背景:

項(xiàng)目需要對(duì)數(shù)倉(cāng)千萬(wàn)級(jí)數(shù)據(jù)進(jìn)行分析、算法建模。因數(shù)據(jù)安全,數(shù)據(jù)無(wú)法大批量導(dǎo)出,需在集群內(nèi)進(jìn)行分析建模,但CDH集群未安裝python3 環(huán)境,需在無(wú)網(wǎng)情況下離線配置python3環(huán)境及一系列第三方庫(kù)。

采取策略,使用外部聯(lián)網(wǎng)linux環(huán)境創(chuàng)建python3虛擬環(huán)境,然后整體遷移集群環(huán)境

1. 外部機(jī)器和集群統(tǒng)一安裝anaconda3環(huán)境官網(wǎng)下載地址
>> sh Anaconda3-2023.03-1-Linux-x86_64.sh
2. 外部機(jī)器安裝pyhive、impyla、pyspark、ipykernel
>> conda create -n python3.7 python=3.7  # 創(chuàng)建py3.7虛擬環(huán)境,CDH集群spark2.4.0最高支持python3.7
>> conda activate python3.7       # 激活虛擬環(huán)境
>> pip install pyhive,impyla,pyspark # pip會(huì)自動(dòng)安裝thrif等依賴(lài)包,若報(bào)gcc等系統(tǒng)問(wèn)題,具體問(wèn)題百度分析
>> pip install ipykernel        # 創(chuàng)建jupyter內(nèi)核使用,使用jupyterlab遠(yuǎn)程進(jìn)行數(shù)據(jù)分析
>> pip install scikit-learn、lightgbm # 安裝其他需要第三方庫(kù)
3. 環(huán)境遷移
外部機(jī)器/anaconda3/envs>> zip -r python3.7.zip ./python3.7  # 壓縮整個(gè)虛擬環(huán)境
集群/anaconda3/envs>> unzip python3.7.zip                  # 大功告成
4. 問(wèn)題解決(壞的解釋器:沒(méi)有那個(gè)文件或目錄)

遷移后 >> ./pip 提示 找不到python解釋器

CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark,大數(shù)據(jù),數(shù)據(jù)分析,python,開(kāi)發(fā)語(yǔ)言

遷移后 ipykernel 提示找不到python解釋器

CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark,大數(shù)據(jù),數(shù)據(jù)分析,python,開(kāi)發(fā)語(yǔ)言

解決:

進(jìn)入envs/python3.7/bin 下,修改pip、pip3、ipykernel等命令內(nèi)容,將第一行改為集群python對(duì)應(yīng)路徑。

CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark,大數(shù)據(jù),數(shù)據(jù)分析,python,開(kāi)發(fā)語(yǔ)言

5. jupyterlab 內(nèi)核生成
#1 激活、退出虛擬環(huán)境
>> conda activate python3.7    [conda deactivate]

#2. 虛擬環(huán)境下
>> ipython kernel install --user --name=python3.7

#3. 重啟jupyter-lab 查看即可
>> nohup ./jupyter-lab --allow-root > /data/xx/anaconda3/log.out &

# 備注:jupyterlab 服務(wù)由anaconda3主環(huán)境base創(chuàng)建
>> jupyter-lab --generate-config (配置遠(yuǎn)程訪問(wèn))
>> vim jupyter_lab_config.py
'''
c.ServerApp.ip = '0.0.0.0'
c.ServerApp.port = 8888
c.ServerApp.passwd = 8888
c.ServerApp.notebook_dir = '/data/xx/anaconda3/data'
c.ServerApp.open_browser = False
c.NotebookApp.passwords = {
    'user1': 'sha1:user1_password_hash', # >> python -c "from notebook.auth import passwd; print(passwd())" 生成用戶(hù)密碼
    'user2': 'sha1:user2_password_hash',
    'user3': 'sha1:user3_password_hash'
}
'''

CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark,大數(shù)據(jù),數(shù)據(jù)分析,python,開(kāi)發(fā)語(yǔ)言

6. pyhive、impyla連接測(cè)試
from pyhive import hive
from impala.dbapi import connect
from impala.util import as_pandas

## python 讀取數(shù)倉(cāng)第一種方式  hive:jbdc
# pyhive 連接
conn = hive.Connection(host='namenode',port=10000,database='庫(kù)名')
cursor = conn.cursor()

# 執(zhí)行查詢(xún)
cursor.execute('desc user_info')
col_name = [i[0] for i in cursor.fetchall()]
cursor.execute('select * from user_info limit 2')
data = cursor.fetchall()
print(pd.DataFrame(data=data,columns=col_name))

# 關(guān)閉hive連接
cursor.close()
conn.close()

## python 讀取數(shù)倉(cāng)第二種方式  impala:jbdc
# 連接impala
conn = connect(host='namenode',port=21050,database='庫(kù)名')
cursor = conn.cursor()

# 執(zhí)行查詢(xún)
cursor.execute('select * from user_info where name is not null')
data = as_pandas(cursor)

備注:使用pyhive和impyla 讀取數(shù)據(jù),還是讀取到一臺(tái)集群節(jié)點(diǎn)內(nèi)存上,速度慢,占內(nèi)存,且分析比較困難,適合小批量處理。如處理千萬(wàn)級(jí)數(shù)據(jù),還是使用pyspark進(jìn)行并行分析。

7. pyspark 對(duì)接CDH集群spark測(cè)試【pyspark版本要和集群CDH spark版本一致】
## python 分析大量數(shù)據(jù) pyspark
import os
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession

import warnings
warnings.filterwarnings(action='ignore')

# 制定集群spark、hadoop家目錄

os.environ['SPARK_HOME'] = '/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p0.6751098/lib/spark'
os.environ['HADOOP_CONF_DIR'] = '/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p0.6751098/lib/hadoop'
os.environ['PYSPARK_PYTHON'] = './py3/bin/python' 

parameters = [('spark.app.name','sklearn'),
              ('spark.yarn.dist.files','hdfs://namenode:8020/python3/python3.7.zip#py3')
             ('spark.master','yarn'),
            ('spark.submit.deploymode','client'),
             ]

conf = SparkConf().setAll(parameters)
#sc = SparkContext.getOrCreate(conf=conf)
spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()
spark


CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark,大數(shù)據(jù),數(shù)據(jù)分析,python,開(kāi)發(fā)語(yǔ)言
備注:一般會(huì)報(bào)
Permission denied: user=root, access=WRITE, inode=“/user/spark/applicationHistory”:spark:spark:drwxr-xr-x 權(quán)限錯(cuò)誤,
這是因?yàn)閷?xiě)代碼得用戶(hù)時(shí)jupyter服務(wù)啟動(dòng)用戶(hù),而CDH 中hadoop、hive、spark 文件的用戶(hù)分別為hdfs、hive、spark用戶(hù)。

?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-671548.html

到了這里,關(guān)于CDH集群離線配置python3環(huán)境,并安裝pyhive、impyla、pyspark的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python3 安裝、環(huán)境變量配置、PyCharm新建Python項(xiàng)目

    Python3 安裝、環(huán)境變量配置、PyCharm新建Python項(xiàng)目

    Pyhton官網(wǎng)下載最新穩(wěn)定版的安裝包: ?找到合適的版本進(jìn)行下載: 如果下載較慢,此處提供一個(gè)3.10.11的穩(wěn)定版本的安裝包: 鏈接:https://pan.baidu.com/s/16GnWjkGFuSfWfaI9UVX8qA?pwd=4u5o? 提取碼:4u5o? 注意:此安裝包解壓后即可,不用安裝程序! 解壓或安裝后的目錄,可以看到對(duì)應(yīng)的

    2024年02月13日
    瀏覽(31)
  • Windows中配置python3.11環(huán)境安裝教程

    Windows中配置python3.11環(huán)境安裝教程

    目錄 一,下載python3.11 ????????下載完成后自動(dòng)彈出安裝界面,我們直接選擇lnstall Now安裝路徑,在安裝時(shí)務(wù)必先把下方兩個(gè)對(duì)勾打上。 ?二,到這個(gè)頁(yè)面就成功安裝了Python3.11 ?三,配置3.11環(huán)境 ?四,然后在Visual Studio Code里面配置3.11。 打開(kāi)python官網(wǎng):Welcome to Python.org?,

    2024年02月12日
    瀏覽(22)
  • 【環(huán)境配置】python離線安裝opencv庫(kù)

    opencv可以使用命令一鍵在線安裝,但是因?yàn)榫W(wǎng)速和指定版本等原因經(jīng)常出現(xiàn)各種問(wèn)題。在這種情況下,先下載安裝包,再離線安裝是一種更穩(wěn)定的選擇。 1、首先點(diǎn)擊此處,進(jìn)入離線安裝包界面,選擇合適的安裝包文件。 2、然后輸入命令:pip install + 安裝包路徑,就可以快速

    2024年02月16日
    瀏覽(21)
  • 完全離線環(huán)境下安裝配置Vscode Python開(kāi)發(fā)環(huán)境及離線包文件的下載與安裝實(shí)戰(zhàn)

    完全離線環(huán)境下安裝配置Vscode Python開(kāi)發(fā)環(huán)境及離線包文件的下載與安裝實(shí)戰(zhàn)

    一般在進(jìn)行項(xiàng)目開(kāi)發(fā)時(shí),都是在有網(wǎng)絡(luò)的環(huán)境下進(jìn)行的,此時(shí)的開(kāi)發(fā)工作,由于有網(wǎng)絡(luò)的支持,我們需要什么安裝包、模塊、或者工具,下載安裝比較方便,缺少依賴(lài)環(huán)境時(shí),有些系統(tǒng)和安裝包會(huì)自動(dòng)下載補(bǔ)齊。但在一些特情況境下,需要配置完全獨(dú)立于網(wǎng)絡(luò)的開(kāi)發(fā)環(huán)境,這

    2024年02月04日
    瀏覽(31)
  • 【Python】python3.7默認(rèn)庫(kù)安裝源地址更改及opencv_python-3.4.2.16環(huán)境配置

    python官方各版本下載地址: 國(guó)內(nèi)華為鏡像 2、Python 第三方庫(kù)國(guó)內(nèi)鏡像下載地址 python的默認(rèn)鏡像源 默認(rèn)鏡像源:https://pypi.python.org/simple 豆瓣 http://pypi.douban.com/simple/ 阿里云 http://mirrors.aliyun.com/pypi/simple/ 清華大學(xué) https://pypi.tuna.tsinghua.edu.cn/simple 中國(guó)科技大學(xué) https://pypi.mirrors.ust

    2024年02月15日
    瀏覽(24)
  • CDH-CM大數(shù)據(jù)管理平臺(tái)詳解 附CDH離線安裝包

    1、大數(shù)據(jù)時(shí)代的數(shù)據(jù)特點(diǎn)? 一般認(rèn)為,大數(shù)據(jù)主要具有 四方面的典型特征——規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)和價(jià)值性(Value), 即所謂的\\\"4V“。 volume(大量):目前處理的數(shù)據(jù)量基本為PB、EB級(jí)別 velocity(高速):在極短的一段時(shí)間內(nèi)能產(chǎn)出大量數(shù)據(jù)(秒殺

    2024年02月08日
    瀏覽(18)
  • 離線升級(jí)Python3.8.16 及pip3(包含全部安裝包)

    離線升級(jí)Python3.8.16 及pip3(包含全部安裝包)

    官網(wǎng):https://www.python.org/downloads/下載安裝包,已在centos7.1-7.8測(cè)試,運(yùn)行正常 1、解壓 tar zxvf Python-3.8.10.tgz 2、切換目錄 cd Python-3.8.16 3、配置安裝參數(shù) find / -name python3 不能覆蓋原有python3的目錄 ./configure --prefix=/usr/local/python38/ 4、編譯安裝 make make install 5、配置系統(tǒng)環(huán)境變量 vi

    2024年02月08日
    瀏覽(18)
  • Cygwin 自制離線安裝包 (bash+vim+python3.9) + 使用教程

    Cygwin 自制離線安裝包 (bash+vim+python3.9) + 使用教程

    視圖:完整 搜索需要安裝的軟件,例如: bash 搜索需要安裝的軟件,例如: vim 搜索需要安裝的軟件,例如: python3 需要安裝的軟件都找到之后,點(diǎn)擊 “下一步” 打開(kāi)方式1)在桌面找到如下圖標(biāo) 打開(kāi)方式2) 打開(kāi)方式3)

    2024年02月22日
    瀏覽(34)
  • 使用 Sealos 在離線環(huán)境中光速安裝 K8s 集群

    使用 Sealos 在離線環(huán)境中光速安裝 K8s 集群

    作者:尹珉。Sealos 開(kāi)源社區(qū) Ambassador,云原生愛(ài)好者。 在當(dāng)今快節(jié)奏的軟件交付環(huán)境中,容器化交付已經(jīng)成為許多企業(yè)選擇的首選技術(shù)手段。在可以訪問(wèn)公網(wǎng)的環(huán)境下,容器化交付不僅能夠提高軟件開(kāi)發(fā)和交付的效率,還能夠幫助企業(yè)實(shí)現(xiàn)快速迭代和持續(xù)交付。 然而,在離

    2024年02月10日
    瀏覽(26)
  • Python3(一):環(huán)境配置

    Python3(一):環(huán)境配置

    因?yàn)樯a(chǎn)項(xiàng)目需要一些監(jiān)控告警,并且要盡量在不修改項(xiàng)目代碼的前提下,所以選擇了Python寫(xiě)一些告警腳本。之前一直做Java相關(guān)開(kāi)發(fā),所以趁此機(jī)會(huì)學(xué)習(xí)一下Python,畢竟技多不壓身??。 本文主要介紹windows系統(tǒng)下Python的環(huán)境配置。 下載地址:python.org,選擇對(duì)應(yīng)的版本類(lèi)型下

    2024年02月01日
    瀏覽(39)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包