国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決

這篇具有很好參考價(jià)值的文章主要介紹了Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前言: 本篇文章在已經(jīng)安裝 Hadoop 3.3.4Hive 3.1.3 版本的基礎(chǔ)上進(jìn)行,與筆者版本不一致也沒(méi)有關(guān)系,按照步驟來(lái)就行了。

如果你不想使用低版本的 Spark(例如:Spark 2.x 系列),請(qǐng)直接跳轉(zhuǎn)到本文目錄【重編譯源碼】。

Hadoop 安裝

詳情查看我的這篇博客:Hadoop 完全分布式搭建(超詳細(xì))

Hive 安裝

詳情查看我的這篇博客:Hive 搭建(將 MySQL 作為元數(shù)據(jù)庫(kù))

Hive On Spark 與 Spark On Hive 區(qū)別

Hive On Spark

在 Hive 中集成 Spark,Hive 既作為元數(shù)據(jù)存儲(chǔ),又負(fù)責(zé)解析 HQL 語(yǔ)句,只是將 Hive 的運(yùn)行引擎更換為 Spark,由 Spark 負(fù)責(zé)運(yùn)算工作,而不再是默認(rèn)的 MR 引擎,但部署較為復(fù)雜。

Spark On Hive

Hive 只負(fù)責(zé)元數(shù)據(jù)存儲(chǔ),由 Spark 來(lái)解析與執(zhí)行 SQL 語(yǔ)句,其中的 SQL 語(yǔ)法為 Spark SQL,且部署簡(jiǎn)單。

Spark on Hive 的優(yōu)點(diǎn)在于它提供了更靈活的編程接口,適用于各種數(shù)據(jù)處理需求,但性能可能不如 Hive on Spark,特別是在處理復(fù)雜查詢時(shí)。

部署 Hive On Spark

查詢 Hive 對(duì)應(yīng)的 Spark 版本號(hào)

每個(gè) Hive 版本適配的 Spark 都不相同,使用的 Spark 版本必須與 Hive 源碼中指定的版本一致,或者重新編譯源碼,更換成需要的版本。

我這里使用的 Hive 版本為 3.1.3,現(xiàn)在通過(guò)官方網(wǎng)站 —— Index of /hive 獲取對(duì)應(yīng)版本的 Hive 源碼。

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

下載完成后,解壓縮,在主目錄下找到 pom.xml 文件:

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

直接通過(guò)瀏覽器打開(kāi)該文件,搜索 spark.version 即可查詢到對(duì)應(yīng)的 Spark 版本。

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

可以看到 Hive 3.1.3 對(duì)應(yīng)的 Spark 版本為 2.3.0,如果你不想使用該版本,那么使用 IDEA 打開(kāi)該項(xiàng)目,在該 pom.xml 文件中修改你需要的 Spark 版本,然后使用 maven 重新打包,重新安裝 Hive 即可。

我這里就不在重新編譯了,該 Spark 版本已經(jīng)可以滿足我的使用需求。

下載 Spark

在 Spark 官方網(wǎng)站直接下載 —— Index of /dist/spark

找到對(duì)應(yīng)版本進(jìn)行下載,這里需要注意選擇純凈版的包下載,如下所示:

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

選擇 without-hadoop 沒(méi)有集成 Hadoop 的 Spark 版本進(jìn)行下載,這樣 Spark 就會(huì)使用集群系統(tǒng)中安裝的 Hadoop。

將下載好的包上傳到集群中,下面開(kāi)始安裝部署 Spark。

注意,請(qǐng)將下列提到的路徑替換為你自己實(shí)際的存儲(chǔ)路徑?。?!不一定需要和我一樣。

解壓 Spark

tar -xvf spark-2.3.0-bin-without-hadoop.tgz -C /opt/module/

順手改個(gè)名字

cd /opt/module
mv spark-2.3.0-bin-without-hadoop/ spark-2.3.0

配置環(huán)境變量

vim /etc/profile

文件末尾添加:

#SPAKR_HOME
export SPARK_HOME=/opt/module/spark-2.3.0
export PATH=$PATH:$SPARK_HOME/bin

刷新環(huán)境變量:source /etc/profile

指定 Hadoop 路徑

因?yàn)槲覀兊陌姹具x擇的純凈版,所以需要在 Spark 環(huán)境文件中指定已經(jīng)安裝的 Hadoop 路徑。

cd $SPARK_HOME/conf

mv spark-env.sh.template spark-env.sh

vim spark-env.sh

在該文件末尾添加,指定 Hadoop 路徑:

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

添加完成之后,保存并退出。

其中 $(hadoop classpath) 的作用是獲取 Hadoop 類路徑的值 (需要提前配置 Hadoop 的環(huán)境變量,否則獲取不到) ,我們可以直接打印看看它存儲(chǔ)的內(nèi)容:

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

在 Hive 配置 Spark 參數(shù)

進(jìn)入 Hive 的 conf 目錄中,創(chuàng)建 Spark 配置文件,指定相關(guān)參數(shù)。

cd $HIVE_HOME/conf

vim spark-default.conf

添加如下配置內(nèi)容:

# 指定提交到 yarn 運(yùn)行
spark.master                             yarn
# 開(kāi)啟日志并存儲(chǔ)到 HDFS 上
spark.eventLog.enabled                   true
spark.eventLog.dir                       hdfs://hadoop120:8020/spark-logDir
# 指定每個(gè)執(zhí)行器的內(nèi)存
spark.executor.memory                    1g
# 指定每個(gè)調(diào)度器的內(nèi)存
spark.driver.memory					     1g

配置文件創(chuàng)建完成后,在 HDFS 上創(chuàng)建 Spark 的日志存儲(chǔ)目錄。

hadoop fs -mkdir /spark-logDir

上傳 Jar 包并更換引擎

因?yàn)橹辉谝慌_(tái)機(jī)器上安裝了 Hive 和 Spark,所以當(dāng)我們將任務(wù)提交到 Yarn 上進(jìn)行調(diào)度時(shí),可能會(huì)將該任務(wù)分配到其它節(jié)點(diǎn),這就會(huì)導(dǎo)致任務(wù)無(wú)法正常運(yùn)行,所以我們需要將 Spark 中的所有 Jar 包到 HDFS 上,并告知 Hive 其存儲(chǔ)的位置。

上傳文件

hadoop fs -mkdir /spark-jars

cd $SPARK_HOME

hadoop fs -put ./jars/* /spark-jars

在 Hive 的配置文件中指定 Spark jar 包的存放位置:

cd $HIVE_HOME/conf

vim hive-site.xml

在其中添加下列三項(xiàng)配置:

<!--Spark依賴位置-->
<property>
    <name>spark.yarn.jars</name>
    <value>hdfs://hadoop120:8020/spark-jars/*</value>
</property>
  
<!--Hive執(zhí)行引擎-->
<property>
    <name>hive.execution.engine</name>
    <value>spark</value>
</property>

<!--提交任務(wù)超時(shí)時(shí)間,單位ms-->
<property>
    <name>hive.spark.client.connect.timeout</name>
    <value>5000</value>
</property>

配置項(xiàng)添加完成后,我們就配置好了 Hive On Spark,下面對(duì)其進(jìn)行測(cè)試。

測(cè)試 Hive On Spark

進(jìn)入 Hive 中創(chuàng)建測(cè)試表:

drop table if exists books;
create table books(id int,book_name string);

寫入測(cè)試數(shù)據(jù):

insert into books values (1,'bigdata');
insert into books values (2,'hive');
insert into books values (3,'spark');

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

注意,每次打開(kāi)終端的首次 MR 操作會(huì)消耗比較多的時(shí)間,要去與 Yarn 建立連接、分配資源等,大概 30s1m 左右。

程序運(yùn)行時(shí),可以訪問(wèn)其給出的 WEB URL 地址(http://hadoop120:45582 不固定),訪問(wèn)后如下所示:

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

可以看到運(yùn)行速度還是嘎嘎快的(真是受夠了 MR?。?/p>

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

查詢結(jié)果:

select * from books;

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

數(shù)據(jù)插入完成,測(cè)試成功。

Yarn 資源分配設(shè)置

當(dāng)我們?cè)?Hive On Spark 模式下同時(shí)啟用多個(gè) Hive 客戶端進(jìn)行操作時(shí),會(huì)發(fā)現(xiàn),后啟動(dòng)的多個(gè) Hive 執(zhí)行任務(wù)時(shí)(可能)會(huì)卡住,如下所示:

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

進(jìn)入歷史服務(wù)器,查看該任務(wù)的執(zhí)行詳情,會(huì)發(fā)現(xiàn)如下提示:

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

提示任務(wù)已經(jīng)添加但是未激活,原因是 AM 資源溢出。

Yarn 默認(rèn)使用的是容量調(diào)度器 Capacity Scheduler(隊(duì)列),該隊(duì)列的總?cè)萘磕J(rèn)為 Yarn 總資源的 %101024的倍數(shù)),當(dāng)前我的 Yarn 集群環(huán)境分配的總資源為 18G,所以這里隊(duì)列的最大容量為 2048MB,也就是 2G。

我啟動(dòng)第一個(gè) Hive 客戶端運(yùn)行程序后,Yarn 成功的為其分配了 AM 資源,當(dāng)我又啟動(dòng)了其它的 Hive 客戶端運(yùn)行程序時(shí),就會(huì)導(dǎo)致 AM 資源分配失敗,因?yàn)閮蓚€(gè) AM 的總資源相加已經(jīng)達(dá) 3G 左右,所以會(huì)導(dǎo)致任務(wù)卡頓或失敗。

解決方法:提高 Yarn 為隊(duì)列分配的總資源,修改 Hadoop 配置文件目錄下的 capacity-scheduler.xml 文件,調(diào)整資源分配比例,默認(rèn)為 0.1,對(duì)學(xué)習(xí)環(huán)境不太友好,建議調(diào)整為 0.8。

cd $HADOOP_HOME/etc/hadoop

vim capacity-scheduler.xml
Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

修改完成后,注意將該文件同步到集群中的其它機(jī)器,然后重啟 Yarn 即可。

解決依賴沖突問(wèn)題

當(dāng)我們?cè)谑褂?Hive On Spark 時(shí),可能會(huì)發(fā)生如下依賴沖突問(wèn)題:

Job failed with java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapreduce.lib.input.FileInputFormat
	at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:262)
	at org.apache.hadoop.hive.shims.Hadoop23Shims$1.listStatus(Hadoop23Shims.java:134)
	at org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat.getSplits(CombineFileInputFormat.java:217)
	at org.apache.hadoop.mapred.lib.CombineFileInputFormat.getSplits(CombineFileInputFormat.java:75)
	at org.apache.hadoop.hive.shims.HadoopShimsSecure$CombineFileInputFormatShim.getSplits(HadoopShimsSecure.java:321)
	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getCombineSplits(CombineHiveInputFormat.java:444)
	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getSplits(CombineHiveInputFormat.java:564)
	at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:200)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
	at scala.Option.getOrElse(Option.scala:121)
	at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
	at org.apache.spark.rdd.RDD.getNumPartitions(RDD.scala:267)
	at org.apache.spark.api.java.JavaRDDLike$class.getNumPartitions(JavaRDDLike.scala:65)
	at org.apache.spark.api.java.AbstractJavaRDDLike.getNumPartitions(JavaRDDLike.scala:45)
	at org.apache.hadoop.hive.ql.exec.spark.SparkPlanGenerator.generateMapInput(SparkPlanGenerator.java:215)
	at org.apache.hadoop.hive.ql.exec.spark.SparkPlanGenerator.generateParentTran(SparkPlanGenerator.java:142)
	at org.apache.hadoop.hive.ql.exec.spark.SparkPlanGenerator.generate(SparkPlanGenerator.java:114)
	at org.apache.hadoop.hive.ql.exec.spark.RemoteHiveSparkClient$JobStatusJob.call(RemoteHiveSparkClient.java:359)
	at org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:378)
	at org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:343)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)

FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the root cause.

這是由于 Hive 中的 guava 包版本比較高,與 Spark 不太兼容,所以我們需要更換為低一點(diǎn)的版本,建議使用 guava-13.0.jar 版本。

Jar 包獲取地址:Maven 倉(cāng)庫(kù)

# 備份 Hive 的高版本
cd $HIVE_HOME/lib
mv guava-19.0.jar guava-19.0.jar.bak

# 將低版本放入 Hive 與 Spark 中
cp guava-13.0.jar $HIVE_HOME/lib
cp guava-13.0.jar $SPARK_HOME/jars

# 還需上傳到 HDFS 中存儲(chǔ) Spark Jars 的目錄下
hadoop fs -put guava-13.0.jar /spark-jars

重新啟動(dòng) Hive 終端就可以生效啦。

重編譯源碼

如果你不想使用 Hive 目前指定的 Spark 版本,想要更換更高或者更低的版本,則需要去修改 Hive 源碼,手動(dòng)指定其版本,然后重新進(jìn)行打包,重新安裝 Hive。

具體操作可以參考這篇博客:從源代碼編譯構(gòu)建Hive3.1.3

如果你不想手動(dòng)重新編譯,可以使用下列已經(jīng)編譯好的 Hive 版本:

  • hive-3.1.3-with-spark-3.3.1.tar.gz

  • spark-3.3.1-bin-without-hadoop.tgz

Hive 版本為 3.1.3,重編譯后支持 Spark 3.3.1 版本,與 Hadoop 3.3.4 系列兼容良好,親測(cè)有效。

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-729084.html

到了這里,關(guān)于Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Spark On Hive配置測(cè)試及分布式SQL ThriftServer配置

    Spark On Hive配置測(cè)試及分布式SQL ThriftServer配置

    Spark本身是一個(gè)執(zhí)行引擎,而沒(méi)有管理metadate的能力,當(dāng)我們?cè)趫?zhí)行SQL的時(shí)候只能將SQL轉(zhuǎn)化為RDD提交。而對(duì)于一些數(shù)據(jù)中的元數(shù)據(jù)Spark并不知道,而Spark能寫SQL主要是通過(guò)DataFrame進(jìn)行注冊(cè)的。 這時(shí)候我們就可以借助Hive中的MetaStore進(jìn)行元數(shù)據(jù)管理。也就是說(shuō)把Hive中的metastore服務(wù)

    2024年01月21日
    瀏覽(26)
  • Hive312的計(jì)算引擎由MapReduce(默認(rèn))改為Spark(親測(cè)有效)

    Hive312的計(jì)算引擎由MapReduce(默認(rèn))改為Spark(親測(cè)有效)

    一、Hive引擎包括:默認(rèn)MR、tez、spark 在低版本的hive中,只有兩種計(jì)算引擎mr, tez 在高版本的hive中,有三種計(jì)算引擎mr, spark, tez 二、Hive on Spark和Spark on Hive的區(qū)別 Hive on Spark:Hive既存儲(chǔ)元數(shù)據(jù)又負(fù)責(zé)SQL的解析,語(yǔ)法是HQL語(yǔ)法,執(zhí)行引擎變成了Spark,Spark負(fù)責(zé)采用RDD執(zhí)行。 Spark o

    2024年02月02日
    瀏覽(20)
  • 一百零六、Hive312的計(jì)算引擎由MapReduce(默認(rèn))改為Spark(親測(cè)有效)

    一百零六、Hive312的計(jì)算引擎由MapReduce(默認(rèn))改為Spark(親測(cè)有效)

    一、Hive引擎包括:默認(rèn)MR、tez、spark 在低版本的hive中,只有兩種計(jì)算引擎mr, tez 在高版本的hive中,有三種計(jì)算引擎mr, spark, tez 二、Hive on Spark和Spark on Hive的區(qū)別 Hive on Spark:Hive既存儲(chǔ)元數(shù)據(jù)又負(fù)責(zé)SQL的解析,語(yǔ)法是HQL語(yǔ)法,執(zhí)行引擎變成了Spark,Spark負(fù)責(zé)采用RDD執(zhí)行。 Spark o

    2024年02月05日
    瀏覽(22)
  • CDH-6.3.2從零到一的詳細(xì)安裝教程&hive on Spark性能測(cè)試教程

    CDH-6.3.2從零到一的詳細(xì)安裝教程&hive on Spark性能測(cè)試教程

    注意:需要使用官網(wǎng)提供的jdk。 1.1 在hadoop101的/opt目錄下創(chuàng)建module 1.2 上傳oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm并安裝 1.3 分發(fā) 注意:分發(fā)腳本在附錄里面的分發(fā)腳本 集群ssh腳本在附錄里面的編寫集群ssh腳本 執(zhí)行sshall腳本結(jié)果如下 注意:一定要用root用戶操作如下步驟;先卸載

    2024年02月16日
    瀏覽(30)
  • hive 3.1.3 on spark 3.0.0 安裝教程 (內(nèi)附重新編譯好的jar包)

    hive 3.1.3 on spark 3.0.0 安裝教程 (內(nèi)附重新編譯好的jar包)

    首先,如果想要在hive 3.1.3上使用spark 3.0.0,不可避免地要重新編譯hive 如果只是配置了hive-site.xml和spark-defaults.conf,那么在插入測(cè)試的時(shí)候會(huì)報(bào)如下錯(cuò)誤: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the

    2024年01月21日
    瀏覽(17)
  • 了解hive on spark和spark on hive

    了解hive on spark和spark on hive

    ? ? ? ? 大數(shù)據(jù)剛出來(lái)的時(shí)候,并不是很完善。發(fā)展的不是很快,尤其是在計(jì)算服務(wù)上,當(dāng)時(shí)使用的是第一代mr計(jì)算引擎,相對(duì)來(lái)說(shuō)計(jì)算并不是那么快。讓大數(shù)據(jù)快速發(fā)展的是2009年伯克利大學(xué)誕生的spark,并在2013年成為Aparch的頂級(jí)開(kāi)源項(xiàng)目。使大數(shù)據(jù)發(fā)展比較迅速、但是隨著

    2024年02月14日
    瀏覽(18)
  • 【大數(shù)據(jù)技術(shù)】Hive on spark 與Spark on hive 的區(qū)別與聯(lián)系

    【大數(shù)據(jù)技術(shù)】Hive on spark 與Spark on hive 的區(qū)別與聯(lián)系 Hive on Spark Hive 既作為存儲(chǔ)元數(shù)據(jù)又負(fù)責(zé)sql的解析優(yōu)化,遵守HQL語(yǔ)法,執(zhí)行引擎變成了spark,底層由spark負(fù)責(zé)RDD操作 Spark on Hive Hive只作為存儲(chǔ)元數(shù)據(jù),Spark負(fù)責(zé)sql的解析優(yōu)化,遵守spark sql 語(yǔ)法,底層由spark負(fù)責(zé)RDD操作

    2024年02月15日
    瀏覽(19)
  • (超詳細(xì))Spark on Yarn安裝配置

    (超詳細(xì))Spark on Yarn安裝配置

    1,前期準(zhǔn)備 使用 root 用戶完成相關(guān)配置,已安裝配置Hadoop 及前置環(huán)境 2,spark上傳解壓到master服務(wù)器 3,修改環(huán)境變量 ?/etc/profile末尾添加下面代碼 4,環(huán)境變量生效 5,運(yùn)行spark-submit --version 顯示如下 6,修改saprk-env.sh文件 ??在.../spark-3.1.1-bin-hadoop3.2/conf目錄下,將下面兩行

    2024年03月21日
    瀏覽(28)
  • Hive3第六章:更換引擎

    Hive3第六章:更換引擎

    Hive3第一章:環(huán)境安裝 Hive3第二章:簡(jiǎn)單交互 Hive3第三章:DML數(shù)據(jù)操作 Hive3第三章:DML數(shù)據(jù)操作(二) Hive3第四章:分區(qū)表和分桶表 Hive3第五章:函數(shù) Hive3第六章:更換引擎 這個(gè)博客主要是作為數(shù)倉(cāng)項(xiàng)目的一次補(bǔ)充,主要是更換hive引擎,傳統(tǒng)的MR引擎在hive2之后就不推薦了,我們

    2024年02月11日
    瀏覽(22)
  • spark on hive

    spark on hive

    注意:需要提前搭建好hive,并對(duì)hive進(jìn)行配置。并將spark配置成為spark on yarn模式。 提前創(chuàng)建好啟動(dòng)日志存放路徑 mkdir $HIVE_HOME/logStart 注意:其實(shí)還是hive的thirftserver服務(wù),同時(shí)還需要啟動(dòng)spark集群 連接thirftserver服務(wù)后,就可以使用hive的元數(shù)據(jù)(hive在hdfs中的數(shù)據(jù)庫(kù)和表),并且

    2024年02月07日
    瀏覽(23)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包