国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<span id="9bg5z"></span>

<rp id="9bg5z"></rp>

<center id="9bg5z"></center>

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決

2年前作者：月亮給我抄代碼分類：Toy博客閱讀(19)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前言： 本篇文章在已經(jīng)安裝 Hadoop 3.3.4 與 Hive 3.1.3 版本的基礎(chǔ)上進(jìn)行，與筆者版本不一致也沒(méi)有關(guān)系，按照步驟來(lái)就行了。

如果你不想使用低版本的 Spark(例如：Spark 2.x 系列)，請(qǐng)直接跳轉(zhuǎn)到本文目錄【重編譯源碼】。

Hadoop 安裝

詳情查看我的這篇博客：Hadoop 完全分布式搭建（超詳細(xì)）

Hive 安裝

詳情查看我的這篇博客：Hive 搭建（將 MySQL 作為元數(shù)據(jù)庫(kù)）

Hive On Spark 與 Spark On Hive 區(qū)別

Hive On Spark

在 Hive 中集成 Spark，Hive 既作為元數(shù)據(jù)存儲(chǔ)，又負(fù)責(zé)解析 HQL 語(yǔ)句，只是將 Hive 的運(yùn)行引擎更換為 Spark，由 Spark 負(fù)責(zé)運(yùn)算工作，而不再是默認(rèn)的 MR 引擎，但部署較為復(fù)雜。

Spark On Hive

Hive 只負(fù)責(zé)元數(shù)據(jù)存儲(chǔ)，由 Spark 來(lái)解析與執(zhí)行 SQL 語(yǔ)句，其中的 SQL 語(yǔ)法為 Spark SQL，且部署簡(jiǎn)單。

Spark on Hive 的優(yōu)點(diǎn)在于它提供了更靈活的編程接口，適用于各種數(shù)據(jù)處理需求，但性能可能不如 Hive on Spark，特別是在處理復(fù)雜查詢時(shí)。

部署 Hive On Spark

查詢 Hive 對(duì)應(yīng)的 Spark 版本號(hào)

每個(gè) Hive 版本適配的 Spark 都不相同，使用的 Spark 版本必須與 Hive 源碼中指定的版本一致，或者重新編譯源碼，更換成需要的版本。

我這里使用的 Hive 版本為 3.1.3，現(xiàn)在通過(guò)官方網(wǎng)站 —— Index of /hive 獲取對(duì)應(yīng)版本的 Hive 源碼。

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

下載完成后，解壓縮，在主目錄下找到 pom.xml 文件：

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

直接通過(guò)瀏覽器打開(kāi)該文件，搜索 spark.version 即可查詢到對(duì)應(yīng)的 Spark 版本。

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

可以看到 Hive 3.1.3 對(duì)應(yīng)的 Spark 版本為 2.3.0，如果你不想使用該版本，那么使用 IDEA 打開(kāi)該項(xiàng)目，在該 pom.xml 文件中修改你需要的 Spark 版本，然后使用 maven 重新打包，重新安裝 Hive 即可。

我這里就不在重新編譯了，該 Spark 版本已經(jīng)可以滿足我的使用需求。

下載 Spark

在 Spark 官方網(wǎng)站直接下載 —— Index of /dist/spark

找到對(duì)應(yīng)版本進(jìn)行下載，這里需要注意選擇純凈版的包下載，如下所示：

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

選擇 without-hadoop 沒(méi)有集成 Hadoop 的 Spark 版本進(jìn)行下載，這樣 Spark 就會(huì)使用集群系統(tǒng)中安裝的 Hadoop。

將下載好的包上傳到集群中，下面開(kāi)始安裝部署 Spark。

注意，請(qǐng)將下列提到的路徑替換為你自己實(shí)際的存儲(chǔ)路徑?。?！不一定需要和我一樣。

解壓 Spark

tar -xvf spark-2.3.0-bin-without-hadoop.tgz -C /opt/module/

順手改個(gè)名字

cd /opt/module
mv spark-2.3.0-bin-without-hadoop/ spark-2.3.0

配置環(huán)境變量

vim /etc/profile

文件末尾添加：

#SPAKR_HOME
export SPARK_HOME=/opt/module/spark-2.3.0
export PATH=$PATH:$SPARK_HOME/bin

刷新環(huán)境變量：source /etc/profile

指定 Hadoop 路徑

因?yàn)槲覀兊陌姹具x擇的純凈版，所以需要在 Spark 環(huán)境文件中指定已經(jīng)安裝的 Hadoop 路徑。

cd $SPARK_HOME/conf

mv spark-env.sh.template spark-env.sh

vim spark-env.sh

在該文件末尾添加，指定 Hadoop 路徑：

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

添加完成之后，保存并退出。

其中 $(hadoop classpath) 的作用是獲取 Hadoop 類路徑的值 （需要提前配置 Hadoop 的環(huán)境變量，否則獲取不到） ，我們可以直接打印看看它存儲(chǔ)的內(nèi)容：

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

在 Hive 配置 Spark 參數(shù)

進(jìn)入 Hive 的 conf 目錄中，創(chuàng)建 Spark 配置文件，指定相關(guān)參數(shù)。

cd $HIVE_HOME/conf

vim spark-default.conf

添加如下配置內(nèi)容：

# 指定提交到 yarn 運(yùn)行
spark.master                             yarn
# 開(kāi)啟日志并存儲(chǔ)到 HDFS 上
spark.eventLog.enabled                   true
spark.eventLog.dir                       hdfs://hadoop120:8020/spark-logDir
# 指定每個(gè)執(zhí)行器的內(nèi)存
spark.executor.memory                    1g
# 指定每個(gè)調(diào)度器的內(nèi)存
spark.driver.memory					     1g

配置文件創(chuàng)建完成后，在 HDFS 上創(chuàng)建 Spark 的日志存儲(chǔ)目錄。

hadoop fs -mkdir /spark-logDir

上傳 Jar 包并更換引擎

因?yàn)橹辉谝慌_(tái)機(jī)器上安裝了 Hive 和 Spark，所以當(dāng)我們將任務(wù)提交到 Yarn 上進(jìn)行調(diào)度時(shí)，可能會(huì)將該任務(wù)分配到其它節(jié)點(diǎn)，這就會(huì)導(dǎo)致任務(wù)無(wú)法正常運(yùn)行，所以我們需要將 Spark 中的所有 Jar 包到 HDFS 上，并告知 Hive 其存儲(chǔ)的位置。

上傳文件

hadoop fs -mkdir /spark-jars

cd $SPARK_HOME

hadoop fs -put ./jars/* /spark-jars

在 Hive 的配置文件中指定 Spark jar 包的存放位置：

cd $HIVE_HOME/conf

vim hive-site.xml

在其中添加下列三項(xiàng)配置：

<!--Spark依賴位置-->
<property>
    <name>spark.yarn.jars</name>
    <value>hdfs://hadoop120:8020/spark-jars/*</value>
</property>
  
<!--Hive執(zhí)行引擎-->
<property>
    <name>hive.execution.engine</name>
    <value>spark</value>
</property>

<!--提交任務(wù)超時(shí)時(shí)間，單位ms-->
<property>
    <name>hive.spark.client.connect.timeout</name>
    <value>5000</value>
</property>

配置項(xiàng)添加完成后，我們就配置好了 Hive On Spark，下面對(duì)其進(jìn)行測(cè)試。

測(cè)試 Hive On Spark

進(jìn)入 Hive 中創(chuàng)建測(cè)試表：

drop table if exists books;
create table books(id int,book_name string);

寫入測(cè)試數(shù)據(jù)：

insert into books values (1,'bigdata');
insert into books values (2,'hive');
insert into books values (3,'spark');

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

注意，每次打開(kāi)終端的首次 MR 操作會(huì)消耗比較多的時(shí)間，要去與 Yarn 建立連接、分配資源等，大概 30s 至 1m 左右。

程序運(yùn)行時(shí)，可以訪問(wèn)其給出的 WEB URL 地址（http://hadoop120:45582 不固定），訪問(wèn)后如下所示：

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

可以看到運(yùn)行速度還是嘎嘎快的（真是受夠了 MR?。?/p>

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

查詢結(jié)果：

select * from books;

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

數(shù)據(jù)插入完成，測(cè)試成功。

Yarn 資源分配設(shè)置

當(dāng)我們?cè)?Hive On Spark 模式下同時(shí)啟用多個(gè) Hive 客戶端進(jìn)行操作時(shí)，會(huì)發(fā)現(xiàn)，后啟動(dòng)的多個(gè) Hive 執(zhí)行任務(wù)時(shí)（可能）會(huì)卡住，如下所示：

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

進(jìn)入歷史服務(wù)器，查看該任務(wù)的執(zhí)行詳情，會(huì)發(fā)現(xiàn)如下提示：

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

提示任務(wù)已經(jīng)添加但是未激活，原因是 AM 資源溢出。

Yarn 默認(rèn)使用的是容量調(diào)度器 Capacity Scheduler（隊(duì)列），該隊(duì)列的總?cè)萘磕J(rèn)為 Yarn 總資源的 %10（1024的倍數(shù)），當(dāng)前我的 Yarn 集群環(huán)境分配的總資源為 18G，所以這里隊(duì)列的最大容量為 2048MB，也就是 2G。

我啟動(dòng)第一個(gè) Hive 客戶端運(yùn)行程序后，Yarn 成功的為其分配了 AM 資源，當(dāng)我又啟動(dòng)了其它的 Hive 客戶端運(yùn)行程序時(shí)，就會(huì)導(dǎo)致 AM 資源分配失敗，因?yàn)閮蓚€(gè) AM 的總資源相加已經(jīng)達(dá) 3G 左右，所以會(huì)導(dǎo)致任務(wù)卡頓或失敗。

解決方法：提高 Yarn 為隊(duì)列分配的總資源，修改 Hadoop 配置文件目錄下的 capacity-scheduler.xml 文件，調(diào)整資源分配比例，默認(rèn)為 0.1，對(duì)學(xué)習(xí)環(huán)境不太友好，建議調(diào)整為 0.8。

cd $HADOOP_HOME/etc/hadoop

vim capacity-scheduler.xml

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù)

修改完成后，注意將該文件同步到集群中的其它機(jī)器，然后重啟 Yarn 即可。

解決依賴沖突問(wèn)題

當(dāng)我們?cè)谑褂?Hive On Spark 時(shí)，可能會(huì)發(fā)生如下依賴沖突問(wèn)題：

Job failed with java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapreduce.lib.input.FileInputFormat
	at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:262)
	at org.apache.hadoop.hive.shims.Hadoop23Shims$1.listStatus(Hadoop23Shims.java:134)
	at org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat.getSplits(CombineFileInputFormat.java:217)
	at org.apache.hadoop.mapred.lib.CombineFileInputFormat.getSplits(CombineFileInputFormat.java:75)
	at org.apache.hadoop.hive.shims.HadoopShimsSecure$CombineFileInputFormatShim.getSplits(HadoopShimsSecure.java:321)
	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getCombineSplits(CombineHiveInputFormat.java:444)
	at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getSplits(CombineHiveInputFormat.java:564)
	at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:200)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
	at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
	at scala.Option.getOrElse(Option.scala:121)
	at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
	at org.apache.spark.rdd.RDD.getNumPartitions(RDD.scala:267)
	at org.apache.spark.api.java.JavaRDDLike$class.getNumPartitions(JavaRDDLike.scala:65)
	at org.apache.spark.api.java.AbstractJavaRDDLike.getNumPartitions(JavaRDDLike.scala:45)
	at org.apache.hadoop.hive.ql.exec.spark.SparkPlanGenerator.generateMapInput(SparkPlanGenerator.java:215)
	at org.apache.hadoop.hive.ql.exec.spark.SparkPlanGenerator.generateParentTran(SparkPlanGenerator.java:142)
	at org.apache.hadoop.hive.ql.exec.spark.SparkPlanGenerator.generate(SparkPlanGenerator.java:114)
	at org.apache.hadoop.hive.ql.exec.spark.RemoteHiveSparkClient$JobStatusJob.call(RemoteHiveSparkClient.java:359)
	at org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:378)
	at org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:343)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)

FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the root cause.

這是由于 Hive 中的 guava 包版本比較高，與 Spark 不太兼容，所以我們需要更換為低一點(diǎn)的版本，建議使用 guava-13.0.jar 版本。

Jar 包獲取地址：Maven 倉(cāng)庫(kù)

# 備份 Hive 的高版本
cd $HIVE_HOME/lib
mv guava-19.0.jar guava-19.0.jar.bak

# 將低版本放入 Hive 與 Spark 中
cp guava-13.0.jar $HIVE_HOME/lib
cp guava-13.0.jar $SPARK_HOME/jars

# 還需上傳到 HDFS 中存儲(chǔ) Spark Jars 的目錄下
hadoop fs -put guava-13.0.jar /spark-jars

重新啟動(dòng) Hive 終端就可以生效啦。

重編譯源碼

如果你不想使用 Hive 目前指定的 Spark 版本，想要更換更高或者更低的版本，則需要去修改 Hive 源碼，手動(dòng)指定其版本，然后重新進(jìn)行打包，重新安裝 Hive。

具體操作可以參考這篇博客：從源代碼編譯構(gòu)建Hive3.1.3

如果你不想手動(dòng)重新編譯，可以使用下列已經(jīng)編譯好的 Hive 版本：

hive-3.1.3-with-spark-3.3.1.tar.gz
spark-3.3.1-bin-without-hadoop.tgz

Hive 版本為 3.1.3，重編譯后支持 Spark 3.3.1 版本，與 Hadoop 3.3.4 系列兼容良好，親測(cè)有效。

Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決,hive,spark,hadoop,數(shù)據(jù)倉(cāng)庫(kù),大數(shù)據(jù) 文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-729084.html

到了這里，關(guān)于Hive On Spark 概述、安裝配置、計(jì)算引擎更換、應(yīng)用、異常解決的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Spark On Hive配置測(cè)試及分布式SQL ThriftServer配置
Spark本身是一個(gè)執(zhí)行引擎，而沒(méi)有管理metadate的能力，當(dāng)我們?cè)趫?zhí)行SQL的時(shí)候只能將SQL轉(zhuǎn)化為RDD提交。而對(duì)于一些數(shù)據(jù)中的元數(shù)據(jù)Spark并不知道，而Spark能寫SQL主要是通過(guò)DataFrame進(jìn)行注冊(cè)的。這時(shí)候我們就可以借助Hive中的MetaStore進(jìn)行元數(shù)據(jù)管理。也就是說(shuō)把Hive中的metastore服務(wù)
2024年01月21日
瀏覽(26)
Hive312的計(jì)算引擎由MapReduce(默認(rèn))改為Spark（親測(cè)有效）
一、Hive引擎包括：默認(rèn)MR、tez、spark 在低版本的hive中，只有兩種計(jì)算引擎mr, tez 在高版本的hive中，有三種計(jì)算引擎mr, spark, tez 二、Hive on Spark和Spark on Hive的區(qū)別 Hive on Spark：Hive既存儲(chǔ)元數(shù)據(jù)又負(fù)責(zé)SQL的解析，語(yǔ)法是HQL語(yǔ)法，執(zhí)行引擎變成了Spark，Spark負(fù)責(zé)采用RDD執(zhí)行。 Spark o
2024年02月02日
瀏覽(20)
一百零六、Hive312的計(jì)算引擎由MapReduce(默認(rèn))改為Spark（親測(cè)有效）
一、Hive引擎包括：默認(rèn)MR、tez、spark 在低版本的hive中，只有兩種計(jì)算引擎mr, tez 在高版本的hive中，有三種計(jì)算引擎mr, spark, tez 二、Hive on Spark和Spark on Hive的區(qū)別 Hive on Spark：Hive既存儲(chǔ)元數(shù)據(jù)又負(fù)責(zé)SQL的解析，語(yǔ)法是HQL語(yǔ)法，執(zhí)行引擎變成了Spark，Spark負(fù)責(zé)采用RDD執(zhí)行。 Spark o
2024年02月05日
瀏覽(22)
CDH-6.3.2從零到一的詳細(xì)安裝教程&hive on Spark性能測(cè)試教程
注意：需要使用官網(wǎng)提供的jdk。 1.1 在hadoop101的/opt目錄下創(chuàng)建module 1.2 上傳oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm并安裝 1.3 分發(fā) 注意：分發(fā)腳本在附錄里面的分發(fā)腳本集群ssh腳本在附錄里面的編寫集群ssh腳本執(zhí)行sshall腳本結(jié)果如下注意：一定要用root用戶操作如下步驟；先卸載
2024年02月16日
瀏覽(30)
hive 3.1.3 on spark 3.0.0 安裝教程 (內(nèi)附重新編譯好的jar包)
首先，如果想要在hive 3.1.3上使用spark 3.0.0，不可避免地要重新編譯hive 如果只是配置了hive-site.xml和spark-defaults.conf，那么在插入測(cè)試的時(shí)候會(huì)報(bào)如下錯(cuò)誤： FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the
2024年01月21日
瀏覽(17)
了解hive on spark和spark on hive
? ? ? ? 大數(shù)據(jù)剛出來(lái)的時(shí)候，并不是很完善。發(fā)展的不是很快，尤其是在計(jì)算服務(wù)上，當(dāng)時(shí)使用的是第一代mr計(jì)算引擎，相對(duì)來(lái)說(shuō)計(jì)算并不是那么快。讓大數(shù)據(jù)快速發(fā)展的是2009年伯克利大學(xué)誕生的spark，并在2013年成為Aparch的頂級(jí)開(kāi)源項(xiàng)目。使大數(shù)據(jù)發(fā)展比較迅速、但是隨著
2024年02月14日
瀏覽(18)
【大數(shù)據(jù)技術(shù)】Hive on spark 與Spark on hive 的區(qū)別與聯(lián)系
【大數(shù)據(jù)技術(shù)】Hive on spark 與Spark on hive 的區(qū)別與聯(lián)系 Hive on Spark Hive 既作為存儲(chǔ)元數(shù)據(jù)又負(fù)責(zé)sql的解析優(yōu)化，遵守HQL語(yǔ)法，執(zhí)行引擎變成了spark，底層由spark負(fù)責(zé)RDD操作 Spark on Hive Hive只作為存儲(chǔ)元數(shù)據(jù)，Spark負(fù)責(zé)sql的解析優(yōu)化，遵守spark sql 語(yǔ)法，底層由spark負(fù)責(zé)RDD操作
2024年02月15日
瀏覽(19)
（超詳細(xì)）Spark on Yarn安裝配置
1，前期準(zhǔn)備使用 root 用戶完成相關(guān)配置，已安裝配置Hadoop 及前置環(huán)境 2，spark上傳解壓到master服務(wù)器 3，修改環(huán)境變量 ?/etc/profile末尾添加下面代碼 4，環(huán)境變量生效 5，運(yùn)行spark-submit --version 顯示如下 6，修改saprk-env.sh文件 ??在.../spark-3.1.1-bin-hadoop3.2/conf目錄下，將下面兩行
2024年03月21日
瀏覽(28)
Hive3第六章：更換引擎
Hive3第一章：環(huán)境安裝 Hive3第二章：簡(jiǎn)單交互 Hive3第三章：DML數(shù)據(jù)操作 Hive3第三章：DML數(shù)據(jù)操作(二) Hive3第四章：分區(qū)表和分桶表 Hive3第五章：函數(shù) Hive3第六章：更換引擎這個(gè)博客主要是作為數(shù)倉(cāng)項(xiàng)目的一次補(bǔ)充，主要是更換hive引擎，傳統(tǒng)的MR引擎在hive2之后就不推薦了，我們
2024年02月11日
瀏覽(22)
spark on hive
注意：需要提前搭建好hive，并對(duì)hive進(jìn)行配置。并將spark配置成為spark on yarn模式。提前創(chuàng)建好啟動(dòng)日志存放路徑 mkdir $HIVE_HOME/logStart 注意：其實(shí)還是hive的thirftserver服務(wù)，同時(shí)還需要啟動(dòng)spark集群連接thirftserver服務(wù)后，就可以使用hive的元數(shù)據(jù)（hive在hdfs中的數(shù)據(jù)庫(kù)和表），并且
2024年02月07日
瀏覽(23)

<span id="ksqua"></span>

<span id="ksqua"><meter id="ksqua"><span id="ksqua"></span></meter></span>

<progress id="ksqua"><u id="ksqua"><rp id="ksqua"></rp></u></progress>