国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<pre id="pmjtm"></pre>

<form id="pmjtm"></form>

<tr id="pmjtm"><th id="pmjtm"><optgroup id="pmjtm"></optgroup></th></tr>

Spark參數(shù)配置和調(diào)優(yōu)，Spark-SQL、Config

2年前作者：Just Jump分類(lèi)：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Spark參數(shù)配置和調(diào)優(yōu)，Spark-SQL、Config。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、Hive-SQL / Spark-SQL參數(shù)配置和調(diào)優(yōu)

#設(shè)置計(jì)算引擎
set hive.execution.engine=spark;

#設(shè)置spark提交模式
set spark.master=yarn-cluster;

#設(shè)置作業(yè)提交隊(duì)列
set spark.yarn.queue=${queue_name};

#設(shè)置隊(duì)列的名字
set mapreduce.job.queuename=root.users.hdfs;

#設(shè)置作業(yè)名稱(chēng)
set spark.app.name=${job_name};

#該參數(shù)用于設(shè)置Spark作業(yè)總共要用多少個(gè)Executor進(jìn)程來(lái)執(zhí)行
set spark.executor.instances=25;

#設(shè)置執(zhí)行器計(jì)算核個(gè)數(shù)
set spark.executor.cores=4;

#設(shè)置執(zhí)行器內(nèi)存
set spark.executor.memory=8g

 #設(shè)置任務(wù)并行度
set mapred.reduce.tasks=600;

#設(shè)置每個(gè)executor的jvm堆外內(nèi)存
set spark.yarn.executor.memoryOverhead=2048;

#設(shè)置內(nèi)存比例(spark2.0+)
set spark.memory.fraction=0.8;

#設(shè)置對(duì)象序列化方式
set spark.serializer=org.apache.serializer.KyroSerializer;

#設(shè)置動(dòng)態(tài)分區(qū)
set hive.exec.dynamic.partition=true;  --開(kāi)啟動(dòng)態(tài)分區(qū)功能
set hive.exec.dynamic.partition.mode=nonstrict;  --允許所有分區(qū)是動(dòng)態(tài)的
set hive.exec.max.dynamic.partitions.pernode=1000;  --每個(gè)mapper/reducer可以創(chuàng)建的最大動(dòng)態(tài)分區(qū)數(shù)
--set hive.exec.dynamic.partitions=10000; 這個(gè)可不要
insert overwrite table test partition(country,state) select * from test2; --添加動(dòng)態(tài)分區(qū)示例

二、shell腳本spark-submit參數(shù)配置

#python版本提交spark任務(wù)

spark-submit \
--master yarn \
--deploy-mode client \
--driver-memory 24G \
--driver-cores 8 \
--num-executors 100 \
--executor-cores 8 \
--executor-memory 24G \
--conf spark.driver.maxResultSize=24G \
--conf spark.kubernetes.executor.limit.cores=12 \
--conf spark.kryoserializer.buffer.max=1024m \
--conf spark.kryoserializer.buffer=512m \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.shuffle.service.enabled=true \
--conf spark.sql.shuffle.partitions=3200 \
--conf spark.default.parallelism=3200 \
--conf spark.storage.memoryfraction=0.3 \
--conf spark.shuffle.memoryFraction=0.3 \
--conf spark.sql.hive.mergeFiles=true \
--conf spark.blacklist.enabled=true \
--conf spark.speculation=true \
--conf spark.sql.sources.readWithSubdirectories.enabled=false \
--conf spark.sql.autoBroadcastJoinThreshold=102400 \
--py-files utils.py \
--name analysis \
analysis.py ${calc_date}

#scala 版本提交 spark任務(wù)

spark-submit --class com.ad.data.algorithms.model.runModel \
--master yarn \
--deploy-mode cluster \
--driver-memory 16G \
--conf spark.driver.maxResultSize=16G \
--driver-cores 8 \
--num-executors 100 \
--executor-cores 8 \
--executor-memory 16G \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.shuffle.service.enabled=true \
--conf spark.sql.shuffle.partitions=3200 \
--conf spark.default.parallelism=3200 \
--conf spark.storage.memoryfraction=0.4 \
--conf spark.shuffle.memoryFraction=0.4 \
--conf spark.sql.hive.mergeFiles=true \
--conf spark.blacklist.enabled=true \
--conf spark.speculation=true \
--conf spark.hadoop.hive.exec.orc.split.strategy=ETL \
--name segment-model \
${basePath}/../algorithms-model.jar ${calculateDate} ${cateCodes}

三、sparkSession中配置參數(shù)

from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, col, expr

if __name__ == '__main__':
    script, calc_date = argv
    spark = SparkSession.builder.appName("analysis")\
        .config("spark.sql.autoBroadcastJoinThreshold", 102400)\
        .config("spark.driver.maxResultSize", "24G")\
        .enableHiveSupport().getOrCreate()

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-545978.html

到了這里，關(guān)于Spark參數(shù)配置和調(diào)優(yōu)，Spark-SQL、Config的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Spark-SQL小結(jié)
目錄一、RDD、DataFrame、DataSet的概念、區(qū)別聯(lián)系、相互轉(zhuǎn)換操作 ? 1.RDD概念 ? 2.DataFrame概念 ? 3.DataSet概念 ? 4.RDD、DataFrame、DataSet的區(qū)別聯(lián)系 ? 5.RDD、DataFrame、DataSet的相互轉(zhuǎn)換操作 ? ?1 RDD-DataFrame、DataSet ? ?2? DataFrame-RDD,DataSet ? ?3 DataSet-RDD,DataFrame 二、Spark-SQL連接JDBC的方式
2024年02月09日
瀏覽(19)
spark-sql字段血緣實(shí)現(xiàn)
Apache Spark是一個(gè)開(kāi)源的大數(shù)據(jù)處理框架，它提供了一種高效、易于使用的方式來(lái)處理大規(guī)模數(shù)據(jù)集。在Spark中，數(shù)據(jù)是通過(guò)DataFrame和Dataset的形式進(jìn)行操作的，這些數(shù)據(jù)結(jié)構(gòu)包含了一系列的字段（也稱(chēng)為列）。字段血緣是Spark中的一個(gè)關(guān)鍵概念，它幫助我們理解數(shù)據(jù)的來(lái)源和流
2024年02月02日
瀏覽(19)
Hudi-集成Spark之spark-sql方式
啟動(dòng)spark-sql 創(chuàng)建表建表參數(shù)：參數(shù)名默認(rèn)值說(shuō)明 primaryKey uuid 表的主鍵名，多個(gè)字段用逗號(hào)分隔。同 hoodie.datasource.write.recordkey.field preCombineField 表的預(yù)合并字段。同 hoodie.datasource.write.precombine.field type cow 創(chuàng)建的表類(lèi)型： type = ‘cow’ type = \\\'mor’同 hoodie.datasource.write.table.ty
2024年02月05日
瀏覽(23)
Hudi（7）：Hudi集成Spark之spark-sql方式
目錄 0. 相關(guān)文章鏈接 1.?創(chuàng)建表 1.1.?啟動(dòng)spark-sql 1.2.?建表參數(shù) 1.3.?創(chuàng)建非分區(qū)表 1.4.?創(chuàng)建分區(qū)表 1.5.?在已有的hudi表上創(chuàng)建新表 1.6.?通過(guò)CTAS (Create Table As Select)建表 2.?插入數(shù)據(jù) 2.1.?向非分區(qū)表插入數(shù)據(jù) 2.2.?向分區(qū)表動(dòng)態(tài)分區(qū)插入數(shù)據(jù) 2.3.?向分區(qū)表靜態(tài)分區(qū)插入數(shù)據(jù) 2.4
2024年02月06日
瀏覽(20)
Spark-SQL連接Hive的五種方法
若使用Spark內(nèi)嵌的Hive，直接使用即可，什么都不需要做（在實(shí)際生產(chǎn)活動(dòng)中，很少會(huì)使用這一模式）步驟：將Hive中conf/下的hive-site.xml拷貝到Spark的conf/目錄下；把Mysql的驅(qū)動(dòng)copy到j(luò)ars/目錄下；如果訪問(wèn)不到hdfs，則將core-site.xml和hdfs-site.xml拷貝到conf/目錄下；重啟spark-shell；
2024年02月16日
瀏覽(21)
spark-sql: insert overwrite分區(qū)表問(wèn)題
用spark-sql，insert overwrite分區(qū)表時(shí)發(fā)現(xiàn)兩個(gè)比較麻煩的問(wèn)題：從目標(biāo)表select出來(lái)再insert overwrite目標(biāo)表時(shí)報(bào)錯(cuò)：Error in query: Cannot overwrite a path that is also being read from. 從其他表select出來(lái)再insert overwrite目標(biāo)表時(shí)，其他分區(qū)都被刪除了. 印象中這兩個(gè)問(wèn)題也出現(xiàn)過(guò)，但憑經(jīng)驗(yàn)和感覺(jué)，
2024年02月11日
瀏覽(21)
Spark-SQL連接JDBC的方式及代碼寫(xiě)法
提示：文章內(nèi)容僅供參考！目錄一、數(shù)據(jù)加載與保存通用方式：加載數(shù)據(jù)：保存數(shù)據(jù)：二、Parquet 加載數(shù)據(jù)：保存數(shù)據(jù)：三、JSON 四、CSV ?五、MySQL SparkSQL 提供了通用的保存數(shù)據(jù)和數(shù)據(jù)加載的方式。這里的通用指的是使用相同的API，根據(jù)不同的參數(shù)讀取和保存不同格式的
2024年02月13日
瀏覽(22)
Hudi Spark-SQL增量查詢數(shù)據(jù)幾種方式
由于項(xiàng)目上主要用Hive查詢Hudi，所以之前總結(jié)過(guò)一篇:Hive增量查詢Hudi表。最近可能會(huì)有Spark SQL增量查詢Hudi表的需求，并且我發(fā)現(xiàn)目前用純Spark SQL的形式還不能直接增量查詢Hudi表，于是進(jìn)行學(xué)習(xí)總結(jié)一下。先看一下官方文檔上Spark SQL增量查詢的方式，地址：https://hudi.apache.or
2024年02月11日
瀏覽(18)
spark-sql處理json字符串的常用函數(shù)
整理了spark-sql處理json字符串的幾個(gè)函數(shù)： 1?get_json_object 解析不含數(shù)組的 json ? 2 from_json? 解析json 3 schema_of_json?提供生成json格式的方法 4 explode? ?把JSONArray轉(zhuǎn)為多行 get_json_object(string json_string, string path) ：適合最外層為{}的json解析。 ?第一個(gè)參數(shù)是json對(duì)象變量，也就是含j
2023年04月08日
瀏覽(16)
spark-sql數(shù)據(jù)重復(fù)之File Output Committer問(wèn)題
? 我們先來(lái)回顧下之前介紹過(guò)的三種Committer：FileOutputCommitter V1、FileOutputCommitter V2、S3A Committer，其基本代表了整體的演進(jìn)趨勢(shì)。核心代碼講解詳細(xì)參照：Spark CommitCoordinator 保證數(shù)據(jù)一致性 OutputCommitter commitTask commitJob mapreduce.fileoutputcommitter.algorithm.version | 技術(shù)世界 | committask
2024年02月14日
瀏覽(16)

<mark id="rhx98"></mark>

<dfn id="rhx98"><xmp id="rhx98"><mark id="rhx98"></mark>