国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Spark參數(shù)配置和調(diào)優(yōu),Spark-SQL、Config

這篇具有很好參考價(jià)值的文章主要介紹了Spark參數(shù)配置和調(diào)優(yōu),Spark-SQL、Config。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、Hive-SQL / Spark-SQL參數(shù)配置和調(diào)優(yōu)

#設(shè)置計(jì)算引擎
set hive.execution.engine=spark;

#設(shè)置spark提交模式
set spark.master=yarn-cluster;

#設(shè)置作業(yè)提交隊(duì)列
set spark.yarn.queue=${queue_name};

#設(shè)置隊(duì)列的名字
set mapreduce.job.queuename=root.users.hdfs;

#設(shè)置作業(yè)名稱(chēng)
set spark.app.name=${job_name};

#該參數(shù)用于設(shè)置Spark作業(yè)總共要用多少個(gè)Executor進(jìn)程來(lái)執(zhí)行
set spark.executor.instances=25;

#設(shè)置執(zhí)行器計(jì)算核個(gè)數(shù)
set spark.executor.cores=4;

#設(shè)置執(zhí)行器內(nèi)存
set spark.executor.memory=8g

 #設(shè)置任務(wù)并行度
set mapred.reduce.tasks=600;

#設(shè)置每個(gè)executor的jvm堆外內(nèi)存
set spark.yarn.executor.memoryOverhead=2048;

#設(shè)置內(nèi)存比例(spark2.0+)
set spark.memory.fraction=0.8;

#設(shè)置對(duì)象序列化方式
set spark.serializer=org.apache.serializer.KyroSerializer;

#設(shè)置動(dòng)態(tài)分區(qū)
set hive.exec.dynamic.partition=true;  --開(kāi)啟動(dòng)態(tài)分區(qū)功能
set hive.exec.dynamic.partition.mode=nonstrict;  --允許所有分區(qū)是動(dòng)態(tài)的
set hive.exec.max.dynamic.partitions.pernode=1000;  --每個(gè)mapper/reducer可以創(chuàng)建的最大動(dòng)態(tài)分區(qū)數(shù)
--set hive.exec.dynamic.partitions=10000; 這個(gè)可不要
insert overwrite table test partition(country,state) select * from test2; --添加動(dòng)態(tài)分區(qū)示例

二、shell腳本spark-submit參數(shù)配置

#python版本提交spark任務(wù)

spark-submit \
--master yarn \
--deploy-mode client \
--driver-memory 24G \
--driver-cores 8 \
--num-executors 100 \
--executor-cores 8 \
--executor-memory 24G \
--conf spark.driver.maxResultSize=24G \
--conf spark.kubernetes.executor.limit.cores=12 \
--conf spark.kryoserializer.buffer.max=1024m \
--conf spark.kryoserializer.buffer=512m \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.shuffle.service.enabled=true \
--conf spark.sql.shuffle.partitions=3200 \
--conf spark.default.parallelism=3200 \
--conf spark.storage.memoryfraction=0.3 \
--conf spark.shuffle.memoryFraction=0.3 \
--conf spark.sql.hive.mergeFiles=true \
--conf spark.blacklist.enabled=true \
--conf spark.speculation=true \
--conf spark.sql.sources.readWithSubdirectories.enabled=false \
--conf spark.sql.autoBroadcastJoinThreshold=102400 \
--py-files utils.py \
--name analysis \
analysis.py ${calc_date}
#scala 版本提交 spark任務(wù)

spark-submit --class com.ad.data.algorithms.model.runModel \
--master yarn \
--deploy-mode cluster \
--driver-memory 16G \
--conf spark.driver.maxResultSize=16G \
--driver-cores 8 \
--num-executors 100 \
--executor-cores 8 \
--executor-memory 16G \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.shuffle.service.enabled=true \
--conf spark.sql.shuffle.partitions=3200 \
--conf spark.default.parallelism=3200 \
--conf spark.storage.memoryfraction=0.4 \
--conf spark.shuffle.memoryFraction=0.4 \
--conf spark.sql.hive.mergeFiles=true \
--conf spark.blacklist.enabled=true \
--conf spark.speculation=true \
--conf spark.hadoop.hive.exec.orc.split.strategy=ETL \
--name segment-model \
${basePath}/../algorithms-model.jar ${calculateDate} ${cateCodes}

三、sparkSession中配置參數(shù)

from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, col, expr

if __name__ == '__main__':
    script, calc_date = argv
    spark = SparkSession.builder.appName("analysis")\
        .config("spark.sql.autoBroadcastJoinThreshold", 102400)\
        .config("spark.driver.maxResultSize", "24G")\
        .enableHiveSupport().getOrCreate()

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-545978.html

到了這里,關(guān)于Spark參數(shù)配置和調(diào)優(yōu),Spark-SQL、Config的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Spark-SQL小結(jié)

    Spark-SQL小結(jié)

    目錄 一、RDD、DataFrame、DataSet的概念、區(qū)別聯(lián)系、相互轉(zhuǎn)換操作 ? 1.RDD概念 ? 2.DataFrame概念 ? 3.DataSet概念 ? 4.RDD、DataFrame、DataSet的區(qū)別聯(lián)系 ? 5.RDD、DataFrame、DataSet的相互轉(zhuǎn)換操作 ? ?1 RDD-DataFrame、DataSet ? ?2? DataFrame-RDD,DataSet ? ?3 DataSet-RDD,DataFrame 二、Spark-SQL連接JDBC的方式

    2024年02月09日
    瀏覽(19)
  • spark-sql字段血緣實(shí)現(xiàn)

    spark-sql字段血緣實(shí)現(xiàn)

    Apache Spark是一個(gè)開(kāi)源的大數(shù)據(jù)處理框架,它提供了一種高效、易于使用的方式來(lái)處理大規(guī)模數(shù)據(jù)集。在Spark中,數(shù)據(jù)是通過(guò)DataFrame和Dataset的形式進(jìn)行操作的,這些數(shù)據(jù)結(jié)構(gòu)包含了一系列的字段(也稱(chēng)為列)。字段血緣是Spark中的一個(gè)關(guān)鍵概念,它幫助我們理解數(shù)據(jù)的來(lái)源和流

    2024年02月02日
    瀏覽(19)
  • Hudi-集成Spark之spark-sql方式

    啟動(dòng)spark-sql 創(chuàng)建表 建表參數(shù): 參數(shù)名 默認(rèn)值 說(shuō)明 primaryKey uuid 表的主鍵名,多個(gè)字段用逗號(hào)分隔。同 hoodie.datasource.write.recordkey.field preCombineField 表的預(yù)合并字段。同 hoodie.datasource.write.precombine.field type cow 創(chuàng)建的表類(lèi)型: type = ‘cow’ type = \\\'mor’同 hoodie.datasource.write.table.ty

    2024年02月05日
    瀏覽(23)
  • Hudi(7):Hudi集成Spark之spark-sql方式

    目錄 0. 相關(guān)文章鏈接 1.?創(chuàng)建表 1.1.?啟動(dòng)spark-sql 1.2.?建表參數(shù) 1.3.?創(chuàng)建非分區(qū)表 1.4.?創(chuàng)建分區(qū)表 1.5.?在已有的hudi表上創(chuàng)建新表 1.6.?通過(guò)CTAS (Create Table As Select)建表 2.?插入數(shù)據(jù) 2.1.?向非分區(qū)表插入數(shù)據(jù) 2.2.?向分區(qū)表動(dòng)態(tài)分區(qū)插入數(shù)據(jù) 2.3.?向分區(qū)表靜態(tài)分區(qū)插入數(shù)據(jù) 2.4

    2024年02月06日
    瀏覽(20)
  • Spark-SQL連接Hive的五種方法

    Spark-SQL連接Hive的五種方法

    若使用Spark內(nèi)嵌的Hive,直接使用即可,什么都不需要做(在實(shí)際生產(chǎn)活動(dòng)中,很少會(huì)使用這一模式) 步驟: 將Hive中conf/下的hive-site.xml拷貝到Spark的conf/目錄下; 把Mysql的驅(qū)動(dòng)copy到j(luò)ars/目錄下; 如果訪問(wèn)不到hdfs,則將core-site.xml和hdfs-site.xml拷貝到conf/目錄下; 重啟spark-shell;

    2024年02月16日
    瀏覽(21)
  • spark-sql: insert overwrite分區(qū)表問(wèn)題

    spark-sql: insert overwrite分區(qū)表問(wèn)題

    用spark-sql,insert overwrite分區(qū)表時(shí)發(fā)現(xiàn)兩個(gè)比較麻煩的問(wèn)題: 從目標(biāo)表select出來(lái)再insert overwrite目標(biāo)表時(shí)報(bào)錯(cuò):Error in query: Cannot overwrite a path that is also being read from. 從其他表select出來(lái)再insert overwrite目標(biāo)表時(shí),其他分區(qū)都被刪除了. 印象中這兩個(gè)問(wèn)題也出現(xiàn)過(guò),但憑經(jīng)驗(yàn)和感覺(jué),

    2024年02月11日
    瀏覽(21)
  • Spark-SQL連接JDBC的方式及代碼寫(xiě)法

    Spark-SQL連接JDBC的方式及代碼寫(xiě)法

    提示:文章內(nèi)容僅供參考! 目錄 一、數(shù)據(jù)加載與保存 通用方式: 加載數(shù)據(jù): 保存數(shù)據(jù): 二、Parquet 加載數(shù)據(jù): 保存數(shù)據(jù): 三、JSON 四、CSV ?五、MySQL SparkSQL 提供了通用的保存數(shù)據(jù)和數(shù)據(jù)加載的方式。這里的通用指的是使用相同的API,根據(jù)不同的參數(shù)讀取和保存不同格式的

    2024年02月13日
    瀏覽(22)
  • Hudi Spark-SQL增量查詢數(shù)據(jù)幾種方式

    由于項(xiàng)目上主要用Hive查詢Hudi,所以之前總結(jié)過(guò)一篇:Hive增量查詢Hudi表。最近可能會(huì)有Spark SQL增量查詢Hudi表的需求,并且我發(fā)現(xiàn)目前用純Spark SQL的形式還不能直接增量查詢Hudi表,于是進(jìn)行學(xué)習(xí)總結(jié)一下。 先看一下官方文檔上Spark SQL增量查詢的方式,地址:https://hudi.apache.or

    2024年02月11日
    瀏覽(18)
  • spark-sql處理json字符串的常用函數(shù)

    整理了spark-sql處理json字符串的幾個(gè)函數(shù): 1?get_json_object 解析不含數(shù)組的 json ? 2 from_json? 解析json 3 schema_of_json?提供生成json格式的方法 4 explode? ?把JSONArray轉(zhuǎn)為多行 get_json_object(string json_string, string path) :適合最外層為{}的json解析。 ?第一個(gè)參數(shù)是json對(duì)象變量,也就是含j

    2023年04月08日
    瀏覽(16)
  • spark-sql數(shù)據(jù)重復(fù)之File Output Committer問(wèn)題

    spark-sql數(shù)據(jù)重復(fù)之File Output Committer問(wèn)題

    ? 我們先來(lái)回顧下之前介紹過(guò)的三種Committer:FileOutputCommitter V1、FileOutputCommitter V2、S3A Committer,其基本代表了整體的演進(jìn)趨勢(shì)。 核心代碼講解詳細(xì)參照:Spark CommitCoordinator 保證數(shù)據(jù)一致性 OutputCommitter commitTask commitJob mapreduce.fileoutputcommitter.algorithm.version | 技術(shù)世界 | committask

    2024年02月14日
    瀏覽(16)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包