国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

spark分布式解壓工具

這篇具有很好參考價(jià)值的文章主要介紹了spark分布式解壓工具。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

spark分布式解壓工具

一、目標(biāo)

? spark解壓縮工具,目前支持tar、gz、zip、bz2、7z壓縮格式,默認(rèn)解壓到當(dāng)前路下,也支持自定義的解壓輸出路徑。另外支持多種提交模式,進(jìn)行解壓任務(wù),可通過(guò)自定義配置文件,作為spark任務(wù)的資源設(shè)定

二、詳細(xì)設(shè)計(jì)

2.1 使用hadoop的FileSystem類,對(duì)tos文件的進(jìn)行讀取、查找、寫入等操作
2.2 獲取到tos文件或目錄,對(duì)壓縮文件進(jìn)行解壓,解壓成字節(jié)數(shù)組,以流的方式寫入tos文件系統(tǒng)
2.3 使用maven工具打包,單獨(dú)生成一個(gè)spark配置文件(提交spark作業(yè)時(shí)進(jìn)行資源的分配),每次啟動(dòng)spark job時(shí),會(huì)加載這個(gè)自定義配置文件
2.4 封裝到shell腳本,通過(guò)sparktar命令執(zhí)行解壓

三、操作說(shuō)明

1.提交模式

支持3種spark的提交模式,建議7z解壓用yarn-client|cluster模式提交,主要會(huì)涉及到寫磁盤的流程,避免把單節(jié)點(diǎn)磁盤打滿的風(fēng)險(xiǎn)

tar zip bz2 7z
本地local模式 支持 支持 支持 支持
yarn-client 支持 支持 支持 支持
yarn-cluster 支持 支持 支持 支持

2.壓縮輸出路徑支持2種方式

a)默認(rèn)直接解壓到當(dāng)前路徑,不會(huì)覆蓋原始?jí)嚎s文件;
b)還可以指定解壓輸出路徑

3.操作命令及說(shuō)明

3.1操作命令

目前已在172.24.12.118機(jī)器配置好了,可通過(guò) sparktar 命令來(lái)執(zhí)行解壓操作
sparktar -cluster tos://report/tmp/tar/ tos://report/tmptar/ tmp.produce.properties

3.2命令說(shuō)明

sparktar 提交方式 解壓路徑 [解壓輸出路徑] 配置文件
提交方式, 必選參數(shù),提交可選3種方式: -client, -local, -cluster
解壓路徑: 必選參數(shù),支持輸入路徑和文件絕對(duì)路徑, 比如tos://report/tmp/或tos://report/tmp/xx.gz
輸出路徑: 非必選參數(shù),默認(rèn)解壓到當(dāng)前路徑下
配置文件: 必選參數(shù),約定在/bin/spark-tar/config下創(chuàng)建, 文件格式xxx.produce.properties(后綴名統(tǒng)一寫成produce.properties, xxx前綴自定義寫,最好是見(jiàn)名知意,后面xxx作為spark作業(yè)名稱)

四、操作案例

4.1案例1

yarn-cluster模式,將tos://report/tmp/下的壓縮包,解壓到當(dāng)前路徑
第一步:在/bin/spark-tar/config路徑下編寫配置文件
vim /bin/spark-tar/config/tmp.produce.properties

# spark.driver內(nèi)存
spark.driver.memory=1g

# spark.driver的核數(shù)
spark.driver.cores=2

# spark.executor的核數(shù),官網(wǎng)推薦4~5個(gè)
spark.executor.cores=4

# spark.executor內(nèi)存,大概1個(gè)yarn節(jié)點(diǎn)總內(nèi)存/1個(gè)yarn節(jié)點(diǎn)的excuter數(shù),具體還需要結(jié)合job的數(shù)據(jù)集以及劃分并行度情況設(shè)定
spark.executor.memory=4g

# executor的個(gè)數(shù)
spark.executor.instances=4

# yarn.executor堆外內(nèi)存
spark.yarn.executor.memoryOverhead=1g

spark代碼已提交到git倉(cāng)庫(kù),訪問(wèn)地址:https://gitee.com/dyhsmile/spark-tar-tools/文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-788230.html

到了這里,關(guān)于spark分布式解壓工具的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Spark分布式內(nèi)存計(jì)算框架

    Spark分布式內(nèi)存計(jì)算框架

    目錄 一、Spark簡(jiǎn)介 (一)定義 (二)Spark和MapReduce區(qū)別 (三)Spark歷史 (四)Spark特點(diǎn) 二、Spark生態(tài)系統(tǒng) 三、Spark運(yùn)行架構(gòu) (一)基本概念 (二)架構(gòu)設(shè)計(jì) (三)Spark運(yùn)行基本流程 四、Spark編程模型 (一)核心數(shù)據(jù)結(jié)構(gòu)RDD (二)RDD上的操作 (三)RDD的特性 (四)RDD 的持

    2024年02月04日
    瀏覽(106)
  • Spark彈性分布式數(shù)據(jù)集

    Spark彈性分布式數(shù)據(jù)集

    1. Spark RDD是什么 RDD(Resilient Distributed Dataset,彈性分布式數(shù)據(jù)集)是一個(gè)不可變的分布式對(duì)象集合,是Spark中最基本的數(shù)據(jù)抽象。在代碼中RDD是一個(gè)抽象類,代表一個(gè)彈性的、不可變、可分區(qū)、里面的元素可并行計(jì)算的集合。 每個(gè)RDD都被分為多個(gè)分區(qū),這些分區(qū)運(yùn)行在集群中

    2024年02月13日
    瀏覽(95)
  • 分布式計(jì)算MapReduce | Spark實(shí)驗(yàn)

    分布式計(jì)算MapReduce | Spark實(shí)驗(yàn)

    題目1 輸入文件為學(xué)生成績(jī)信息,包含了必修課與選修課成績(jī),格式如下: 班級(jí)1, 姓名1, 科目1, 必修, 成績(jī)1 br (注: br 為換行符) 班級(jí)2, 姓名2, 科目1, 必修, 成績(jī)2 br 班級(jí)1, 姓名1, 科目2, 選修, 成績(jī)3 br ………., ………, ………, ………, ……… br 編寫兩個(gè)Hadoop平臺(tái)上的MapRed

    2024年02月08日
    瀏覽(91)
  • 分布式搭建(hadoop+hive+spark)

    hadoop-master 192.168.43.141 hadoop-slave1 192.168.43.142 hadoop-slave2 192.168.43.143 鏈接:https://pan.baidu.com/s/1OwKLvZAaw8AtVaO_c6mvtw?pwd=1234 提取碼:1234 MYSQL5.6:wget http://repo.mysql.com/mysql-community-release-el6-5.noarch.rpm Scale:wget https://downloads.lightbend.com/scala/2.12.4/scala-2.12.4.tgz

    2024年02月12日
    瀏覽(21)
  • 【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

    【Spark分布式內(nèi)存計(jì)算框架——Spark 基礎(chǔ)環(huán)境】1. Spark框架概述

    第一章 說(shuō)明 整個(gè)Spark 框架分為如下7個(gè)部分,總的來(lái)說(shuō)分為Spark 基礎(chǔ)環(huán)境、Spark 離線分析和Spark實(shí)時(shí)分析三個(gè)大的方面,如下圖所示: 第一方面、Spark 基礎(chǔ)環(huán)境 主要講述Spark框架安裝部署及開發(fā)運(yùn)行,如何在本地模式和集群模式運(yùn)行,使用spark-shell及IDEA開發(fā)應(yīng)用程序,測(cè)試及

    2024年02月11日
    瀏覽(92)
  • 大數(shù)據(jù)學(xué)習(xí)06-Spark分布式集群部署

    大數(shù)據(jù)學(xué)習(xí)06-Spark分布式集群部署

    配置好IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 修改主機(jī)名 vi /etc/hostname 做好IP映射 vim /etc/hosts 關(guān)閉防火墻 systemctl status firewalld systemctl stop firewalld systemctl disable firewalld 配置SSH免密登錄 ssh-keygen -t rsa 下載Scala安裝包 配置環(huán)境變量 添加如下配置 使環(huán)境生效 驗(yàn)證 Spark官網(wǎng) 解壓 上

    2024年02月10日
    瀏覽(98)
  • 分布式計(jì)算框架:Spark、Dask、Ray

    分布式計(jì)算框架:Spark、Dask、Ray

    目錄 什么是分布式計(jì)算 分布式計(jì)算哪家強(qiáng):Spark、Dask、Ray 2 選擇正確的框架 2.1 Spark 2.2 Dask 2.3 Ray 分布式計(jì)算是一種計(jì)算方法,和集中式計(jì)算是相對(duì)的。 隨著計(jì)算技術(shù)的發(fā)展, 有些應(yīng)用需要非常巨大的計(jì)算能力才能完成,如果采用集中式計(jì)算,需要耗費(fèi)相當(dāng)長(zhǎng)的時(shí)間來(lái)完成

    2024年02月06日
    瀏覽(26)
  • SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer)

    SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer)

    Spark ThriftServer 相當(dāng)于一個(gè)持續(xù)性的Spark on Hive集成模式,可以啟動(dòng)并監(jiān)聽(tīng)在10000端口,持續(xù)對(duì)外提供服務(wù),可以使用數(shù)據(jù)庫(kù)客戶端工具或代碼連接上來(lái),操作Spark bin/spark-sql 腳本,類似于Hive的 bin/hive腳本 ( 內(nèi)部?jī)?nèi)置了hive的hiveServer2服務(wù)或Spark執(zhí)行引擎,每次腳本執(zhí)行,都會(huì)啟動(dòng)

    2024年02月11日
    瀏覽(29)
  • HDFS 分布式存儲(chǔ) spark storm HBase

    HDFS 分布式存儲(chǔ) spark storm HBase 分布式結(jié)構(gòu) master slave name node client 負(fù)責(zé)文件的拆分 128MB 3份 data node MapReduce 分布式計(jì)算 離線計(jì)算 2.X之前 速度比較慢 對(duì)比spark 編程思想 Map 分 Reduce 合 hadoop streaming Mrjob Yarn 資源管理 cpu 內(nèi)存 MapReduce spark 分布式計(jì)算 RM NM AM 社區(qū)版 CDH 什么是Hive 基于

    2024年02月14日
    瀏覽(27)
  • 【頭歌實(shí)訓(xùn)】Spark 完全分布式的安裝和部署

    掌握 Standalone 分布式集群搭建。 我們已經(jīng)掌握了 Spark 單機(jī)版安裝,那么分布式集群怎么搭建呢? 接下來(lái)我們學(xué)習(xí) Standalone 分布式集群搭建。 課程視頻 如果你需要在本地配置 Spark 完全分布式環(huán)境,可以通過(guò)查看課程視頻來(lái)學(xué)習(xí)。 課程視頻《克隆虛擬機(jī)與配置網(wǎng)絡(luò)》 課程視

    2024年02月04日
    瀏覽(27)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包