国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer)

這篇具有很好參考價值的文章主要介紹了SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1.Spark ThriftServer

Spark ThriftServer 相當于一個持續(xù)性的Spark on Hive集成模式,可以啟動并監(jiān)聽在10000端口,持續(xù)對外提供服務(wù),可以使用數(shù)據(jù)庫客戶端工具或代碼連接上來,操作Spark
SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer),數(shù)據(jù)計算與分析組件,分布式,spark,大數(shù)據(jù)
bin/spark-sql 腳本,類似于Hive的 bin/hive腳本
(內(nèi)部內(nèi)置了hive的hiveServer2服務(wù)或Spark執(zhí)行引擎,每次腳本執(zhí)行,都會啟動內(nèi)內(nèi)置的hiveServer2或Spark引擎),
一旦退出客戶端,服務(wù)端也就停止。

而, Spark的分布式執(zhí)行引擎,也即Spark ThriftServer服務(wù),是一個持續(xù)性的Spark on Hive集成模式,一旦啟動,持續(xù)對外提供服務(wù)。

可以使用DagaGrip、Pycharm、Navicat等數(shù)據(jù)庫客戶端產(chǎn)品,或代碼JDBC方式、或Beeline腳本,連接Spark ThriftServer服務(wù),直接編寫SQL語句,操作Spark。

2.啟動 Spark ThriftServer

SPARK_HOME=/export/server/spark
$SPARK_HOME/sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10000 \
--hiveconf hive.server2.thrift.bind.host=node1 \
--master local[2]

local[2]:指定線程并行度,一般是CPU核數(shù)2-3倍
master local, 每一條SQL在Local本地運行
master yarn,  每一條SQL在Yarn集群中運行

3.Beeline方式連接

cd /export/server/spark/bin
./beeline
輸入:
!connect jdbc:hive2://node1:10000
SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer),數(shù)據(jù)計算與分析組件,分布式,spark,大數(shù)據(jù)

4.DataGrip方式連接

單擊"+"號,或右鍵單擊 -> 選擇數(shù)據(jù)元 -> 選中 Other -> 選中 Apache Spark
SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer),數(shù)據(jù)計算與分析組件,分布式,spark,大數(shù)據(jù)
新建數(shù)據(jù)源,填寫Spark ThriftServer機器地址、監(jiān)聽端口、訪問用戶
SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer),數(shù)據(jù)計算與分析組件,分布式,spark,大數(shù)據(jù)
添加驅(qū)動

SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer),數(shù)據(jù)計算與分析組件,分布式,spark,大數(shù)據(jù)
配置成功,console窗口就可以直接寫SQL
SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer),數(shù)據(jù)計算與分析組件,分布式,spark,大數(shù)據(jù)

5. 代碼方式

 spark = SparkSession.builder \
        .appName('spark on hive') \
        .master('local[*]') \
        .config('spark.sql.shuffle.partitions', 4) \
        .config('hive.metastore.uris', 'thrift://node1:9083') \
        .config('spark.sql.warehouse.dir', 'hdfs://node1:8020/user/hive/warehouse') \
        .enableHiveSupport() \
        .getOrCreate()

    # 2. 執(zhí)行相關(guān)的操作
    spark.sql("select * from pyspark_hive.stu; ").show()

6. SparkSQL運行方式

thrift server服務(wù)出現(xiàn), 只是提供了新的方式來書寫SQL: .
beeline方式 或者 圖形化界面方式

適用于: 純 SQL的開發(fā)工作, 開發(fā)后, 形成一個個的SQL的腳本, 在部署上線的時候, 采用spark-sql提交運行
.
./spark-sql -f 腳本
./spark-sql -e 'SQL語句‘
./spark-submit py文件或scala文件

7.參考文章

Spark On Hive:即Spark使用Hive的Metastore服務(wù)作為元數(shù)據(jù)管理服務(wù)文章來源地址http://www.zghlxwxcb.cn/news/detail-516131.html

到了這里,關(guān)于SparkSQL的分布式執(zhí)行引擎(Spark ThriftServer)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Spark單機偽分布式環(huán)境搭建、完全分布式環(huán)境搭建、Spark-on-yarn模式搭建

    Spark單機偽分布式環(huán)境搭建、完全分布式環(huán)境搭建、Spark-on-yarn模式搭建

    搭建Spark需要先配置好scala環(huán)境。三種Spark環(huán)境搭建互不關(guān)聯(lián),都是從零開始搭建。 如果將文章中的配置文件修改內(nèi)容復(fù)制粘貼的話,所有配置文件添加的內(nèi)容后面的注釋記得刪除,可能會報錯。保險一點刪除最好。 上傳安裝包解壓并重命名 rz上傳 如果沒有安裝rz可以使用命

    2024年02月06日
    瀏覽(106)
  • spark分布式解壓工具

    ? spark解壓縮工具,目前支持tar、gz、zip、bz2、7z壓縮格式,默認解壓到當前路下,也支持自定義的解壓輸出路徑。另外支持多種提交模式,進行解壓任務(wù),可通過自定義配置文件,作為spark任務(wù)的資源設(shè)定 2.1 使用hadoop的FileSystem類,對tos文件的進行讀取、查找、寫入等操作

    2024年02月02日
    瀏覽(96)
  • 分布式內(nèi)存計算Spark環(huán)境部署與分布式內(nèi)存計算Flink環(huán)境部署

    分布式內(nèi)存計算Spark環(huán)境部署與分布式內(nèi)存計算Flink環(huán)境部署

    目錄 分布式內(nèi)存計算Spark環(huán)境部署 1.? 簡介 2.? 安裝 2.1【node1執(zhí)行】下載并解壓 2.2【node1執(zhí)行】修改配置文件名稱 2.3【node1執(zhí)行】修改配置文件,spark-env.sh 2.4 【node1執(zhí)行】修改配置文件,slaves 2.5【node1執(zhí)行】分發(fā) 2.6【node2、node3執(zhí)行】設(shè)置軟鏈接 2.7【node1執(zhí)行】啟動Spark集群

    2024年02月08日
    瀏覽(126)
  • Spark分布式內(nèi)存計算框架

    Spark分布式內(nèi)存計算框架

    目錄 一、Spark簡介 (一)定義 (二)Spark和MapReduce區(qū)別 (三)Spark歷史 (四)Spark特點 二、Spark生態(tài)系統(tǒng) 三、Spark運行架構(gòu) (一)基本概念 (二)架構(gòu)設(shè)計 (三)Spark運行基本流程 四、Spark編程模型 (一)核心數(shù)據(jù)結(jié)構(gòu)RDD (二)RDD上的操作 (三)RDD的特性 (四)RDD 的持

    2024年02月04日
    瀏覽(106)
  • Spark彈性分布式數(shù)據(jù)集

    Spark彈性分布式數(shù)據(jù)集

    1. Spark RDD是什么 RDD(Resilient Distributed Dataset,彈性分布式數(shù)據(jù)集)是一個不可變的分布式對象集合,是Spark中最基本的數(shù)據(jù)抽象。在代碼中RDD是一個抽象類,代表一個彈性的、不可變、可分區(qū)、里面的元素可并行計算的集合。 每個RDD都被分為多個分區(qū),這些分區(qū)運行在集群中

    2024年02月13日
    瀏覽(95)
  • 分布式搜索引擎

    分布式搜索引擎

    elasticsearch的查詢依然是基于JSON風(fēng)格的DSL來實現(xiàn)的。 Elasticsearch提供了基于JSON的DSL(Domain Specific Language)來定義查詢。常見的查詢類型包括: 查詢所有 :查詢出所有數(shù)據(jù),一般測試用。例如:match_all 全文檢索(full text)查詢 :利用分詞器對用戶輸入內(nèi)容分詞,然后去倒排索

    2024年02月10日
    瀏覽(25)
  • 分布式計算MapReduce | Spark實驗

    分布式計算MapReduce | Spark實驗

    題目1 輸入文件為學(xué)生成績信息,包含了必修課與選修課成績,格式如下: 班級1, 姓名1, 科目1, 必修, 成績1 br (注: br 為換行符) 班級2, 姓名2, 科目1, 必修, 成績2 br 班級1, 姓名1, 科目2, 選修, 成績3 br ………., ………, ………, ………, ……… br 編寫兩個Hadoop平臺上的MapRed

    2024年02月08日
    瀏覽(91)
  • 分布式搜索引擎--認識

    分布式搜索引擎--認識

    elasticsearch的作用 elasticsearch是一款非常強大的開源搜索引擎,具備非常多強大功能,可以幫助我們從海量數(shù)據(jù)中快速找到需要的內(nèi)容 。 elasticsearch結(jié)合kibana、Logstash、Beats,也就是elastic stack(ELK)。被廣泛應(yīng)用在日志數(shù)據(jù)分析、實時監(jiān)控等領(lǐng)域。 而elasticsearch是elastic stack的核

    2024年01月18日
    瀏覽(24)
  • 【分布式搜索引擎03】

    【分布式搜索引擎03】

    **聚合(aggregations)**可以讓我們極其方便的實現(xiàn)對數(shù)據(jù)的統(tǒng)計、分析、運算。例如: 什么品牌的手機最受歡迎? 這些手機的平均價格、最高價格、最低價格? 這些手機每月的銷售情況如何? 實現(xiàn)這些統(tǒng)計功能的比數(shù)據(jù)庫的sql要方便的多,而且查詢速度非??欤梢詫崿F(xiàn)近

    2024年02月05日
    瀏覽(39)
  • 【分布式搜索引擎02】

    elasticsearch的查詢依然是基于JSON風(fēng)格的DSL來實現(xiàn)的。 Elasticsearch提供了基于JSON的DSL(Domain Specific Language)來定義查詢。常見的查詢類型包括: 查詢所有 :查詢出所有數(shù)據(jù),一般測試用。例如:match_all 全文檢索(full text)查詢 :利用分詞器對用戶輸入內(nèi)容分詞,然后去倒排索

    2024年02月01日
    瀏覽(42)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包