国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

spark為什么比mapreduce快?

這篇具有很好參考價值的文章主要介紹了spark為什么比mapreduce快?。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

spark為什么比mapreduce快?

首先澄清幾個誤區(qū):

1:兩者都是基于內(nèi)存計算的,任何計算框架都肯定是基于內(nèi)存的,所以網(wǎng)上說的spark是基于內(nèi)存計算所以快,顯然是錯誤的

2;DAG計算模型減少的是磁盤I/O次數(shù)(相比于mapreduce計算模型而言),而不是shuffle次數(shù),因為shuffle是根據(jù)數(shù)據(jù)重組的次數(shù)而定,所以shuffle次數(shù)不能減少

所以總結spark比mapreduce快的原因有以下幾點:

1:DAG相比hadoop的mapreduce在大多數(shù)情況下可以減少磁盤I/O次數(shù)

因為mapreduce計算模型只能包含一個map和一個reduce,所以reduce完后必須進行落盤,而DAG可以連續(xù)shuffle的,也就是說一個DAG可以完成好幾個

mapreduce,所以dag只需要在最后一個shuffle落盤,就比mapreduce少了,總shuffle次數(shù)越多,減少的落盤次數(shù)就越多

2:spark shuffle 的優(yōu)化

mapreduce在shuffle時默認進行排序,spark在shuffle時則只有部分場景才需要排序(bypass技師不需要排序),排序是非常耗時的,這樣就可以加快shuffle速度

3:spark支持將需要反復用到的數(shù)據(jù)進行緩存

所以對于下次再次使用此rdd時,不再再次計算,而是直接從緩存中獲取,因此可以減少數(shù)據(jù)加載耗時,所以更適合需要迭代計算的機器學習算法

4:任務級別并行度上的不同

mapreduce采用多進程模型,而spark采用了多線程模型,多進程模型的好處是便于細粒度控制每個任務占用的資源,但每次任務的啟動都會消耗一定的啟動時間,即mapreduce的map task 和reduce task是進程級別的,都是jvm進程,每次啟動都需要重新申請資源,消耗不必要的時間,而spark task是基于線程模型的,通過復用線程池中的線程來減少啟動,關閉task所需要的開銷(多線程模型也有缺點,由于同節(jié)點上所有任務運行在一個進行中,因此,會出現(xiàn)嚴重的資源爭用,難以細粒度控制每個任務占用資源)

作者:京東零售 吳化斌

來源:京東云開發(fā)者社區(qū) 轉(zhuǎn)載請注明來源文章來源地址http://www.zghlxwxcb.cn/news/detail-833480.html

到了這里,關于spark為什么比mapreduce快?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Spark重溫筆記(三):Spark在企業(yè)中為什么能這么強?——持久化、Checkpoint機制、共享變量與內(nèi)核調(diào)度原理全攻略“

    前言:今天是溫習 Spark 的第 3 天啦!主要梳理了 Spark 核心數(shù)據(jù)結構:RDD(彈性分布式數(shù)據(jù)集),包括RDD持久化,checkpoint機制,spark兩種共享變量以及spark內(nèi)核調(diào)度原理,希望對大家有幫助! Tips:\\\"分享是快樂的源泉??,在我的博客里,不僅有知識的海洋??,還有滿滿的正能量

    2024年04月09日
    瀏覽(33)
  • 數(shù)據(jù)治理為什么要清洗數(shù)據(jù)

    在當今科技發(fā)展迅速的時代,數(shù)據(jù)已經(jīng)成為企業(yè)和組織中不可或缺的重要資源。在數(shù)聚看來,隨著數(shù)據(jù)量的不斷增加和數(shù)據(jù)來源的多樣性,數(shù)據(jù)的質(zhì)量與一致性成為了一個巨大的挑戰(zhàn)。為了保證數(shù)據(jù)的準確性和可靠性,數(shù)據(jù)治理成為了當務之急。而數(shù)據(jù)清洗作為數(shù)據(jù)治理的重

    2024年01月23日
    瀏覽(19)
  • 為什么需要數(shù)據(jù)倉庫

    為什么不在OLTP環(huán)境下分析?? OLTP環(huán)境也會存儲歷史數(shù)據(jù),但這些歷史數(shù)據(jù)并不是業(yè)務運行所需的,這些歷史數(shù)據(jù)需要經(jīng)常歸檔到數(shù)據(jù)倉庫,并且在OLTP數(shù)據(jù)庫中刪除。 相比之下,事務環(huán)境適用于連續(xù)處理事務,通常應用于訂單錄入以及財務和零售事務。它們并不依賴歷史數(shù)據(jù)

    2024年01月25日
    瀏覽(32)
  • 什么是區(qū)塊鏈,為什么數(shù)據(jù)不可被篡改

    什么是區(qū)塊鏈,為什么數(shù)據(jù)不可被篡改

    一提到區(qū)塊鏈,首先想到的就是比特幣。確實比特幣是第一個區(qū)塊鏈項目,也是最成功的項目,目前的價格是60428¥/btc。想想當初用10000個比特幣買了2個披薩的程序員Laszlo,估計怎么也想不到比特幣能漲到如此之高(畢竟眼光有多遠,就只能賺多少錢)。那么到底什么是區(qū)塊

    2024年01月21日
    瀏覽(23)
  • 數(shù)據(jù)要素“摸家底”:是什么?為什么?怎么做?

    數(shù)據(jù)要素“摸家底”:是什么?為什么?怎么做?

    繼經(jīng)濟數(shù)據(jù)“摸家底”之后,全國數(shù)據(jù)資源也迎來一次“大摸底”。2月19日,國家數(shù)據(jù)局等四部門發(fā)布《關于開展全國數(shù)據(jù)資源調(diào)查的通知》,提出“摸清數(shù)據(jù)資源底數(shù)”,為相關政策制定、試點示范等工作提供數(shù)據(jù)支持。如此大規(guī)模數(shù)據(jù)資源調(diào)查,在世界范圍內(nèi)也是首次。

    2024年03月09日
    瀏覽(22)
  • 大數(shù)據(jù)為什么如此重要?

    大數(shù)據(jù)為什么如此重要?

    簡單來說,大數(shù)據(jù)就是結構化的傳統(tǒng)數(shù)據(jù)再加上非結構化的新數(shù)據(jù)。那么傳統(tǒng)數(shù)據(jù)和新數(shù)據(jù)又是什么呢?傳統(tǒng)數(shù)據(jù)就是IT業(yè)務系統(tǒng)里面的數(shù)據(jù),如客戶資料、財務數(shù)據(jù)等。這些數(shù)據(jù)是結構化的,量也不是特別大,一般只是TB級。對比傳統(tǒng)數(shù)據(jù),還有一種叫“新數(shù)據(jù)”,是來源于

    2024年02月08日
    瀏覽(21)
  • 為什么要進行數(shù)據(jù)治理

    ????????數(shù)據(jù)治理是個大話題,包含的環(huán)節(jié)也非常多,從數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)安全、數(shù)據(jù)標準各個環(huán)節(jié)。數(shù)據(jù)治理最近越來越受到企業(yè)的關注,為什么越來越多的企業(yè)開始進行數(shù)據(jù)治理呢?因為他們開始意識到了數(shù)據(jù)治理的價值。本質(zhì)上來講數(shù)據(jù)治理的價

    2024年02月09日
    瀏覽(27)
  • 為什么要搭建數(shù)據(jù)倉庫

    數(shù)據(jù)是企業(yè)中最重要的資源之一,因此,隨著企業(yè)數(shù)據(jù)量的不斷增大和復雜度的提高,建立一個可靠和健全的數(shù)據(jù)倉庫變得越來越重要。在數(shù)聚股份看來,一個數(shù)據(jù)倉庫可以作為一個企業(yè)數(shù)據(jù)存儲和管理系統(tǒng),能夠更有效地存儲、管理和分析數(shù)據(jù)。那么,為什么要搭建數(shù)據(jù)倉

    2024年02月11日
    瀏覽(16)
  • 數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

    數(shù)據(jù)資源 | 為什么要做數(shù)據(jù)清洗?

    查看原文:【數(shù)據(jù)seminar】https://mp.weixin.qq.com/s/oWW3qdMxkzqqdwLUovK39g 在回答這個問題之前,先講講數(shù)據(jù)的分類。通常我們所用的數(shù)據(jù)中,可以分為兩類, 一類是結構化數(shù)據(jù)(Structured Data),另一類是非結構化數(shù)據(jù)(Unstructured Data) 。 結構化數(shù)據(jù) :信息能夠用數(shù)據(jù)或統(tǒng)一的結構加以表示

    2024年02月08日
    瀏覽(37)
  • 為什么要使用數(shù)據(jù)庫?

    為什么要使用數(shù)據(jù)庫?

    新星計劃,等你來造,一起學習進步! 7月3日-7月15日期間,完成計劃任務,完成打卡贏好禮,活動報名鏈接如下:點擊跳轉(zhuǎn) 活動獎勵: ?【新秀獎】新注冊用戶發(fā)布第一篇文章(500字以上)獲得電子【新秀勛章】; ?【基礎獎】完成任務挑戰(zhàn)用戶可獲專屬電子勛章(潛力新

    2024年02月06日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包