国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

企業(yè)Spark案例--酒店數(shù)據(jù)分析實戰(zhàn)提交

這篇具有很好參考價值的文章主要介紹了企業(yè)Spark案例--酒店數(shù)據(jù)分析實戰(zhàn)提交。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

第1關:數(shù)據(jù)清洗--過濾字段長度不足的且將出生日期轉(zhuǎn):

package?com.yy


?

import?org.apache.spark.rdd.RDD

import?org.apache.spark.sql.{DataFrame,?Dataset,?SparkSession}

object?edu{

????/**********Begin**********/

????//?此處可填寫相關代碼

????case?class?Person(id:String,Name:String,CtfTp:String,CtfId:String,Gender:String,Birthday:String,Address:String,Zip:String,Duty:String,Mobile:String,Tel:String,Fax:String,EMail:String,Nation:String,Taste:String,Education:String,Company:String,Family:String,Version:String,Hotel:String,Grade:String,Duration:String,City:String)

????/**********End**********/

????def?main(args:?Array[String]):?Unit?=?{

????????val?spark?=?SparkSession

????????.builder()

????????.appName("Spark?SQL")

????????.master("local")

????????.config("spark.some.config.option",?"some-value")

????????.getOrCreate()

????????val?rdd?=?spark.sparkContext.textFile("file:///root/files/part-00000-4ead9570-10e5-44dc-80ad-860cb072a9ff-c000.csv")

????????/**********Begin**********/

????????//?清洗臟數(shù)據(jù)(字段長度不足?23?的數(shù)據(jù)視為臟數(shù)據(jù))

????????val?rdd1:?RDD[String]?=?rdd.filter(x=>{

????????val?e=x.split(",",-1)

??文章來源地址http://www.zghlxwxcb.cn/news/detail-490340.html

到了這里,關于企業(yè)Spark案例--酒店數(shù)據(jù)分析實戰(zhàn)提交的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Spark大數(shù)據(jù)分析與實戰(zhàn)課后答案

    一、填空題 1、Scala語言的特性包含 面向?qū)ο缶幊?、函數(shù)式編程的、 靜態(tài)類型的 、可擴展的、 可以交互操作的 。 2、在Scala數(shù)據(jù)類型層級結(jié)構的底部有兩個數(shù)據(jù)類型,分別是 Nothing 和 Null 。 3、在Scala中,聲明變量的有 var 聲明變量和 val 聲明常量。 4、在Scala中,獲取

    2024年01月17日
    瀏覽(95)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-05)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-05)

    成長是一條必走的路路上我們傷痛在所難免。 在大數(shù)據(jù)處理和分析領域,Spark被廣泛應用于解決海量數(shù)據(jù)處理和實時計算的挑戰(zhàn)。作為一個快速、可擴展且易于使用的分布式計算框架,Spark為開發(fā)人員提供了豐富的API和工具來處理和分析大規(guī)模數(shù)據(jù)集。 其中,Spark-Shell是Spar

    2024年02月03日
    瀏覽(100)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-04)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-04)

    “春風十里,不如你。” 這句來自現(xiàn)代作家安妮寶貝的經(jīng)典句子,它表達了對他人的贊美與崇拜。每個人都有著不同的閃光點和特長,在這個世界上,不必去羨慕別人的光芒,自己所擁有的價值是獨一無二的。每個人都有無限的潛力和能力,只要勇敢展現(xiàn)自己,就能在人生舞

    2024年02月03日
    瀏覽(92)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-01)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-01)

    寧愿跑起來被拌倒無數(shù)次,也不愿規(guī)規(guī)矩矩走一輩子,就算跌倒也要豪邁的笑。 Spark于2009年誕生于美國加州大學伯克利分校的AMP實驗室,它是一個可應用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎。Spark不僅計算速度快,而且內(nèi)置了豐富的API,使得我們能夠更加容易編寫程序。 Spark下

    2024年02月03日
    瀏覽(85)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-03)

    又回到了原點,就從現(xiàn)在開始我的新生活吧。 章節(jié)概要:Spark運行架構與原理 I. 引言 A. 概述Spark B. Spark的特點和優(yōu)勢 II. Spark運行架構概述 A. Spark集群模式 B. Spark運行模式 C. Spark執(zhí)行引擎:Spark Core D. Spark計算模塊:RDD E. Spark數(shù)據(jù)抽象模塊:DataFrame和Dataset F. Spark資源管理器:

    2024年02月03日
    瀏覽(102)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-02)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第二章 Spark基礎-02)

    人生就像賽跑,不在乎你是否第一個到達盡頭,而在乎你有沒有跑完全程。 Spark于2009年誕生于美國加州大學伯克利分校的AMP實驗室,它是一個可應用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎。Spark不僅計算速度快,而且內(nèi)置了豐富的API,使得我們能夠更加容易編寫程序。 請參考《

    2024年02月03日
    瀏覽(100)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)課后習題參考答案

    項目一: 一、選擇題 DCCDAD 二、簡答題 1、Hadoop MapReduce要求每個步驟間的數(shù)據(jù)序列化到磁盤,所以I/O成本很高,導致交互分析和迭代算法開銷很大;Spark 提供了內(nèi)存計算,把中間結(jié)果放到內(nèi)存中,帶來了更高的迭代運算效率。通過支持有向無環(huán)圖(DAG)的分布式并行計算的編

    2024年02月11日
    瀏覽(23)
  • Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第三章 Spark RDD 彈性分布式數(shù)據(jù)集-02)

    Spark大數(shù)據(jù)分析與實戰(zhàn)筆記(第三章 Spark RDD 彈性分布式數(shù)據(jù)集-02)

    人生很長,不必慌張。你未長大,我要擔當。 傳統(tǒng)的MapReduce雖然具有自動容錯、平衡負載和可拓展性的優(yōu)點,但是其最大缺點是采用非循環(huán)式的數(shù)據(jù)流模型,使得在迭代計算式要進行大量的磁盤IO操作。Spark中的RDD可以很好的解決這一缺點。 RDD是Spark提供的最重要的抽象概念

    2024年02月22日
    瀏覽(372)
  • 大數(shù)據(jù)實戰(zhàn)(hadoop+spark+python):淘寶電商數(shù)據(jù)分析

    大數(shù)據(jù)實戰(zhàn)(hadoop+spark+python):淘寶電商數(shù)據(jù)分析

    虛擬機:Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python,pyspark, pandas,matplotlib mysql,mysql-connector-j-8.0.32.jar(下載不需要積分什么的) 淘寶用戶數(shù)據(jù) 以上的技術積累需要自行完成 創(chuàng)建容器(##ubuntu的代碼塊,在ubuntu中運行,無特殊說明的在docker中運行) 更新軟件

    2024年02月11日
    瀏覽(30)
  • Spark 大數(shù)據(jù)實戰(zhàn):基于 RDD 的大數(shù)據(jù)處理分析

    Spark 大數(shù)據(jù)實戰(zhàn):基于 RDD 的大數(shù)據(jù)處理分析

    之前筆者參加了公司內(nèi)部舉辦的一個 Big Data Workshop,接觸了一些 Spark 的皮毛,后來在工作中陸陸續(xù)續(xù)又學習了一些 Spark 的實戰(zhàn)知識。 本文筆者從小白的視角出發(fā),給大家普及 Spark 的應用知識。 Spark 集群是基于 Apache Spark 的分布式計算環(huán)境,用于處理 大規(guī)模數(shù)據(jù)集 的計算任

    2024年01月25日
    瀏覽(41)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包