国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

云計算實驗4 面向行業(yè)背景的大數(shù)據(jù)分析與處理綜合實驗

這篇具有很好參考價值的文章主要介紹了云計算實驗4 面向行業(yè)背景的大數(shù)據(jù)分析與處理綜合實驗。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、 實驗目的

掌握分布式數(shù)據(jù)庫接口Spark SQL基本操作,以及訓練綜合能力,包括:數(shù)據(jù)預處理、向量處理、大數(shù)據(jù)算法、預測和可視化等綜合工程能力

二、 實驗環(huán)境

Linux的虛擬機環(huán)境和實驗指導手冊

三、 實驗任務

完成Spark SQL編程實驗、交通數(shù)據(jù)綜合分析平臺環(huán)境部署和綜合實驗。

四、 實驗步驟

請按照實驗指導手冊,完成以下實驗內(nèi)容:

實驗4-1 Spark SQL:Spark SQL 編程
(1) DataFrame數(shù)據(jù)集操作
(2) Spark SQL編程操作

實驗4-2交通軌跡:安裝部署
(1) 安裝Spark單節(jié)點版

實驗4-3交通數(shù)據(jù)綜合分析實驗
(1) 數(shù)據(jù)預處理 (2) 特征向量
(3) Spark SQL (4) 聚類算法
(5) 結(jié)果預測 (6) 數(shù)據(jù)可視化

五、 實驗作業(yè)

1、提交實驗報告電子稿和紙質(zhì)稿,內(nèi)容包括安裝步驟及主要配置方法說明,關鍵步驟截圖,并對截圖內(nèi)容進行解釋說明;

2、個人對實驗的總結(jié)和心得,本實驗具有一定難度和繁瑣程度,請總結(jié)與撰寫自身遇到的問題,以及解決問題的過程。

3、搜索互聯(lián)網(wǎng)并回答問題:
相關資料:《11天里13個Apache開源項目宣布退休,Hadoop的時代結(jié)束了》鏈接:https://cloud.tencent.com/developer/news/827409
該新聞中報道,約有10個左右的Hadoop開源項目宣布退休,大數(shù)據(jù)技時代的已經(jīng)準備落幕了嗎?請結(jié)合Hadoop技術(shù)的優(yōu)缺點,評價Hadoop項目退休的原因以及未來大數(shù)據(jù)的發(fā)展趨勢。

六、 實驗結(jié)果與分析

1、安裝步驟及主要配置方法說明

A. 實驗4-1 Spark SQL:Spark SQL 編程

(1) DataFrame數(shù)據(jù)集操作
(2) Spark SQL編程操作

1、啟動spark-shell,啟動時指定啟動模式
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
2、創(chuàng)建spark 的SQLContext
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
3、創(chuàng)建DataFrames對象
讀取json格式的數(shù)據(jù)文件,查看數(shù)據(jù)的schema信息
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
4、select 操作
查詢所有的課程名
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
查詢所有的課程名及課程包大小
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
5、filter,groupyBy 和 count() 操作
打印出所有的非實驗課程名稱,類似于使用where條件過濾
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
查詢課程長度在5-10之間的課程,將返回一個新的RDD
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)

B. 實驗4-2交通軌跡:安裝部署

(1) 安裝Spark單節(jié)點版
針對安裝spark已經(jīng)做了很多次了,這邊還是使用腳本一鍵安裝
腳本源碼如下:

hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
運行腳本,查看結(jié)果

hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)

C. 實驗4-3交通數(shù)據(jù)綜合分析實驗

(1) 數(shù)據(jù)預處理 (2) 特征向量
(3) Spark SQL (4) 聚類算法
(5) 結(jié)果預測 (6) 數(shù)據(jù)可視化

1、數(shù)據(jù)準備
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
2、解析csv數(shù)據(jù)
導包和定義字段格式等此處不展示
直接看最后的結(jié)果:利用taxidf對象的show方法打印輸出前20條數(shù)據(jù)
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
3、構(gòu)建特征向量
3.1轉(zhuǎn)換數(shù)據(jù)字段中的經(jīng)緯度,定義特征數(shù)組
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
3.2創(chuàng)建向量裝配器VetorAssembler,并設置相關屬性

hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
3.3利用向量裝配器的transform方法對導入的數(shù)據(jù)taxidf進行轉(zhuǎn)化,并賦值給taxidf2
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
3.4利用taxidf2對象的show方法打印前20條數(shù)據(jù)查看

hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
4、聚類模型訓練
將數(shù)據(jù)集劃分比例分別作為訓練集和測試集,然后對對數(shù)據(jù)集進行隨機劃分,randomSplit 的第二個參數(shù)為隨機數(shù)的種子
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
setPredictionCol:設置生成預測值時使用的字段名稱
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
獲取Kmeans模型的聚類中心,可以看到之前設定數(shù)量為 10 的聚類結(jié)果
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
將結(jié)果轉(zhuǎn)換為RDD類型,進行經(jīng)緯度互換,調(diào)用RDD對象的saveAsTextFile方法保存結(jié)果到本地
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
5、聚類模型測試
調(diào)用Kmeans模型的transform方法對測試數(shù)據(jù)進行聚類,調(diào)用predictions對象的show方法,輸出預測結(jié)果
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
6、分析預測結(jié)果
預測結(jié)果為DataFrame,我們先將其注冊為臨時表perdictions,然后使用SQL查詢功能
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
基于小時數(shù)進行不同預測類型的數(shù)量進行統(tǒng)計

hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
利用聚焦函數(shù)agg的count實現(xiàn),并以desc降序輸出結(jié)果
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
在對表predictions進行where查詢,找出4號區(qū)域的經(jīng)緯度記錄下來
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
在對表predictions進行查詢,找出9號區(qū)域的經(jīng)緯度記錄下來
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
得到每個區(qū)域的出租車載客次數(shù)總計
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
7、數(shù)據(jù)可視化
配置API及各項參數(shù)
在瀏覽器打開輸入URL回車,即可得到聚類結(jié)果的10個簇中心在地圖上的位置
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
創(chuàng)建一個新的文件夾Visualization,并在此文件夾下創(chuàng)建名為data和js的兩個文件夾
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
解壓并拷貝所有的js文件到此js目錄中
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
將數(shù)據(jù)聚類分析的結(jié)果busyZones合并成單個文件
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)
在Visualization目錄下創(chuàng)建編輯index.html文件,完成代碼編寫后,在瀏覽器中打開文件URL,查看可視化結(jié)果
hadoop項目退休的原因,# 云計算,云計算,數(shù)據(jù)分析,大數(shù)據(jù)

2、實驗的總結(jié)和心得

本次實驗主要了解了Spark SQL的基本概念、DataFrame、Spark SQL開發(fā),利用Spark進行大數(shù)據(jù)分析實現(xiàn)交通數(shù)據(jù)分析系統(tǒng),結(jié)合使用百度地圖提供的API實現(xiàn)可視化的圖表。其中實驗4-1,4-2提供理論基礎和實驗環(huán)境,實驗4-3最終實現(xiàn)交通數(shù)據(jù)的綜合分析。在交通數(shù)據(jù)的綜合分析實驗中首先進行數(shù)據(jù)集的分割,其次利用K-means聚類算法進行聚類分析,K-means聚類算法是一種非層次聚類算法,在最小誤差的基礎上將數(shù)據(jù)劃分了特定的類,類間利用距離作為相似度指標,兩個向量之間的距離越小,其相似度就越高。程序讀取全國省市經(jīng)緯度坐標,然后根據(jù)經(jīng)緯度坐標進行K-means聚類分析,最后將結(jié)果轉(zhuǎn)換為RDD類型,進行經(jīng)緯度互換,調(diào)用RDD對象的saveAsTextFile方法保存結(jié)果到本地。利用百度地圖提供的API實現(xiàn)數(shù)據(jù)可視化。我們可以發(fā)現(xiàn)實驗是多學科交融的,利用獲得的大數(shù)據(jù)進行合理的配置之后,喂給深度學習模型,模型經(jīng)過大量數(shù)據(jù)訓練后在使用時效果會更好。利用大數(shù)據(jù),可以做好給用戶精準推薦,方便分析潛在規(guī)律,具有很大的應用價值。

3、請結(jié)合Hadoop技術(shù)的優(yōu)缺點,評價Hadoop項目退休的原因以及未來大數(shù)據(jù)的發(fā)展趨勢。

這次合并的背景是大數(shù)據(jù)市場的整合趨勢。而且可以說,這場大數(shù)據(jù)整合潮流也是上面這些項目“退役”的根本原因。很明顯,在大數(shù)據(jù)世界中,大量投資于 Apache Sentry 的供應商和客戶現(xiàn)在需要整理他們的損失并繼續(xù)前進。殘酷的現(xiàn)實帶來的教訓幾乎適用于所有技術(shù)炒作周期:社區(qū)開始興奮起來,開源技術(shù)激增,生態(tài)系統(tǒng)逐漸完善。但這些生態(tài)系統(tǒng)并不會永存,幾乎任何新平臺(無論是商業(yè)平臺還是開源平臺)都存在固有的風險。
用 ASF 的 Khudairi 的話來說:“每個項目背后的社區(qū)才是代碼生命力的源泉(‘代碼不會自動編寫出來’),因此社區(qū)改變項目步伐的情況并不少見?!睋Q句話說,尖端技術(shù)令人興奮,但早期采用者要小心:它也是很脆弱的。請多加注意,并妥善管理風險。
Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。它主要有以下幾個優(yōu)點:
  ·高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
  ·高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
  ·高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此其處理速度非??臁?br>   ·高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。
由于Hadoop優(yōu)勢突出,基于Hadoop的應用已經(jīng)遍地開花,尤其是在互聯(lián)網(wǎng)領域。Yahoo! 通過集群運行Hadoop,以支持廣告系統(tǒng)和Web搜索的研究;Facebook借助集群運行Hadoop,以支持其數(shù)據(jù)分析和機器學習;百度則使用Hadoop進行搜索日志的分析和網(wǎng)頁數(shù)據(jù)的挖掘工作;淘寶的Hadoop系統(tǒng)用于存儲并處理電子商務交易的相關數(shù)據(jù);中國移動研究院基于Hadoop的“大云”(BigCloud)系統(tǒng)用于對數(shù)據(jù)進行分析和并對外提供服務。雖然有很多項目退出,并且Hadoop存在在當前Hadoop的設計中,所有的metadata操作都要通過集中式的NameNode來進行,NameNode有可能是性能的瓶頸,但是就目前Hadoop技術(shù)的優(yōu)勢而言,他仍然是未來的主流。文章來源地址http://www.zghlxwxcb.cn/news/detail-783526.html

到了這里,關于云計算實驗4 面向行業(yè)背景的大數(shù)據(jù)分析與處理綜合實驗的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Elasticsearch的大數(shù)據(jù)處理與分析

    Elasticsearch是一個開源的搜索和分析引擎,基于Lucene庫構(gòu)建。它具有高性能、可擴展性和實時性等優(yōu)勢,適用于大數(shù)據(jù)處理和分析場景。Elasticsearch可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),支持多種數(shù)據(jù)源和格式,如JSON、XML、CSV等。 Elasticsearch的核心功能包括搜索、分析、聚合和監(jiān)控

    2024年02月19日
    瀏覽(26)
  • 8、MATLAB程序設計與應用劉衛(wèi)國(第三版)課后實驗八:數(shù)據(jù)分析與多項式計算

    8、MATLAB程序設計與應用劉衛(wèi)國(第三版)課后實驗八:數(shù)據(jù)分析與多項式計算

    目錄 一、 二、 ?三、 ?四、 五、? 利用MATLAB提供的rand函數(shù)生成30 000個符合均勻分布的隨機數(shù),然后檢驗隨機數(shù)的性質(zhì)。 (1)均值和標準差。 ?--------------------------------------- 示例代碼 --------------------------------------------- --------------------------------------- 運行結(jié)果 ------------------

    2024年02月08日
    瀏覽(24)
  • 電商API接口的大數(shù)據(jù)分析與挖掘技巧

    隨著電商行業(yè)的快速發(fā)展,電商平臺上的交易數(shù)據(jù)量也越來越大。如何對這些數(shù)據(jù)進行分析和挖掘,從中獲取有價值的信息,已經(jīng)成為電商企業(yè)和開發(fā)者關注的重點。本文將介紹電商API接口的大數(shù)據(jù)分析與挖掘技巧。 1.確定分析目標:在進行大數(shù)據(jù)分析之前,需要明確分析的

    2024年01月17日
    瀏覽(18)
  • 國際旅游網(wǎng)絡的大數(shù)據(jù)分析(數(shù)學建模練習題)

    國際旅游網(wǎng)絡的大數(shù)據(jù)分析(數(shù)學建模練習題)

    伴隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)分析已經(jīng)深入到現(xiàn)代社會生活中的各個方面。 無論是國家政府部門、企事業(yè)單位還是個人,數(shù)據(jù)分析工作都是進行決策之前的 重要環(huán)節(jié)。 山東省應用統(tǒng)計學會是在省民政廳注冊的學術(shù)類社會組織,于 1989 年成立。 學會是全省目前從事統(tǒng)計調(diào)查

    2024年02月11日
    瀏覽(25)
  • 智能建筑中的大數(shù)據(jù)分析:概述,應用,安全和隱私問題

    作者:禪與計算機程序設計藝術(shù) 近年來,智能建筑、智慧城市等新興的概念層出不窮,人們對智能建筑、智慧城市追求的是從根本上解決環(huán)境問題、提升社會生活品質(zhì)、實現(xiàn)經(jīng)濟社會效益的目標。智能建筑可謂是國際化進程中最具代表性的新興產(chǎn)業(yè)領域之一。智能建筑即“未

    2024年02月15日
    瀏覽(17)
  • Spark 大數(shù)據(jù)實戰(zhàn):基于 RDD 的大數(shù)據(jù)處理分析

    Spark 大數(shù)據(jù)實戰(zhàn):基于 RDD 的大數(shù)據(jù)處理分析

    之前筆者參加了公司內(nèi)部舉辦的一個 Big Data Workshop,接觸了一些 Spark 的皮毛,后來在工作中陸陸續(xù)續(xù)又學習了一些 Spark 的實戰(zhàn)知識。 本文筆者從小白的視角出發(fā),給大家普及 Spark 的應用知識。 Spark 集群是基于 Apache Spark 的分布式計算環(huán)境,用于處理 大規(guī)模數(shù)據(jù)集 的計算任

    2024年01月25日
    瀏覽(42)
  • 在云原生時代,構(gòu)建高效的大數(shù)據(jù)存儲與分析平臺

    在云原生時代,構(gòu)建高效的大數(shù)據(jù)存儲與分析平臺

    ??個人主頁:程序員 小侯 ??CSDN新晉作者 ??歡迎 ??點贊?評論?收藏 ?收錄專欄:大數(shù)據(jù)系列 ?文章內(nèi)容:大數(shù)據(jù)存儲 ??希望作者的文章能對你有所幫助,有不足的地方請在評論區(qū)留言指正,大家一起學習交流!?? 在云原生時代,構(gòu)建高效的大數(shù)據(jù)存儲與分析平臺需

    2024年02月10日
    瀏覽(36)
  • 全國大數(shù)據(jù)與計算智能挑戰(zhàn)賽:面向低資源的命名實體識別基線方案,排名13/64,組織單位:(大數(shù)據(jù)與決策實驗室)

    全國大數(shù)據(jù)與計算智能挑戰(zhàn)賽:面向低資源的命名實體識別基線方案,排名13/64,組織單位:(大數(shù)據(jù)與決策實驗室)

    NLP專欄簡介:數(shù)據(jù)增強、智能標注、意圖識別算法|多分類算法、文本信息抽取、多模態(tài)信息抽取、可解釋性分析、性能調(diào)優(yōu)、模型壓縮算法等 專欄詳細介紹:NLP專欄簡介:數(shù)據(jù)增強、智能標注、意圖識別算法|多分類算法、文本信息抽取、多模態(tài)信息抽取、可解釋性分析、性

    2024年02月13日
    瀏覽(25)
  • 【全程記錄】一次數(shù)據(jù)分析和可視化的大作業(yè)(python)

    【全程記錄】一次數(shù)據(jù)分析和可視化的大作業(yè)(python)

    本帖記錄了一次從頭到尾的作業(yè)過程(從導入數(shù)據(jù)集,經(jīng)過數(shù)據(jù)處理與分析,到可視化數(shù)據(jù),再到最終總結(jié)。包括遇到的問題與解決辦法),其中運用到的知識來源于學校老師和bilibili教學視頻,其中教學視頻如下: 【【莫煩Python】Matplotlib Python 畫圖教程】 https://www.bilibili

    2024年02月04日
    瀏覽(54)
  • Apache Superset——開源的大數(shù)據(jù)探索分析、可視化報表平臺

    Apache Superset——開源的大數(shù)據(jù)探索分析、可視化報表平臺

    1.1 大數(shù)據(jù)可視化面臨的挑戰(zhàn) ??大數(shù)據(jù)的興起,關于數(shù)據(jù)的存儲、計算技術(shù)層出不窮,但是最終的數(shù)據(jù)可視化呈現(xiàn),數(shù)據(jù)的探索,也成為頗為重要的一環(huán),這一塊并沒有像存儲、計算技術(shù)棧那么百花齊放,大家在做大數(shù)據(jù)可視化時是否也曾有這些困惑呢? 傳統(tǒng)的可視化對接

    2024年02月04日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包