国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五)

這篇具有很好參考價(jià)值的文章主要介紹了【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

博主介紹?全網(wǎng)粉絲6W+,csdn特邀作者、博客專家、Java領(lǐng)域優(yōu)質(zhì)創(chuàng)作者,博客之星、掘金/華為云/阿里云/InfoQ等平臺(tái)優(yōu)質(zhì)作者、專注于大數(shù)據(jù)技術(shù)領(lǐng)域和畢業(yè)項(xiàng)目實(shí)戰(zhàn)?

??文末獲取項(xiàng)目聯(lián)系??

基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析

2019—2020 學(xué)年第二學(xué)期《分布式系統(tǒng)原理與技術(shù)》期末大作業(yè)評(píng)分表
評(píng)價(jià)內(nèi)容 評(píng)價(jià)標(biāo)準(zhǔn) 占比 得分
課程期末作業(yè) 文檔內(nèi)容規(guī)范 文章結(jié)構(gòu)嚴(yán)謹(jǐn),邏輯性強(qiáng),表達(dá)層次清晰,語(yǔ)言準(zhǔn)確,文字流暢,內(nèi)容翔實(shí)。 30
分布式集群搭建 Hadoop 集群搭建成功,可在瀏覽器查看其啟動(dòng)情況。MAVEN、IDEA 等軟件安裝與配置合理。 20
分布式計(jì)算 生成 Mapreduce 的 Jar 包,可在虛擬機(jī)的主節(jié)點(diǎn)或本地計(jì)算機(jī)上進(jìn)行分布式計(jì)算。 20
大數(shù)據(jù)采集 使用數(shù)據(jù)爬蟲(chóng)采集的數(shù)據(jù)至少 100 條 10
運(yùn)行的流暢性 整個(gè)分布式計(jì)算過(guò)程,運(yùn)行時(shí)沒(méi)有產(chǎn)生什么邏輯錯(cuò)誤或系統(tǒng)錯(cuò)誤。 10
格式 符合各項(xiàng)格式規(guī)范要求,且達(dá)到規(guī)定篇幅要求。 10
總分
教師評(píng)語(yǔ) 教師簽名:
2020 年 6 月 日

目 錄

1 分布式集群搭建 1

1.1 Hadoop 集群搭建與配置 1

1.1.1 Hadoop 簡(jiǎn)介 1

1.1.2 Hadoop 集群搭建 2

1.2 Maven 安裝與配置 11

1.2.1 Maven 簡(jiǎn)介 11

1.2.2 Maven 工程的創(chuàng)建 12

1.3 windows 搭建 hadoop 開(kāi)發(fā)環(huán)境 15

1.3.1 在 windows 上搭建 hadoop 開(kāi)發(fā)環(huán)境的原因 15

1.3.2 windows 搭建 hadoop 開(kāi)發(fā)環(huán)境 16

2 2019 年 11 月至 2020 年 2 月寧波天氣數(shù)據(jù)準(zhǔn)備 18

2.1 數(shù)據(jù)選取 18

2.2 網(wǎng)頁(yè)結(jié)構(gòu)分析 18

2.3 爬取數(shù)據(jù) 20

3 2019 年 11 月至 2020 年 2 月寧波天氣數(shù)據(jù)分析 21

3.1 詞頻統(tǒng)計(jì) 21

3.1.1 最高溫度分析 23

3.1.2 最低溫度分析 24

3.1.3 天氣分析 25

3.1.4 風(fēng)向分析 25

3.2 排序 26

3.2.1 最高溫度分析 29

3.2.2 最低溫度分析 29

3.3 總結(jié) 30

4 附錄 30

1 分布式集群搭建

1.1Hadoop集群搭建與配置

1.1.1Hadoop簡(jiǎn)介

Hadoop 是一個(gè)由 Apache 基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。它的目的是從單一的服務(wù)器擴(kuò)展到成千上萬(wàn)的機(jī)器,將集群部署在多臺(tái)機(jī)器,每個(gè)機(jī)器提供本地計(jì)算和存儲(chǔ)。Hadoop 框架最核心的設(shè)計(jì)是 HDFS 和 MapReduce。

Hadoop 為在多個(gè)節(jié)點(diǎn)集群上處理數(shù)據(jù)提供了有效的框架,可以在多臺(tái)機(jī)器上運(yùn)行,提供數(shù)據(jù)的并行處理。Hadoop 可以處理海量數(shù)據(jù)量;可以處理繁多的數(shù)據(jù)類型,包括文本、網(wǎng)頁(yè)、語(yǔ)音、圖片、視頻等;可以進(jìn)行數(shù)據(jù)分析,提取有價(jià)值信息;處理速度快、時(shí)效高。Hadoop 有開(kāi)源、分布式處理、可靠性和高容錯(cuò)性、可擴(kuò)展性、費(fèi)用低、數(shù)據(jù)本地化、傳統(tǒng)數(shù)據(jù)處理系統(tǒng)等特點(diǎn)。

Hadoop 的核心組件有:Common、HDFS、MapReduce 等。其中,HDFS 為分布式文件系統(tǒng),是 Hadoop 的主要存儲(chǔ)系統(tǒng),由主節(jié)點(diǎn) Namenode 和從節(jié)點(diǎn) Datanode 組成;MapReduce 是一種編程模型,主要用于海量數(shù)據(jù)的

圖 1.1 Hadoop 生態(tài)系統(tǒng)

1.1.2Hadoop集群搭建

(1) 準(zhǔn)備工作

  1. 安裝包

? CentOS-6.10

? Java

? Hadoop

圖 1.2 CentOS-6.10

圖 1.3 Java 安裝包

圖 1.4 Hadoop 安裝包

  1. 軟件

?

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

Vmware 15

圖 1.5 Vmware 15 界面

Vmware 用于虛擬機(jī)的安裝和運(yùn)行等操作。

? Xshell

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.6 Xshell 界面

Xshell 是 Windows 的 SSH 客戶端,可以跟虛擬機(jī)進(jìn)行遠(yuǎn)程連接。

?

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

WinSCP

圖 1.7 WinSCP 界面

WinSCP 用于傳輸 Windows 和虛擬機(jī)上的文件。

? Notepad++

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.8 Notepad++界面Notepad++用于修改虛擬中的文件。

(2) 新建虛擬機(jī)

在已經(jīng)安裝好的 Vmware 中新建虛擬機(jī),安裝 CentOS-6.10。

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.9 新建虛擬機(jī)

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.10 虛擬機(jī)安裝完成界面

(3) 建立主節(jié)點(diǎn)

  1. 以 root 用戶登錄 namenode,更改 namenode 的主機(jī)名

圖 1.11 更改 namenode 的主機(jī)名

  1. 關(guān)閉防火墻
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.12 關(guān)閉防火墻

  1. 關(guān)閉主機(jī)防火墻

圖 1.13 關(guān)閉主機(jī)防火墻

  1. 查看主機(jī)和虛擬機(jī)的 IP 地址
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.14 虛擬機(jī) IP 地址

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.15 VMnet8 在主機(jī)上產(chǎn)生的 IP 地址

  1. 測(cè)試主機(jī)和虛擬機(jī)網(wǎng)絡(luò)的連通性
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.16 主機(jī)連通虛擬網(wǎng)

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.17 虛擬網(wǎng)連通主機(jī)

  1. SSH 連接
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

打開(kāi) Xshell,新建 Session,選擇 SSH 協(xié)議。連接成功后,可在主機(jī)中控制虛擬機(jī)。

圖 1.18 SSH 連接

  1. SFTP 連接
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

打開(kāi) WinSCP,文件協(xié)議選擇 SFTP。連接成功后,可以實(shí)現(xiàn)主機(jī)與虛擬機(jī)的文件互傳。

圖 1.19 WinSCP 連接

圖 1.20 傳輸 Hadoop 和 JDK 安裝包

(4) 建立從節(jié)點(diǎn)

新建虛擬機(jī) datanode1,重復(fù)建立主節(jié)點(diǎn)的 1-5 步后,關(guān)閉虛擬機(jī)。對(duì) datanode1 進(jìn)行完整克隆,并將克隆虛擬機(jī)名稱改為 namenode2。

圖 1.21 克隆虛擬機(jī)

完成克隆后,使用 Xshell 建立兩臺(tái)新建虛擬機(jī)的連接,并建立免密 SSH 互訪。

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.22 namenode 測(cè)試連通性

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.23 datanode1 測(cè)試連通性

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.24 datanode2 測(cè)試連通性

(5) 安裝 Hadoop

  1. 安裝 JDK

將之前通過(guò) WinSCP 傳入 namenode 的 JDK 壓縮包解壓到 opt 目錄中,并修改文件名為 jdk。

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.25 JDK 壓縮包解壓至 opt 文件夾中

配置 JDK 環(huán)境,編輯/etc/profile 文件,并加載使其立即生效。

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.26 配置 JDK 環(huán)境變量

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.27 測(cè)試 JDK 是否正常工作

  1. 安裝 Hadoop

? 在 hadoop-env.sh 中配置 java 環(huán)境

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.28 hadoop-env.sh 中配置 java 環(huán)境

? 在 yarn-env.sh 中配置 java 環(huán)境

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.29 yarn-env.sh 中配置 java 環(huán)境

? 配置 slave 節(jié)點(diǎn)

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.30 slave 節(jié)點(diǎn)

? 使用 Notepad++軟件配置 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

文件

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.31 namenode 文件修改

(6) 建立分布式集群

  1. 從節(jié)點(diǎn)上安裝 JDK 和 Hadoop

  2. 啟動(dòng) Hadoop

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

輸入start-all.sh 命令啟動(dòng)hadoop 的各個(gè)監(jiān)護(hù)進(jìn)程;輸入stop-all.sh 可以關(guān)閉hadoop 的各個(gè)監(jiān)護(hù)進(jìn)程。輸入 jps 命令查看 hadoop 是否配置和啟動(dòng)成功。

圖 1.32 查看 namenode、datanode1、datanode2 的 hadoop 配置和啟動(dòng)狀態(tài)

  1. 登錄查看
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.33 hadoop 啟動(dòng)成功界面可以用本地瀏覽器打開(kāi) 50070,則代表 hadoop 安裝成功。

1.2Maven安裝與配置

1.2.1Maven簡(jiǎn)介

Maven 是用于項(xiàng)目管理和構(gòu)建的工具,它可以對(duì)項(xiàng)目進(jìn)行快速簡(jiǎn)單的構(gòu)建。因?yàn)槭褂肐DEA 或 Eclips 對(duì)項(xiàng)目進(jìn)行構(gòu)建,步驟比較零散,不好操作。為了讓項(xiàng)目管理和構(gòu)建更加簡(jiǎn)便,本文使用 Maven 對(duì)項(xiàng)目進(jìn)行管理和構(gòu)建。在 Maven 中,Ant 是專門的項(xiàng)目構(gòu)建工具,配置需要明確源碼包、class 文件和資源文件的位置。

1.2.2Maven工程的創(chuàng)建

(1) 下載 Maven(本文選擇 Maven-3.3.3 版本)

圖 1.34 Maven 目錄

(2) 配置 Maven 的環(huán)境變量

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.35 Maven 環(huán)境變量的配置

(3) 啟動(dòng)并查看 Maven

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.36 cmd 中查看 Maven 是否安裝成功

(4) 下載 IntelliJ IDEA,并在 IDEA 中安裝 Maven

圖 1.34 IntelliJ IDEA 界面

  1. 在“設(shè)置”的 Maven 目錄下設(shè)置 Maven home 的路徑

圖 1.35 設(shè)置 maven home 的路徑

  1. 配置 Settings.xml 文件的本地倉(cāng)庫(kù)和鏡像
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.36 Settings.xml 鏡像配置

(5) 新建 Maven 工程

  1. 新建 Maven 項(xiàng)目
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.37 新建 Maven 項(xiàng)目

  1. 導(dǎo)入第三方庫(kù)
【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.38 在 pom.xml 文件中導(dǎo)入第三方庫(kù)

  1. 自動(dòng)下載 jar 包

jar 包下載成功后,Maven 工程即可使用。

1.3windows搭建hadoop開(kāi)發(fā)環(huán)境

1.3.1在windows上搭建hadoop開(kāi)發(fā)環(huán)境的原因

上文中已經(jīng)創(chuàng)建好了 Maven 工程,本文在使用分布式計(jì)算框架 MapReduce 編程時(shí),需要將 Java 工程打包,提交到 Yarn 上才可以在 hadoop 虛擬環(huán)境中運(yùn)行。當(dāng) MapReduce 修改之后,Java 工程需要構(gòu)建、打包,再次提交到 Yarn 上運(yùn)行,步驟比較繁瑣。

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.39 MapReduce 作業(yè)運(yùn)行機(jī)制

因此為了簡(jiǎn)化這個(gè)過(guò)程,需要在 windows 上搭建 hadoop 開(kāi)發(fā)環(huán)境,使程序可以直接在本地運(yùn)行。

1.3.2windows搭建hadoop開(kāi)發(fā)環(huán)境

(1) 下載 Hadoop

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.40 windows 上下載 hadoop-2.7.1 壓縮包并解壓

(2) 下載 winutils

圖 1.41 windows 上下載 winutils 對(duì)應(yīng)的 hadoop-2.7.1 版本

將 winutils 中的 winutils.exe 和 hadoop.dll 復(fù)制到 hadoop-2.7.1\bin 目錄下:

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.42 添加文件

(3) 配置環(huán)境變量

在 windows 中配置 HADOOP_HOME,完成 hadoop 開(kāi)發(fā)環(huán)境在 windows 上的搭建。

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.43 Hadoop 環(huán)境變量配置

(4) 查看 Hadoop 是否安裝成功

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 1.44 Hadoop 開(kāi)發(fā)環(huán)境安裝成功

2 2019 年 11 月至 2020 年 2 月寧波天氣數(shù)據(jù)準(zhǔn)備

2.1數(shù)據(jù)選取

由于自 2020 年 11 月以來(lái),寧波氣溫時(shí)高時(shí)低。因此本文選取 2019 年 11 月-2020 年 2 月

的天氣數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析,再與 2020 年 11 月-2021 年 1 月的天氣數(shù)據(jù)進(jìn)行比較,得出最終的數(shù)據(jù)分析。

2.2網(wǎng)頁(yè)結(jié)構(gòu)分析

本文使用的數(shù)據(jù)來(lái)自天氣+(http://lishi.tianqi.com),其中寧波 2019 年 11 月-2020 年 2 月的天氣鏈接如下表所示:

表 2.1 寧波 2019 年 11 月-2020 年 2 月天氣數(shù)據(jù)鏈接

時(shí)間 鏈接
2019 年 11 月 http://lishi.tianqi.com/ningbo/201911.html
2019 年 12 月 http://lishi.tianqi.com/ningbo/201912.html
2020 年 1 月 http://lishi.tianqi.com/ningbo/202001.html
2020 年 2 月 http://lishi.tianqi.com/ningbo/202002.html

為準(zhǔn)確爬取天氣網(wǎng)上寧波 2019 年 11 月-2020 年 2 月的天氣數(shù)據(jù),需要先對(duì)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行

分析。本文先打開(kāi) 2019 年 11 月的天氣頁(yè)面,如下圖所示:

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

圖 2.1 2019 年 11 月寧波天氣頁(yè)面

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

根據(jù)網(wǎng)頁(yè),本文需要爬取的數(shù)據(jù)為以“日期、最高氣溫、最低氣溫、天氣、風(fēng)向”為表頭的整張表。為的到這一部分的網(wǎng)頁(yè)結(jié)構(gòu),本文通過(guò)瀏覽器打開(kāi)“開(kāi)發(fā)者調(diào)試工具(F12)”,通過(guò) Elements 獲取該表的結(jié)構(gòu)如下所示:

圖 2.2 2019 年 11 月寧波天氣主體表格網(wǎng)頁(yè)結(jié)構(gòu)根據(jù)該網(wǎng)頁(yè)信息,可以獲取本文需要提取數(shù)據(jù)的大體結(jié)構(gòu):

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃
圖 2.3 網(wǎng)頁(yè)天氣歷史數(shù)據(jù)大體結(jié)構(gòu)

2.3爬取數(shù)據(jù)

通過(guò) 2.2,本文對(duì) 2019 年 11 月數(shù)據(jù)所在位置的網(wǎng)頁(yè)進(jìn)行了大體的結(jié)構(gòu)分析,再通過(guò)查看

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

2019 年 12 月-2020 年 2 月的數(shù)據(jù),發(fā)現(xiàn)網(wǎng)頁(yè)結(jié)構(gòu)并沒(méi)有改變,主體都是一致的。因此,本文使用 python 先對(duì) 2019 年 11 月的天氣數(shù)據(jù)進(jìn)行爬取,代碼如下所示(具體代碼放在附錄中):

圖 2.4 2019 年 11 月天氣數(shù)據(jù)爬取代碼

【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五),# 課設(shè)&畢設(shè),大數(shù)據(jù),hadoop,數(shù)據(jù)分析,原力計(jì)劃

爬取好的數(shù)據(jù)放入 weather.csv 文件中,接下來(lái)對(duì) 2019 年 12 月-2020 年 2 月的數(shù)據(jù)進(jìn)行爬取,也加入至 weather.csv 文件中,代碼如下所示:

圖 2.5 2019 年 12 月-2020 年 2 月天氣數(shù)據(jù)爬取代碼

最終共得到 119 條數(shù)據(jù)。

3 2019 年 11 月至 2020 年 2 月寧波天氣數(shù)據(jù)分析

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-740447.html

4 附錄

到了這里,關(guān)于【大數(shù)據(jù)實(shí)訓(xùn)】基于Hadoop的2019年11月至2020年2月寧波天氣數(shù)據(jù)分析(五)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【大數(shù)據(jù)實(shí)訓(xùn)】基于趕集網(wǎng)租房信息的數(shù)據(jù)分析與可視化(七)

    【大數(shù)據(jù)實(shí)訓(xùn)】基于趕集網(wǎng)租房信息的數(shù)據(jù)分析與可視化(七)

    溫馨提示:文末有 CSDN 平臺(tái)官方提供的博主 的聯(lián)系方式,有償幫忙部署 一、實(shí)驗(yàn)環(huán)境 (1)Linux: Ubuntu 16.04 (2)Python: 3.6 (3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3 (6)可視化工具:Echarts (7)開(kāi)發(fā)工具:Visual Studio Code 二、小組成員及分工 (1)成員:林xx,x

    2024年02月03日
    瀏覽(31)
  • 【大數(shù)據(jù)實(shí)訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書(shū)信息的數(shù)據(jù)分析與可視化(八)

    【大數(shù)據(jù)實(shí)訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書(shū)信息的數(shù)據(jù)分析與可視化(八)

    溫馨提示:文末有 CSDN 平臺(tái)官方提供的博主 的聯(lián)系方式,有償幫忙部署 一、實(shí)驗(yàn)環(huán)境 (1)Linux: Ubuntu 16.04 (2)Python: 3.5 (3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3 (6)可視化工具:Echarts (7)開(kāi)發(fā)工具:Visual Studio Code 二、小組成員及分工 (1)成員:林海瀅,

    2024年02月04日
    瀏覽(27)
  • 大數(shù)據(jù)實(shí)訓(xùn)

    大數(shù)據(jù)實(shí)訓(xùn)

    1、Hadoop集群框架搭建(學(xué)過(guò),但是沒(méi)有現(xiàn)成的) 2、python(機(jī)器學(xué)習(xí)) 3、Spark(沒(méi)有) 4、Flume(沒(méi)有) 5、Sqoop(沒(méi)有接觸) 6、編程語(yǔ)言: SpringBoot(有)+echarts(數(shù)據(jù)可視化框架) 1.1?百度百科:大數(shù)據(jù),短期無(wú)法運(yùn)用常規(guī)一些手段去及時(shí)處理海量數(shù)據(jù),需要使用新型的技術(shù)

    2024年02月02日
    瀏覽(27)
  • 泰迪大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)產(chǎn)品介紹

    泰迪大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)產(chǎn)品介紹

    ? ? ? 大數(shù)據(jù)產(chǎn)品包括: 大數(shù)據(jù)實(shí)訓(xùn)管理平臺(tái)、大數(shù)據(jù)開(kāi)發(fā)實(shí)訓(xùn)平臺(tái)、大數(shù)據(jù)編程實(shí)訓(xùn)平臺(tái) 等 ? ? ?大數(shù)據(jù)實(shí)訓(xùn)管理平臺(tái) ? ? ?泰迪大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)從課程管理、資源管理、實(shí)訓(xùn)管理等方面出發(fā),主要解決現(xiàn)有實(shí)驗(yàn)室無(wú)法滿足教學(xué)需求、傳統(tǒng)教學(xué)流程和工具低效耗時(shí)和內(nèi)部

    2024年02月11日
    瀏覽(26)
  • 大數(shù)據(jù)實(shí)驗(yàn)三-HBase編程實(shí)踐

    大數(shù)據(jù)實(shí)驗(yàn)三-HBase編程實(shí)踐

    目錄 一.實(shí)驗(yàn)內(nèi)容 二.實(shí)驗(yàn)?zāi)康?三.實(shí)驗(yàn)過(guò)程截圖及說(shuō)明 1、安裝HBase 2、配置偽分布式模式: 3、使用hbase的shell命令來(lái)操作表: 4、使用hbase提供的javaAPI來(lái)編程實(shí)現(xiàn)類似操作: 5、實(shí)驗(yàn)總結(jié)及心得體會(huì) 6、完整報(bào)告在文章開(kāi)頭,掛載。 HBase編程實(shí)踐: 1)在Hadoop基礎(chǔ)上安裝H

    2024年04月12日
    瀏覽(34)
  • 【大數(shù)據(jù)實(shí)驗(yàn)五】 MapReduce初級(jí)編程實(shí)踐

    【大數(shù)據(jù)實(shí)驗(yàn)五】 MapReduce初級(jí)編程實(shí)踐

    1實(shí)驗(yàn)?zāi)康?1.通過(guò)實(shí)驗(yàn)掌握基本的MapReduce編程方法; 2.掌握用MapReduce解決一些常見(jiàn)的數(shù)據(jù)處理問(wèn)題,包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù)挖掘等。 2實(shí)驗(yàn)平臺(tái) 已經(jīng)配置完成的Hadoop偽分布式環(huán)境。 (1)操作系統(tǒng):Linux(Ubuntu18.04) (2)Hadoop版本:3.1.3 3實(shí)驗(yàn)內(nèi)容和要求 1.編程實(shí)現(xiàn)文件

    2024年02月03日
    瀏覽(156)
  • 云計(jì)算與大數(shù)據(jù)實(shí)驗(yàn)四 HDFS編程

    云計(jì)算與大數(shù)據(jù)實(shí)驗(yàn)四 HDFS編程

    一、實(shí)驗(yàn)?zāi)康?深入理解 HDFS 工作原理和編程思想 使用 HDFS 的 Java 接口進(jìn)行文件的讀寫(xiě) 使用 HDFS 的 Java 接口進(jìn)行之上傳文件 使用 HDFS 的 Java 接口進(jìn)行之刪除文件 二、實(shí)驗(yàn)內(nèi)容 HDFS 的 Java API 接口進(jìn)行文件的讀寫(xiě)操作 HDFS 的 Java API 接口進(jìn)行之上傳文件操作 HDFS 的 Java API 接口進(jìn)

    2024年02月08日
    瀏覽(17)
  • 大數(shù)據(jù)實(shí)驗(yàn) 實(shí)驗(yàn)二:熟悉HDFS常用操作

    大數(shù)據(jù)實(shí)驗(yàn) 實(shí)驗(yàn)二:熟悉HDFS常用操作

    附件中有word版本的實(shí)驗(yàn)報(bào)告 理解HDFS在Hadoop體系結(jié)構(gòu)中的角色。 熟練使用HDFS操作常用的Shell命令。 熟悉HDFS操作常用的Java API。 Oracle VM VirtualBox虛擬機(jī) 系統(tǒng)版本centos7 JDK1.8版本 Hadoop-3.1.3 Windows11 Java IDE:IDEA 1.向HDFS中上傳任意文本文件,如果指定的文件在HDFS中已經(jīng)存在,由用戶

    2024年04月12日
    瀏覽(27)
  • 云計(jì)算與大數(shù)據(jù)實(shí)驗(yàn)五 MapReduce編程

    云計(jì)算與大數(shù)據(jù)實(shí)驗(yàn)五 MapReduce編程

    一、實(shí)驗(yàn)?zāi)康?了解Mapper類,Reducer類和Job類 掌握什么是MapReduce及使用MapReduce進(jìn)行運(yùn)算 掌握挖掘父子輩關(guān)系,給出祖孫輩關(guān)系的表格 二、實(shí)驗(yàn)內(nèi)容 使用Map/Reduce計(jì)算班級(jí)中年齡最大的學(xué)生 使用Map/Reduce編程實(shí)現(xiàn)文件合并和去重操作 對(duì)給定的表格進(jìn)行信息挖掘 編寫(xiě)實(shí)現(xiàn)日期操作

    2023年04月24日
    瀏覽(39)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包