大數(shù)據(jù)項目實戰(zhàn)
第一章 項目概述
學(xué)習(xí)目標(biāo)
掌握項目需求和目標(biāo)
了解項目架構(gòu)設(shè)計和技術(shù)選型
了解項目環(huán)境和相關(guān)開發(fā)工具
理解項目開發(fā)流程
在人力資源管理領(lǐng)域,網(wǎng)絡(luò)招聘近年來早已憑借其范圍廣、信息量大、時效性強、流程簡單而效果顯著等優(yōu)勢,成為企業(yè)招聘的核心方式。隨著大數(shù)據(jù)漸漸融入人類社會生活的各個領(lǐng)域,如何使用大數(shù)據(jù)優(yōu)化企業(yè)招聘管理,提升企業(yè)招聘有效性,是值得深入探討的現(xiàn)實課題。文章通過一個招聘網(wǎng)站分析項目,完整演示如何使用大數(shù)據(jù)平臺對國內(nèi)大數(shù)據(jù)職位進行分析。
一、項目需求和目標(biāo)
本項目是以國內(nèi)某互聯(lián)網(wǎng)招聘網(wǎng)站全球范圍內(nèi)的大數(shù)據(jù)相關(guān)招聘信息作為基礎(chǔ)數(shù)據(jù),其招聘信息能較大程度地反映出市場對大數(shù)據(jù)相關(guān)職位的需求情況及能力要求,利用這些招聘信息數(shù)據(jù)通過大數(shù)據(jù)分析平臺重點分析以下幾點。
(1)分析大數(shù)據(jù)職位的區(qū)域分布情況。
(2)分析大數(shù)據(jù)職位薪資區(qū)間分布情況。
(3)分析大數(shù)據(jù)職位相關(guān)公司的福利情況。
(4)分析大數(shù)據(jù)職位相關(guān)技能要求情況。
通過本次項目的實踐,可以鍛煉以下方面的能力。
(1)掌握 Linux 操作系統(tǒng)的安裝和基本操作。
(2)掌握 Hadoop 完全分布式集群的安裝部署。
(3)掌握 HDFS Shell 基礎(chǔ)操作命令。
(4)掌握基于 Java 語言開發(fā) MapReduce程序的方法。
(5)掌握使用 Eclipse 開發(fā) Maven程序的方法。
(6)掌握使用 Eclipse 開發(fā) Maven 程序的方法。
(7)了解數(shù)據(jù)預(yù)處理的含義。
(8)了解 HTTP 相關(guān)概念。
(9)掌握 Sqoop 安裝及數(shù)據(jù)遷移的使用方法。
(10)掌握關(guān)系型數(shù)據(jù)庫 MySQL 的安裝及使用。
(11)掌握基于 SSM 框架進行網(wǎng)站開發(fā)的方法。
(12)掌握利用 ECharts 進行數(shù)據(jù)可視化開發(fā)的方法。
(13)熟悉數(shù)據(jù)分析系統(tǒng)的架構(gòu)。
(14)掌握數(shù)據(jù)分析系統(tǒng)的業(yè)務(wù)流程。
二、預(yù)備知識
(1)熟悉 Java 相面對象編程思想。
(2)熟悉大數(shù)據(jù)相關(guān)技術(shù),如 Hadoop Hive Sqoop 的基本理論概念及原理。
(3)掌握 HDFS 與 MapReduce 的 Java API 程序開發(fā)。
(4)熟悉 Linux 操作系統(tǒng) Shell 命令的使用。
(5)掌握 Hadoop Hive Sqoop 在 Linux 環(huán)境下的基本操作。
(6)熟悉關(guān)系型數(shù)據(jù)庫 MySQL 的原理,掌握 SQL 語句的編寫。
(7)了解網(wǎng)站前端開發(fā)相關(guān)技術(shù),例如 HTML JSP JQuery CSS 等。
(8)了解網(wǎng)站后端開發(fā)框架 Spring + Spring MVC + MyBatis 整合使用。
(9)熟悉 Eclipse 開發(fā)工具的應(yīng)用。
(10)熟悉 Maven 項目管理工具的使用。
三、項目架構(gòu)設(shè)計及技術(shù)選取
在大數(shù)據(jù)開發(fā)中,通常首要任務(wù)是明確分析目的,即想要從大量數(shù)據(jù)中得到什么樣的結(jié)果,并且進行展示說明。只有在明確了分析目的后,開發(fā)人員才能準(zhǔn)確地根據(jù)具體的需求去過濾數(shù)據(jù),并且通過大數(shù)據(jù)技術(shù)進行數(shù)據(jù)分析和處理,最終處理結(jié)果以圖表等可視化形式發(fā)展出來。本項目架構(gòu)設(shè)計如圖所示。
四、開發(fā)環(huán)境和開發(fā)工具介紹
系統(tǒng)環(huán)境:Win10、Win7、Linux(CentOs 6.7)
開發(fā)工具:Eclipse(jee-neon-3)、JDK(1.8)、Maven(3.3.9)、VMware Workstation(12)
集群環(huán)境:Hadoop(2.7.4)、Hive(1.2.1)、Sqoop(1.4.6)、MySQL(5.7.25)
Web環(huán)境:Tomcat(7.0.47)、Spring(4.2.4)、Spring MVC(4.2.4)、MyBatis(3.2.8)、ECharts(4.2.1)
五、項目開發(fā)流程
1、搭建大數(shù)據(jù)實驗環(huán)境
(1)Linux系統(tǒng)虛擬機的安裝與克隆
(2)配置虛擬機網(wǎng)絡(luò)與SSH服務(wù)
(3)搭建Hadoop集群
(4)安裝MySQL數(shù)據(jù)庫
(5)安裝Hive
(6)安裝Sqoop
2、編寫網(wǎng)絡(luò)爬蟲程序進行數(shù)據(jù)采集
(1)準(zhǔn)備爬蟲環(huán)境
(2)編寫爬蟲程序
(3)將爬取的數(shù)據(jù)存儲到HDFS
3、數(shù)據(jù)預(yù)處理
(1)分析預(yù)處理數(shù)據(jù)
(2)準(zhǔn)備預(yù)處理環(huán)境
(3)實現(xiàn)MapReduce預(yù)處理程序進行數(shù)據(jù)集成和數(shù)據(jù)轉(zhuǎn)換操作
(4)實現(xiàn)MapReduce預(yù)處理程序的兩種運行模式
4、數(shù)據(jù)分析
(1)構(gòu)建數(shù)據(jù)倉庫
(2)通過HiveQL進行職位區(qū)域分析
(3)通過HiveQL進行職位薪資分析
(4)通過HiveQL進行公司福利標(biāo)簽分析
(5)通過HiveQL進行技能標(biāo)簽分析
5、數(shù)據(jù)可視化
(1)構(gòu)建關(guān)系型數(shù)據(jù)庫
(2)通過Sqoop實現(xiàn)數(shù)據(jù)遷移
(3)創(chuàng)建Maven項目配置項目依賴
(4)編輯配置文件整合SSM框架
(5)完善項目組織框架
(6)編寫程序?qū)崿F(xiàn)薪資分布展示
(7)編寫程序?qū)崿F(xiàn)職位區(qū)域分布展示
(8)編寫程序?qū)崿F(xiàn)福利標(biāo)簽詞云圖
(9)編寫程序?qū)崿F(xiàn)技能標(biāo)簽詞云圖
(10)預(yù)覽平臺展示內(nèi)容文章來源:http://www.zghlxwxcb.cn/news/detail-787144.html
總結(jié)
本篇主要介紹了項目開發(fā)的基本情況,包括項目需求、項目目標(biāo)、項目預(yù)備知識、項目架構(gòu)設(shè)計、技術(shù)選取、開發(fā)環(huán)境、開發(fā)工具以及開發(fā)流程。通過本篇的學(xué)習(xí),可以明確項目需求、了解項目開發(fā)相關(guān)環(huán)境以及流程,后續(xù)將基于本次介紹的項目情況進行項目的開發(fā)。
文章來源地址http://www.zghlxwxcb.cn/news/detail-787144.html
到了這里,關(guān)于大數(shù)據(jù)項目實戰(zhàn)——基于某招聘網(wǎng)站進行數(shù)據(jù)采集及數(shù)據(jù)分析(一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!