目錄
前言
一、使用的工具
二、操作步驟
1.數(shù)據(jù)來(lái)源
2.數(shù)據(jù)內(nèi)容分析
?3.加載數(shù)據(jù)
?4.數(shù)據(jù)清洗ETL
?5.數(shù)據(jù)分析
8.數(shù)據(jù)可視化
前言
本文章是使用基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)Hive針對(duì)陌陌聊天軟件進(jìn)行數(shù)據(jù)分析并可視化。
一、使用的工具
- Vmware Workstation Pro
- Centos 7 64bit
- FinalShell 3.9.2.2
- DataGrip 2020.1 x64
- Tableau 2021.1
二、操作步驟
1.數(shù)據(jù)來(lái)源
來(lái)自聊天系統(tǒng)中導(dǎo)出的2021年11月01日一天24小時(shí)的用戶(hù)聊天數(shù)據(jù),以TSV文本形式存儲(chǔ)
數(shù)據(jù)獲取鏈接:https://pan.baidu.com/s/1dq1YJE_drBtJBsjgXDqpsg?
提取碼:wgls
2.數(shù)據(jù)內(nèi)容分析
①數(shù)據(jù)大?。簝蓚€(gè)文件data1.tsv和data2.tsv,共14萬(wàn)條數(shù)據(jù)
②列分割符:'\t'
③字段名及數(shù)據(jù)類(lèi)型(這里為了方便統(tǒng)一,一致使用varchar數(shù)據(jù)類(lèi)型)
消息發(fā)送時(shí)間:varchar
發(fā)件人昵稱(chēng):varchar
發(fā)件人賬號(hào):varchar
發(fā)件人性別:varchar
發(fā)件人IP:varchar
發(fā)件人系統(tǒng):varchar
發(fā)件人手機(jī)型號(hào):varchar
發(fā)件人網(wǎng)絡(luò)類(lèi)型:varchar
發(fā)件人GPS:varchar
收件人昵稱(chēng):varchar
收件人IP:varchar
收件人賬號(hào):varchar
收件人系統(tǒng):varchar
收件人手機(jī)型號(hào):varchar
收件人性別:varchar
消息類(lèi)型:varchar
相隔距離:varchar
消息內(nèi)容:varchar
?3.加載數(shù)據(jù)
?①創(chuàng)建數(shù)據(jù)庫(kù)momo(這里使用DataGrip)
?②創(chuàng)建表momo_data
?③將兩份數(shù)據(jù)data1.tsv和data2.tsv上傳到HS2服務(wù)所在的本地文件系統(tǒng)(這里使用FinalShell,我的是在虛擬機(jī)node1的/root/hivedata/下)
?
④加載data1.tsv和data2.tsv數(shù)據(jù)到momo_data表上
?⑤驗(yàn)證數(shù)據(jù)加載是否成功
查看momo_data表前10行數(shù)據(jù)是否正常
查看momo_data表的總行數(shù)(這里可能會(huì)耗費(fèi)一點(diǎn)時(shí)間)
?
?4.數(shù)據(jù)清洗ETL
①檢查發(fā)現(xiàn)發(fā)送人GPS一列存在數(shù)據(jù)缺失
②需要將消息發(fā)送時(shí)間進(jìn)行日期和小時(shí)的拆分
③由于tableau需要經(jīng)度緯度進(jìn)行分析,需要對(duì)發(fā)送人GPS和接收人GPS進(jìn)行拆分
④將數(shù)據(jù)清洗后的數(shù)據(jù)保存到新表中?
創(chuàng)建新表momo_etl_data并驗(yàn)證數(shù)據(jù)是否清洗成功
?5.數(shù)據(jù)分析
?①統(tǒng)計(jì)今日(2021-11-01)消息量
②統(tǒng)計(jì)每小時(shí)消息量、發(fā)送和接收用戶(hù)數(shù)
③統(tǒng)計(jì)今日各地區(qū)發(fā)送消息量
④統(tǒng)計(jì)發(fā)送消息最多次數(shù)的Top10用戶(hù)
?
⑤統(tǒng)計(jì)接收消息最多次數(shù)的Top10用戶(hù)
⑥統(tǒng)計(jì)發(fā)送人手機(jī)型號(hào)分布情況
⑦統(tǒng)計(jì)發(fā)送人操作系統(tǒng)分布情況
8.數(shù)據(jù)可視化
這里使用Tableau對(duì)以上數(shù)據(jù)表進(jìn)行可視化,具體過(guò)程便不多贅述
總結(jié)文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-460566.html
以上就是今天要講的內(nèi)容,本文僅僅簡(jiǎn)單介紹了數(shù)據(jù)分析的業(yè)務(wù)案例,具體的環(huán)境配置沒(méi)有在這里說(shuō)明,望大家自行配置。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-460566.html
到了這里,關(guān)于基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!