国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

這篇具有很好參考價(jià)值的文章主要介紹了基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

目錄

前言

一、使用的工具

二、操作步驟

1.數(shù)據(jù)來(lái)源

2.數(shù)據(jù)內(nèi)容分析

?3.加載數(shù)據(jù)

?4.數(shù)據(jù)清洗ETL

?5.數(shù)據(jù)分析

8.數(shù)據(jù)可視化

前言

本文章是使用基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)Hive針對(duì)陌陌聊天軟件進(jìn)行數(shù)據(jù)分析并可視化。

一、使用的工具

  • Vmware Workstation Pro
  • Centos 7 64bit
  • FinalShell 3.9.2.2
  • DataGrip 2020.1 x64
  • Tableau 2021.1

二、操作步驟

1.數(shù)據(jù)來(lái)源

來(lái)自聊天系統(tǒng)中導(dǎo)出的2021年11月01日一天24小時(shí)的用戶(hù)聊天數(shù)據(jù),以TSV文本形式存儲(chǔ)

數(shù)據(jù)獲取鏈接:https://pan.baidu.com/s/1dq1YJE_drBtJBsjgXDqpsg?
提取碼:wgls

2.數(shù)據(jù)內(nèi)容分析

①數(shù)據(jù)大?。簝蓚€(gè)文件data1.tsv和data2.tsv,共14萬(wàn)條數(shù)據(jù)

②列分割符:'\t'

③字段名及數(shù)據(jù)類(lèi)型(這里為了方便統(tǒng)一,一致使用varchar數(shù)據(jù)類(lèi)型)

消息發(fā)送時(shí)間:varchar
發(fā)件人昵稱(chēng):varchar
發(fā)件人賬號(hào):varchar
發(fā)件人性別:varchar
發(fā)件人IP:varchar
發(fā)件人系統(tǒng):varchar
發(fā)件人手機(jī)型號(hào):varchar
發(fā)件人網(wǎng)絡(luò)類(lèi)型:varchar
發(fā)件人GPS:varchar
收件人昵稱(chēng):varchar
收件人IP:varchar
收件人賬號(hào):varchar
收件人系統(tǒng):varchar
收件人手機(jī)型號(hào):varchar
收件人性別:varchar
消息類(lèi)型:varchar
相隔距離:varchar
消息內(nèi)容:varchar

?3.加載數(shù)據(jù)

?①創(chuàng)建數(shù)據(jù)庫(kù)momo(這里使用DataGrip)

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

?②創(chuàng)建表momo_data

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

?③將兩份數(shù)據(jù)data1.tsv和data2.tsv上傳到HS2服務(wù)所在的本地文件系統(tǒng)(這里使用FinalShell,我的是在虛擬機(jī)node1的/root/hivedata/下)

?基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

④加載data1.tsv和data2.tsv數(shù)據(jù)到momo_data表上

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

?⑤驗(yàn)證數(shù)據(jù)加載是否成功

查看momo_data表前10行數(shù)據(jù)是否正常

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

查看momo_data表的總行數(shù)(這里可能會(huì)耗費(fèi)一點(diǎn)時(shí)間)

?基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

?4.數(shù)據(jù)清洗ETL

①檢查發(fā)現(xiàn)發(fā)送人GPS一列存在數(shù)據(jù)缺失

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

②需要將消息發(fā)送時(shí)間進(jìn)行日期和小時(shí)的拆分

③由于tableau需要經(jīng)度緯度進(jìn)行分析,需要對(duì)發(fā)送人GPS和接收人GPS進(jìn)行拆分

④將數(shù)據(jù)清洗后的數(shù)據(jù)保存到新表中?

創(chuàng)建新表momo_etl_data并驗(yàn)證數(shù)據(jù)是否清洗成功

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

?5.數(shù)據(jù)分析

?①統(tǒng)計(jì)今日(2021-11-01)消息量

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

②統(tǒng)計(jì)每小時(shí)消息量、發(fā)送和接收用戶(hù)數(shù)

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

③統(tǒng)計(jì)今日各地區(qū)發(fā)送消息量

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

④統(tǒng)計(jì)發(fā)送消息最多次數(shù)的Top10用戶(hù)

?基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

⑤統(tǒng)計(jì)接收消息最多次數(shù)的Top10用戶(hù)

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

⑥統(tǒng)計(jì)發(fā)送人手機(jī)型號(hào)分布情況

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

⑦統(tǒng)計(jì)發(fā)送人操作系統(tǒng)分布情況

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

8.數(shù)據(jù)可視化

這里使用Tableau對(duì)以上數(shù)據(jù)表進(jìn)行可視化,具體過(guò)程便不多贅述

基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析

總結(jié)

以上就是今天要講的內(nèi)容,本文僅僅簡(jiǎn)單介紹了數(shù)據(jù)分析的業(yè)務(wù)案例,具體的環(huán)境配置沒(méi)有在這里說(shuō)明,望大家自行配置。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-460566.html

到了這里,關(guān)于基于Hadoop的數(shù)據(jù)分析案例-陌陌聊天軟件數(shù)據(jù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 基于hadoop豆瓣電影數(shù)據(jù)分析

    基于hadoop豆瓣電影數(shù)據(jù)分析

    《 Hadoop大數(shù)據(jù)技術(shù) 》測(cè)試 試題 題 ???目: ?????????基于hadoop豆瓣電影數(shù)據(jù)分析 ???????? ??? ?? 學(xué)生姓名: ??????? ? ? ? ? ? ? ? ? ? ? ? 學(xué) ???號(hào): ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 學(xué) ???院: ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 專(zhuān)業(yè)班級(jí): ? ? ? ? ?

    2024年02月02日
    瀏覽(30)
  • 基于Hadoop的豆瓣影視數(shù)據(jù)分析

    基于Hadoop的豆瓣影視數(shù)據(jù)分析

    ? ? ? ?網(wǎng)絡(luò)電影平臺(tái)擁有大量的影片庫(kù)資源,每天數(shù)千萬(wàn)用戶(hù)活躍在平臺(tái)上,擁有數(shù)億人次的用戶(hù)點(diǎn)擊試看、收藏等行為。在影視作品方面,更是擁有數(shù)萬(wàn)的影視作品形成作品庫(kù),如此龐大的數(shù)據(jù)資源庫(kù)對(duì)于電影及電視劇流行趨勢(shì)的把握有著極為重要的指引作用。通過(guò)設(shè)計(jì)

    2024年02月01日
    瀏覽(26)
  • 大數(shù)據(jù)分析基于Hadoop全國(guó)天氣可視化分析系統(tǒng)

    大數(shù)據(jù)分析基于Hadoop全國(guó)天氣可視化分析系統(tǒng)

    收藏關(guān)注不迷路,源碼文章末 ??全國(guó)天氣可視化分析系統(tǒng)主要功能模塊包括系統(tǒng)首頁(yè)、輪播圖、公告消息、資源管理(天氣資訊、資訊分類(lèi))系統(tǒng)用戶(hù)(管理員、普通用戶(hù))模塊管理(天氣信息、降水?dāng)?shù)據(jù)),采取面對(duì)對(duì)象的開(kāi)發(fā)模式進(jìn)行軟件的開(kāi)發(fā)和硬體的架設(shè),能很好

    2024年01月22日
    瀏覽(20)
  • 基于hadoop的氣象數(shù)據(jù)可視化分析

    基于hadoop的氣象數(shù)據(jù)可視化分析

    目 錄 摘 要 I Abstract III 1緒論 1 1.1選題背景及意義 1 1.2研究現(xiàn)狀及趨勢(shì) 1 1.3研究主要內(nèi)容 2 2相關(guān)技術(shù)簡(jiǎn)介 3 2.1開(kāi)發(fā)工具 3 2.1.1 JDK1.7 3 2.1.2 eclipse luna 3 2.1.3 Hadoop 2.7.2 3 2.1.4 hbase 1.1.3 3 2.1.5 hive 1.2.1 3 2.1.6 zookeeper 3.4.8 4 2.1.7 mysql 5.5 4 2.1.8 swing 4 2.1.9 VMware Workstation 12 Pro 4 2.1.10其他輔助

    2024年02月02日
    瀏覽(55)
  • 基于Hadoop的電商數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    基于Hadoop的電商數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) Design and Implementation of E-commerce Data Analysis System based on Hadoop 目錄 2 摘要 3 3 第一章 緒論 4 1.1 研究背景 4 1.2 研究目的與意義 5 1.3 現(xiàn)有研究綜述 6 第二章 Hadoop技術(shù)介紹 8 2.1 Hadoop概述 8 2.2 Hadoop生態(tài)系統(tǒng) 9 2.3 Hadoop數(shù)據(jù)處理模型 10 第

    2024年02月04日
    瀏覽(19)
  • 基于Hadoop的京東商城數(shù)據(jù)分析的研究與實(shí)現(xiàn)

    題目 基于 Hadoop 的京東商城數(shù)據(jù)分析的研究與實(shí)現(xiàn) 1. 課題研究立項(xiàng)依據(jù) (1)課題來(lái)源 隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,企業(yè)商務(wù)模式也發(fā)生了翻天覆地的變化,很多傳統(tǒng)企業(yè)都把目光投向了互聯(lián)網(wǎng)電子商務(wù)。近年來(lái),越來(lái)越多的電子商務(wù)平臺(tái)的誕生,引起了電子商務(wù)業(yè)內(nèi)的廣泛

    2024年02月06日
    瀏覽(26)
  • 大數(shù)據(jù)設(shè)計(jì)基于Hadoop全國(guó)天氣可視化分析系統(tǒng)

    大數(shù)據(jù)設(shè)計(jì)基于Hadoop全國(guó)天氣可視化分析系統(tǒng)

    ??全國(guó)天氣可視化分析系統(tǒng)主要功能模塊包括系統(tǒng)首頁(yè)、輪播圖、公告消息、資源管理(天氣資訊、資訊分類(lèi))系統(tǒng)用戶(hù)(管理員、普通用戶(hù))模塊管理(天氣信息、降水?dāng)?shù)據(jù)),采取面對(duì)對(duì)象的開(kāi)發(fā)模式進(jìn)行軟件的開(kāi)發(fā)和硬體的架設(shè),能很好的滿(mǎn)足實(shí)際使用的需求,完善

    2024年04月14日
    瀏覽(24)
  • 數(shù)據(jù)分析案例-基于PCA主成分分析法對(duì)葡萄酒數(shù)據(jù)進(jìn)行分析

    數(shù)據(jù)分析案例-基于PCA主成分分析法對(duì)葡萄酒數(shù)據(jù)進(jìn)行分析

    ???♂? 個(gè)人主頁(yè):@艾派森的個(gè)人主頁(yè) ???作者簡(jiǎn)介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話, 歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ 目錄 1.項(xiàng)目背景 2.項(xiàng)目簡(jiǎn)介 2.1分析目標(biāo) 2.2數(shù)據(jù)集介紹 2.3技術(shù)工具 3.算法理論 4.實(shí)驗(yàn)過(guò)程

    2024年02月03日
    瀏覽(26)
  • Java大數(shù)據(jù)分析基于hadoop云旅游系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    Java大數(shù)據(jù)分析基于hadoop云旅游系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    云旅游系統(tǒng)主要功能模塊包括景點(diǎn)介紹、酒店信息、酒店民宿、特色餐飲、路線分享、云文物、景點(diǎn)排行、酒店排行、餐飲統(tǒng)計(jì)等,采取面對(duì)對(duì)象的開(kāi)發(fā)模式進(jìn)行軟件的開(kāi)發(fā)和硬體的架設(shè),能很好的滿(mǎn)足實(shí)際使用的需求,完善了對(duì)應(yīng)的軟體架設(shè)以及程序編碼的工作,系統(tǒng)采取

    2024年02月03日
    瀏覽(25)
  • 數(shù)據(jù)分析案例-基于亞馬遜智能產(chǎn)品評(píng)論的探索性數(shù)據(jù)分析

    數(shù)據(jù)分析案例-基于亞馬遜智能產(chǎn)品評(píng)論的探索性數(shù)據(jù)分析

    ???♂? 個(gè)人主頁(yè):@艾派森的個(gè)人主頁(yè) ???作者簡(jiǎn)介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話, 歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ 目錄 一、實(shí)驗(yàn)背景 1.1背景概述 1.2實(shí)驗(yàn)?zāi)康?二、數(shù)據(jù)描述 2.1數(shù)據(jù)來(lái)源 2.2變量介紹 三、實(shí)驗(yàn)

    2024年02月22日
    瀏覽(22)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包