国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

這篇具有很好參考價值的文章主要介紹了Hive數(shù)據(jù)分析實(shí)驗(yàn)報告。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

實(shí)驗(yàn)要求

1 完成本地數(shù)據(jù)user_log文件上傳至HDFS中

2 完成HDFS文件上傳至Hive中

用戶行為日志user_log.csv,日志中的字段定義如下:

  1. user_id | 買家id
  2. item_id | 商品id
  3. cat_id | 商品類別id
  4. merchant_id | 賣家id
  5. brand_id | 品牌id
  6. month | 交易時間:月
  7. day | 交易事件:日
  8. action | 行為,取值范圍{0,1,2,3},0表示點(diǎn)擊,1表示加入購物車,2表示購買,3表示關(guān)注商品
  9. age_range | 買家年齡分段:1表示年齡<18,2表示年齡在[18,24],3表示年齡在[25,29],4表示年齡在[30,34],5表示年齡在[35,39],6表示年齡在[40,49],7和8表示年齡>=50,0和NULL則表示未知
  10. gender | 性別:0表示女性,1表示男性,2和NULL表示未知
  11. province| 收貨地址省份

3 Hive操作

(1)查看user_log表數(shù)據(jù)結(jié)構(gòu)

(2)查看user_log表簡單數(shù)據(jù)結(jié)構(gòu)

(3)查看日志前10個交易日志的商品品牌

(4)查詢前20個交易日志中購買商品時的時間和商品的種類

(5)用聚合函數(shù)count()計算出表內(nèi)有多少條行數(shù)據(jù)

(6)在函數(shù)內(nèi)部加上distinct,查出user_id不重復(fù)的數(shù)據(jù)有多少條

(7)排除顧客刷單(查詢不重復(fù)的數(shù)據(jù))

(8)查詢雙11當(dāng)天有多少人購買了商品

(9)品牌2661,當(dāng)天購買此品牌商品的數(shù)量

(10)查詢多少用戶當(dāng)天點(diǎn)擊了2661品牌的該店

(11)查詢雙十一當(dāng)天男女購買商品比例

(12)查詢某一天在該網(wǎng)站購買商品超過5次的用戶id

(13)創(chuàng)建姓名縮寫表 其中字段大于4條,并使查詢插入,最后顯示姓名縮寫表格數(shù)據(jù)

IP地址規(guī)劃表

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

實(shí)驗(yàn)步驟

1 數(shù)據(jù)集預(yù)處理

  • 安裝unzip
yum install unzip
  • 創(chuàng)建數(shù)據(jù)存放文件夾
mkdir /usr/local/dbtaobao/dataset
  • 解壓數(shù)據(jù)集zip包
cp -r /mnt/hgfs/data_format.zip /usr/local/dbtaobao/dataset/
cd /usr/local/dbtaobao/dataset/
unzip data_format.zip
  • 查看user_log.csv前5行數(shù)據(jù)
head -5 user_log.csv
  • 刪除第一行
sed -i '1d' user_log.csv
  • 提取10000條user_log中日期為11月11日的數(shù)據(jù),并存放于small_user_log中

    • 創(chuàng)建腳本predeal.sh
infile=$1
outfile=$2
awk -F "," 'BEGIN{
                    id=0;
                }
                {
                    if($6=11 && $7=11){
                        id=id+1;
                        print $1","$2","$3","$4","$5","$6","$7","$8","$9","$10","$11","$12
                        if(id==10000){
                            exit
                        }
                    }
                }'  $infile > $outfile
    • 為predeal.h提權(quán)
chmod +x ./predeal.sh
    • 運(yùn)行腳本predeal.sh,查看輸出
./predeal ./user_log.csv ./small_user_log.csv

2 數(shù)據(jù)集上傳HDFS

  • 在hdfs中創(chuàng)建存放user_log的文件夾
start-all.sh
hdfs dfs -mkdir -p /dbtaobao/dataset/user_log
  • 向hdfs推送small_user_log.csv
hdfs dfs -put /usr/local/dbtaobao/dataset/small_user_log.csv /dbtaobao/dataset/user_log

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

  • 查看上傳成功的數(shù)據(jù)文件前10行
hdfs dfs -cat /dbtaobao/dataset/user_log/small_user_log.csv | head -10

3 從HDFS中導(dǎo)出數(shù)據(jù)集至HIVE數(shù)據(jù)庫

  • 創(chuàng)建HIVE數(shù)據(jù)庫dbtaobao
create database dbtaobao;
  • 創(chuàng)建user_log表
create external table dbtaobao.user_log(user_id int,item_id int,cat_id int,merchant_id int,brand_id int,month string,day string,action int,age_range int,gender int,province string) comment 'Welcome to Alex dblab, now create dbtaobao.user_log!' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile location '/dbtaobao/dataset/user_log';
  • 查看表user_log前十行數(shù)據(jù)
use dbtaobao;
select * from user_log limit 10;

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

4 Hive操作

(1)查看user_log表數(shù)據(jù)結(jié)構(gòu)
show create table user_log;
(2)查看user_log表簡單數(shù)據(jù)結(jié)構(gòu)
desc user_log;
(3)查看日志前10個交易日志的商品品牌
select brand_id from user_log limit 10;
(4)查詢前20個交易日志中購買商品時的時間商品的種類
select month,day,brand_id from user_log limit 20;
(5)用聚合函數(shù)count()計算出表內(nèi)有多少條行數(shù)據(jù)
select count(*) from user_log;

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 10000

(6)在函數(shù)內(nèi)部加上distinct,查出user_id不重復(fù)的數(shù)據(jù)有多少條
select count(distinct user_id) from user_log;

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 358

(7)排除顧客刷單(查詢不重復(fù)的數(shù)據(jù)
select count(distinct user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province) from user_log;

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 9944

(8)查詢雙11當(dāng)天有多少人購買了商品
select count(distinct user_id) from user_log where action='2';

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 358

(9)品牌2661,當(dāng)天購買此品牌商品的數(shù)量
select count(*) from user_log where brand_id='2661' and action='2';

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 3

(10)查詢多少用戶當(dāng)天點(diǎn)擊了2661品牌的該店
select count(distinct user_id) from user_log where brand_id='2661' and action='0';

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 1

(11)查詢雙十一當(dāng)天男女購買商品比例
select count(distinct user_id) from user_log where gender='0' and action='2';
select count(distinct user_id) from user_log where gender='1' and action='2';

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 238 (女)

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result : 214 (男)

男 女 比 例 = 214 / 238 = 89.916 % 男女比例 = 214 / 238 = 89.916\% =214/238=89.916%

(12)查詢某一天在該網(wǎng)站購買商品超過5次的用戶id
select user_id from user_log where action='2' group by user_id having count(action='2')>5;

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

Result :

user_id
1321
6058
16464
18378
23786
26516
32569
35260
41494
47958
55440
61703
69247
70816
71744
84400
106446
106629
153790
161778
171909
173427
179194
186568
188977
196638
203651
211273
212058
212504
217844
219316
234456
242845
249869
251260
256190
261596
270040
272775
274559
278823
278884
283204
284990
289429
310348
310632
320313
328230
330576
332670
333389
345251
356220
356408
366342
370679
378206
379005
389295
396129
407719
409280
422917

(13)創(chuàng)建姓名縮寫表,其中字段大于4條,并使查詢插入,最后顯示姓名縮寫表格數(shù)據(jù)
  • 創(chuàng)建表gr
create external table dbtaobao.GR(user_id int,item_id int,age_range int,gender int,province string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile;

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告

  • 從表user_log中導(dǎo)入user_id,item_id,age_range,gender,province數(shù)據(jù)到表gr
insert into table gr select user_id,item_id,age_range,gender,province from user_log;

Hive數(shù)據(jù)分析實(shí)驗(yàn)報告文章來源地址http://www.zghlxwxcb.cn/news/detail-458016.html

  • 查詢表gr的前十條數(shù)據(jù)
select * from gr limit 10;

到了這里,關(guān)于Hive數(shù)據(jù)分析實(shí)驗(yàn)報告的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 數(shù)據(jù)分析筆記:基本概念,常用圖表,報告大綱

    數(shù)據(jù)分析筆記:基本概念,常用圖表,報告大綱

    對數(shù)據(jù)進(jìn)行分析。 數(shù)據(jù)分析是為了 提取有用信息和形成結(jié)論 而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。 在實(shí)際工作中,幫助管理者 判斷和決策 。 數(shù)據(jù)分析的基本步驟包括明確思路,制定計劃、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)顯示和報告撰寫。 明確思路 :分析的目

    2024年02月06日
    瀏覽(16)
  • 爬蟲+數(shù)據(jù)分析+可視化大作業(yè):基于大數(shù)據(jù)的高質(zhì)量電影分析報告

    爬蟲+數(shù)據(jù)分析+可視化大作業(yè):基于大數(shù)據(jù)的高質(zhì)量電影分析報告

    主要目的是為了學(xué)習(xí)Scrapy與Sklearn而不是寫論文,結(jié)論是瞎扯的,輕噴求求了 在我們的日常生活中,電影已經(jīng)成為了我們娛樂放松活動所不可缺少的元素。然而,自電影誕生以來,人們每天都在生產(chǎn)著電影,卻又生產(chǎn)著質(zhì)量良莠不齊的電影。在這些幾乎是無窮無盡的電影洪流

    2024年02月03日
    瀏覽(47)
  • Python數(shù)據(jù)分析處理報告--實(shí)訓(xùn)小案例

    Python數(shù)據(jù)分析處理報告--實(shí)訓(xùn)小案例

    目錄 1、實(shí)驗(yàn)一 1.1、題目總覽 1.2、代碼解析 2、實(shí)現(xiàn)二 2.1、題目總覽 2.2、代碼解析 3、實(shí)驗(yàn)三 3.1、題目總覽 3.2、代碼解析 4、實(shí)驗(yàn)四 3.1、題目總覽 3.2、代碼解析 哈嘍~ 今天學(xué)習(xí)記錄的是數(shù)據(jù)分析實(shí)訓(xùn)小案例。 就用這個案例來好好鞏固一下 python 數(shù)據(jù)分析三劍客。 前期準(zhǔn)備

    2024年02月10日
    瀏覽(24)
  • 【統(tǒng)計模型】大學(xué)生戀愛數(shù)據(jù)分析報告

    【統(tǒng)計模型】大學(xué)生戀愛數(shù)據(jù)分析報告

    目錄 大學(xué)生戀愛數(shù)據(jù)分析報告 一、研究目的 二、數(shù)據(jù)來源和相關(guān)說明 三、描述性統(tǒng)計分析 3.1 基本情況 (1)年級、性別、家鄉(xiāng)情況 (2)身高、體重情況 3.2 戀愛情況 (1)戀愛比例 (2)戀愛史 3.3 職務(wù)擔(dān)任情況 3.4 運(yùn)動情況 3.5 才藝情況 3.6 顏值情況 3.7 生活規(guī)劃情況 3.8

    2024年02月09日
    瀏覽(22)
  • 大數(shù)據(jù)分析組件Hive-集合數(shù)據(jù)結(jié)構(gòu)

    Hive是一個基于Hadoop的數(shù)據(jù)倉庫基礎(chǔ)設(shè)施,用于處理大規(guī)模分布式數(shù)據(jù)集。它提供了一個類似于SQL的查詢語言(稱為HiveQL),允許用戶以類似于關(guān)系型數(shù)據(jù)庫的方式查詢和分析存儲在Hadoop集群中的數(shù)據(jù)。 Hive常作為離線數(shù)倉的分析工具,當(dāng)面臨Json數(shù)據(jù)時,Hive需要用到其數(shù)據(jù)結(jié)

    2024年01月25日
    瀏覽(15)
  • 電影票房之?dāng)?shù)據(jù)分析(Hive)

    #進(jìn)入hive #在hive中創(chuàng)建數(shù)據(jù)庫 mydb #使用數(shù)據(jù)庫 mydb #創(chuàng)建表moviecleaned并使用\\\"/t\\\"分割字段 #將本地清洗后的數(shù)據(jù)導(dǎo)入moviecleaned表中 #創(chuàng)建top10_boxoffice表,用來存放數(shù)據(jù)查詢的結(jié)果 #查詢,并將結(jié)果導(dǎo)入top10_boxoffice表中 #創(chuàng)建boxoffice_national_day表,用來存放數(shù)據(jù)查詢的結(jié)果 #查詢,并將

    2024年02月13日
    瀏覽(29)
  • 基于Hive的天氣情況大數(shù)據(jù)分析系統(tǒng)(通過hive進(jìn)行大數(shù)據(jù)分析將分析的數(shù)據(jù)通過sqoop導(dǎo)入到mysql,通過Django基于mysql的數(shù)據(jù)做可視化)

    基于Hive的天氣情況大數(shù)據(jù)分析系統(tǒng)(通過hive進(jìn)行大數(shù)據(jù)分析將分析的數(shù)據(jù)通過sqoop導(dǎo)入到mysql,通過Django基于mysql的數(shù)據(jù)做可視化)

    Hive介紹: Hive是建立在Hadoop之上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu),它提供了類似于SQL的語言(HQL),可以對大規(guī)模數(shù)據(jù)集進(jìn)行查詢和分析。通過Hive,我們可以在分布式存儲系統(tǒng)中進(jìn)行復(fù)雜的數(shù)據(jù)處理和分析。 Sqoop簡介: Sqoop是一個用于在Apache Hadoop和關(guān)系型數(shù)據(jù)庫之間傳輸數(shù)據(jù)的工具。

    2024年04月13日
    瀏覽(20)
  • 前程無憂崗位數(shù)據(jù)可視化分析報告

    前程無憂崗位數(shù)據(jù)可視化分析報告

    數(shù)據(jù)爬取的內(nèi)容主要包括30個崗位種類(數(shù)據(jù)分析,產(chǎn)品經(jīng)理,產(chǎn)品助理,交互設(shè)計,前端開發(fā),軟件設(shè)計,IOS開發(fā),業(yè)務(wù)分析,安卓開發(fā),PHP開發(fā),業(yè)務(wù)咨詢,需求分析,流程設(shè)計,售后經(jīng)理,售前經(jīng)理,技術(shù)支持,ERP實(shí)施,實(shí)施工程師,IT項(xiàng)目經(jīng)理,IT項(xiàng)目助理,信息咨詢

    2024年02月06日
    瀏覽(19)
  • Hive實(shí)戰(zhàn) —— 電商數(shù)據(jù)分析(全流程詳解 真實(shí)數(shù)據(jù))

    Hive實(shí)戰(zhàn) —— 電商數(shù)據(jù)分析(全流程詳解 真實(shí)數(shù)據(jù))

    該實(shí)戰(zhàn)項(xiàng)目的目的在于通過基于 小型數(shù)據(jù)的Hive數(shù)倉構(gòu)建 進(jìn)行的業(yè)務(wù)分析來做到 以小見大 ,熟悉實(shí)際生產(chǎn)情況下構(gòu)建Hive數(shù)倉解決實(shí)際問題的場景。本文內(nèi)容較多,包含了從前期準(zhǔn)備到數(shù)據(jù)分析的方案,代碼,問題,解決方法等等, 分析的數(shù)據(jù)文件 和 Zeppelin中的源文件 都已

    2024年02月21日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包