溫馨提示:文末有 CSDN 平臺官方提供的博主 的聯(lián)系方式,有償幫忙部署
基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化
一、實驗環(huán)境
(1)Linux: Ubuntu 16.04
(2)Python: 3.5
(3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3
(6)可視化工具:Echarts
(7)開發(fā)工具:Visual Studio Code
二、小組成員及分工
(1)成員:林海瀅,王惠玲,陳嘉怡,郭詩念
(2)分工:xxx負(fù)責(zé)xxxx部分,xxx負(fù)責(zé)xxxx部分,xxx負(fù)責(zé)xxxx部分。
三、數(shù)據(jù)采集
3.1數(shù)據(jù)集說明
爬取網(wǎng)站:http://search.dangdang.com/?key=java,是當(dāng)當(dāng)網(wǎng)的java圖書的信息網(wǎng)站。數(shù)據(jù)文件:java_books.xlsx。其中包含了1661條與java圖書信息有關(guān)的數(shù)據(jù)。
數(shù)據(jù)格式為:
圖 3. 1 采集數(shù)據(jù)格式
數(shù)據(jù)中包含的內(nèi)容如下:
(1)book_name: 圖書的標(biāo)題
(2)introduction:圖書的簡介
(3)author: 圖書的作者
(4)price: 圖書的價格(元/本)
(5)press: 圖書出版社
(6)comment: 圖書的評論
3.2.爬取數(shù)據(jù)集以及將其保存到本地D盤文件中的流程
(1)選取所需要爬取的頁面進(jìn)行遍歷爬取
(2)通過正則表達(dá)式抓取所需要的數(shù)據(jù)
(3)將爬取出的數(shù)據(jù)轉(zhuǎn)化為dataframe格式并保存為xlsx文件存放在D盤
四、數(shù)據(jù)清洗與預(yù)處理
4.1預(yù)處理中提取的數(shù)據(jù)
圖 4.1 數(shù)據(jù)處理前的數(shù)據(jù)格式及存在問題的特征列
4.2 清洗預(yù)處理后的數(shù)據(jù)格式
圖 4.2 數(shù)據(jù)處理后的數(shù)據(jù)格式及特征列
4.3 清洗與預(yù)處理的流程
(1)首先檢查數(shù)據(jù)的結(jié)構(gòu)以及是否有數(shù)據(jù)缺失。
(2)發(fā)現(xiàn)book_name特征列的數(shù)據(jù)格式不對,于是處理轉(zhuǎn)換為了整數(shù)類型。
(3)發(fā)現(xiàn)price特征列的數(shù)據(jù)格式不對,于是處理轉(zhuǎn)換為了浮點類型。
(4)內(nèi)容簡介列數(shù)據(jù)清洗 刪除異常值。
(5)保存清洗與預(yù)處理后的數(shù)據(jù)集。
五、spark數(shù)據(jù)分析
5.1 數(shù)據(jù)分析目標(biāo)
(1)圖書的售價分布情況(觀察圖書價格大體集中在哪個分段得出圖書價格趨勢)
(2)部分圖書出版社的出書數(shù)量統(tǒng)計
(3)圖書的作者出書(觀察哪個作者出的書最多)
(4)圖書的評論分布情況(觀察圖書評論大體集中在哪個分段得出圖書評論趨勢)
(5)圖書的部分作者數(shù)量統(tǒng)計
(6)分析價格的最大值、最小值、均值、方差和中位數(shù)
六、數(shù)據(jù)可視化
本實驗的可視化基于mutplotlib實現(xiàn)。
6.1.可視化環(huán)境
利用和anaconda里面的jubiter和vscode進(jìn)行可視化操作,最后的代碼結(jié)構(gòu)如下。
6.2 圖表展示與結(jié)論分析
(1)圖書的售價分布情況(觀察圖書價格大體集中在哪個分段得出圖書價格趨勢)
圖6.2.1圖書的售價分布情況
分析結(jié)論:通過這個柱狀圖可以看出圖書售賣價格集中在2060這里。說明了大多數(shù)人購書傾向于中端價格。比如2040這里,售價比較便宜圖書的銷量就會多。而6080這里的價格上升了購買的人就相對少了,銷量也隨之減少。我們也可以從中得出2060的銷量有1841,而20一下和60以上的銷量有1159。所以大膽推測出我國中層收入人數(shù)是低高層收入人數(shù)的1.6倍左右。
(2)部分圖書出版社的出書數(shù)量統(tǒng)計
圖6.2.2部分圖書出版社的出書數(shù)量統(tǒng)計
(3)圖書的作者出書(觀察哪個作者出的書最多)
(4)圖書的評論分布情況(觀察圖書評論大體集中在哪個分段得出圖書評論趨勢)
圖6.2.4圖書的評論分布情況
分析結(jié)論:通過這個圖我們可以看出92%的圖書評論都是在0~100之間。也就是說92%的人不愛對圖書做出評論,其余少部分人會對圖書做出評論。所以我們可以大膽推測現(xiàn)在大多數(shù)人都不愛對看過的書發(fā)布之間的看法。
(5)圖書的部分作者數(shù)量統(tǒng)計進(jìn)行數(shù)據(jù)可視化圖表分析
圖6.2.5部分作者數(shù)量統(tǒng)計
分析結(jié)論:通過這個圖我們可以看出我們找出來的部分作者54%左右的作者寫的書都在65本以下(這就與第五部分的數(shù)據(jù)分析相對應(yīng)),也側(cè)面說明了這個數(shù)據(jù)里面50%左右的作者寫的java的書不多即50%以下的作者可能不是專門做java這個領(lǐng)域的,可能還包括別的領(lǐng)域,大多數(shù)關(guān)于java的圖書都是專攻這個專業(yè)的組織和作者寫的。
(5)分析價格的最大值、最小值、均值、方差和中位數(shù)
圖6.2.6分析價格的最大值、最小值、均值、方差和中位數(shù)文章來源:http://www.zghlxwxcb.cn/news/detail-763413.html
分析結(jié)論:通過這個圖我們可以看出圖書價格的中位數(shù)和均值在55塊錢左右,方差在50左右,證明了圖書的價格波動不是很大,從最大值、最小值中可以看出最便宜的圖書是10元左右,最貴的圖書是120元左右,所以表明了買一本java圖書總體的均價為55元左右。文章來源地址http://www.zghlxwxcb.cn/news/detail-763413.html
代碼部分:略
到了這里,關(guān)于【大數(shù)據(jù)實訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!