国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【大數(shù)據(jù)實訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)

2年前作者：AI_Maynor分類：Toy博客閱讀(27)違法舉報

這篇具有很好參考價值的文章主要介紹了【大數(shù)據(jù)實訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

溫馨提示：文末有 CSDN 平臺官方提供的博主的聯(lián)系方式，有償幫忙部署

基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化

一、實驗環(huán)境

（1）Linux： Ubuntu 16.04
（2）Python: 3.5
（3）Hadoop：3.1.3（4）Spark: 2.4.0（5）Web框架：flask 1.0.3
（6）可視化工具：Echarts
（7）開發(fā)工具：Visual Studio Code

二、小組成員及分工

（1）成員：林海瀅，王惠玲，陳嘉怡，郭詩念

（2）分工：xxx負(fù)責(zé)xxxx部分，xxx負(fù)責(zé)xxxx部分，xxx負(fù)責(zé)xxxx部分。

三、數(shù)據(jù)采集

3.1數(shù)據(jù)集說明

爬取網(wǎng)站：http://search.dangdang.com/?key=java，是當(dāng)當(dāng)網(wǎng)的java圖書的信息網(wǎng)站。數(shù)據(jù)文件：java_books.xlsx。其中包含了1661條與java圖書信息有關(guān)的數(shù)據(jù)。

數(shù)據(jù)格式為：

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖 3. 1 采集數(shù)據(jù)格式

數(shù)據(jù)中包含的內(nèi)容如下：
（1）book_name：圖書的標(biāo)題

（2）introduction：圖書的簡介

（3）author：圖書的作者
（4）price：圖書的價格（元/本）

（5）press：圖書出版社
（6）comment：圖書的評論

3.2.爬取數(shù)據(jù)集以及將其保存到本地D盤文件中的流程

（1）選取所需要爬取的頁面進(jìn)行遍歷爬取

（2）通過正則表達(dá)式抓取所需要的數(shù)據(jù)

（3）將爬取出的數(shù)據(jù)轉(zhuǎn)化為dataframe格式并保存為xlsx文件存放在D盤

四、數(shù)據(jù)清洗與預(yù)處理

4.1預(yù)處理中提取的數(shù)據(jù)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖 4.1 數(shù)據(jù)處理前的數(shù)據(jù)格式及存在問題的特征列

4.2 清洗預(yù)處理后的數(shù)據(jù)格式

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖 4.2 數(shù)據(jù)處理后的數(shù)據(jù)格式及特征列

4.3 清洗與預(yù)處理的流程

（1）首先檢查數(shù)據(jù)的結(jié)構(gòu)以及是否有數(shù)據(jù)缺失。

（2）發(fā)現(xiàn)book_name特征列的數(shù)據(jù)格式不對，于是處理轉(zhuǎn)換為了整數(shù)類型。

（3）發(fā)現(xiàn)price特征列的數(shù)據(jù)格式不對，于是處理轉(zhuǎn)換為了浮點類型。

（4）內(nèi)容簡介列數(shù)據(jù)清洗刪除異常值。

（5）保存清洗與預(yù)處理后的數(shù)據(jù)集。

五、spark數(shù)據(jù)分析

5.1 數(shù)據(jù)分析目標(biāo)

（1）圖書的售價分布情況（觀察圖書價格大體集中在哪個分段得出圖書價格趨勢）

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

（2）部分圖書出版社的出書數(shù)量統(tǒng)計

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

（3）圖書的作者出書（觀察哪個作者出的書最多）

（4）圖書的評論分布情況（觀察圖書評論大體集中在哪個分段得出圖書評論趨勢）

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

（5）圖書的部分作者數(shù)量統(tǒng)計

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

（6）分析價格的最大值、最小值、均值、方差和中位數(shù)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

六、數(shù)據(jù)可視化

本實驗的可視化基于mutplotlib實現(xiàn)。

6.1.可視化環(huán)境

利用和anaconda里面的jubiter和vscode進(jìn)行可視化操作，最后的代碼結(jié)構(gòu)如下。

6.2 圖表展示與結(jié)論分析

（1）圖書的售價分布情況（觀察圖書價格大體集中在哪個分段得出圖書價格趨勢）

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.1圖書的售價分布情況

分析結(jié)論：通過這個柱狀圖可以看出圖書售賣價格集中在20_{60這里。說明了大多數(shù)人購書傾向于中端價格。比如20}40這里，售價比較便宜圖書的銷量就會多。而60_{80這里的價格上升了購買的人就相對少了，銷量也隨之減少。我們也可以從中得出20}60的銷量有1841，而20一下和60以上的銷量有1159。所以大膽推測出我國中層收入人數(shù)是低高層收入人數(shù)的1.6倍左右。

（2）部分圖書出版社的出書數(shù)量統(tǒng)計

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.2部分圖書出版社的出書數(shù)量統(tǒng)計

（3）圖書的作者出書（觀察哪個作者出的書最多）

（4）圖書的評論分布情況（觀察圖書評論大體集中在哪個分段得出圖書評論趨勢）

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.4圖書的評論分布情況

分析結(jié)論：通過這個圖我們可以看出92%的圖書評論都是在0~100之間。也就是說92%的人不愛對圖書做出評論，其余少部分人會對圖書做出評論。所以我們可以大膽推測現(xiàn)在大多數(shù)人都不愛對看過的書發(fā)布之間的看法。

（5）圖書的部分作者數(shù)量統(tǒng)計進(jìn)行數(shù)據(jù)可視化圖表分析

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.5部分作者數(shù)量統(tǒng)計

分析結(jié)論：通過這個圖我們可以看出我們找出來的部分作者54%左右的作者寫的書都在65本以下（這就與第五部分的數(shù)據(jù)分析相對應(yīng)），也側(cè)面說明了這個數(shù)據(jù)里面50%左右的作者寫的java的書不多即50%以下的作者可能不是專門做java這個領(lǐng)域的，可能還包括別的領(lǐng)域，大多數(shù)關(guān)于java的圖書都是專攻這個專業(yè)的組織和作者寫的。

（5）分析價格的最大值、最小值、均值、方差和中位數(shù)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.6分析價格的最大值、最小值、均值、方差和中位數(shù)

分析結(jié)論：通過這個圖我們可以看出圖書價格的中位數(shù)和均值在55塊錢左右，方差在50左右，證明了圖書的價格波動不是很大，從最大值、最小值中可以看出最便宜的圖書是10元左右，最貴的圖書是120元左右，所以表明了買一本java圖書總體的均價為55元左右。文章來源地址http://www.zghlxwxcb.cn/news/detail-763413.html

代碼部分：略

到了這里，關(guān)于【大數(shù)據(jù)實訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

基于Doris構(gòu)建億級數(shù)據(jù)實時數(shù)據(jù)分析系統(tǒng)
轉(zhuǎn)載至我的博客 https://www.infrastack.cn ，公眾號：架構(gòu)成長指南隨著公司業(yè)務(wù)快速發(fā)展，對業(yè)務(wù)數(shù)據(jù)進(jìn)行增長分析的需求越來越迫切，與此同時我們的業(yè)務(wù)數(shù)據(jù)量也在快速激增、每天的數(shù)據(jù)新增量大概在30w 左右，一年就會產(chǎn)生1 個億的數(shù)據(jù)，顯然基于傳統(tǒng)MySQL數(shù)據(jù)庫已經(jīng)無法支
2024年02月19日
瀏覽(29)
【爬蟲】4.5 實踐項目——爬取當(dāng)當(dāng)網(wǎng)站圖書數(shù)據(jù)
目錄 1. 網(wǎng)站圖書數(shù)據(jù)分析 2. 網(wǎng)站圖書數(shù)據(jù)提取 3. 網(wǎng)站圖書數(shù)據(jù)爬取（1）創(chuàng)建 MySQL 數(shù)據(jù)庫（2）創(chuàng)建 scrapy 項目（3）編寫 items.py 中的數(shù)據(jù)項目類（4）編寫 pipelines_1.py 中的數(shù)據(jù)處理類（5）編寫 pipelines_2.py 中的數(shù)據(jù)處理類（6）編寫 Scrapy 的配置文件（7）編寫 Scrapy 爬蟲程
2024年02月07日
瀏覽(18)
大數(shù)據(jù)實訓(xùn)
1、Hadoop集群框架搭建(學(xué)過，但是沒有現(xiàn)成的) 2、python（機器學(xué)習(xí)） 3、Spark（沒有） 4、Flume（沒有） 5、Sqoop（沒有接觸） 6、編程語言： SpringBoot（有）+echarts（數(shù)據(jù)可視化框架） 1.1?百度百科：大數(shù)據(jù)，短期無法運用常規(guī)一些手段去及時處理海量數(shù)據(jù)，需要使用新型的技術(shù)
2024年02月02日
瀏覽(28)
泰迪大數(shù)據(jù)實訓(xùn)平臺產(chǎn)品介紹
? ? ? 大數(shù)據(jù)產(chǎn)品包括：大數(shù)據(jù)實訓(xùn)管理平臺、大數(shù)據(jù)開發(fā)實訓(xùn)平臺、大數(shù)據(jù)編程實訓(xùn)平臺等 ? ? ?大數(shù)據(jù)實訓(xùn)管理平臺 ? ? ?泰迪大數(shù)據(jù)實訓(xùn)平臺從課程管理、資源管理、實訓(xùn)管理等方面出發(fā)，主要解決現(xiàn)有實驗室無法滿足教學(xué)需求、傳統(tǒng)教學(xué)流程和工具低效耗時和內(nèi)部
2024年02月11日
瀏覽(26)
大數(shù)據(jù)實驗三-HBase編程實踐
目錄一．實驗內(nèi)容二．實驗?zāi)康?三．實驗過程截圖及說明 1、安裝HBase 2、配置偽分布式模式： 3、使用hbase的shell命令來操作表： 4、使用hbase提供的javaAPI來編程實現(xiàn)類似操作： 5、實驗總結(jié)及心得體會 6、完整報告在文章開頭，掛載。 HBase編程實踐： 1）在Hadoop基礎(chǔ)上安裝H
2024年04月12日
瀏覽(34)
【大數(shù)據(jù)實驗五】 MapReduce初級編程實踐
1實驗?zāi)康?1.通過實驗掌握基本的MapReduce編程方法； 2.掌握用MapReduce解決一些常見的數(shù)據(jù)處理問題，包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù)挖掘等。 2實驗平臺已經(jīng)配置完成的Hadoop偽分布式環(huán)境。（1）操作系統(tǒng)：Linux（Ubuntu18.04）（2）Hadoop版本：3.1.3 3實驗內(nèi)容和要求 1.編程實現(xiàn)文件
2024年02月03日
瀏覽(156)
【大數(shù)據(jù)實訓(xùn)】—Hadoop開發(fā)環(huán)境搭建（一）
本關(guān)任務(wù)：配置JavaJDK。相關(guān)知識配置開發(fā)環(huán)境是我們學(xué)習(xí)一門IT技術(shù)的第一步，Hadoop是基于Java開發(fā)的，所以我們學(xué)習(xí)Hadoop之前需要在Linux系統(tǒng)中配置Java的開發(fā)環(huán)境。下載JDK 前往Oracle的官網(wǎng)下載JDK：點我前往Oracle的官網(wǎng)下載JDK 我們可以先下載到本地，然后從Windows中將文件傳
2024年02月06日
瀏覽(30)
大數(shù)據(jù)實驗實驗六：Spark初級編程實踐
實驗環(huán)境：Windows 10 Oracle VM VirtualBox 虛擬機：cnetos 7 Hadoop 3.3 因為Hadoop版本為3.3所以在官網(wǎng)選擇支持3.3的spark安裝包解壓安裝包到指定文件夾配置spark-env.sh 啟動成功（1）在spark-shell中讀取Linux系統(tǒng)本地文件“/home/hadoop/test.txt”，然后統(tǒng)計出文件的行數(shù)；（2）在spark-shell中讀
2024年02月04日
瀏覽(174)
大數(shù)據(jù)實驗實驗二：熟悉HDFS常用操作
附件中有word版本的實驗報告理解HDFS在Hadoop體系結(jié)構(gòu)中的角色。熟練使用HDFS操作常用的Shell命令。熟悉HDFS操作常用的Java API。 Oracle VM VirtualBox虛擬機系統(tǒng)版本centos7 JDK1.8版本 Hadoop-3.1.3 Windows11 Java IDE：IDEA 1.向HDFS中上傳任意文本文件，如果指定的文件在HDFS中已經(jīng)存在，由用戶
2024年04月12日
瀏覽(27)
頭歌平臺，大數(shù)據(jù)實驗五，spark安裝
2024年02月12日
瀏覽(18)