国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【大數(shù)據(jù)實訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)

這篇具有很好參考價值的文章主要介紹了【大數(shù)據(jù)實訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

溫馨提示:文末有 CSDN 平臺官方提供的博主 的聯(lián)系方式,有償幫忙部署

基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化

一、實驗環(huán)境

(1)Linux: Ubuntu 16.04
(2)Python: 3.5
(3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3
(6)可視化工具:Echarts
(7)開發(fā)工具:Visual Studio Code

二、小組成員及分工

(1)成員:林海瀅,王惠玲,陳嘉怡,郭詩念

(2)分工:xxx負(fù)責(zé)xxxx部分,xxx負(fù)責(zé)xxxx部分,xxx負(fù)責(zé)xxxx部分。

三、數(shù)據(jù)采集

3.1數(shù)據(jù)集說明

爬取網(wǎng)站:http://search.dangdang.com/?key=java,是當(dāng)當(dāng)網(wǎng)的java圖書的信息網(wǎng)站。數(shù)據(jù)文件:java_books.xlsx。其中包含了1661條與java圖書信息有關(guān)的數(shù)據(jù)。

數(shù)據(jù)格式為:

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖 3. 1 采集數(shù)據(jù)格式

數(shù)據(jù)中包含的內(nèi)容如下:
(1)book_name: 圖書的標(biāo)題

(2)introduction:圖書的簡介

(3)author: 圖書的作者
(4)price: 圖書的價格(元/本)

(5)press: 圖書出版社
(6)comment: 圖書的評論

3.2.爬取數(shù)據(jù)集以及將其保存到本地D盤文件中的流程

(1)選取所需要爬取的頁面進(jìn)行遍歷爬取

(2)通過正則表達(dá)式抓取所需要的數(shù)據(jù)

(3)將爬取出的數(shù)據(jù)轉(zhuǎn)化為dataframe格式并保存為xlsx文件存放在D盤

四、數(shù)據(jù)清洗與預(yù)處理

4.1預(yù)處理中提取的數(shù)據(jù)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖 4.1 數(shù)據(jù)處理前的數(shù)據(jù)格式及存在問題的特征列

4.2 清洗預(yù)處理后的數(shù)據(jù)格式

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖 4.2 數(shù)據(jù)處理后的數(shù)據(jù)格式及特征列

4.3 清洗與預(yù)處理的流程

(1)首先檢查數(shù)據(jù)的結(jié)構(gòu)以及是否有數(shù)據(jù)缺失。

(2)發(fā)現(xiàn)book_name特征列的數(shù)據(jù)格式不對,于是處理轉(zhuǎn)換為了整數(shù)類型。

(3)發(fā)現(xiàn)price特征列的數(shù)據(jù)格式不對,于是處理轉(zhuǎn)換為了浮點類型。

(4)內(nèi)容簡介列數(shù)據(jù)清洗 刪除異常值。

(5)保存清洗與預(yù)處理后的數(shù)據(jù)集。

五、spark數(shù)據(jù)分析

5.1 數(shù)據(jù)分析目標(biāo)

(1)圖書的售價分布情況(觀察圖書價格大體集中在哪個分段得出圖書價格趨勢)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

(2)部分圖書出版社的出書數(shù)量統(tǒng)計

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

(3)圖書的作者出書(觀察哪個作者出的書最多)

(4)圖書的評論分布情況(觀察圖書評論大體集中在哪個分段得出圖書評論趨勢)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

(5)圖書的部分作者數(shù)量統(tǒng)計

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

(6)分析價格的最大值、最小值、均值、方差和中位數(shù)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

六、數(shù)據(jù)可視化

本實驗的可視化基于mutplotlib實現(xiàn)。

6.1.可視化環(huán)境

利用和anaconda里面的jubiter和vscode進(jìn)行可視化操作,最后的代碼結(jié)構(gòu)如下。

6.2 圖表展示與結(jié)論分析

(1)圖書的售價分布情況(觀察圖書價格大體集中在哪個分段得出圖書價格趨勢)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.1圖書的售價分布情況

分析結(jié)論:通過這個柱狀圖可以看出圖書售賣價格集中在2060這里。說明了大多數(shù)人購書傾向于中端價格。比如2040這里,售價比較便宜圖書的銷量就會多。而6080這里的價格上升了購買的人就相對少了,銷量也隨之減少。我們也可以從中得出2060的銷量有1841,而20一下和60以上的銷量有1159。所以大膽推測出我國中層收入人數(shù)是低高層收入人數(shù)的1.6倍左右。

(2)部分圖書出版社的出書數(shù)量統(tǒng)計

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.2部分圖書出版社的出書數(shù)量統(tǒng)計

(3)圖書的作者出書(觀察哪個作者出的書最多)

(4)圖書的評論分布情況(觀察圖書評論大體集中在哪個分段得出圖書評論趨勢)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.4圖書的評論分布情況

分析結(jié)論:通過這個圖我們可以看出92%的圖書評論都是在0~100之間。也就是說92%的人不愛對圖書做出評論,其余少部分人會對圖書做出評論。所以我們可以大膽推測現(xiàn)在大多數(shù)人都不愛對看過的書發(fā)布之間的看法。

(5)圖書的部分作者數(shù)量統(tǒng)計進(jìn)行數(shù)據(jù)可視化圖表分析

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.5部分作者數(shù)量統(tǒng)計

分析結(jié)論:通過這個圖我們可以看出我們找出來的部分作者54%左右的作者寫的書都在65本以下(這就與第五部分的數(shù)據(jù)分析相對應(yīng)),也側(cè)面說明了這個數(shù)據(jù)里面50%左右的作者寫的java的書不多即50%以下的作者可能不是專門做java這個領(lǐng)域的,可能還包括別的領(lǐng)域,大多數(shù)關(guān)于java的圖書都是專攻這個專業(yè)的組織和作者寫的。

(5)分析價格的最大值、最小值、均值、方差和中位數(shù)

圖書訂購表可視化分析,大數(shù)據(jù),數(shù)據(jù)分析,數(shù)據(jù)挖掘

圖6.2.6分析價格的最大值、最小值、均值、方差和中位數(shù)

分析結(jié)論:通過這個圖我們可以看出圖書價格的中位數(shù)和均值在55塊錢左右,方差在50左右,證明了圖書的價格波動不是很大,從最大值、最小值中可以看出最便宜的圖書是10元左右,最貴的圖書是120元左右,所以表明了買一本java圖書總體的均價為55元左右。文章來源地址http://www.zghlxwxcb.cn/news/detail-763413.html

代碼部分:略

到了這里,關(guān)于【大數(shù)據(jù)實訓(xùn)】基于當(dāng)當(dāng)網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 基于Doris構(gòu)建億級數(shù)據(jù)實時數(shù)據(jù)分析系統(tǒng)

    轉(zhuǎn)載至我的博客 https://www.infrastack.cn ,公眾號:架構(gòu)成長指南 隨著公司業(yè)務(wù)快速發(fā)展,對業(yè)務(wù)數(shù)據(jù)進(jìn)行增長分析的需求越來越迫切,與此同時我們的業(yè)務(wù)數(shù)據(jù)量也在快速激增、每天的數(shù)據(jù)新增量大概在30w 左右,一年就會產(chǎn)生1 個億的數(shù)據(jù),顯然基于傳統(tǒng)MySQL數(shù)據(jù)庫已經(jīng)無法支

    2024年02月19日
    瀏覽(29)
  • 【爬蟲】4.5 實踐項目——爬取當(dāng)當(dāng)網(wǎng)站圖書數(shù)據(jù)

    【爬蟲】4.5 實踐項目——爬取當(dāng)當(dāng)網(wǎng)站圖書數(shù)據(jù)

    目錄 1. 網(wǎng)站圖書數(shù)據(jù)分析 2. 網(wǎng)站圖書數(shù)據(jù)提取 3. 網(wǎng)站圖書數(shù)據(jù)爬取 (1)創(chuàng)建 MySQL 數(shù)據(jù)庫 (2)創(chuàng)建 scrapy 項目 (3)編寫 items.py 中的數(shù)據(jù)項目類 (4)編寫 pipelines_1.py 中的數(shù)據(jù)處理類 (5)編寫 pipelines_2.py 中的數(shù)據(jù)處理類 (6)編寫 Scrapy 的配置文件 (7)編寫 Scrapy 爬蟲程

    2024年02月07日
    瀏覽(18)
  • 大數(shù)據(jù)實訓(xùn)

    大數(shù)據(jù)實訓(xùn)

    1、Hadoop集群框架搭建(學(xué)過,但是沒有現(xiàn)成的) 2、python(機器學(xué)習(xí)) 3、Spark(沒有) 4、Flume(沒有) 5、Sqoop(沒有接觸) 6、編程語言: SpringBoot(有)+echarts(數(shù)據(jù)可視化框架) 1.1?百度百科:大數(shù)據(jù),短期無法運用常規(guī)一些手段去及時處理海量數(shù)據(jù),需要使用新型的技術(shù)

    2024年02月02日
    瀏覽(28)
  • 泰迪大數(shù)據(jù)實訓(xùn)平臺產(chǎn)品介紹

    泰迪大數(shù)據(jù)實訓(xùn)平臺產(chǎn)品介紹

    ? ? ? 大數(shù)據(jù)產(chǎn)品包括: 大數(shù)據(jù)實訓(xùn)管理平臺、大數(shù)據(jù)開發(fā)實訓(xùn)平臺、大數(shù)據(jù)編程實訓(xùn)平臺 等 ? ? ?大數(shù)據(jù)實訓(xùn)管理平臺 ? ? ?泰迪大數(shù)據(jù)實訓(xùn)平臺從課程管理、資源管理、實訓(xùn)管理等方面出發(fā),主要解決現(xiàn)有實驗室無法滿足教學(xué)需求、傳統(tǒng)教學(xué)流程和工具低效耗時和內(nèi)部

    2024年02月11日
    瀏覽(26)
  • 大數(shù)據(jù)實驗三-HBase編程實踐

    大數(shù)據(jù)實驗三-HBase編程實踐

    目錄 一.實驗內(nèi)容 二.實驗?zāi)康?三.實驗過程截圖及說明 1、安裝HBase 2、配置偽分布式模式: 3、使用hbase的shell命令來操作表: 4、使用hbase提供的javaAPI來編程實現(xiàn)類似操作: 5、實驗總結(jié)及心得體會 6、完整報告在文章開頭,掛載。 HBase編程實踐: 1)在Hadoop基礎(chǔ)上安裝H

    2024年04月12日
    瀏覽(34)
  • 【大數(shù)據(jù)實驗五】 MapReduce初級編程實踐

    【大數(shù)據(jù)實驗五】 MapReduce初級編程實踐

    1實驗?zāi)康?1.通過實驗掌握基本的MapReduce編程方法; 2.掌握用MapReduce解決一些常見的數(shù)據(jù)處理問題,包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù)挖掘等。 2實驗平臺 已經(jīng)配置完成的Hadoop偽分布式環(huán)境。 (1)操作系統(tǒng):Linux(Ubuntu18.04) (2)Hadoop版本:3.1.3 3實驗內(nèi)容和要求 1.編程實現(xiàn)文件

    2024年02月03日
    瀏覽(156)
  • 【大數(shù)據(jù)實訓(xùn)】—Hadoop開發(fā)環(huán)境搭建(一)

    【大數(shù)據(jù)實訓(xùn)】—Hadoop開發(fā)環(huán)境搭建(一)

    本關(guān)任務(wù):配置JavaJDK。 相關(guān)知識 配置開發(fā)環(huán)境是我們學(xué)習(xí)一門IT技術(shù)的第一步,Hadoop是基于Java開發(fā)的,所以我們學(xué)習(xí)Hadoop之前需要在Linux系統(tǒng)中配置Java的開發(fā)環(huán)境。 下載JDK 前往Oracle的官網(wǎng)下載JDK:點我前往Oracle的官網(wǎng)下載JDK 我們可以先下載到本地,然后從Windows中將文件傳

    2024年02月06日
    瀏覽(30)
  • 大數(shù)據(jù)實驗 實驗六:Spark初級編程實踐

    大數(shù)據(jù)實驗 實驗六:Spark初級編程實踐

    實驗環(huán)境:Windows 10 Oracle VM VirtualBox 虛擬機:cnetos 7 Hadoop 3.3 因為Hadoop版本為3.3所以在官網(wǎng)選擇支持3.3的spark安裝包 解壓安裝包到指定文件夾 配置spark-env.sh 啟動成功 (1) 在spark-shell中讀取Linux系統(tǒng)本地文件“/home/hadoop/test.txt”,然后統(tǒng)計出文件的行數(shù); (2) 在spark-shell中讀

    2024年02月04日
    瀏覽(174)
  • 大數(shù)據(jù)實驗 實驗二:熟悉HDFS常用操作

    大數(shù)據(jù)實驗 實驗二:熟悉HDFS常用操作

    附件中有word版本的實驗報告 理解HDFS在Hadoop體系結(jié)構(gòu)中的角色。 熟練使用HDFS操作常用的Shell命令。 熟悉HDFS操作常用的Java API。 Oracle VM VirtualBox虛擬機 系統(tǒng)版本centos7 JDK1.8版本 Hadoop-3.1.3 Windows11 Java IDE:IDEA 1.向HDFS中上傳任意文本文件,如果指定的文件在HDFS中已經(jīng)存在,由用戶

    2024年04月12日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包