爬蟲(chóng)代碼+繪圖代碼+數(shù)據(jù)集+文檔下載鏈接(CSDN平臺(tái)):https://download.csdn.net/download/qq_34060370/87163278
課程名稱:Python語(yǔ)言與數(shù)據(jù)分析
課 程 報(bào)告
項(xiàng)目名稱 ????平板電腦數(shù)據(jù)集分析?? ????
班??? 級(jí)???? ? ? ? ? ? ? ? ? ? ?
學(xué) ???號(hào)???? ????? ? ? ? ? ? ??
姓 ???名???? ????劉建杰????? ?????????
任課教師???? ????? ? ? ? ? ? ? ?
開(kāi)課學(xué)期:2021 至 2022 學(xué)年第 2 學(xué)期
完成時(shí)間: 2022?? 年? 6 月? 8? 日
《平板電腦》數(shù)據(jù)分析報(bào)告
目錄
目錄
1 概述... 1
2數(shù)據(jù)描述... 1
2.1數(shù)據(jù)來(lái)源及提取... 1
2.2數(shù)據(jù)特點(diǎn)、包含字段... 2
2.3數(shù)據(jù)處理... 2
2.3.1查看是否含有缺失值... 2
2.3.2處理重復(fù)值... 3
2.3.3刪除不需要的列... 3
3 數(shù)據(jù)分析內(nèi)容... 3
3.1平板電腦每年上市的數(shù)量... 3
3.2各公司平板電腦數(shù)量規(guī)模對(duì)比... 3
3.3平板電腦各個(gè)價(jià)位的數(shù)量... 4
3.4平板電腦價(jià)格與評(píng)價(jià)關(guān)系... 4
3.5平板電腦的配置與價(jià)格關(guān)系... 4
3.5.1屏幕尺寸與價(jià)格... 4
3.5.2屏幕分辨率與價(jià)格... 4
3.5.3存儲(chǔ)器容量與價(jià)格... 4
4 數(shù)據(jù)分析圖表... 5
4.1平板電腦每年上市的數(shù)量... 5
4.2各公司平板電腦數(shù)量規(guī)模對(duì)比... 5
4.3平板電腦各個(gè)價(jià)位的數(shù)量... 6
4.4平板電腦價(jià)格與評(píng)價(jià)關(guān)系... 6
4.5平板電腦的配置與價(jià)格關(guān)系... 7
4.5.1屏幕尺寸與價(jià)格... 7
4.5.2屏幕分辨率與價(jià)格... 8
4.5.3存儲(chǔ)器容量與價(jià)格... 9
5 數(shù)據(jù)分析結(jié)果... 9
5.1平板電腦每年上市的數(shù)量... 9
5.2各公司平板電腦數(shù)量規(guī)模對(duì)比... 10
5.3平板電腦各個(gè)價(jià)位的數(shù)量... 10
5.4平板電腦價(jià)格與評(píng)價(jià)關(guān)系... 10
5.5平板電腦的配置與價(jià)格關(guān)系... 10
5.5.1 屏幕尺寸與價(jià)格... 10
5.5.2屏幕分辨率與價(jià)格... 11
5.5.3存儲(chǔ)器容量與價(jià)格... 11
6 總結(jié)... 11
附錄-數(shù)據(jù)分析代碼... 11
1 概述
???????? 平板電腦也叫便攜式電腦是一種小型、方便攜帶的個(gè)人電腦,以觸摸屏作為基本的輸入設(shè)備,它最大特點(diǎn)是,觸摸屏和手寫識(shí)別輸入功能,以及強(qiáng)大的筆輸入識(shí)別、語(yǔ)音識(shí)別、手勢(shì)識(shí)別能力,且具有移動(dòng)性。隨著科技的進(jìn)步,信息化的提高,平板電腦在我們?nèi)粘I钪性絹?lái)越常見(jiàn),其功能與作用越來(lái)越接近電腦與手機(jī),能提高我們的生產(chǎn)力和工作效率,本文的目的是對(duì)于我們能快速對(duì)平板電腦的發(fā)展與其各種參數(shù)有個(gè)宏觀了解,了解平板電腦的價(jià)格有哪些因素影響,以及提供新手選購(gòu)平板電腦選購(gòu)思路和參考
2數(shù)據(jù)描述
2.1數(shù)據(jù)來(lái)源及提取
本數(shù)據(jù)分析報(bào)告內(nèi)的平板電腦數(shù)據(jù)來(lái)源于中關(guān)村在線網(wǎng)站【平板電腦】平板電腦報(bào)價(jià)及圖片大全-ZOL中關(guān)村在線。
自己編寫爬蟲(chóng)程序,分析網(wǎng)址數(shù)據(jù)頁(yè)構(gòu)成,思考如何編寫增量爬蟲(chóng)邏輯,利用request請(qǐng)求獲取html,再用beautifulsoup解析html獲取逐個(gè)字段,最終成功爬取平板電腦的各項(xiàng)數(shù)據(jù)參數(shù)并保存csv文件到本地。
2.2數(shù)據(jù)特點(diǎn)、包含字段
從中關(guān)村網(wǎng)站共爬取1417條數(shù)據(jù),17個(gè)關(guān)鍵參數(shù)的字段。
17個(gè)平板電腦數(shù)據(jù)集參數(shù)的字段分別為公司名稱、產(chǎn)品名稱、上市年份、上市月份、價(jià)格(元)、階段、運(yùn)行內(nèi)存(GB)、存儲(chǔ)容量(GB)、操作系統(tǒng)、處理器型號(hào)、屏幕尺寸(英寸)、屏幕分辨率、重量(g)、評(píng)論人數(shù)、評(píng)分、電池類型、電池容量
2.3數(shù)據(jù)處理
2.3.1查看是否含有缺失值
使用Pandas將csv數(shù)據(jù)導(dǎo)入后,使用pandas庫(kù)中dateframe的info()函數(shù),數(shù)據(jù)集信息如下
因網(wǎng)站存儲(chǔ)的平板電腦信息不是很全,導(dǎo)致有的字段不為空的行數(shù)小于1417,存在空值的字段,由于含有空值字段比較分散,而且數(shù)據(jù)集量并不是很大,不能采用一刀切刪除操作,于是采用等數(shù)據(jù)分析具體內(nèi)容字段時(shí),再刪除空值的行或者不納入數(shù)據(jù)分析的范圍。
2.3.2處理重復(fù)值
使用duplicated()函數(shù)清除重復(fù)的行,數(shù)據(jù)集良好,未有重復(fù)的行
2.3.3刪除不需要的列
爬取的字段有17個(gè),字段較多,而有些個(gè)字段與本次數(shù)據(jù)分析內(nèi)容暫時(shí)無(wú)關(guān),所以刪除數(shù)據(jù)表中的上市月份、電池容量、電池類型等無(wú)關(guān)字段
3 數(shù)據(jù)分析內(nèi)容
3.1平板電腦每年上市的數(shù)量
通過(guò)分析每年上市的數(shù)量有利于我們對(duì)平板電腦的發(fā)展趨勢(shì)與興起有個(gè)宏觀了解
3.2各公司平板電腦數(shù)量規(guī)模對(duì)比
通過(guò)分析各公司平板電腦數(shù)量,可以體現(xiàn)出市場(chǎng)的多樣性,市場(chǎng)中哪幾個(gè)品牌占有市場(chǎng)最多的份額,能讓我們消費(fèi)者普通人能更好的選購(gòu)大品牌
3.3平板電腦各個(gè)價(jià)位的數(shù)量
通過(guò)分析不同價(jià)位的數(shù)量可以得出平板電腦什么價(jià)位數(shù)量最多,證明這個(gè)價(jià)位最親民,最適合我們普通大眾的價(jià)位
3.4平板電腦價(jià)格與評(píng)價(jià)關(guān)系
通過(guò)分析電腦價(jià)格與評(píng)價(jià)的關(guān)系,可以驗(yàn)證平板電腦領(lǐng)域是否與我們所熟知的那樣,評(píng)價(jià)與價(jià)格正比,評(píng)價(jià)隨價(jià)格的提升而提升
3.5平板電腦的配置與價(jià)格關(guān)系
簡(jiǎn)單從3個(gè)電腦配置方面分析配置與價(jià)格之間的關(guān)系,有助于我們了解平板電腦價(jià)格因什么而增長(zhǎng),以及什么配置影響因素最大,為我們解釋為什么不同平板電腦配置導(dǎo)致價(jià)格差異較大。
3.5.1屏幕尺寸與價(jià)格
分析屏幕尺寸的占比與屏幕尺寸是否對(duì)價(jià)格有影響
3.5.2屏幕分辨率與價(jià)格
分析屏幕分辨率的占比與屏幕分辨率是否對(duì)價(jià)格有影響
3.5.3存儲(chǔ)器容量與價(jià)格
分析存儲(chǔ)器容量的占比與存儲(chǔ)器容量是否對(duì)價(jià)格有影響
4 數(shù)據(jù)分析圖表
4.1平板電腦每年上市的數(shù)量
4.2各公司平板電腦數(shù)量規(guī)模對(duì)比
4.3平板電腦各個(gè)價(jià)位的數(shù)量
4.4平板電腦價(jià)格與評(píng)價(jià)關(guān)系
4.5平板電腦的配置與價(jià)格關(guān)系
4.5.1屏幕尺寸與價(jià)格
4.5.2屏幕分辨率與價(jià)格
4.5.3存儲(chǔ)器容量與價(jià)格
??
5 數(shù)據(jù)分析結(jié)果
5.1平板電腦每年上市的數(shù)量
通過(guò)4.1的折線圖可以清晰的看出
- 2010年是平板電腦誕生,正式進(jìn)入市場(chǎng)的一年。在網(wǎng)上搜索相關(guān)資料后,2010年確實(shí)是平板電腦正式誕生的年份,是蘋果公司生產(chǎn)的蘋果ipad一代,使得平板電腦開(kāi)始慢慢進(jìn)入我們生活。
- 2012年是平板電腦上市數(shù)量劇增開(kāi)始的一年,可以猜測(cè)平板電腦市場(chǎng)很大,許多公司都進(jìn)行此產(chǎn)品的研發(fā)。
- 2013年平板電腦上市數(shù)量最高,而此后每年的上市數(shù)量越來(lái)越少,可以推測(cè)應(yīng)該是各公司對(duì)平板電腦的提升要求較高,為了與同行競(jìng)爭(zhēng),而將重心放在核心技術(shù)上,將以更好的產(chǎn)品競(jìng)爭(zhēng)市場(chǎng)而不是以上市數(shù)量。
5.2各公司平板電腦數(shù)量規(guī)模對(duì)比
通過(guò)4.2的橫向柱形圖可以得出
- 蘋果公司擁有平板電腦的產(chǎn)品數(shù)量最多,是平板電腦的龍頭企業(yè)。
- 蘋果、臺(tái)電、聯(lián)想、酷比魔方、華為、三星公司平板電腦產(chǎn)品數(shù)量都挺多,為平板電腦市場(chǎng)作出主要貢獻(xiàn)
- 從圖中可看出前6家公司擁有的產(chǎn)品數(shù)量雖然有差異但差距沒(méi)有很大,可以得出市場(chǎng)并沒(méi)有被壟斷,使得平板電腦市場(chǎng)在產(chǎn)品的創(chuàng)新領(lǐng)域有良好的競(jìng)爭(zhēng)氛圍,有利于市場(chǎng)的創(chuàng)新發(fā)展。
5.3平板電腦各個(gè)價(jià)位的數(shù)量
通過(guò)4.3的豎向柱形圖可以獲知
1000-2000價(jià)位范圍內(nèi)的平板電腦數(shù)量最多,說(shuō)明這個(gè)價(jià)格最親民,最普及大眾,可以推測(cè)各公司的對(duì)這價(jià)位都投入了精力,為了獲得許多大眾的青睞打出品牌知名度,畢竟我們普通人都希望有較便宜且好用的電腦。
5.4平板電腦價(jià)格與評(píng)價(jià)關(guān)系
通過(guò)4.4的箱型圖分析得知
- 通過(guò)圖中各箱子的q2中位數(shù),可以看出隨著價(jià)格范圍增長(zhǎng),中位數(shù)也在提高,驗(yàn)證了價(jià)格與評(píng)價(jià)成正比的關(guān)系,也給我們提供選購(gòu)指南,糾結(jié)價(jià)格稍低還是稍高點(diǎn)的,最好選購(gòu)價(jià)格稍高點(diǎn)的平板電腦。
- 1000價(jià)位以下的平板電腦,箱子圖中的q2中位數(shù)最低,說(shuō)明低價(jià)的平板電腦還是不盡人意,我們應(yīng)慎重購(gòu)買
- 0-1000與1000-2000價(jià)格范圍的上下端(須)很長(zhǎng),可以得出即使同樣的產(chǎn)品在每個(gè)人手中,不同人有著不同的評(píng)價(jià)與看法,說(shuō)明不同人的主觀性與個(gè)體的差異
5.5平板電腦的配置與價(jià)格關(guān)系
5.5.1 屏幕尺寸與價(jià)格
屏幕的尺寸大小是平板電腦組成中比較重要的部分,尺寸的大小關(guān)系著我們?nèi)粘J褂茫耙?、小說(shuō)等都需要在屏幕上展現(xiàn)出來(lái)。分析4.5.1的箱型圖,根據(jù)q2中位數(shù)可以得出,隨著尺寸的增大,價(jià)格普通也在提高,說(shuō)明屏幕尺寸與價(jià)格是成正比的,也側(cè)面反映企業(yè)若提高屏幕尺寸大小,平板電腦的制作成本也會(huì)增加,所以屏幕尺寸是影響價(jià)格是重要因素
5.5.2屏幕分辨率與價(jià)格
屏幕分辨率是指縱橫向上的像素點(diǎn)數(shù),屏幕分辨率確定計(jì)算機(jī)屏幕上顯示多少信息,所以不言而喻,分辨率是平板電腦組成中較重要的部分。通過(guò)分析4.5.2的箱型圖,根據(jù)q2中位數(shù)可以得出,隨著分辨率的增大,價(jià)格也在增長(zhǎng),但是增長(zhǎng)速度較慢,不過(guò)也能反映出屏幕分辨率是影響價(jià)格的重要因素
5.5.3存儲(chǔ)器容量與價(jià)格
這里分析的存儲(chǔ)器容量是外存儲(chǔ)器,外存用來(lái)存儲(chǔ)程序、數(shù)據(jù)以及各種軟件資源,毫無(wú)疑問(wèn),存儲(chǔ)器容量是平板電腦組成的重要部分。分析4.5.3的折線圖,根據(jù)折線的形狀,可以清晰的看出,存儲(chǔ)容量增長(zhǎng)時(shí),平均價(jià)格也在增長(zhǎng),而且增長(zhǎng)速度很快,由此可斷定,企業(yè)生產(chǎn)平板電腦存儲(chǔ)器容量的增加,其成本會(huì)增加很多,所以存儲(chǔ)器容量是影響平板電腦的一個(gè)非常重要的因素。
6 總結(jié)
1.整個(gè)數(shù)據(jù)分析過(guò)程
首先,做此報(bào)告前,需要有平板電腦的數(shù)據(jù)集,但是我搜索了阿里云天池以及和鯨社區(qū)都沒(méi)有找到相關(guān)的數(shù)據(jù)集,無(wú)奈之下只好自己寫爬蟲(chóng)爬取數(shù)據(jù)集,本想爬京東的數(shù)據(jù),想著京東的平板電腦數(shù)據(jù)信息比較齊全和權(quán)威,寫了些相關(guān)爬取京東數(shù)據(jù)代碼后才覺(jué)得并不合適,京東列出的平板電腦數(shù)據(jù)只是各個(gè)店鋪上架的銷售平板電腦的數(shù)據(jù),會(huì)有重復(fù)值以及其它原因,做起來(lái)會(huì)非常復(fù)雜,遂放棄,后想起有中關(guān)村網(wǎng)站,這網(wǎng)站將平板電腦的數(shù)據(jù)分門別類,而且展示齊全,很符合我想要爬的數(shù)據(jù),于是開(kāi)始寫爬蟲(chóng)代碼爬取。由于爬蟲(chóng)庫(kù)(request、re、beautifulsoup)代碼并不熟悉,代碼寫得較困難,需要邊翻書和查資料才能勉勉強(qiáng)強(qiáng)寫出來(lái)。
然后,有了數(shù)據(jù)集csv文件后,需要使用pandas讀取處理,再使用matplotlib庫(kù)來(lái)繪圖,pandas庫(kù)并不是很熟悉,剛接觸不久,matplotlib庫(kù)更不用說(shuō)了,各種函數(shù)與參數(shù)很難有個(gè)大概宏觀映像,只好上matplotlib官網(wǎng)看例子,再上CSDN搜索相關(guān)matplotlib教程,再一步一步調(diào)試出來(lái)想要的圖形效果,寫代碼繪圖分析花費(fèi)挺多時(shí)間,需要找到合適的圖形來(lái)匹配分析的數(shù)據(jù)集,有時(shí)找的圖形不合適又得換掉,綜合對(duì)比哪個(gè)圖好一點(diǎn)才決定最終圖表。繪好圖后,需要寫文檔了,但是各個(gè)小點(diǎn)的寫法并沒(méi)有思路,于是查看眾多老師發(fā)的學(xué)長(zhǎng)學(xué)姐的文檔以及在和鯨社區(qū)相關(guān)項(xiàng)目后,才有思路開(kāi)始著手寫。
2.收獲
了解熟悉了python爬蟲(chóng)代碼的編寫和思路,更多的是熟悉了pandas、numpy、matplotlib這三個(gè)庫(kù)用來(lái)做數(shù)據(jù)分析的使用,增加了自己站在大數(shù)據(jù)下分析事物。還有增加自己搜索資料獨(dú)立完成任務(wù)的能力,以及鞏固這一學(xué)期python的各個(gè)知識(shí)點(diǎn)。
3.體會(huì)
做python的數(shù)據(jù)分析更多的是得動(dòng)手實(shí)踐才能加深理解和印象。python用來(lái)爬蟲(chóng)、數(shù)據(jù)分析都很有用,適合當(dāng)自己的小工具。另外學(xué)python這段時(shí)間雖然比較艱苦,很短的時(shí)間得學(xué)很多知識(shí),雖然累但是收獲頗豐。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-483975.html
附錄-數(shù)據(jù)分析代碼
?爬蟲(chóng)代碼+繪圖代碼+數(shù)據(jù)集+文檔下載鏈接(CSDN平臺(tái)):https://download.csdn.net/download/qq_34060370/87163278文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-483975.html
- 數(shù)據(jù)分析代碼(部分展示,具體請(qǐng)點(diǎn)鏈接下載)
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
font = {'family':'SimHei',
'weight':'bold',
'size':'14'}
plt.rc('font', **font)
plt.rc('axes', unicode_minus=False)
df = pd.read_csv('平板電腦.csv', encoding='gbk')
yearcts = df['上市年份'].value_counts().sort_index(axis=0)
x = yearcts.index
y = yearcts.values
plt.plot(x, y, linewidth=1, color="orange", marker="o",label="Mean value")
#設(shè)置每個(gè)點(diǎn)上的數(shù)值
for i in range(len(yearcts)):
plt.text(x[i], y[i], y[i], fontsize=12, color="black", style="italic", weight="light", verticalalignment='center',horizontalalignment='right')
plt.title('各年份上市平板電腦的數(shù)量')
plt.xlabel("年份")
plt.ylabel("數(shù)量")
plt.show()
到了這里,關(guān)于Python平板電腦數(shù)據(jù)分析-課程大作業(yè)-部分源碼的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!