国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<thead id="370w0"></thead>

<kbd id="370w0"></kbd>

豆瓣圖書統(tǒng)計可視化分析

2年前作者：睡不醒的恒分類：Toy博客閱讀(24)違法舉報

這篇具有很好參考價值的文章主要介紹了豆瓣圖書統(tǒng)計可視化分析。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

s此博客是建立于爬蟲基礎之上，首先我們需要對豆瓣網(wǎng)站的圖書進行爬取，這里將不再展示爬取部分，直接進行數(shù)據(jù)清洗及可視化分析部分。

一.準備數(shù)據(jù)集

數(shù)據(jù)集在下方鏈接當中，如需請自取。

https://pan.baidu.com/s/146N5YQfE0hkkYm2JOZQsEg

豆瓣圖書統(tǒng)計可視化分析

import pandas as pd
import numpy as np
import re
import openpyxl

df=pd.read_csv(r'book_douban.csv',index_col=0)
print(df.head(10)) #打印前十行進行觀察

輸出結果：

豆瓣圖書統(tǒng)計可視化分析

?二.數(shù)據(jù)清洗

大概流程如下：

豆瓣圖書統(tǒng)計可視化分析

?在該數(shù)據(jù)集當中，因為存在大量“不規(guī)則”字符，我們在使用的第一步就需要將該大類數(shù)據(jù)清洗，并且補全一些缺失項數(shù)據(jù)。這樣在接下來的分析及可視化過程當中才可以順利進行。

1.重新命名

因為原數(shù)據(jù)集當中的第六列的標題為：“數(shù)”很抽象，所以我們的第一步清洗就將“數(shù)”重命名為“頁數(shù)”

df.rename(columns={'數(shù)':'頁數(shù)'}, inplace=True)
df.reset_index(drop=True, inplace=True)
df.describe()
print(df.iloc[:, 4])

輸出結果：

豆瓣圖書統(tǒng)計可視化分析

觀察可得，現(xiàn)在已經(jīng)將“數(shù)”改為“頁數(shù)”，接著我們將數(shù)據(jù)中的缺失值或空值刪除或替換為其他值。

2.處理缺失值與空值

#將'none'轉換為null
df = df.replace('None', np.nan)

#查看缺失值情況
print(df.isnull().sum())

#去除'ISBM'列
df = df.drop('ISBM', axis=1)

#去除指定列含有空值的行
df = df.dropna(subset=['作者','出版社','出版時間','頁數(shù)','價格','評分','評論數(shù)量'], how='any')

#重置索引
df = df.reset_index(drop=True)

#確認是否還有空值
df.isnull().sum()

3.出版時間清洗

豆瓣圖書統(tǒng)計可視化分析

觀察上述出版時間一列的數(shù)據(jù)可知，存在這許多不同的時間表達方式，但是為了之后對于時間的可視化描述，我們需要在這里對時間進行“歸一”化。

代碼如下：

 df['出版時間']=df['出版時間'].str.replace(' ','')
 for index,row in df.iterrows():
     num=re.findall('\d+',row[3])
     num=''.join(num)[0:4]
     df.iloc[index,3]=num
 # 將出版時間轉換為整數(shù)型
 df.drop(df[df['出版時間'].str.len()!=4].index,axis=0,inplace=True)
 df['出版時間']=df['出版時間'].astype(np.int32)
 # 發(fā)現(xiàn)出版時間超出實際時間的數(shù)據(jù)，將其清除
 df.drop(df[df['出版時間']>2019].index,inplace=True)

?3.檢查頁數(shù)一列的數(shù)據(jù)情況

清洗“頁數(shù)”中存在亂碼/不規(guī)則/標點情況

代碼如下：

df['頁數(shù)'].str.contains('\.').value_counts()
# 規(guī)范頁數(shù)的格式，去除含有其他字符的數(shù)據(jù)比如‘.’
df['頁數(shù)']=df['頁數(shù)'].apply(lambda x:x.replace(',','').replace(' ',''))
df.drop(df[~(df['頁數(shù)'].str.isdecimal())].index,axis=0,inplace=True)

# 轉換頁數(shù)的格式
df['頁數(shù)']=df['頁數(shù)'].astype(np.int32)
df.drop((df[df['頁數(shù)']==0]).index,inplace=True)  # 清除頁數(shù)為0的數(shù)據(jù)

4.對于評分，評論數(shù)量進行轉型操作

代碼如下：

# 轉換數(shù)據(jù)類型
df['評分']=df['評分'].astype(float)
df['評論數(shù)量']=df['評論數(shù)量'].astype(np.int32)

5.對于價格列的清洗

對于價格一列當中不是純數(shù)據(jù)類型的數(shù)據(jù)全部剔除

df['價格']=df['價格'].apply(lambda x:x.replace(',','').replace(' ',''))
for r_index,row in df.iterrows():
    if row[5].replace('.','').isdecimal()==False:
        df.drop(r_index,axis=0,inplace=True)
    elif row[5][-1].isdecimal()==False:
        df.drop(r_index,axis=0,inplace=True)

對于價格小于1的數(shù)據(jù)剔除

df.drop(df[df['價格']<1].index,inplace=True)

對于價格一列進行轉型操作，更方便于計算。

df['價格']=df['價格'].astype(float)

6.對于書名一列進行清洗

由于是漢語居多，所以我們此時只需清洗書名一樣的數(shù)據(jù)

代碼如下：

df['書名'].value_counts()
df['書名'].duplicated().value_counts()
# 按照評論數(shù)量排名，然后去重，以保證數(shù)據(jù)可靠性
df=df.sort_values(by='評論數(shù)量',ascending=False)
df.reset_index(drop=True,inplace=True)
# 對排序后的數(shù)據(jù)進行去重
df.drop_duplicates(subset='書名', keep='first',inplace=True)
df.reset_index(drop=True,inplace=True)
# 查看是否還有重復的數(shù)據(jù)
df['書名'].value_counts()
# 清理后的數(shù)據(jù)
df.to_excel(r'douban_book.xlsx',encoding='utf_8_sig')

輸出結果：

豆瓣圖書統(tǒng)計可視化分析

7.出版書籍評分最高的為哪一個？

#出版社評分最高計算：
# 先統(tǒng)計各出版社的出版作品數(shù)量
press=df['出版社'].value_counts()
press=pd.DataFrame(press)
press=press.reset_index().rename(columns={'index':'出版集團','出版社':'出版數(shù)量'})
# 將出版作品數(shù)量大于200的出版社名稱提取到列表中
lst=press[press['出版數(shù)量']>200]['出版集團'].tolist()
# 將列表中的出版社的作品平均分計算出來，并按照降序排序
press_rank=df[df['出版社'].isin(lst)].groupby(by='出版社',as_index=False).agg(
    {'評分':np.mean}).sort_values(by='評分',ascending=False)
# 保存為excel
press_rank.to_excel(r'press_rank.xlsx', index=False, encoding='utf-8')
# print(press_rank)

# 打開xlsx文件
workbook = openpyxl.load_workbook('press_rank.xlsx')

# 選擇需要讀取數(shù)據(jù)的sheet
sheet = workbook['Sheet1']

# 讀取第二行第二列的數(shù)據(jù)
data1 = sheet.cell(row=2, column=1).value
data_list = []
for row in range(2, 7):
    data = sheet.cell(row=row, column=1).value
    data_list.append(data)

# 輸出讀取到的數(shù)據(jù)
print("出版社的書籍評分最高的為：",data1)
print("排名表已經(jīng)存于當前目錄下press_rank.xlsx中")
print("評分前五的出版社依次為：",data_list)

輸出結果：

???????? 豆瓣圖書統(tǒng)計可視化分析

press_rank.xlsx：

? 豆瓣圖書統(tǒng)計可視化分析

8. 出版書籍最多的出版社是哪一個？

代碼如下：

df1=df[df['評論數(shù)量']>100]
# 再提取出評分大于等于8的作品
df1=df1[df1['評分']>=8]
# 將過濾后的的作品按作者進行統(tǒng)計
writer=df1['出版社'].value_counts()
writer=pd.DataFrame(writer)
writer.reset_index(inplace=True)
writer.rename(columns={'index':'出版社','出版社':'發(fā)表數(shù)量'},inplace=True)
writer.to_excel(r'chubanshe.xlsx', index=False, encoding='utf-8')
workbook = openpyxl.load_workbook('chubanshe.xlsx')

# 選擇需要讀取數(shù)據(jù)的sheet
sheet1 = workbook['Sheet1']

data2 = sheet1.cell(row=2, column=1).value
data3 = sheet1.cell(row=2, column=2).value
print("*************************************************************")
print("出版書籍最多的出版社為：",data2)
print("數(shù)量為：",data3)
print("剩余排名可查看當前目錄下chubanshe.xlsx")

輸出結果：

豆瓣圖書統(tǒng)計可視化分析

?chubanshe.xlsx：

?9.價格最高的出版社是哪一個？

代碼如下：

df = pd.read_excel('book_douban1.xlsx')

# 按照某一列進行排序
df_sorted = df.sort_values('價格', ascending=False)

# 將整體表格存入新的表格中
df_sorted.to_excel('price.xlsx', index=False)
workbook1 = openpyxl.load_workbook('price.xlsx')

# 選擇需要讀取數(shù)據(jù)的sheet
sheet2 = workbook1['Sheet1']

data5 = sheet2.cell(row=2, column=1).value
data7 = sheet2.cell(row=2, column=6).value
print("*************************************************************")
print("價格最高的出版社為：",data5)
print("價格為：",data7)

輸出結果：

豆瓣圖書統(tǒng)計可視化分析

三：可視化部分

這里將演示最簡單的柱形圖可視化，進階可視化圖將陸續(xù)更新。

對評分前 5名的出版社每年出版的圖書數(shù)量畫圖進行比較分析。

?代碼如下：

import openpyxl
from collections import Counter
import matplotlib.pyplot as plt
from matplotlib import rcParams

rcParams['font.sans-serif'] = ['SimHei'] # 設置正常顯示中文標簽
rcParams['axes.unicode_minus'] = False # 解決負數(shù)坐標顯示問題

# 打開xlsx文件
wb = openpyxl.load_workbook('book_douban1.xlsx')

# 選擇第一個sheet
sheet = wb.active

# 定義函數(shù)，用于生成柱狀圖
def bar_chart(title, publisher):
# 遍歷第三列，輸出包含publisher的行
    lis = []
    for row in sheet.iter_rows(min_row=2, min_col=3, values_only=True):
        if publisher in row:
            lis.append(row[1])
    # 使用Counter類進行計數(shù)
    counter = Counter(lis)
    # 將計數(shù)結果轉換為兩個列表
    x = list(counter.keys())
    y = list(counter.values())

    # 使用pyplot繪制柱狀圖
    plt.bar(x, y)

    # 添加圖表標題和坐標軸標簽
    plt.title(title)
    plt.xlabel('時間')
    plt.ylabel('出版數(shù)量')

    # 顯示圖表
    plt.show()
# 調(diào)用函數(shù)生成各個出版社的柱狀圖
bar_chart('上海古籍出版社', ' 上海古籍出版社')
bar_chart('中華書局', ' 中華書局')
bar_chart('商務印書館', ' 商務印書館')
bar_chart('華東師范大學出版社', ' 華東師范大學出版社')
bar_chart('華夏出版社', ' 華夏出版社')

結果展示：

豆瓣圖書統(tǒng)計可視化分析

?我采用最簡單易懂的方式來繪制此柱形圖，不會的朋友可以留言~文章來源地址http://www.zghlxwxcb.cn/news/detail-488444.html

到了這里，關于豆瓣圖書統(tǒng)計可視化分析的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

python基于python的豆瓣電影數(shù)據(jù)分析可視化系統(tǒng)論文
近些年來，隨著科技的飛速發(fā)展，互聯(lián)網(wǎng)的普及逐漸延伸到各行各業(yè)中，給人們生活帶來了十分的便利，商家利用計算機網(wǎng)絡實現(xiàn)信息化管理，使整個豆瓣電影數(shù)據(jù)分析可視化管理的發(fā)展和服務水平有顯著提升。本文擬采用Python技術和Django 搭建系統(tǒng)框架，后臺使用MySQL數(shù)據(jù)庫
2024年01月23日
瀏覽(25)
數(shù)據(jù)分析案例-圖書書籍數(shù)據(jù)可視化分析（文末送書）
? ???♂? 個人主頁：@艾派森的個人主頁 ???作者簡介：Python學習者 ?? 希望大家多多支持，我們一起進步！?? 如果文章對你有幫助的話，歡迎評論 ??點贊???? 收藏 ??加關注+ 目錄 1.項目背景 2.數(shù)據(jù)集介紹 3.技術工具 4.導入數(shù)據(jù) 5.數(shù)據(jù)可視化文末推薦與福利 ? ??
2024年01月19日
瀏覽(19)
基于Python的海量豆瓣電影、數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)分析、可視化、大屏設計項目（含數(shù)據(jù)庫）
項目介紹有需要本項目的代碼或文檔以及全部資源，或者部署調(diào)試可以私信博主?。。。。。。。。?！本文基于Python的網(wǎng)絡爬蟲手段對豆瓣電影網(wǎng)站進行數(shù)據(jù)的抓取，通過合理的分析豆瓣網(wǎng)站的網(wǎng)頁結構，并設計出規(guī)則來獲取電影數(shù)據(jù)的JSON數(shù)據(jù)包，采用正態(tài)分布的延時措施
2024年02月12日
瀏覽(50)
基于Hadoop的豆瓣電影的數(shù)據(jù)抓取、數(shù)據(jù)清洗、大數(shù)據(jù)分析（hdfs、flume、hive、mysql等）、大屏可視化
項目介紹有需要整個項目的可以私信博主，提供部署和講解，對相關案例進行分析和深入剖析環(huán)境點擊頂部下載 = 本研究旨在利用Python的網(wǎng)絡爬蟲技術對豆瓣電影網(wǎng)站進行數(shù)據(jù)抓取，并通過合理的數(shù)據(jù)分析和清洗，將非結構化的數(shù)據(jù)轉化為結構化的數(shù)據(jù)，以便于后續(xù)的大數(shù)
2024年02月11日
瀏覽(18)
python爬蟲分析基于python圖書館書目推薦數(shù)據(jù)分析與可視化
收藏關注不迷路隨著電子技術的普及和快速發(fā)展，線上管理系統(tǒng)被廣泛的使用，有很多商業(yè)機構都在實現(xiàn)電子信息化管理，圖書推薦也不例外，由比較傳統(tǒng)的人工管理轉向了電子化、信息化、系統(tǒng)化的管理。傳統(tǒng)的圖書推薦管理，一開始都是手工記錄，然后將手工記錄的文
2024年02月08日
瀏覽(21)
Python淘寶書籍圖書銷售數(shù)據(jù)爬蟲可視化分析大屏全屏系統(tǒng)
?博主介紹：黃菊華老師《Vue.js入門與商城開發(fā)實戰(zhàn)》《微信小程序商城開發(fā)》圖書作者，CSDN博客專家，在線教育專家，CSDN鉆石講師；專注大學生畢業(yè)設計教育和輔導。所有項目都配有從入門到精通的基礎知識視頻課程，學習后應對畢業(yè)設計答辯。項目配有對應開發(fā)文檔、
2024年04月14日
瀏覽(26)
【大數(shù)據(jù)實訓】基于當當網(wǎng)圖書信息的數(shù)據(jù)分析與可視化(八)
溫馨提示：文末有 CSDN 平臺官方提供的博主的聯(lián)系方式，有償幫忙部署一、實驗環(huán)境（1）Linux： Ubuntu 16.04 （2）Python: 3.5 （3）Hadoop：3.1.3（4）Spark: 2.4.0（5）Web框架：flask 1.0.3 （6）可視化工具：Echarts （7）開發(fā)工具：Visual Studio Code 二、小組成員及分工（1）成員：林海瀅，
2024年02月04日
瀏覽(27)
【Excel統(tǒng)計分析插件】上海道寧為您提供統(tǒng)計分析、數(shù)據(jù)可視化和建模軟件——Analyse-it
Analyse-it是Microsoft Excel中的統(tǒng)計分析插件它為Microsoft Excel帶來了易于使用的統(tǒng)計軟件 Analyse-it在軟件中引入了一些新的創(chuàng)新統(tǒng)計分析 ? Analyse-it與許多Excel加載項開發(fā)人員不同使用完善的軟件開發(fā)和QA實踐包括單元/集成/系統(tǒng)測試敏捷開發(fā)、代碼審查問題跟蹤和用于變更管
2024年02月07日
瀏覽(63)
Python爬取豆瓣電影Top 250，豆瓣電影評分可視化，豆瓣電影評分預測系統(tǒng)
博主介紹：?程序員徐師兄、7年大廠程序員經(jīng)歷。全網(wǎng)粉絲12w+、csdn博客專家、掘金/華為云/阿里云/InfoQ等平臺優(yōu)質(zhì)作者、專注于Java技術領域和畢業(yè)項目實戰(zhàn)? ?? 文末獲取源碼聯(lián)系 ?? ???? 精彩專欄推薦訂閱???? 不然下次找不到喲 2022-2024年最全的計算機軟件畢業(yè)設計選
2024年03月21日
瀏覽(23)
統(tǒng)計軟件與數(shù)據(jù)分析Lesson15----梯度下降（Gradient Descent）過程可視化
2023年06月11日
瀏覽(16)

<kbd id="o5gjo"></kbd>