?
???♂? 個人主頁:@艾派森的個人主頁
???作者簡介:Python學習者
?? 希望大家多多支持,我們一起進步!??
如果文章對你有幫助的話,
歡迎評論 ??點贊???? 收藏 ??加關注+
目錄
1.項目背景
2.數(shù)據(jù)集介紹
3.技術工具
4.導入數(shù)據(jù)
5.數(shù)據(jù)可視化
文末推薦與福利
?文章來源地址http://www.zghlxwxcb.cn/news/detail-804721.html
1.項目背景
????????隨著信息技術的迅猛發(fā)展和數(shù)字化時代的來臨,圖書出版、銷售與閱讀方式均發(fā)生了翻天覆地的變化。傳統(tǒng)的紙質書籍面臨著電子書、在線閱讀等新型閱讀方式的挑戰(zhàn)。在這一大背景下,對于圖書市場、讀者閱讀習慣以及書籍流通情況的數(shù)據(jù)分析變得尤為重要。
????????圖書書籍數(shù)據(jù)可視化分析實驗旨在通過收集、整理和分析大量的圖書相關數(shù)據(jù),利用數(shù)據(jù)可視化技術,將復雜的數(shù)據(jù)轉化為直觀、易理解的圖形和圖像。這樣可以幫助出版社更好地了解市場趨勢,優(yōu)化圖書出版策略;幫助書店和網(wǎng)上書城精確掌握庫存和銷售情況,調整進貨和銷售策略;同時,也可以幫助讀者更清晰地了解自己的閱讀習慣和偏好,以便做出更合適的閱讀選擇。
????????此外,對于圖書館和學術研究機構而言,圖書書籍數(shù)據(jù)可視化分析還有助于提高圖書管理和利用的效率,促進學術研究和知識傳播。例如,通過分析圖書館的借閱數(shù)據(jù),可以了解讀者的借閱習慣和需求,進而優(yōu)化圖書采購和館藏結構;通過分析學術著作的引用數(shù)據(jù),可以評估研究成果的影響力和學術價值。
????????綜上所述,圖書書籍數(shù)據(jù)可視化分析實驗不僅具有重要的商業(yè)價值,還有助于推動圖書行業(yè)的創(chuàng)新發(fā)展和學術研究的進步。在這一背景下,開展此類實驗顯得尤為必要和迫切。
2.數(shù)據(jù)集介紹
? ? ? ? 數(shù)據(jù)集來源于Kaggle,這個數(shù)據(jù)集包含了從wonderbk.com(一個受歡迎的在線書店)抓取的信息。該數(shù)據(jù)集包含103,063本書的詳細信息,其中包含標題、作者、描述、類別、出版商、起始價格和出版日期等關鍵屬性。
Title:書的標題。
Authors:本書的作者。
Description :對本書的簡要描述。
Category:書籍所屬的類別或流派。
Publisher:負責本書的出版社。
Price:書籍的初始價格。
Publish Date:出版年份。
3.技術工具
Python版本:3.9
代碼編輯器:jupyter notebook
4.導入數(shù)據(jù)
import warnings
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
sns.set(font='SimHei')
warnings.filterwarnings('ignore')
df = pd.read_csv('BooksDataset.csv')
df.head()
查看數(shù)據(jù)大小?
?查看數(shù)據(jù)基本信息
查看描述性統(tǒng)計
查看缺失值情況
刪除缺失值
檢測是否存在重復值
?刪除重復值
處理變量
# 處理作者這一列數(shù)據(jù),提取出作者名
df['Authors'] = df['Authors'].str.replace(r'^By\s+', '', regex=True)
# 處理價格
df['Price'] = df['Price'].apply(lambda x:float(x.split('$')[1].replace(',','')))
# 發(fā)布年份
df['Publish Date'] = df['Publish Date'].apply(lambda x:int(x.split(', ')[-1].split(' ')[-1]))
5.數(shù)據(jù)可視化
df['Authors'] = df['Authors'].str.split(',').apply(lambda x: ' '.join(reversed(x)) if len(x) > 1 else x[0])
# 顯示清洗后的前10位作者
top_10_authors = df['Authors'].value_counts().head(10)
# 十大高產(chǎn)作家(條形圖)
plt.figure(figsize=(10, 6))
top_10_authors.plot(kind='bar', color='orange')
plt.title('Top 10 Prolific Authors')
plt.xlabel('Authors')
plt.ylabel('Number of Books')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()
# 不同作者的平均價格(條形圖)
average_prices_by_author = df.groupby('Authors')['Price'].mean().sort_values(ascending=False).head(10)
plt.figure(figsize=(10, 6))
average_prices_by_author.plot(kind='bar', color='green')
plt.title('Average Prices by Top 10 Authors')
plt.xlabel('Authors')
plt.ylabel('Average Price ($)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()
top_prolific_authors = df['Authors'].value_counts().head(10)
plt.figure(figsize=(10, 6))
sns.barplot(x=top_prolific_authors.values, y=top_prolific_authors.index, palette='coolwarm')
plt.title('Top 10 Prolific Authors')
plt.xlabel('Number of Books')
plt.ylabel('Authors')
plt.tight_layout()
plt.show()
average_prices_by_category = df.groupby('Category')['Price'].mean().sort_values(ascending=False)
top_10_categories_by_price = average_prices_by_category.head(10)
# 按平均價格可視化前10個類別(條形圖)
plt.figure(figsize=(10, 6))
sns.barplot(x=top_10_categories_by_price.values, y=top_10_categories_by_price.index, palette='viridis')
plt.title('Top 10 Categories by Average Price')
plt.xlabel('Average Price ($)')
plt.ylabel('Category')
plt.tight_layout()
plt.show()
top_publishers = df['Publisher'].value_counts().head(10)
plt.figure(figsize=(8, 8))
plt.pie(top_publishers, labels=top_publishers.index, autopct='%1.1f%%', startangle=140)
plt.title('Top 5 Publishers Distribution')
plt.tight_layout()
plt.show()
from wordcloud import WordCloud
cleaned_descriptions = df['Description'].dropna().tolist()
text = ' '.join(cleaned_descriptions)
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)
plt.figure(figsize=(12, 8))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud of Book Descriptions')
plt.tight_layout()
plt.show()
filtered_years = df[(df['Publish Date'] > 1950)&(df['Publish Date'] < 2024)]
yearly_counts_after_1950 = filtered_years['Publish Date'].dropna().value_counts().sort_index()
# 由于沒有足夠的1950年以前的數(shù)據(jù),所以繪制1950年以后的趨勢圖
plt.figure(figsize=(10, 6))
yearly_counts_after_1950.plot(kind='line', marker='o', color='blue')
plt.title('Book Releases Over the Years (After 1950)')
plt.xlabel('Year')
plt.ylabel('Number of Books Released')
plt.grid(True)
plt.tight_layout()
plt.show()
?文末推薦與福利
《Excel高效辦公:文秘與行政辦公(AI版)》免費包郵送出3本!
?
內容簡介:? ? ??
????????隨著信息技術的快速發(fā)展,Excel作為一款功能強大的電子表格軟件,已經(jīng)被廣泛應用于文秘與行政辦公領域。Excel不僅可以幫助文秘人員和行政助理高效地處理數(shù)據(jù)、制作報表和統(tǒng)計圖表,而且還可以自動化處理各種日常工作,從而節(jié)省時間和精力,提高工作效率。
????????本書還創(chuàng)新地將ChatGPT引入到學習Excel行政與文秘技能教學中,其提問與使用方式同樣適用于國內常用AI語言大模型,如百度的“文心一言”、科大訊飛的“星火”大模型。本書先通過 ChatGPT認識和了解文秘與行政工作中的基礎知識,再根據(jù)實際的工作案例,講述了在文秘與行政工作中使用Excel制作各種辦公表格文檔的方法與工作技能。
????????本書既適合在公司中從事文秘與行政工作的人員學習,也適合作為廣大職業(yè)院校文秘與行政相關專業(yè)的學習用書,同時還可以作為文秘與行政技能培訓教材。
編輯推薦:? ? ?
★超實用:通過30多個實戰(zhàn)案例和操作技巧,使讀者能夠快速上手并靈活運用AI工具提高辦公效率。
★巨全面:內容設計從文秘與行政管理工作實際出發(fā),涵蓋工作中各項事務的數(shù)據(jù)統(tǒng)計、分析與處理等要求的全方面內容。
★真好懂:一步一圖的操作講解,一看就懂,思路清晰,老板要的數(shù)據(jù)統(tǒng)計、分析、結論全都有。
★高回報:看完本書,菜鳥變高手,成為制作各種文檔的多面手,零門檻提高文秘與行政辦公硬核能力。
- 抽獎方式:評論區(qū)隨機抽取3位小伙伴免費送出!
- 參與方式:關注博主、點贊、收藏、評論區(qū)評論“人生苦短,拒絕內卷!”(切記要點贊+收藏,否則抽獎無效,每個人最多評論三次!)
- 活動截止時間:2024-1-22?20:00:00
當當購買鏈接:http://product.dangdang.com/29658186.html
京東購買鏈接:https://item.jd.com/13953793.html
?名單公布時間:2024-1-22?21:00:00?
資料獲取,更多粉絲福利,關注下方公眾號獲取
文章來源:http://www.zghlxwxcb.cn/news/detail-804721.html
?
到了這里,關于數(shù)據(jù)分析案例-圖書書籍數(shù)據(jù)可視化分析(文末送書)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!