国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tr id="psrn0"><abbr id="psrn0"></abbr></tr>

<object id="psrn0"><progress id="psrn0"></progress></object>

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）

2年前作者：阡之塵埃分類：Toy博客閱讀(54)違法舉報

這篇具有很好參考價值的文章主要介紹了Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

案例背景

最近總看到《消失的她》票房多少多少，《孤注一擲》票房又破了多少多少.....

于是我就想自己爬蟲一下獲取中國高票房的電影數(shù)據(jù)，然后分析一下。

數(shù)據(jù)來源于淘票票：影片總票房排行榜 (maoyan.com)

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

爬它就行。

不會爬蟲的同學(xué)要這代碼演示數(shù)據(jù)可以參考：數(shù)據(jù)

?

代碼實現(xiàn)

首先爬蟲獲取數(shù)據(jù)：

數(shù)據(jù)獲取

導(dǎo)入包

import requests; import pandas as pd
from bs4 import BeautifulSoup

?傳入網(wǎng)頁和請求頭

url = 'https://piaofang.maoyan.com/rankings/year'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.62'}
response1 = requests.get(url,headers=headers)
response.status_code

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas
200表示獲取網(wǎng)頁文件成功

然后解析網(wǎng)頁文件，獲取電影信息數(shù)據(jù)

%%time
soup = BeautifulSoup(response.text, 'html.parser')
soup=soup.find('div', id='ranks-list')
movie_list = []

for ul_tag in soup.find_all('ul', class_='row'):
    movie_info = {}
    li_tags = ul_tag.find_all('li')
    movie_info['序號'] = li_tags[0].text
    movie_info['標(biāo)題'] = li_tags[1].find('p', class_='first-line').text
    movie_info['上映日期'] = li_tags[1].find('p', class_='second-line').text
    movie_info['票房(億)'] = f'{(float(li_tags[2].text)/10000):.2f}'
    movie_info['平均票價'] = li_tags[3].text
    movie_info['平均人次'] = li_tags[4].text
    movie_list.append(movie_info)

數(shù)據(jù)獲取完成了！查看字典數(shù)據(jù)：
?

movie_list

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

可以，很標(biāo)準(zhǔn)，沒什么問題，然后把它變成數(shù)據(jù)框，查看前三行

movies=pd.DataFrame(movie_list)
movies.head(3)

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

對數(shù)據(jù)進行一定的清洗，我們看到上映日期里面的數(shù)據(jù)有“上映”兩個字，我們要去掉，然后把它變成時間格式，票房，票價，人次都要變成數(shù)值型數(shù)據(jù)。

我們只取票房前250的電影，對應(yīng)豆瓣250.,,,,中國票房250好叭

然后我們還需要從日期里面抽取年份和月份兩列數(shù)據(jù)，方便后面分析。

#清洗
movies=movies.set_index('序號').loc[:'250',:]  
movies['上映日期']=pd.to_datetime(movies['上映日期'].str.replace('上映',''))
movies[['票房(億)','平均票價','平均人次']]=movies.loc[:,['票房(億)','平均票價','平均人次']].astype(float)
movies['年份']=movies['上映日期'].dt.year  ;   movies['月份']=movies['上映日期'].dt.month
movies.head(2)

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

數(shù)據(jù)處理完畢，開始畫圖分析！

畫圖分析

導(dǎo)入畫圖包

import seaborn as sns
import matplotlib.pyplot as plt
plt.rcParams ['font.sans-serif'] ='SimHei'               #顯示中文
plt.rcParams ['axes.unicode_minus']=False

?對票房排名前20的電影畫柱狀圖

top_movies = movies.nlargest(20, '票房(億)')
plt.figure(figsize=(7, 4),dpi=128)
ax = sns.barplot(x='票房(億)', y='標(biāo)題', data=top_movies, orient='h',alpha=0.5)
#plt.xticks(rotation=80, ha='center')

# 在柱子上標(biāo)注數(shù)值
for p in ax.patches:
    ax.annotate(f'{p.get_width():.2f}', (p.get_width(), p.get_y() + p.get_height() / 2.),
                va='center', fontsize=8, color='gray', xytext=(5, 0),
                textcoords='offset points')

plt.title('票房前20的電影')
plt.xlabel('票房數(shù)量（億）')
plt.ylabel('電影名稱')
plt.tight_layout()
plt.show()

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

還不錯，很好看，可以看到中國歷史票房前20 的電影名稱和他們的票房數(shù)量。

對平均票價和平均人次進行分析：
?

plt.figure(figsize=(7, 6),dpi=128)
# 繪制第一個子圖：平均票價點圖
plt.subplot(2, 2, 1)
sns.scatterplot(y='平均票價', x='年份', data=movies,c=movies['年份'],cmap='plasma')
plt.title('平均票價點圖')
plt.ylabel('平均票價')
#plt.xticks([])

plt.subplot(2, 2, 2)
sns.boxplot(y='平均票價', data=movies)
plt.title('平均票價箱線圖')
plt.xlabel('平均票價')

plt.subplot(2, 2, 3)
sns.scatterplot(y='平均人次', x='年份', data=movies,c=movies['年份'],cmap='plasma')
plt.title('平均人次點圖')
plt.ylabel('平均人次')

plt.subplot(2, 2, 4)
sns.boxplot(y='平均人次', data=movies)
plt.title('平均人次箱線圖')
plt.xlabel('平均人次')
plt.tight_layout()
plt.show()

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

先看柱狀圖，可以看到平均票價和平均人次都是有一些離群點的，然后我們在左邊畫了他們和年份的的散點圖，可以明細(xì)看到，隨著年份越大，電影的平均人次越來越低，平均票價越來越高.....也就是最近的電影比起之前的電影來說，越來越貴，而且平均每場看的人越來越少......也側(cè)面反映了我國電影業(yè)的一些“高票價”，‘幽靈劇場刷票房’ 等等亂象...

我注意到2000年之前有一個電影每場人次特別高，票價很低，它是什么電影我很好奇我就查看了一下：

movies[movies['年份']<2000]

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

原來是國民級別的《泰坦尼克號》,那沒事了，名副實歸。

不同年份的高票房電影數(shù)量：

plt.figure(figsize=(7, 3), dpi=128)
year_count = movies['年份'].value_counts().sort_index()
sns.lineplot(x=year_count.index, y=year_count.values, marker='o', lw=1.5, markersize=3)
plt.fill_between(year_count.index, 0, year_count, color='lightblue', alpha=0.8)
plt.title('不同年份高票房電影數(shù)量')
plt.xlabel('年份')
plt.ylabel('電影數(shù)量')
# 在每個數(shù)據(jù)點上標(biāo)注數(shù)值
for x, y in zip(year_count.index, year_count.values):
    plt.text(x, y+0.2, str(y), ha='center', va='bottom', fontsize=8)

plt.tight_layout()
plt.show()

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

可以看到，我國高票房的電影，從2010年開始高速增長，到2017年到達(dá)峰值，著名的《戰(zhàn)狼2》就是2017年上映的，然后2018和2019略微下降，2020年斷崖下跌，，為什么，懂得懂得，疫情原因嘛。

對高票房電影不同月份的占比百分比分析：

plt.figure(figsize=(4, 4),dpi=128)
month_count = movies['月份'].value_counts(normalize=True).sort_index()
# 繪制餅圖
sns.set_palette("Set3")
plt.pie(month_count, labels=month_count.index, autopct='%.1f%%', startangle=140, counterclock=False,
        wedgeprops={'alpha': 0.9})
plt.axis('equal')  # 保證餅圖是正圓形
plt.text(-0.3,1.2,'不同月份高票房電影數(shù)量',fontsize=8)
plt.tight_layout()
plt.show()

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

我們可以看到，高票房電影主要集中在2月，7月，12月，三個月份區(qū)間。

理由也很簡單，2月春節(jié)，7月暑假，12月跨年.....電影都喜歡這三個時間段上映。

自定義評價指標(biāo)

我們上面都是之間拿票房進行分析的，我們發(fā)現(xiàn)，票房高的電影真的是反映了看的人多嘛？它真的是受觀眾喜歡的好電影嘛？

數(shù)據(jù)有限，雖然我們無法剔除宣傳，時間熱點，導(dǎo)演，社會風(fēng)氣等等影響因素，但是我們可以把票價進行一定的控制。因為票房高的電影也有可能是票價過高造成的，所以我們用‘票房/平均票價’，然后和‘平均人次’進行一個加權(quán)求和。

票房/平均票價表示看電影的人群量，給7成權(quán)重，平均人次給一個3層的權(quán)重，然后都進行標(biāo)準(zhǔn)化統(tǒng)一數(shù)據(jù)單位，加起來就成為我們自己的評價指標(biāo)：

為了方便標(biāo)準(zhǔn)化我們先導(dǎo)入一個機器學(xué)習(xí)庫里面sklearn的標(biāo)準(zhǔn)化函數(shù)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

?計算指標(biāo)：

movies['我的評價指標(biāo)']=(movies['票房(億)'].astype(float)/movies['平均票價'].astype(float))
data1=scaler.fit_transform(movies[['我的評價指標(biāo)', '平均人次']])
movies['我的評價指標(biāo)']=0.7*data1[:,0]+0.3*data1[:,1]
movies=movies.sort_values(by='我的評價指標(biāo)',ascending=False)

畫圖查看：
?

my_top_movies = movies.nlargest(20, '我的評價指標(biāo)')
plt.figure(figsize=(7, 4),dpi=128)
ax = sns.barplot(x='我的評價指標(biāo)', y='標(biāo)題', data=my_top_movies, orient='h',alpha=0.6,palette='rainbow_r')
#plt.xticks(rotation=80, ha='center')

# 在柱子上標(biāo)注數(shù)值
for p in ax.patches:
    ax.annotate(f'{p.get_width():.2f}', (p.get_width(), p.get_y() + p.get_height() / 2.),
                va='center', fontsize=8, color='gray', xytext=(5, 0),
                textcoords='offset points')

plt.title('前20電影')
plt.xlabel('我的評價指標(biāo)')
plt.ylabel('電影名稱')
plt.tight_layout()
plt.show()

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

和之前的最高票房前20 的作對比，這樣我們能比較哪些是票房過高的電影，哪些是可能被低估的電影。

def get_unique_elements(list1, list2):
    # 獲取每個列表中的唯一元素
    set1 = set(list1) ; set2 = set(list2)
    unique_to_list1 = list(set1 - set2)
    unique_to_list2 = list(set2 - set1)
    common_elements = list(set1 & set2)
    return unique_to_list1, common_elements, unique_to_list2
票價過高的電影,確實是好電影,被低估的電影=get_unique_elements(top_movies['標(biāo)題'].to_list(), my_top_movies['標(biāo)題'].to_list())

?這個函數(shù)的作用是選出第一個列表特有的元素，兩個列表共有的元素，第二個列表特有的元素。

若這個電影在票房前20里面，也在我們的評價指標(biāo)前20里面，那么就是好電影。若它在在票房前20里面，不在我們的評價指標(biāo)前20里面，那可能就是票價過高的“水分電影”。

print(f'票價過高的電影:{票價過高的電影},\n\n確實是好電影:{確實是好電影},\n\n低估的電影:{被低估的電影}')

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

票價過高的電影:['八佰', '我和我的家鄉(xiāng)', '獨行月球', '流浪地球2'],emmmm

這幾個電影，我都沒怎么深入了解就不評價了......

詞云圖

加個詞云圖吧，好看些：

先自定義一個隨機顏色函數(shù)：

import numpy as np
def randomcolor():
    colorArr = ['1','2','3','4','5','6','7','8','9','A','B','C','D','E','F']
    color ="#"+''.join([np.random.choice(colorArr) for i in range(6)])
    return color
[randomcolor() for i in range(3)]

然后畫詞云圖：這里用了墊圖掩碼，原始圖片形狀為這樣的六角星：——? Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

from wordcloud import WordCloud
from matplotlib import colors
from imageio.v2 import imread    #形狀設(shè)置
mask = imread('詞云.png')  

# 將'標(biāo)題'和'票房'列合并為字典，以便生成詞云圖
word_freq = dict(zip(movies['標(biāo)題'], movies['票房(億)']))
color_list=[randomcolor() for i in range(20)]

wordcloud = WordCloud(width=1000, height=500, background_color='white',font_path='simhei.ttf',
                      max_words=50, max_font_size=50,random_state=42,mask = mask,
                          colormap=colors.ListedColormap(color_list)).generate_from_frequencies(word_freq)

plt.figure(figsize=(10, 5),dpi=256)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）,Python數(shù)據(jù)分析案例,python,數(shù)據(jù)分析,爬蟲,電影票房,pandas

總結(jié)

本次演示了從數(shù)據(jù)爬蟲獲取，到清洗整理，再到計算和可視化分析的全流程，再多加點圖和文字分析角度，加點模型，作為大多數(shù)的本科生的論文算是差不多的工作量了。

創(chuàng)作不易，看官覺得寫得還不錯的話點個關(guān)注和贊吧，本人會持續(xù)更新python數(shù)據(jù)分析領(lǐng)域的代碼文章~(需要定制代碼可私信)文章來源地址http://www.zghlxwxcb.cn/news/detail-713878.html

到了這里，關(guān)于Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

電影票房之?dāng)?shù)據(jù)分析(Hive)--第5關(guān)
電影票房之?dāng)?shù)據(jù)分析（Hive）第5關(guān)：統(tǒng)計2020年元旦節(jié)與國慶節(jié)放假后7天的觀影人數(shù) 本關(guān)任務(wù) 基于EduCoder平臺提供的初始數(shù)據(jù)集，統(tǒng)計 2020 年元旦節(jié)與國慶節(jié)放假后 7 天的觀影人數(shù)。編程要求本實驗環(huán)境已開啟 Hadoop 服務(wù) 在 hive 中創(chuàng)建數(shù)據(jù)庫? mydb ；注意：在開始要求2之前
2024年02月08日
瀏覽(28)
30 | 中國高校數(shù)據(jù)分析
本項目使用了兩個csv的數(shù)據(jù)文件，一個是中國高校（大學(xué)）的數(shù)據(jù)，一個是中國高校專業(yè)設(shè)置的數(shù)據(jù) 數(shù)據(jù)基本欄位：高校（大學(xué)）的數(shù)據(jù) 高校專業(yè)設(shè)置的數(shù)據(jù) 學(xué)校學(xué)校省份專業(yè)類別城市專業(yè)名稱地址國家特色專業(yè) 水平層次辦學(xué)類別辦學(xué)類型 985 211 雙一流本項目主要
2024年02月12日
瀏覽(21)
Python數(shù)據(jù)分析案例31——中國A股的月份效應(yīng)研究(方差分析，虛擬變量回歸)
本次案例是博主本科在行為金融學(xué)課程上做的一個小項目，最近看很多經(jīng)管類的學(xué)生作業(yè)都很需要，我就用python來重新做了一遍。不弄那些復(fù)雜的機器學(xué)習(xí)模型了，經(jīng)管類同學(xué)就用簡單的統(tǒng)計學(xué)方法來做模型就好。有效市場假說是現(xiàn)代金融證券市場的理論基礎(chǔ)之一，根據(jù)這一
2024年01月22日
瀏覽(52)
20億票房但不好看？Python分析《孤注一擲》豆瓣評論數(shù)據(jù)
環(huán)境使用 Python 3.8 解釋器 Pycharm 編輯器所需模塊一. 數(shù)據(jù)來源分析: 明確需求: 采集的網(wǎng)站是什么? 采集的數(shù)據(jù)是什么? 評論相關(guān)數(shù)據(jù) 抓包分析相關(guān)數(shù)據(jù)來源通過瀏覽器自帶開發(fā)者工具進行抓包分析重點打開開發(fā)者工具: F12 或者鼠標(biāo)右鍵點擊檢查選擇network 刷新網(wǎng)頁: 讓本網(wǎng)
2024年02月09日
瀏覽(28)
電影評分?jǐn)?shù)據(jù)分析案例-Spark SQL
1. 2. 3. 4. 5. 6.
2024年02月08日
瀏覽(32)
【爬蟲JS混淆分析】某網(wǎng)站票房響應(yīng)數(shù)據(jù)加密（含JS補環(huán)境調(diào)用與Python解密算法）
【作者主頁】：吳秋霖【作者介紹】：Python領(lǐng)域優(yōu)質(zhì)創(chuàng)作者、阿里云博客專家、華為云享專家。長期致力于Python與爬蟲領(lǐng)域研究與開發(fā)工作！【作者推薦】：對JS逆向感興趣的朋友可以關(guān)注《爬蟲JS逆向?qū)崙?zhàn)》，對分布式爬蟲平臺感興趣的朋友可以關(guān)注《分布式爬蟲平臺搭建
2024年02月04日
瀏覽(32)
Python爬取貓眼電影票房 + 數(shù)據(jù)可視化
對貓眼電影票房進行爬取，首先我們打開貓眼接著我們想要進行數(shù)據(jù)抓包，就要看網(wǎng)站的具體內(nèi)容，通過按F12，我們可以看到詳細(xì)信息。通過兩個對比，我們不難發(fā)現(xiàn) User-Agent 和 signKey 數(shù)據(jù)是變化的（平臺使用了數(shù)據(jù)加密）所以我們需要對User-Agent與signKey分別進行解密。通
2024年04月24日
瀏覽(26)
基于Python的電影影片數(shù)據(jù)分析
摘要數(shù)據(jù)分析與可視化是當(dāng)今數(shù)據(jù)分析的發(fā)展方向。大數(shù)據(jù)時代，數(shù)據(jù)資源具有海量特征。數(shù)據(jù)分析和可視化主要通過Python數(shù)據(jù)分析來實現(xiàn)?；赑ython的數(shù)據(jù)分析可視化和技術(shù)實現(xiàn)是目前Python數(shù)據(jù)分析的主要目的，Python可以為數(shù)據(jù)分析可視化提供思路，在體現(xiàn)數(shù)據(jù)價值方面
2024年02月08日
瀏覽(26)
基于python大數(shù)據(jù)的電影可視化分析及電影推薦
隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，利用數(shù)據(jù)采集技術(shù)實現(xiàn)用戶感興趣的數(shù)據(jù)收集分析成為很多互聯(lián)網(wǎng)公司研究討論的熱門話題。通過對基于Python的大數(shù)據(jù)的電影可視化分析與電影推薦，采集進行電影熱度動態(tài)變化的需求進行調(diào)查分析，發(fā)現(xiàn)作為研究電影熱度波動變化的
2023年04月23日
瀏覽(31)
大數(shù)據(jù)可視化——基于Python豆瓣電影數(shù)據(jù)可視化分析
本項目旨在通過對豆瓣電影數(shù)據(jù)進行綜合分析與可視化展示，構(gòu)建一個基于Python的大數(shù)據(jù)可視化系統(tǒng)。通過數(shù)據(jù)爬取收集、清洗、分析豆瓣電影數(shù)據(jù)，我們提供了一個全面的電影信息平臺，為用戶提供深入了解電影產(chǎn)業(yè)趨勢、影片評價與演員表現(xiàn)的工具。項目的關(guān)鍵步驟包括
2024年02月04日
瀏覽(43)

<pre id="cqlvk"></pre>

<object id="cqlvk"><progress id="cqlvk"></progress></object>