国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

2年前作者：阡之塵埃分類：Toy博客閱讀(25)違法舉報

這篇具有很好參考價值的文章主要介紹了Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

背景介紹

Netflix是最受歡迎的媒體和視頻流平臺之一。他們的平臺上有超過 8000 部電影或電視節(jié)目。截至 2021 年年中，他們在全球擁有超過 2 億訂閱者。

博主看美劇也較為多，像《怪奇物語》、《性愛自修室》等高分美劇都是網(wǎng)飛的。

對于網(wǎng)飛的影視劇，我們可以分析其電影和電視劇的成分占比，發(fā)行年份、國家，影視劇類型，收視率，簡介關(guān)鍵詞等，進行一定程度的描述性統(tǒng)計及其可視化。從而可以得到哪些類型影視劇更受歡迎，哪些國家發(fā)行影視劇更多等等結(jié)論。

注:(本文不涉及高級復(fù)雜的數(shù)學(xué)模型，主要的核心是數(shù)據(jù)的描述性分析和可視化。)?

關(guān)于數(shù)據(jù)集介紹

此表格數(shù)據(jù)集來源kaggle，包含 Netflix 上可用的所有電影和電視節(jié)目的列表，以及演員、導(dǎo)演、評級、發(fā)行年份、持續(xù)時間等詳細(xì)信息。

不方便的同學(xué)可以參考這個獲取數(shù)據(jù)集：網(wǎng)飛數(shù)據(jù)。

數(shù)據(jù)讀取和清洗

導(dǎo)入數(shù)據(jù)分析常用的包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns

plt.rcParams ['font.sans-serif'] ='SimHei'              #顯示中文
plt.rcParams ['axes.unicode_minus']=False               #顯示負(fù)號

下面讀取數(shù)據(jù)集轉(zhuǎn)化為pandas數(shù)據(jù)框?qū)ο?，刪除所有值都為空白的列，把第一列節(jié)目標(biāo)號設(shè)置為索引，查看數(shù)據(jù)前五行

df=pd.read_csv('netflix_titles.csv',encoding='ANSI').dropna(how='all',axis=1).set_index('show_id')
df.head()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

可以看到主要都是文本類型數(shù)據(jù)。

?數(shù)據(jù)變量介紹和分析

變量信息介紹

‘type’為影視劇類型，即屬于電影還是電視劇，分類型變量

‘title’為影視劇名稱，文本型變量

‘director' 為導(dǎo)演名字，文本變量

‘cast’為所有演員名稱，文本變量

‘ country’為發(fā)行制作國家，分類變量

‘date_added’該影視劇在 Netflix 上添加的日期，時間變量

‘release_year’該影視劇實際發(fā)布年份，時間變量

‘rating’電影/節(jié)目的電視評級，分類變量

‘duration’總持續(xù)時間，分類變量

‘listed_in’影視劇節(jié)目類型，多組分類變量

‘description’影視劇簡介，文本變量

查看數(shù)據(jù)的所有變量信息

df=df.infer_objects()
print(df.shape)
df.info()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?從上面數(shù)據(jù)信息可以看到該數(shù)據(jù)總共有8798條，11個變量，有些變量存在一定的缺失值，下面對缺失值進行處理，

數(shù)據(jù)清洗

對缺失值進行可視化

#觀察缺失值
import missingno as msno
msno.matrix(df)

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

可以看出導(dǎo)演這一列出現(xiàn)缺失值較多，演員和發(fā)行國家也存在一些缺失值。由于每個影視劇的導(dǎo)演和演員都是第一無二的，而且是文本型數(shù)據(jù)，所以這里不能采用均值或者是眾數(shù)進行填充，我們使用‘無數(shù)據(jù)’代替空值。

發(fā)行國家采用已有數(shù)據(jù)里面發(fā)行影視劇最多的國家進行填充，其他列存在缺失值的樣本可以進行刪除。

填充修改

df['country'] = df['country'].fillna(df['country'].mode()[0])
df['cast'].fillna('No Data',inplace  = True)
df['director'].fillna('No Data',inplace  = True)
df.dropna(inplace=True)

去除重復(fù)值

df.drop_duplicates(inplace=True)

將時間變量轉(zhuǎn)化為時間格式

便于后面分析，這里將影視劇添加到網(wǎng)飛版塊時間的年月作為分類變量提取出來

df["date_added"] = pd.to_datetime(df['date_added'])
df['year_added'] = df['date_added'].dt.year
df['month_name_added']=df['date_added'].dt.month_name()
df['release_year']=df['release_year'].astype('int')

再次查看數(shù)據(jù)信息

df.info()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?最終剩余8774條樣本數(shù)據(jù)，變量都無缺失值，變量類型都正確，可以進行下面的分析和可視化

分析及其可視化

網(wǎng)飛影視劇中電影和電視劇的各自占比分析

plt.figure(figsize=(2,2),dpi=180)
p1=df.type.value_counts()
plt.pie(p1,labels=p1.index,autopct="%1.3f%%",shadow=True,explode=(0.2,0),colors=['royalblue','pink']) #帶陰影，某一塊里中心的距離
plt.title("網(wǎng)飛影視劇中電影和電視劇的各自占比")
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?可以看出網(wǎng)飛影視劇中電影數(shù)量占比更多，將近七層，電視劇占比30%左右。

網(wǎng)飛影視劇中發(fā)行國家分析

import squarify
p2=df.country.value_counts()[:15]
fig = plt.figure(figsize = (8,4),dpi=256)
ax = fig.add_subplot(111)
plot = squarify.plot(sizes = p2, # 方塊面積大小
                     label = p2.index, # 指定標(biāo)簽
                     #color = colors, # 指定自定義顏色
                     alpha = 0.8, # 指定透明度
                     value = p2, # 添加數(shù)值標(biāo)簽
                     edgecolor = 'white', # 設(shè)置邊界框
                     linewidth =0.1 # 設(shè)置邊框?qū)挾?                    )
# 設(shè)置標(biāo)題大小
ax.set_title('網(wǎng)飛影視劇數(shù)量發(fā)行量排名前15的國家',fontsize = 22)
# 去除坐標(biāo)軸
ax.axis('off')
# 去除上邊框和右邊框刻度
ax.tick_params(top = 'off', right = 'off')
# 顯示圖形
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

可以看到，由于網(wǎng)飛是美國的公司，在其本土上的影視作品數(shù)量最多，幾乎占據(jù)了所有影視作品的一半，其次是印度、英國、日本、韓國、加拿大，這五個國家的網(wǎng)飛影視劇也較多。

(只選取了前15的國家，因為國家太多了圖就會很亂)

網(wǎng)飛影視劇發(fā)行量前10的國家電影和電視劇數(shù)量對比分析?

def check0(txt):
    if txt in p2.index[:10]:
        a=True
    else:
        a=False
    return a
df_bool=df.country.astype('str').apply(check0)

p3=pd.crosstab(df[df_bool].type,df[df_bool].country,normalize='columns').T.sort_values(by='TV Show')
m =np.arange(len(p3))
plt.figure(figsize = (8,4),dpi=256)
plt.bar(x=m, height=p3.iloc[:,0], label=p3.columns[0], width=0.3,alpha=0.5, hatch='.',color='orange') 
plt.bar(x=m , height=p3.iloc[:,1], label=p3.columns[1], bottom=p3.iloc[:,0],width=0.3,alpha=0.5,hatch='*',color='lime')
plt.xticks(range(len(p3)),p3.index,fontsize=10,rotation=30)
plt.legend()
plt.ylabel('頻率')
plt.title("網(wǎng)飛影視劇發(fā)行量前10的國家電影和電視劇數(shù)量對比")
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

從網(wǎng)飛發(fā)行量前十的國家來看，印度的網(wǎng)飛影視劇的電影占比非常高，其次是埃及，美國。

電視劇占比較高的是韓國、日本、英國。

說明網(wǎng)飛在印度，埃及，美國地區(qū)制作拍攝影視劇是更偏向與電影。而在韓國，日本，英國更偏向于電視劇發(fā)行。

(只選取了前10的國家，因為國家太多了圖就會很亂，國家名稱都堆疊在一起放不下去)

影視劇評級分析

p4=df.rating.value_counts()
plt.figure(figsize = (6,3),dpi=256)
sns.barplot(x=p4.index,y=p4)
plt.ylabel('數(shù)量')
plt.xlabel('評價')
plt.xticks(fontsize=10,rotation=45)
plt.title("網(wǎng)飛所有影視劇不同評級數(shù)量對比")
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?可以看到絕大多數(shù)的評價都是TV-MA和TV-14，即適合成年人的影視劇和合適14歲以上影視劇的評級。

df_bar=pd.crosstab(df.type,df.rating).T.sort_values(by='Movie',ascending=False).unstack().reset_index().rename(columns={0:'number'})
plt.subplots(figsize = (10,4),dpi=128)
sns.barplot(x=df_bar.rating,y=df_bar.number,hue=df_bar.type,palette = "copper")

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?可以看到評級是TV-MA，TV-14和TV-PG的電影和電視劇都有，評級為R和PG的都是電影。

不同發(fā)行國家的影視劇評級分析

df_heatmap=df[df_bool].groupby('country')['rating'].value_counts().unstack().sort_index().fillna(0).astype(int).T#.sort_values(by='Movie',ascending=False).T
for col in df_heatmap.columns:
    df_heatmap[col]=df_heatmap[col]/df_heatmap[col].sum()
corr = plt.subplots(figsize = (8,6),dpi=256)
corr= sns.heatmap(df_heatmap,annot=True,square=True,annot_kws={'size':6,'weight':'bold', 'color':'royalblue'},fmt='.2f',cmap='cubehelix_r')
plt.title('不同發(fā)行國家的網(wǎng)飛影視劇評級對比')
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?從上圖可以直觀的看出絕大多數(shù)的網(wǎng)飛影視劇評級都是TV-MA和TV-14，這與前面的結(jié)論一致。

從不同發(fā)行國家的角度來看，加拿大，法國，墨西哥，西班牙，英國，美國制作發(fā)行的網(wǎng)飛影視劇數(shù)量更多偏向于適合成年人觀看的。

埃及、印度、日本、韓國制作發(fā)行的網(wǎng)飛影視劇有較大的頻率被評價為適合14歲以上觀看的。

這與傳統(tǒng)觀念一致，歐美等西方國家的影視劇會更加開放一點，而印度日本韓國亞洲國家的影視劇則會更加保守一點。

影視劇上映年份分析

plt.figure(figsize=(8,3.5),dpi=128)
colors=['tomato','orange','royalblue','lime','pink']
for i, mtv in enumerate(df['type'].value_counts().index):
    mtv_rel = df[df['type']==mtv]['year_added'].value_counts().sort_index()
    plt.plot(mtv_rel.index, mtv_rel, color=colors[i], label=mtv)
    plt.fill_between(mtv_rel.index, 0, mtv_rel, color=colors[i], alpha=0.8)
    plt.legend()
plt.ylabel('網(wǎng)飛發(fā)行影視劇數(shù)量')
plt.xlabel('年份')
plt.title('網(wǎng)飛在不同年份上映影視劇數(shù)量')
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?可以看出網(wǎng)飛從2014年開始，影視劇數(shù)量開始達到一個爆發(fā)式的增長狀況，尤其在2019年上映的影視劇作品最多。

19年之后受到疫情等影響上映影視作品數(shù)量又呈現(xiàn)慢慢下降趨勢。

影視劇上映月份分析

plt.figure(figsize=(5,5),dpi=128)
colors=['tomato','orange','royalblue','lime','pink','brown']

p5=df.month_name_added.value_counts()
plt.pie(p5,labels=p5.index,autopct="%1.3f%%",shadow=True,explode=(0.2,0.1,0.08,0.06,0.04,0.02,0,0,0,0,0,0),colors=colors) #帶陰影，某一塊里中心的距離
plt.title('網(wǎng)飛影視劇上映月份分析')
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

可以看出網(wǎng)飛影視劇數(shù)量上映的月份較為均勻，其中七月和十二月上映的電視劇較多，正好也對應(yīng)了西方的暑假和寒假，假期上映電視劇較多。

上映影視劇最少的是二月和三月。

上映影視劇的年齡分析

df_age=df.assign(age=df.year_added-df.release_year)[['type','age']]
plt.figure(figsize=(3,4),dpi=128)
sns.boxplot(x='type',y='age',width=0.8,data=df_age,orient="v") 
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

可以看出絕大部分的電影或是電視劇的上映時間和發(fā)行時間相差不大，中位數(shù)在2到3年左右，電影會稍微偏大點，這也反應(yīng)了好電影比電視劇能一直流傳的特點

電影電視劇的異常值都較多，極大值偏多，主要可能是網(wǎng)飛上映收錄了不少以前的經(jīng)典電視劇和電影。

影視劇類型分析

p6=df.assign(kind=df.listed_in.str.split(',')).explode('kind')['kind'].value_counts()[:15]
plt.figure(figsize=(10,4),dpi=128)
sns.barplot(y=p6.index,x=p6,orient="h")
plt.xlabel('影片數(shù)量')
plt.ylabel('影視劇類型')
plt.xticks(fontsize=10,rotation=45)
plt.title("網(wǎng)飛不同影視劇類型數(shù)量對比")
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

可以看清楚的看到網(wǎng)飛的影視劇最多的類型是國際電影，然后是戲劇，喜劇，動作冒險片，紀(jì)錄片

只看美國的影視劇類型

p7=df.assign(kind=df.listed_in.str.split(',')).explode('kind').where(lambda d:d.country=='United States').dropna()['kind'].value_counts()[:12]         
plt.figure(figsize=(5,5),dpi=128)
plt.pie(p7,labels=p7.index,autopct="%1.2f%%",shadow=True,explode=(0.15,0.1,0.08,0.06,0.04,0.02,0,0,0,0,0,0),colors=['c', 'b', 'g', 'tomato', 'm', 'y', 'lime', 'w','orange','pink','grey','tan']) 
plt.title('在美國制作發(fā)行的網(wǎng)飛影視劇類型數(shù)量對比')
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?從上餅圖得知在美國網(wǎng)飛上映的影視劇中，紀(jì)錄片類型的最多，其次是戲劇，喜劇，家庭片，獨立電影等。

網(wǎng)飛影視劇的導(dǎo)演和演員分析

p8=df.assign(directo=df.director.str.split(',')).explode('directo')['directo'].value_counts()[1:11]
p9=df.assign(cas=df.cast.str.split(',')).explode('cas')['cas'].value_counts()[1:11]

plt.subplots(1,2,figsize=(12,5),dpi=128)
plt.subplot(121)
sns.barplot(y=p8.index,x=p8,orient="h")
plt.ylabel('導(dǎo)演姓名')
plt.xlabel('導(dǎo)演影視劇的數(shù)量',fontsize=14)
plt.title("(a)網(wǎng)飛影視劇導(dǎo)演數(shù)量前十的導(dǎo)演")
 
plt.subplot(122)
sns.barplot(y=p9.index,x=p9,orient="h")
plt.ylabel('演員名字')
plt.xlabel('出演影視劇的數(shù)量',fontsize=14)
plt.title("(b)網(wǎng)飛影視劇出演數(shù)量前十的演員")
#plt.legend()
plt.tight_layout()
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

從上圖得知網(wǎng)飛的影視劇數(shù)量前十名的導(dǎo)演，和出演數(shù)量前十名的演員。(只能看到名字我也不認(rèn)識他們.....) （(只選取了前10，因為人名太多了圖就會顯得很亂)）

網(wǎng)飛的影視劇名稱的詞云圖

背景使用網(wǎng)飛的logo

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

from wordcloud import WordCloud
import random
from PIL import Image
import matplotlib
# Custom colour map based on Netflix palette
mask = np.array(Image.open('wf.png'))

cmap = matplotlib.colors.LinearSegmentedColormap.from_list("", ['#221f1f', '#b20710'])
text = str(list(df['title'])).replace(',', '').replace('[', '').replace("'", '').replace(']', '').replace('.', '')
wordcloud = WordCloud(background_color = 'white', width = 500,  height = 200,colormap=cmap, max_words = 150, mask = mask).generate(text)
plt.figure( figsize=(9,5),dpi=1028)
plt.imshow(wordcloud, interpolation = 'bilinear')
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

? Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?可以看到網(wǎng)飛影視劇標(biāo)題用詞數(shù)量最高的是'LOVE','World','Day','Life','Girl'等詞匯。

網(wǎng)飛的影視劇簡介的詞云圖

text2=str(list(df['description'])).replace(',', '').replace('[', '').replace("'", '').replace(']', '').replace('.', '')
wordcloud = WordCloud(background_color = 'white', width = 500, ?height = 200,colormap='coolwarm', max_words =30).generate(text2)
plt.figure( figsize=(8,4),dpi=512)
plt.imshow(wordcloud, interpolation = 'bilinear')
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化

?可以看到網(wǎng)飛影視劇簡介用詞頻率最高的是'life','family','love','find','new'等詞匯。

總結(jié)

通過分析網(wǎng)飛的八千多部影視劇的數(shù)據(jù)，我們能得到如下的一些結(jié)論：

1、網(wǎng)飛影視劇中電影數(shù)量占比更多，將近七層，電視劇占比30%左右

2、由于網(wǎng)飛是美國的公司，在其本土上的影視作品數(shù)量最多，幾乎占據(jù)了網(wǎng)飛所有影視作品的一半，其次是印度、英國、日本、韓國、加拿大，這五個國家的網(wǎng)飛影視劇也較多。

3、網(wǎng)飛在印度，埃及，美國地區(qū)制作拍攝影視劇是更偏向與電影。而在韓國，日本，英國更偏向于電視劇發(fā)行。

4、網(wǎng)飛絕大多數(shù)的影視劇評級都是TV-MA和TV-14，即適合成年人的影視劇和合適14歲以上影視劇的評級。

5、網(wǎng)飛影視劇的發(fā)行國家和影視劇的評級有關(guān)，歐美等西方國家的影視劇會更加開放一點，而印度日本韓國亞洲國家的影視劇則會更加保守一點。

6、2014年開始，影視劇數(shù)量開始達到一個爆發(fā)式的增長狀況，尤其在2019年上映的影視劇作品最多。19年之后受到疫情等影響上映影視作品數(shù)量又呈現(xiàn)慢慢下降趨勢。

7、網(wǎng)飛影視劇數(shù)量上映的月份較為均勻，其中七月和十二月上映的電視劇較多，正好也對應(yīng)了西方的暑假和寒假，假期上映電視劇較多。上映影視劇最少的是二月和三月。

8、網(wǎng)飛的大部分的電影或是電視劇的上映時間和發(fā)行時間相差不大，電影會稍微偏大點，反應(yīng)了好電影比電視劇能一直流傳的特點。電影電視劇的異常值都較多，極大值偏多，主要可能是網(wǎng)飛上映收錄了不少以前的經(jīng)典電視劇和電影

9、網(wǎng)飛的影視劇最多的類型是國際電影，然后是戲劇，喜劇，動作冒險片，紀(jì)錄片。

10、在美國網(wǎng)飛上映的影視劇中，紀(jì)錄片類型的最多，其次是戲劇，喜劇，家庭片，獨立電影等。

11、得知網(wǎng)飛的影視劇數(shù)量前十名的導(dǎo)演，和出演數(shù)量前十名的演員。

12、網(wǎng)飛影視劇標(biāo)題用詞數(shù)量最高的是'LOVE','World','Day','Life','Girl'等詞匯。

13、網(wǎng)飛影視劇簡介用詞頻率最高的是'life','family','love','find','new'等詞匯

本文由于沒有用很復(fù)雜的數(shù)學(xué)模型，得到的結(jié)論不算很高級，但是也很有效有意義了。excel可做不出來這效果...大家可以核心地學(xué)學(xué)這些畫圖的方法吧，畢竟漂亮的圖像和有效地結(jié)論才是可視化的意義。

創(chuàng)作不易，看官覺得寫得還不錯的話點個關(guān)注和贊吧，本人會持續(xù)更新python數(shù)據(jù)分析領(lǐng)域的代碼文章~(需要定制代碼可私信)文章來源地址http://www.zghlxwxcb.cn/news/detail-480377.html

到了這里，關(guān)于Python數(shù)據(jù)分析案例12——網(wǎng)飛影視劇數(shù)據(jù)分析及其可視化的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Python數(shù)據(jù)分析案例30——中國高票房電影分析（爬蟲獲取數(shù)據(jù)及分析可視化全流程）
最近總看到《消失的她》票房多少多少，《孤注一擲》票房又破了多少多少..... 于是我就想自己爬蟲一下獲取中國高票房的電影數(shù)據(jù)，然后分析一下。數(shù)據(jù)來源于淘票票：影片總票房排行榜 (maoyan.com) 爬它就行。不會爬蟲的同學(xué)要這代碼演示數(shù)據(jù)可以參考：數(shù)據(jù) ? 首先爬蟲
2024年02月08日
瀏覽(54)
Python數(shù)據(jù)分析處理報告--實訓(xùn)小案例
目錄 1、實驗一 1.1、題目總覽 1.2、代碼解析 2、實現(xiàn)二 2.1、題目總覽 2.2、代碼解析 3、實驗三 3.1、題目總覽 3.2、代碼解析 4、實驗四 3.1、題目總覽 3.2、代碼解析哈嘍~ 今天學(xué)習(xí)記錄的是數(shù)據(jù)分析實訓(xùn)小案例。就用這個案例來好好鞏固一下 python 數(shù)據(jù)分析三劍客。前期準(zhǔn)備
2024年02月10日
瀏覽(24)
Python數(shù)據(jù)分析案例15——超市零售購物籃關(guān)聯(lián)分析（apriori）
啤酒和紙尿褲的故事大多數(shù)人都聽說過，紙尿褲的售賣提升了啤酒的銷售額。關(guān)聯(lián)分析就是這樣的作用，可以研究某種商品的售賣對另外的商品的銷售起促進還是抑制的作用。案例背景本次案例背景是超市的零售數(shù)據(jù)，研究商品之間的關(guān)聯(lián)規(guī)則。使用的自然是最經(jīng)典的apr
2023年04月15日
瀏覽(25)
Python數(shù)據(jù)分析案例11——灰色預(yù)測法預(yù)測時間序列數(shù)據(jù)
本次案例來自2022華為杯第E題，第2小問。給定了2012.01-2022.03的土壤濕度的月度數(shù)據(jù)，需要預(yù)測2022.04-2023.12的土壤濕度的月度數(shù)據(jù)。典型的時間序列預(yù)測。傳統(tǒng)的時間序列預(yù)測肯定是ARIMA模型，可以參考我之前的文章。Python統(tǒng)計學(xué)10——時間序列分析自回歸模型(ARIMA) 現(xiàn)在流行的
2024年02月06日
瀏覽(34)
Python數(shù)據(jù)分析及案例詳細(xì)講解（文末贈書~）
名字：阿玥的小東東學(xué)習(xí)：Python、C++ 博客主頁：阿玥的小東東的博客_CSDN博客-pythonc++高級知識,過年必備,C/C++知識講解領(lǐng)域博主目錄數(shù)據(jù)分析 618多得圖書活動來啦 ?本期推薦
2024年02月08日
瀏覽(26)
Python數(shù)據(jù)分析案例19——上市銀行財務(wù)指標(biāo)對比
我代碼欄目都是針對基礎(chǔ)的python數(shù)據(jù)分析人群，比如想寫個本科畢業(yè)論文，課程論文，做個簡單的案例分析等。過去寫的案例可能使用了過多的機器學(xué)習(xí)和深度學(xué)習(xí)方法，文科的同學(xué)看不懂，可能他們僅僅只想用python做個回歸或者畫個圖。本期開始我會更新一些簡單的案例，
2024年02月08日
瀏覽(28)
Python數(shù)據(jù)挖掘?qū)嵱冒咐詣邮圬洐C銷售數(shù)據(jù)分析與應(yīng)用
??歡迎來到本文?? ??個人簡介：陳童學(xué)哦，目前學(xué)習(xí)C/C++、算法、Python、Java等方向，一個正在慢慢前行的普通人。 ??系列專欄：陳童學(xué)的日記 ??其他專欄：C++STL，感興趣的小伙伴可以看看。 ??希望各位→點贊?? + 收藏?? + 留言?? ? ??萬物從心起，心動則萬物動??
2024年02月08日
瀏覽(28)
Python綜合案例-小費數(shù)據(jù)集的數(shù)據(jù)分析(詳細(xì)思路+源碼解析)
目錄 1. 請導(dǎo)入相應(yīng)模塊并獲取數(shù)據(jù)。導(dǎo)入待處理數(shù)據(jù)tips.xls，并顯示前5行。 2、分析數(shù)據(jù) ?3.增加一列“人均消費” 4查詢抽煙男性中人均消費大于5的數(shù)據(jù) ?5.分析小費金額和消費總額的關(guān)系，小費金額與消費總額是否存在正相關(guān)關(guān)系。畫圖觀察。 6分析男女顧客哪個更慷慨，
2024年02月02日
瀏覽(27)
【Python】數(shù)據(jù)分析案例：世界杯數(shù)據(jù)可視化 | 文末送書
每一場體育賽事都會產(chǎn)生大量數(shù)據(jù)，這些數(shù)據(jù)可用于分析運動員、球隊表現(xiàn)以及比賽中的亮點。作為分析案例，我們使用T20世界杯的數(shù)據(jù)進行分析。如果你有興趣學(xué)習(xí)如何分析類似T20世界杯這樣的體育賽事，本文將為您提供指導(dǎo)。在本文中，我們將使用 Python 來分析 2022年T2
2024年02月05日
瀏覽(40)
大數(shù)據(jù)教材推薦|Python數(shù)據(jù)挖掘入門、進階與案例分析
? 主? ?編：盧滔，張良均，戴浩，李曼，陳四德出版社：機械工業(yè)出版社內(nèi)容提要本書從實踐出發(fā)，結(jié)合11個 “泰迪杯” 官方推出的賽題，按照賽題的難易程度進行排序，由淺入深地介紹數(shù)據(jù)挖掘技術(shù)在商務(wù)、教育、交通、傳媒、旅游、電力、制造業(yè)等行業(yè)的應(yīng)用。因
2024年02月10日
瀏覽(18)