一、分析目的
抖音是一個(gè)面向全年齡的音樂(lè)短視頻社區(qū)平臺(tái)。目前用戶(hù)眾多,有不少人都成為了網(wǎng)紅,聚集了大量粉絲。在此希望能看出一些他們之間的共性,幫助后來(lái)人少走一些彎路。并結(jié)合實(shí)際觀(guān)察抖音運(yùn)營(yíng)存的現(xiàn)狀,提出一些建議。
采集到的抖音網(wǎng)紅的相關(guān)建議,如下,我們要通過(guò)數(shù)據(jù)分析驗(yàn)證這些建議的真實(shí)性
- 抖音98.52%的流量都會(huì)流向算法推薦視頻,獲得算法推薦是獲得更多播放的關(guān)鍵所在。
- 最重要的始終是題材的選擇,初始流量池大更容易獲得算法青睞。
- 除去題材外,投稿的最佳時(shí)間日常是在0-5點(diǎn),有平臺(tái)活動(dòng)一定要參與。
- 視頻時(shí)長(zhǎng)最好在7-10s,其次是0-6s及23s以?xún)?nèi),最長(zhǎng)也不建議超過(guò)40s。
- 背景音樂(lè)最好選擇當(dāng)下最流行的歌曲。
二、數(shù)據(jù)來(lái)源
本文的數(shù)據(jù)集為抖音四十天內(nèi)的數(shù)據(jù)交互記錄,一行記錄就是一個(gè)播放數(shù)據(jù),總共近600w條數(shù)據(jù)。
字段說(shuō)明
數(shù)據(jù)字段 | 數(shù)據(jù)含義 |
---|---|
uid | 用戶(hù)id |
user_city | 用戶(hù)所在城市 |
item_id | 作品id |
author_id | 作者id |
item_city | 作品城市 |
channel | 觀(guān)看到該作品的來(lái)源 |
finish | 是否瀏覽完作品 |
like | 是否對(duì)作品點(diǎn)贊 |
music_id | 音樂(lè)id |
device | 設(shè)備id |
time | 作品發(fā)布時(shí)間 |
duration_time | 作品時(shí)長(zhǎng) |
三、數(shù)據(jù)處理
1.引入庫(kù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import time
import seaborn as sns
%matplotlib inline
#更改設(shè)計(jì)風(fēng)格
plt.style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']#(顯示中文)
plt.rcParams['axes.unicode_minus'] = False#(顯示負(fù)數(shù))
2.數(shù)據(jù)清洗&預(yù)處理
加載數(shù)據(jù)
data = pd.read_csv('./douyin.txt')
data.head()
檢測(cè)是否存在空值
data.isnull().sum(axis=0)
uid 0
user_city 0
item_id 0
author_id 0
item_city 0
channel 0
finish 0
like 0
music_id 0
device 0
time 0
duration_time 0
dtype: int64
檢測(cè)是否存在重復(fù)值
data.duplicated().sum()
data.drop_duplicates(inplace=True)
#重新設(shè)置索引
data.reset_index(drop=True,inplace=True)
數(shù)據(jù)是進(jìn)行過(guò)脫敏的數(shù)據(jù),無(wú)法觀(guān)察原有情況,不過(guò)可以推斷其中的-1是缺失值直接刪除即可。
data.replace(to_replace=-1,value=np.nan,inplace=True)
data.isnull().sum()
data.dropna(axis=0,inplace=True)
data.reset_index(drop=True,inplace=True)
原始的數(shù)據(jù)列中存在device為設(shè)備ID,這個(gè)特征于分析無(wú)意義,可以將其刪除
data.drop(labels='device',axis=1,inplace=True)
data.info()
time列是時(shí)間戳,此處修改成正常時(shí)間
time.strftime(“%Y-%m-%d %H:%M:%S”, time.localtime(1511572885))
real_time = []
for i in data['time']:
timeArray = time.localtime(i)
otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
real_time.append(otherStyleTime)
data['real_time'] = real_time
data.drop(labels='time',inplace=True,axis=1)
data['real_time'] = pd.to_datetime(data['real_time'])
時(shí)間列中既有日期也有具體的時(shí)分秒,網(wǎng)紅建議發(fā)布視頻的時(shí)間為0-5點(diǎn),則需要將小時(shí)單獨(dú)從日期中抽取出來(lái)作為新的一列,將年-月-日的時(shí)間也抽取出來(lái)作為新的一列。
data['H'] = data.real_time.dt.hour
data['date']=data.real_time.dt.date
#將date轉(zhuǎn)換成字符串類(lèi)型
data['date'] = data.date.astype('str')
四、數(shù)據(jù)分析
抖音網(wǎng)紅視頻數(shù)據(jù)分析
抖音播放量來(lái)源分布
channel = data.groupby(by='channel').count()['uid']
channel
結(jié)論1: 雖然沒(méi)有明確說(shuō)明,但作為算法驅(qū)動(dòng)的短視頻平臺(tái),顯然可知“0”是算法推薦的視頻。那么在抖音獲得播放量的關(guān)鍵就是獲得算法推薦進(jìn)入更大的流量池。
視頻時(shí)長(zhǎng)與點(diǎn)贊完播率之間的關(guān)系
作品時(shí)長(zhǎng)與播放量的關(guān)系
item_duration = data.groupby(by='duration_time').count()['uid']
plt.plot(item_duration)
plt.xlim(2,40)
plt.xlabel('作品時(shí)長(zhǎng)')
plt.ylabel('播放量')
plt.title("作品時(shí)長(zhǎng)與播放量的關(guān)系")
作品時(shí)長(zhǎng)與作品數(shù)量的關(guān)系
duration_nums = data.groupby('duration_time')['item_id'].nunique()
plt.plot(duration_nums)
plt.xlim(2,40)
plt.xlabel('作品時(shí)長(zhǎng)')
plt.ylabel('作品數(shù)量')
plt.title("作品時(shí)長(zhǎng)與作品數(shù)量的關(guān)系")
作品時(shí)長(zhǎng)與完播率的關(guān)系
完播率和點(diǎn)贊率可以用不同播放時(shí)長(zhǎng)的作品對(duì)應(yīng)的完播和點(diǎn)贊的均值表示
finish_p = data.groupby('duration_time')['finish'].mean()
plt.plot(finish_p)
plt.xlim(2,100)
plt.xlabel('作品時(shí)長(zhǎng)')
plt.ylabel('完播率')
plt.title("作品時(shí)長(zhǎng)與完播率的關(guān)系")
作品時(shí)長(zhǎng)與點(diǎn)贊率的關(guān)系
like_p = data.groupby('duration_time')['like'].mean()
plt.plot(like_p)
plt.xlim(2,40)
plt.xlabel('作品時(shí)長(zhǎng)')
plt.ylabel('點(diǎn)贊率')
plt.title("作品時(shí)長(zhǎng)與點(diǎn)贊率的關(guān)系")
觀(guān)察結(jié)果:
作品絕大多數(shù)分布在7-10s中,總體來(lái)說(shuō)在0s-22s之間都有一定數(shù)量的投稿,22s以上的就很少了。
播放量的分布基本與作品數(shù)量相同。
完播率在2s-40s內(nèi)總體在40%以上,40s以后開(kāi)始劇烈波動(dòng),因此作品時(shí)長(zhǎng)應(yīng)該設(shè)置在40s之內(nèi)比較穩(wěn)妥
點(diǎn)贊率在2s-10s內(nèi)基本維持在1%之內(nèi),在12s-20s之間會(huì)在0.7%-1.1%之間波動(dòng),在20s以后數(shù)據(jù)變化的波動(dòng)完全沒(méi)有規(guī)律。
- 結(jié)論2:視頻時(shí)長(zhǎng)最好在7-10s,其次是0-6s及23s以?xún)?nèi),最長(zhǎng)也不建議超過(guò)40s
作品發(fā)布時(shí)間(小時(shí))與點(diǎn)贊完播率之間的關(guān)系
H_f_l = data.groupby('H')[['finish','like']].mean()
H_f_l.plot()
plt.title("作品發(fā)布時(shí)間與點(diǎn)贊完播率之間的關(guān)系")
發(fā)布作品時(shí)間和播放量之間的關(guān)系
time_play_s = data.groupby('H')['uid'].count()
plt.plot(time_play_s)
24小時(shí)內(nèi)用戶(hù)投稿(發(fā)布作品)數(shù)量的變化
關(guān)注大多數(shù)用戶(hù)都是什么時(shí)間投稿(考慮去重)
public_item_s = data.groupby('H')['item_id'].nunique()
plt.plot(public_item_s)
放在一起觀(guān)察
- 結(jié)論3:
不同時(shí)間段內(nèi)發(fā)布的作品點(diǎn)贊率和完播率不會(huì)有太大變化,整體播放量和投稿數(shù)也基本相同這說(shuō)明播放量和投稿時(shí)間關(guān)系亦不大,不過(guò)還是可以看出0-5點(diǎn)的播放量會(huì)略高。如果投稿最佳時(shí)間是在0-5點(diǎn),但并無(wú)特殊優(yōu)勢(shì)。
背景音樂(lè)播放量之間的關(guān)系
music_play_s = data.groupby(by='music_id')['uid'].count().sort_values(ascending=False)
top_10_music = music_play_s.iloc[:10]
top_10_music
plt.plot(top_10_music.index.astype('str'),top_10_music.values)
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-473670.html
- 結(jié)論4: 對(duì)于視頻配樂(lè)更推薦當(dāng)時(shí)最火的歌曲,會(huì)比其他歌曲更容易獲得高播放量。
總結(jié)
為了使在抖音上的視頻更高效地獲得流量,獲得播放量的關(guān)鍵就是獲得算法推薦進(jìn)入更大的流量池。視頻時(shí)長(zhǎng)最好在7-10s,其次是0-6s及23s以?xún)?nèi),最長(zhǎng)也不建議超過(guò)40s。不同時(shí)間段內(nèi)發(fā)布的作品點(diǎn)贊率和完播率不會(huì)有太大變化,整體播放量和投稿數(shù)也基本相同這說(shuō)明播放量和投稿時(shí)間關(guān)系亦不大,不過(guò)還是可以看出0-5點(diǎn)的播放量會(huì)略高。如果投稿最佳時(shí)間是在0-5點(diǎn),但并無(wú)特殊優(yōu)勢(shì)。 對(duì)于視頻配樂(lè)更推薦當(dāng)時(shí)最火的歌曲,會(huì)比其他歌曲更容易獲得高播放量。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-473670.html
到了這里,關(guān)于對(duì)抖音流量獲取的數(shù)據(jù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!