有需要本項(xiàng)目的源碼以及全套文檔和相關(guān)資源,可以私信博主?。?!
在數(shù)字化和互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的推動(dòng)下,消費(fèi)者的購買能力和消費(fèi)觀念呈現(xiàn)不斷升級和變遷的趨勢。用戶消費(fèi)數(shù)據(jù)的爆炸式增長,為我們提供了尋找潛在價(jià)值信息的機(jī)會(huì)。
本研究使用了阿里巴巴提供的淘寶用戶行為數(shù)據(jù)集,含近400萬條記錄。對于數(shù)據(jù)集中存在的一些異常數(shù)據(jù),我們利用Python進(jìn)行了預(yù)處理,獲取了清晰、有效的信息。通過構(gòu)建用戶行為與商品信息的結(jié)構(gòu)化分析并實(shí)施可視化探索,我們對PV、UV等流量指標(biāo),以及用戶對商品的偏好、用戶行為模式和流量標(biāo)準(zhǔn)等進(jìn)行了詳細(xì)的可視化解析。我們采用了電商分析的主要思路,如漏斗模型、日ARPPU、日ARPU、付費(fèi)率、復(fù)購率和留存率等電商關(guān)鍵指標(biāo)?;谶@些分析結(jié)果,我們?yōu)樯碳液推脚_(tái)提供了具有實(shí)用價(jià)值的策略,以推動(dòng)有效的市場營銷活動(dòng)。
我們采用了K-Means聚類和RFM模型用戶等級劃分的方法,把用戶劃分為新客戶、明星客戶、次要客戶、流失客戶四個(gè)類別。針對這四類客戶,我們實(shí)施了不同的市場營銷策略,以進(jìn)一步優(yōu)化我們的市場營銷計(jì)劃和電商方案。最后,我們把用戶的四種行為(點(diǎn)擊、收藏、加入購物車和購買)拓展為四個(gè)數(shù)據(jù)指標(biāo)。最終,我們采用了機(jī)器學(xué)習(xí)中的邏輯回歸模型,對用戶的購買行為進(jìn)行預(yù)測分析。模型在準(zhǔn)確率上達(dá)到了98%的優(yōu)秀表現(xiàn),顯示了良好的預(yù)測效果。
1.1研究意義
互聯(lián)網(wǎng)技術(shù)進(jìn)步的腳步不停,帶動(dòng)全球電子商務(wù)得以突飛猛進(jìn),此種趨勢也使電子商務(wù)成為人們采購物品的主要選擇。淘寶,作為中國電子商務(wù)巨頭之一,其覆蓋人群廣泛,用戶規(guī)模龐大,因此對其用戶行為數(shù)據(jù)的搜集與剖析對改進(jìn)淘寶業(yè)務(wù)決策極其重要。
此處省略......
1.2研究目的
(1)分析淘寶用戶行為數(shù)據(jù)
(2)探究用戶行為與商品銷售之間的關(guān)系
(3)提供深入的用戶畫像和商品銷售趨勢分析
(4)為淘寶提供業(yè)務(wù)決策支持
此處省略......
1.3研究意義
(1)提高平臺(tái)用戶體驗(yàn)
(2)優(yōu)化商品策略
(3)優(yōu)化推薦系統(tǒng)
(4)為淘寶提供決策支持
(5)推動(dòng)電商產(chǎn)業(yè)的發(fā)展
此處省略......
2.研究過程
2.1總體研究路線
圖 1 本文總研究路線圖 |
2.2數(shù)據(jù)介紹
本文研究數(shù)據(jù)選取的是,基于阿里巴巴天池大賽提供的一個(gè)開源數(shù)據(jù)集,可作為大數(shù)據(jù)用戶行為可視化分析問題的研究,也可以用于大數(shù)據(jù)結(jié)構(gòu)化分析和數(shù)據(jù)分析算法的實(shí)踐數(shù)據(jù)。
其中包含所有的用戶行為數(shù)據(jù):用戶ID,商品ID,商品類目ID,行為類型,時(shí)間戳。
本數(shù)據(jù)集包含了2017年11月25日至2017年12月3日之間的,但是存在少量的臟數(shù)據(jù),在設(shè)計(jì)結(jié)構(gòu)化分析系統(tǒng)的時(shí)候需要進(jìn)一步的對數(shù)據(jù)集進(jìn)行預(yù)處理和清洗,保證數(shù)據(jù)集可以便于后續(xù)的結(jié)構(gòu)化分析與數(shù)據(jù)分析算法實(shí)現(xiàn)。
表 1 數(shù)據(jù)字段屬性介紹
字段值 |
說明 |
用戶ID |
整數(shù)類型,序列化后的用戶ID |
商品ID |
整數(shù)類型,序列化后的商品ID |
商品類目ID |
整數(shù)類型,序列化后的商品所屬類目ID |
行為類型 |
字符串,枚舉類型,包括('pv', 'buy', 'cart', 'fav') |
時(shí)間戳 |
行為發(fā)生的時(shí)間戳 |
pv |
商品詳情頁pv,等價(jià)于點(diǎn)擊 |
buy |
商品購買 |
cart |
將商品加入購物車 |
fav |
收藏商品 |
傳統(tǒng)的數(shù)據(jù)分析軟件和編程語言有Excel、SQL、R、SAS以及Python,其中不同的工具額編程語言適用于不同的業(yè)務(wù)場景,此處省略......
2.3數(shù)據(jù)預(yù)處理
在進(jìn)行數(shù)據(jù)分析之前,通常需要進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是指對原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、集成和歸約等處理,使得數(shù)據(jù)更加適合進(jìn)行后續(xù)分析。數(shù)據(jù)預(yù)處理可以消除數(shù)據(jù)中的錯(cuò)誤、缺失、異常和重復(fù)等問題,提高數(shù)據(jù)質(zhì)量,減少誤差,為后續(xù)數(shù)據(jù)分析提供更可靠的基礎(chǔ)。
此處省略......
|
|
圖 2 數(shù)據(jù)缺失值和異常值探索
在檢查完數(shù)據(jù)的缺失值和異常值之后,需要對數(shù)據(jù)有一個(gè)時(shí)間維度上的把控,因?yàn)楸狙芯康囊粋€(gè)重要的數(shù)據(jù)分析思維,就是通過時(shí)間上的一些指標(biāo)探索不同時(shí)間下的行為,流量指標(biāo)的分布等情況。
圖 3 時(shí)間維度擴(kuò)充代碼實(shí)現(xiàn) |
利用Pandas的to_datetime()方法對時(shí)間戳轉(zhuǎn)換為實(shí)際的時(shí)間數(shù)值,然后我們就需要對其進(jìn)行數(shù)據(jù)字段的一個(gè)擴(kuò)充了,因?yàn)闀r(shí)間它是一個(gè)包含多種信息的字段,我們可以分解為年、月、日、周、小時(shí)、分鐘等字段。
然后按照year字段進(jìn)行分組,對用戶ID進(jìn)行聚合統(tǒng)計(jì)數(shù)量查看是否存在偏移的時(shí)間維度下的數(shù)據(jù)。
|
|
圖 4 時(shí)間維度分布探索
本身選取的數(shù)據(jù)是2017年的數(shù)據(jù)集,其中包括11月25-12月3日的行為數(shù)據(jù),這時(shí)候發(fā)現(xiàn)存在不在范圍內(nèi)的時(shí)間數(shù)據(jù),這時(shí)候需要自己進(jìn)行一個(gè)約束處理,將時(shí)間范圍約束到這個(gè)周期內(nèi),方便后續(xù)的一個(gè)分析與實(shí)現(xiàn)
|
|
圖 5 數(shù)據(jù)天數(shù)分布情況
發(fā)現(xiàn)都是正常的之后,我們對數(shù)據(jù)的一個(gè)基本的預(yù)處理也就完成了,這樣有利于后續(xù)我們分析的一個(gè)準(zhǔn)確率和可解釋性,不會(huì)給我們的分析過程造成過多的干擾。
2.4用戶數(shù)據(jù)分析與實(shí)現(xiàn)
2.4.1用戶整體行為分析
此處省略......
圖 6 用戶整體行為分析可視化 |
此處省略......
2.4.2用戶每日行為分析
分析2017-11-25 00:00:00~2017-12-03 23:59:59期間的用戶每一天的行為,設(shè)計(jì)PV、UV以及均值、人均訪問次數(shù)、人均訪問次數(shù)均值、付費(fèi)率、付費(fèi)率均值、人均購買次數(shù)、人均購買次數(shù)均值。
圖 7 用戶每日行為可視化 |
自進(jìn)入12月開始,訪問次數(shù)和人數(shù)逐漸上升,且在12-02,當(dāng)天達(dá)到峰值,訪問次數(shù)約48w次、人數(shù)約3.5W人,購買量1w件左右;此外,在進(jìn)入12之后,每日的數(shù)據(jù)基本上大于等于均值。
付費(fèi)率=付費(fèi)人數(shù)/總?cè)藬?shù),此處省略......
圖 8 當(dāng)日點(diǎn)擊&購買的付費(fèi)率 |
在這一階段的時(shí)期,用戶不僅僅點(diǎn)擊了和瀏覽了商品而且還購買了商品此處省略......
2.4.3用戶每時(shí)行為分析
這里我們通過時(shí)間維度進(jìn)行一個(gè)用戶的探索,旨在利用一天中小時(shí)數(shù)據(jù)進(jìn)行聚合操作,對同一個(gè)時(shí)間維度下的進(jìn)行對應(yīng)的分析展示,其中包括每日分析的指標(biāo)。
圖 9 用戶每時(shí)行為分析可視化 |
05-10點(diǎn):人們逐漸醒來開始上班,利用路程時(shí)間訪問app,訪問人數(shù)和次數(shù)都在持續(xù)上升;10-17點(diǎn):人們工作時(shí)間,利用空閑時(shí)間訪問app,訪問人數(shù)和此處省略......
2.4.3用戶對商品品類的選擇
根據(jù)淘寶用戶行為數(shù)據(jù)分析,不同商品類別的瀏覽量和購買量存在明顯的差異。一些熱門的商品類別,如服裝、鞋包配飾、手機(jī)數(shù)碼等,擁有較高的瀏覽此處省略......
圖 10 用戶行為對商品類目的分布情況 |
?
2.4.4用戶行為每日分布
這里選取了收藏、加購物車、購買的行為,按照每日的一個(gè)分布情況進(jìn)行可視化探索。
圖 11 每日行為數(shù)據(jù)分析[收藏、加購物車、購買] |
這里將點(diǎn)擊行為沒有加入對比中,原因是點(diǎn)擊數(shù)量比此處省略......
2.4.5總訪問量和總成交量對比(每日)
在以小時(shí)為單位的訪問量成交量時(shí)間變化圖中,此處省略......
圖 12 總訪問量和總成交量對比(每小時(shí))可視化 |
2.4.6一周內(nèi)pv、uv變化
周內(nèi)周一到周四pv、uv數(shù)量增加,周此處省略......
圖 13 一周內(nèi)PV、UV可視化 |
2.4.7日ARPPU、日ARPU
日ARPPU指的是日均付費(fèi)用戶收此處省略......
|
|
圖 14 日ARPPU、日ARPU
圖 15 每日付費(fèi)率可視化 |
2.4.8復(fù)購時(shí)間消費(fèi)間隔次數(shù)
復(fù)購時(shí)間、消費(fèi)間隔和次數(shù)是衡量一個(gè)電商此處省略......
圖 16 復(fù)購時(shí)間間隔天數(shù)可視化 |
圖 17 復(fù)購頻率可視化 |
通過上述的可視化,我們可以大致的了解用戶復(fù)購的頻率在3次左右,那么應(yīng)該針對性的對復(fù)購率比較低的用戶進(jìn)行精準(zhǔn)的營銷推薦。
2.4.9留存率指標(biāo)
留存率是指在某此處省略......
圖 18 留存率指標(biāo)可視化 |
可以看到留存率較好,這期間留存率幾乎在70+%;次日留存率、25/26/30日留存率之間沒有太大的差距;雙十二活動(dòng)能帶來短暫的留存率升高。
2.5商品偏好分析
2.5.1不同行為top10商品
用戶每天都會(huì)瀏覽大量的商品,其中每一個(gè)商品都會(huì)有一個(gè)對于ID字段,我們對不同行為下的商品ID進(jìn)行可視化分析之后,可以把握好此處省略......
圖 19 不同行為下的top10商品ID可視化 |
2.5.2不同行為的top20商品類目
通過對不同的類目的商品,這里就不是商此處省略......
|
|
|
|
圖 20 不同行為下商品類目熱度分布
2.6數(shù)據(jù)分析算法探索
2.6.1漏斗模型
漏斗模型是一種在電子商務(wù)分析中使用的數(shù)據(jù)分析技術(shù),它旨在幫助電子商務(wù)公司了解用戶的購買行為,并通過改進(jìn)它們的網(wǎng)站及推廣活此處省略......
圖 21 4種行為的漏斗模型可視化 |
用戶產(chǎn)生點(diǎn)擊后可能進(jìn)行的操作分別為:點(diǎn)擊->加購物車、點(diǎn)擊->收藏、加購物車->支付、收藏->支付,可以明顯的看出用戶的流失率比較大此處省略......
圖 22 獨(dú)立訪客下的漏斗模型可視化 |
這里是獨(dú)立訪客下的漏斗模型可視化,通過結(jié)果展示,我們可以發(fā)現(xiàn)從點(diǎn)擊到加購物車行為的轉(zhuǎn)換率比較高的,從加購物車到支付行為發(fā)生這一階段的轉(zhuǎn)換率也比較高。
2.6.2 RFM數(shù)據(jù)分析算法
RFM算法是一種通過分析客戶的消費(fèi)此處省略......
圖 23 RFM算法用戶群體標(biāo)簽 |
由于本次用戶行為中,沒有具體的交易數(shù)量,所以這里將RFM變換為RF計(jì)算方法,將交易金額固定下來。
圖 24 RF數(shù)據(jù)分析用戶劃分 |
占比最多的是重要發(fā)展客戶此處省略......
2.6.3聚類算法實(shí)現(xiàn)用戶分層
通過用戶所發(fā)生的行為數(shù)據(jù),以及透視數(shù)據(jù)下的各種新增的維度字段,比如最近的購買次數(shù),最近一次的購買時(shí)間,我們可以采用Kmeans聚類算法對用戶群體進(jìn)行聚類,根據(jù)得出的聚類數(shù)目,采用RFM模型對其進(jìn)行深入的劃此處省略......
圖 25 手肘法與輪廓系數(shù)值 |
通過輪廓系數(shù)和拐點(diǎn)以及最開始通過RFM劃分的用戶群體數(shù)目,確定最佳的聚類數(shù)目是4類。
圖 26 用戶聚類可視化 |
將用戶劃分為4類,消費(fèi)新鮮度頻率以及消費(fèi)時(shí)間間隔來確定出不同的類型用戶。0類用戶的消費(fèi)時(shí)間間隔相對于比較短,也就是但是消費(fèi)頻率不是很高,可以劃分為重要發(fā)展客戶;此處省略......
2.6.4用戶購買預(yù)測模型
邏輯回歸是一種常見的分類算法,它的原理基于線性回歸,并使用邏輯函數(shù)將連續(xù)的輸出轉(zhuǎn)換為離散的概率預(yù)測。在邏輯回歸中,將輸入特征和權(quán)重進(jìn)行線性組合,然后將結(jié)果輸入到邏輯函數(shù)中,邏輯函數(shù)將輸出值映射到[0, 1]區(qū)間內(nèi)的概率值。這個(gè)概率值表示輸入特征屬于某個(gè)類別的概率大小。
此處省略......種領(lǐng)域中廣泛應(yīng)用于分類任務(wù)。
進(jìn)行前面的基本數(shù)據(jù)統(tǒng)計(jì)分析和業(yè)務(wù)分析模型搭建之后,這里我們采用機(jī)器學(xué)習(xí)的思想,將用戶的行為擴(kuò)充為多個(gè)維度字段,其中購買行為作為目標(biāo)預(yù)測列,引入邏輯回歸模型進(jìn)行預(yù)測,最終預(yù)測精度達(dá)到98%。
圖 27 邏輯回歸準(zhǔn)確率展示 |
2.7可視化大屏設(shè)計(jì)及展示
可視化大屏是一種通過將數(shù)據(jù)可視化呈現(xiàn)在大屏幕上的方式來幫助人們更好地理解和解釋數(shù)據(jù)的工具。相比于傳統(tǒng)的數(shù)據(jù)報(bào)此處省略......
圖 28 可視化大屏展示 |
3.總結(jié)
3.1研究特點(diǎn)
本研究通過選取大數(shù)據(jù)集,此處省略......
3.2研究缺點(diǎn)
由于選取的開源數(shù)據(jù),數(shù)據(jù)的維度和數(shù)據(jù)的數(shù)量都有所限制,后續(xù)研究可以通過網(wǎng)絡(luò)爬蟲的手段對其行為進(jìn)行捕捉,其次在業(yè)務(wù)分析模型中增加過多的時(shí)間維度上的分析。
3.3未來展望
隨著電商平臺(tái)用戶數(shù)此處省略......文章來源:http://www.zghlxwxcb.cn/news/detail-762976.html
每文一語
當(dāng)你覺得自己很迷茫的時(shí)候,不如嘗試放下,重新起航文章來源地址http://www.zghlxwxcb.cn/news/detail-762976.html
到了這里,關(guān)于基于Python電商用戶行為的數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、可視化研究的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!