一 個(gè)性化電商廣告推薦系統(tǒng)介紹
1.1 數(shù)據(jù)集介紹
-
Ali_Display_Ad_Click是阿里巴巴提供的一個(gè)淘寶展示廣告點(diǎn)擊率預(yù)估數(shù)據(jù)集
數(shù)據(jù)集來源:天池競賽
-
原始樣本骨架raw_sample
淘寶網(wǎng)站中隨機(jī)抽樣了114萬用戶8天內(nèi)的廣告展示/點(diǎn)擊日志(2600萬條記錄),構(gòu)成原始的樣本骨架。 字段說明如下:
- user_id:脫敏過的用戶ID;
- adgroup_id:脫敏過的廣告單元ID;
- time_stamp:時(shí)間戳;
- pid:資源位;
- noclk:為1代表沒有點(diǎn)擊;為0代表點(diǎn)擊;
- clk:為0代表沒有點(diǎn)擊;為1代表點(diǎn)擊;
用前面7天的做訓(xùn)練樣本(20170506-20170512),用第8天的做測試樣本(20170513)
-
廣告基本信息表ad_feature
本數(shù)據(jù)集涵蓋了raw_sample中全部廣告的基本信息(約80萬條目)。字段說明如下:
- adgroup_id:脫敏過的廣告ID;
- cate_id:脫敏過的商品類目ID;
- campaign_id:脫敏過的廣告計(jì)劃ID;
- customer_id: 脫敏過的廣告主ID;
- brand_id:脫敏過的品牌ID;
- price: 寶貝的價(jià)格
其中一個(gè)廣告ID對應(yīng)一個(gè)商品(寶貝),一個(gè)寶貝屬于一個(gè)類目,一個(gè)寶貝屬于一個(gè)品牌。
-
用戶基本信息表user_profile
本數(shù)據(jù)集涵蓋了raw_sample中全部用戶的基本信息(約100多萬用戶)。字段說明如下:
- userid:脫敏過的用戶ID;
- cms_segid:微群ID;
- cms_group_id:cms_group_id;
- final_gender_code:性別 1:男,2:女;
- age_level:年齡層次; 1234
- pvalue_level:消費(fèi)檔次,1:低檔,2:中檔,3:高檔;
- shopping_level:購物深度,1:淺層用戶,2:中度用戶,3:深度用戶
- occupation:是否大學(xué)生 ,1:是,0:否
- new_user_class_level:城市層級
-
用戶的行為日志behavior_log
本數(shù)據(jù)集涵蓋了raw_sample中全部用戶22天內(nèi)的購物行為(共七億條記錄)。字段說明如下:
user:脫敏過的用戶ID;
time_stamp:時(shí)間戳;
btag:行為類型, 包括以下四種:
? 類型 | 說明
? pv | 瀏覽
? cart | 加入購物車
? fav | 喜歡
? buy | 購買
cate_id:脫敏過的商品類目id;
brand_id: 脫敏過的品牌id;
這里以user + time_stamp為key,會(huì)有很多重復(fù)的記錄;這是因?yàn)槲覀兊牟煌念愋偷男袨閿?shù)據(jù)是不同部門記錄的,在打包到一起的時(shí)候,實(shí)際上會(huì)有小的偏差(即兩個(gè)一樣的time_stamp實(shí)際上是差異比較小的兩個(gè)時(shí)間)
1.2 項(xiàng)目效果展示
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-pTLK2umq-1691640464238)(/img/1545049355235.png)]
1.3 項(xiàng)目實(shí)現(xiàn)分析
-
主要包括
- 一份廣告點(diǎn)擊的樣本數(shù)據(jù)raw_sample.csv:體現(xiàn)的是用戶對不同位置廣告點(diǎn)擊、沒點(diǎn)擊的情況
- 一份廣告基本信息數(shù)據(jù)ad_feature.csv:體現(xiàn)的是每個(gè)廣告的類目(id)、品牌(id)、價(jià)格特征
- 一份用戶基本信息數(shù)據(jù)user_profile.csv:體現(xiàn)的是用戶群組、性別、年齡、消費(fèi)購物檔次、所在城市級別等特征
- 一份用戶行為日志數(shù)據(jù)behavior_log.csv:體現(xiàn)用戶對商品類目(id)、品牌(id)的瀏覽、加購物車、收藏、購買等信息
我們是在對非搜索類型的廣告進(jìn)行點(diǎn)擊率預(yù)測和推薦(沒有搜索詞、沒有廣告的內(nèi)容特征信息)
- 推薦業(yè)務(wù)處理主要流程: 召回 ===> 排序 ===> 過濾
- 離線處理業(yè)務(wù)流
- raw_sample.csv ==> 歷史樣本數(shù)據(jù)
- ad_feature.csv ==> 廣告特征數(shù)據(jù)
- user_profile.csv ==> 用戶特征數(shù)據(jù)
- raw_sample.csv + ad_feature.csv + user_profile.csv ==> CTR點(diǎn)擊率預(yù)測模型
- behavior_log.csv ==> 評分?jǐn)?shù)據(jù) ==> user-cate/brand評分?jǐn)?shù)據(jù) ==> 協(xié)同過濾 ==> top-N cate/brand ==> 關(guān)聯(lián)廣告
- 協(xié)同過濾召回 ==> top-N cate/brand ==> 關(guān)聯(lián)對應(yīng)的廣告完成召回
- 在線處理業(yè)務(wù)流
- 數(shù)據(jù)處理部分:
- 實(shí)時(shí)行為日志 ==> 實(shí)時(shí)特征 ==> 緩存
- 實(shí)時(shí)行為日志 ==> 實(shí)時(shí)商品類別/品牌 ==> 實(shí)時(shí)廣告召回集 ==> 緩存
- 推薦任務(wù)部分:
- CTR點(diǎn)擊率預(yù)測模型 + 廣告/用戶特征(緩存) + 對應(yīng)的召回集(緩存) ==> 點(diǎn)擊率排序 ==> top-N 廣告推薦結(jié)果
- 數(shù)據(jù)處理部分:
- 離線處理業(yè)務(wù)流
- 涉及技術(shù):Flume、Kafka、Spark-streming\HDFS、Spark SQL、Spark ML、Redis
- Flume:日志數(shù)據(jù)收集
- Kafka:實(shí)時(shí)日志數(shù)據(jù)處理隊(duì)列
- HDFS:存儲數(shù)據(jù)
- Spark SQL:離線處理
- Spark ML:模型訓(xùn)練
- Redis:緩存
1.4 點(diǎn)擊率預(yù)測(CTR–Click-Through-Rate)概念
-
電商廣告推薦通常使用廣告點(diǎn)擊率(CTR–Click-Through-Rate)預(yù)測來實(shí)現(xiàn)
點(diǎn)擊率預(yù)測 VS 推薦算法
點(diǎn)擊率預(yù)測需要給出精準(zhǔn)的點(diǎn)擊概率,比如廣告A點(diǎn)擊率0.5%、廣告B的點(diǎn)擊率0.12%等;而推薦算法很多時(shí)候只需要得出一個(gè)最優(yōu)的次序A>B>C即可。
點(diǎn)擊率預(yù)測使用的算法通常是如邏輯回歸(Logic Regression)這樣的機(jī)器學(xué)習(xí)算法,而推薦算法則是一些基于協(xié)同過濾推薦、基于內(nèi)容的推薦等思想實(shí)現(xiàn)的算法
點(diǎn)擊率 VS 轉(zhuǎn)化率
點(diǎn)擊率預(yù)測是對每次廣告的點(diǎn)擊情況做出預(yù)測,可以判定這次為點(diǎn)擊或不點(diǎn)擊,也可以給出點(diǎn)擊或不點(diǎn)擊的概率
轉(zhuǎn)化率指的是從狀態(tài)A進(jìn)入到狀態(tài)B的概率,電商的轉(zhuǎn)化率通常是指到達(dá)網(wǎng)站后,進(jìn)而有成交記錄的用戶比率,如用戶成交量/用戶訪問量
搜索和非搜索廣告點(diǎn)擊率預(yù)測的區(qū)別
搜索中有很強(qiáng)的搜索信號-“查詢詞(Query)”,查詢詞和廣告內(nèi)容的匹配程度很大程度影響了點(diǎn)擊概率,搜索廣告的點(diǎn)擊率普遍較高文章來源:http://www.zghlxwxcb.cn/news/detail-641301.html
非搜索廣告(例如展示廣告,信息流廣告)的點(diǎn)擊率的計(jì)算很多就來源于用戶的興趣和廣告自身的特征,以及上下文環(huán)境。通常好位置能達(dá)到百分之幾的點(diǎn)擊率。對于很多底部的廣告,點(diǎn)擊率非常低,常常是千分之幾,甚至更低文章來源地址http://www.zghlxwxcb.cn/news/detail-641301.html
到了這里,關(guān)于一、 個(gè)性化電商廣告推薦系統(tǒng)介紹的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!