国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用

這篇具有很好參考價值的文章主要介紹了漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

????????業(yè)務(wù)埋點和數(shù)據(jù)分析是在用戶行為和業(yè)務(wù)數(shù)據(jù)上進(jìn)行跟蹤、收集和分析的關(guān)鍵方法,用于了解用戶行為模式、改進(jìn)產(chǎn)品和服務(wù),并做出數(shù)據(jù)驅(qū)動的決策。

????????全文1.5萬字,建議閱讀時間35min。

目錄

業(yè)務(wù)埋點

埋點的重要性

埋點的類型

全埋點

代碼埋點

埋點總結(jié)

新增埋點設(shè)計

序號

事件名稱

事件屬性名稱

屬性類型

屬性值含義或示例

設(shè)計元素

上報信息

事件的觸發(fā)時機(jī)

用戶表設(shè)計要素

數(shù)據(jù)指標(biāo)地圖

版本迭代功能埋點管理

埋點應(yīng)用

可視化數(shù)據(jù)大屏

開源數(shù)據(jù)展示工具?

數(shù)據(jù)應(yīng)用平臺

數(shù)據(jù)倉庫

建立標(biāo)準(zhǔn)化流程

某些特殊情況

相似場景是合并一個事件還是分不同的事件

多重身份用戶的設(shè)計

主被動事件的處理

曝光事件的處理

虛擬事件

社交數(shù)據(jù)采集方案示例

用戶表

公共屬性

部分自定義事件

預(yù)置事件

數(shù)據(jù)分析

數(shù)據(jù)分析的作用

描述性分析

診斷性分析

預(yù)測性分析

處方性分析

數(shù)據(jù)分析方法

事件分析

分布分析

留存分析

漏斗分析

路徑分析

小結(jié)

數(shù)據(jù)分析切入點

功能交互數(shù)據(jù)分析

競品調(diào)研

KPI數(shù)據(jù)

數(shù)據(jù)報告流程

數(shù)據(jù)清洗

數(shù)據(jù)整理

描述分析

數(shù)據(jù)敏感性

合法化


業(yè)務(wù)埋點

????????業(yè)務(wù)埋點是指在應(yīng)用程序或網(wǎng)站中插入特定的代碼或標(biāo)記,以捕捉和記錄用戶的行為和交互數(shù)據(jù)。這些代碼通常由開發(fā)人員添加到關(guān)鍵的觸點事件中,例如頁面瀏覽、點擊、表單提交等。通過業(yè)務(wù)埋點,可以跟蹤和記錄用戶在應(yīng)用程序或網(wǎng)站上的具體行為,生成事件和屬性數(shù)據(jù)。

埋點的重要性

舉個栗子。。

今天,辛苦半年做的產(chǎn)品終于上線了。出于對產(chǎn)品的認(rèn)真負(fù)責(zé),你有點好奇今天有多少人使用了這個產(chǎn)品。于是跑去研發(fā)同學(xué)那,于是……

今天?今天還沒過完,還是給個確切的時間范圍吧...

這個多少指的PV還是UV?

人的定義是?IMEI?udid?oaid?還是user_id或者什么?

這個怎么算使用?進(jìn)入首頁?注冊?還是觸發(fā)某個事件?

哦 好的 你再完善一下需求吧

正因如此,從另一個角度來說,埋點也是數(shù)據(jù)分析的完整路徑中必不可少的第一步

GET

  1. 什么是“埋點”?“埋點”是互聯(lián)網(wǎng)產(chǎn)品收集數(shù)據(jù)的一種基礎(chǔ)且被廣泛應(yīng)用的方法。
  2. 為什么要“收集數(shù)據(jù)”?因為我們要獲取數(shù)據(jù)支撐后續(xù)的數(shù)據(jù)分析,并最終驅(qū)動業(yè)務(wù)發(fā)展。

埋點的類型

在AB測試的場景下,數(shù)據(jù)埋點為實驗組的效果提供數(shù)據(jù)支持,其本質(zhì)也是數(shù)據(jù)決策的基礎(chǔ)。

根據(jù)目前常見的數(shù)據(jù)埋點形式,可以將數(shù)據(jù)埋點分為全埋點,和代碼埋點(自定義埋點)。

全埋點

????????全埋點是指數(shù)據(jù)采集sdk無差別的,將所有頁面的加載成功事件,和控件的瀏覽和點擊事件全部獲取后先存下來,到使用的時候,再根據(jù)具體的頁面路徑和控件名稱,去撈取相應(yīng)的數(shù)據(jù)。

????????基于此,可視化埋點是指,在全埋點部署成功、已經(jīng)可以獲得全量數(shù)據(jù)的基礎(chǔ)上,以可視化的方式,在對應(yīng)頁面上定義想要的頁面數(shù)據(jù),或者控件數(shù)據(jù)。

優(yōu)點

  1. 由于采集的是全量數(shù)據(jù),所以產(chǎn)品迭代過程中是不需要關(guān)注埋點邏輯的,也不會出現(xiàn)漏埋、誤埋等現(xiàn)象;
  2. 全埋點方式因為收集的是全量數(shù)據(jù),可以大大減少運營和產(chǎn)品的試錯成本,試錯的可能性高了,可以帶來更多啟發(fā)性的信息;
  3. 無需埋點,方便快捷

缺點

  1. 缺點與可視化埋點相同,未解決個性化自定義獲取數(shù)據(jù)的問題,缺乏數(shù)據(jù)獲取的靈活性;
  2. 無埋點采集全量數(shù)據(jù),給數(shù)據(jù)傳輸和服務(wù)器增加壓力;
  3. 無法采集自定義屬性、事件,上報行為信息容易受限;
  4. 對web的頁面數(shù)據(jù)處理一直不好,尤其是涉及到APP的內(nèi)嵌H5頁時,非常痛苦。

可視化埋點優(yōu)缺點基本一致,業(yè)務(wù)人員自己按規(guī)則操作即可,無需開發(fā)再次接入。

????????因此,全埋點適用于業(yè)務(wù)多變、經(jīng)常調(diào)整,且分析訴求比較輕量的場景。對于通用的功能,形態(tài)相對比較固定,且對數(shù)據(jù)分析顆粒度、下鉆深度、聚合程度要求比較高,那就需要用到代碼埋點

代碼埋點

????????代碼埋點也叫自定義埋點,即針對想要的點位單獨定義,并可以通過變量豐富埋點的信息,以支持上下游分析。

代碼埋點分為前端埋點和后端埋點。

前端埋點:

????????包括但不限于APP客戶端、H5、微信小程序、PC網(wǎng)頁,是指對具體的功能場景(如加載成功、瀏覽、點擊等)進(jìn)行明確的定義,由前端觸發(fā),采集上來的數(shù)據(jù)相比于全埋點,更準(zhǔn)確、穩(wěn)定,且通過變量字段,能夠?qū)崿F(xiàn)更細(xì)顆粒度數(shù)據(jù)的拆分、聚合和下鉆。

后端埋點:

????????指觸發(fā)了服務(wù)端接口調(diào)用(如:接口回調(diào)成功觸發(fā))的事件埋點,如最典型的注冊成功事件、付費成功事件。后端埋點對數(shù)據(jù)的準(zhǔn)確度要求更高,同時也可以通過變量字段的擴(kuò)展支持?jǐn)?shù)據(jù)拆分、聚合和下鉆。需要強(qiáng)調(diào)的是,后端事件一般采集的是已登錄狀態(tài)下的用戶行為,如果想使用后端埋點事件作為流程分析的其中一環(huán)(如漏斗分析),則可能出現(xiàn)未登錄的用戶會漏掉的情況。

埋點總結(jié)

綜合以上,幾種埋點類型的比較

埋點類型總結(jié)
埋點方案 實施方案 優(yōu)點 缺點
全埋點 開發(fā)人員集成采集 SDK 后,SDK 便直接開始捕捉和監(jiān)測用戶在應(yīng)用里的所有行為,并全部上報

1.全量數(shù)據(jù),可以大大減少運營和產(chǎn)品的試錯成本

2.無需埋點,方便快捷

3.產(chǎn)品迭代過程中是不需要關(guān)注埋點邏輯的,也不會出現(xiàn)漏埋、誤埋等現(xiàn)象

1.未解決個性化自定義獲取數(shù)據(jù)的問題,缺乏數(shù)據(jù)獲取的靈活性

2.全量數(shù)據(jù),給數(shù)據(jù)傳輸和服務(wù)器增加壓力

3.無法采集自定義屬性、事件

可視化埋點 利用可視化交互手段,業(yè)務(wù)人員都可以直接在頁面上進(jìn)行簡單圈選,以追蹤用戶的行為

1.人力成本低、更新成本較小

2.只需接入SDK,后續(xù)埋點業(yè)務(wù)人員按規(guī)則操作即可,無需開發(fā)再次接入

1.無法做到自定義獲取數(shù)據(jù),覆蓋的功能有限

2.上報行為信息容易受限

前端埋點 前端定義的事件觸發(fā)時,上傳對應(yīng)數(shù)據(jù)

1.較為準(zhǔn)確

2.基本不會受頁面改版影響

1.有一定開發(fā)工作量

2.設(shè)計新功能時需要考慮對原有埋點的影響,維護(hù)指標(biāo)文檔
3.會受網(wǎng)絡(luò)環(huán)境等因素影響,出現(xiàn)數(shù)據(jù)無法上報或延時上報

后端埋點 服務(wù)端定義的事件觸發(fā)時,上傳對應(yīng)數(shù)據(jù)

1.最為準(zhǔn)確

2.不受前臺功能改版影響

1.開發(fā)和測試的工作都較大
2.不容易發(fā)現(xiàn)問題

交互、點擊、瀏覽類前端采集為主。

核心業(yè)務(wù)例如支付、注冊等,建議后端。

新增埋點設(shè)計

????????一款互聯(lián)網(wǎng)產(chǎn)品每天產(chǎn)生的數(shù)據(jù)是龐大雜亂的,全部都存下來會占據(jù)硬盤空間,而且,不加定義和標(biāo)記的數(shù)據(jù)也很難使用。因此,在初期的數(shù)據(jù)建設(shè)階段,先要做的是定義想要的數(shù)據(jù),告訴前端開發(fā)和后臺的同事,你想要的數(shù)據(jù)有哪些,定義這些數(shù)據(jù)的字段包括但不限于以下字段:

序號 事件名稱 事件展示名 屬性名稱 屬性展示名 屬性類型 屬性值含義或示例 事件觸發(fā)時機(jī) 埋點方式 備注
1 regist_submit

用戶

注冊

regist_type 注冊方式 string 手機(jī)號/郵箱... 返回注冊結(jié)果時觸發(fā) 服務(wù)端
is_success 是否成功 string true/false 返回注冊結(jié)果時觸發(fā) 服務(wù)端
fail_reason 失敗原因 string 網(wǎng)絡(luò)原因/其他原因 返回注冊結(jié)果時觸發(fā) 服務(wù)端

序號

每個事件一個固定編號,編號唯一且不可修改,方便文檔查閱、回溯,進(jìn)行管理。

事件名稱

每個抽象的行為事件,一個中文名、一個英文名,中英文必須是一一對應(yīng)關(guān)系,不可以重復(fù),代表含義一致。 對于事件英文的命名,避免混雜不堪,需采用統(tǒng)一規(guī)范進(jìn)行命名。建議規(guī)則有:

  • 可采用下劃線區(qū)分-regist_submit, 或者駝峰命名區(qū)分registSubmit(由一個或多個單詞連結(jié)在一起,第一個單詞以小寫字母開始,從第二個單詞開始以后的每個單詞的首字母都采用大寫字母)。

  • 采用動詞_名詞或者名詞_動詞進(jìn)行統(tǒng)一。

  • 如果有多條業(yè)務(wù)線,可在事件前加業(yè)務(wù)線名稱的標(biāo)識,例如 a_regist_submit。

  • 大小寫敏感,如果傳了 Name,就不建議傳 name。

  • 自定義事件英文名不得以 $ 開頭。

事件屬性名稱

  • 單個應(yīng)用的事件數(shù)量不超過 1000 個(不同應(yīng)用之間互不影響)。

  • 單個事件的屬性數(shù)量推薦 300 個以內(nèi),最多不超過 500 個(不同事件之間互不影響)。

  • 單個應(yīng)用自定義公共屬性數(shù)量不超過100。

  • 事件名稱和屬性名稱長度建議在 50 字節(jié)以內(nèi),事件屬性名最長不超過 80 字節(jié),公共屬性名最長不超過64字節(jié)。

  • 屬性值長度建議不超過 255 字節(jié),特殊情況如url等最大支持 1024 字節(jié)。

  • 超過上述限制時,超過的事件、屬性數(shù)據(jù)可能會被系統(tǒng)自動丟棄。

  • 預(yù)置的事件和屬性不可進(jìn)行修改。另外服務(wù)端埋點時,無法自動采集預(yù)置公共屬性,需要手動傳輸。

  • 多端傳輸一定要統(tǒng)一好事件和屬性命名,保證傳輸一致。

  1. 每個事件屬性,一個中文名、一個英文名,中英文必須是一一對應(yīng)關(guān)系,代表含義一致。 但同一個屬性可被多個事件引用,例如瀏覽商品詳情頁事件和收藏商品詳情事件,可以共用屬性,商品名稱、商品ID等。同一屬性在不同事件中字面意義相近,但實際意義有差別時,不建議復(fù)用,建議基于屬性的實際含義對屬性進(jìn)行區(qū)分。例如:在“視頻加載”的事件中,“時長”這個屬性代表的意義是“加載時長”;而在“視頻播放”的事件中,“時長”代表的意義是“播放時長”。在這樣的情況下,不建議復(fù)用“時長”這個字段,而是拆解為兩個字段分別命名。

    事件&屬性限制

    • 屬性命名采取 snake 命名法,即單詞全部小寫,單詞間用"_"分割。

    • 屬性命名時通常使用名詞的形式。例如:product_type,product_id等。

    • 自定義屬性英文名不得以 $ 開頭。

    • 自定義屬性的英文名與中文名需保持嚴(yán)格的一一對應(yīng)。

    • 大小寫敏感,如果傳了 Name,就不建議傳 name。

屬性類型

屬性值 含義
int 需要進(jìn)行聚合運算(例如求和、均值)或者按區(qū)間分組的整值,典型的比如年齡、數(shù)量等。
float 需要進(jìn)行聚合運算(例如求和、均值)或者按區(qū)間分組的小數(shù)值,典型的比如價格、時長等。

string

文本類型屬性值類型,支持包含、不包含、等于等計算規(guī)則。
各類 ID (例如商品 ID)建議作為字符串類型存儲。

list

需在一個字段存儲多個值。
例如支付訂單時的“優(yōu)惠券ID”這個字段,由于用戶可在一筆訂單內(nèi)享受多個優(yōu)惠,因此需以列表形式存儲所有優(yōu)惠券的 ID。
例如一個商品有多種分類,【‘分類1’,‘分類2’,‘分類3’】需用列表形式存儲。
**list類型存儲后,可按單個屬性值進(jìn)行查詢,例如選擇帶折扣標(biāo)簽的商品有多少。

datetime 支持日期時間格式的 string, "2020-06-19 17:51:21"

屬性值含義或示例

屬性類型 示例
可枚舉屬性 性別:男、女
不可枚舉屬性,可舉例說明屬性 商品品牌:A品牌、B品牌……

設(shè)計元素

  • 什么時候:時機(jī)
  • 上服什么信息:屬性

時機(jī)就是事件場景,因什么而發(fā)生,發(fā)生了什么,由誰來觸發(fā)。觸發(fā)者可以是用戶、系統(tǒng)、運營人員,本質(zhì)還是系統(tǒng),系統(tǒng)是事件發(fā)生的代理者。一個時機(jī)應(yīng)該包含以上的隱含信息。

常見的時機(jī)有:

  • 點擊
  • 瀏覽(訪問)
  • 曝光
  • 播放
  • 結(jié)果

事件往往站在結(jié)果的角度,對業(yè)務(wù)的影響,更加業(yè)務(wù)化。這時,事件不會過于關(guān)注埋點的觸發(fā)場景,更多的聚焦在業(yè)務(wù)結(jié)果上。因此,事件往往有很多的時機(jī),多種時機(jī)會產(chǎn)生一個事件。

常見的事件有:

  • 關(guān)注
  • 購買
  • 收藏
  • 下載
  • 播放
  • 曝光

上報信息

  • 公共信息:一般為用戶的全局信息,包含設(shè)備、網(wǎng)絡(luò)、個人、頁面、位置模塊、時間等與業(yè)務(wù)無關(guān)的通用信息
  • 業(yè)務(wù)公共信息:一般為主數(shù)據(jù)信息,商品、內(nèi)容、訂單等與業(yè)務(wù)內(nèi)容相關(guān)的信息,一般為企業(yè)多個業(yè)務(wù)共用的信息
  • 自定義信息:業(yè)務(wù)內(nèi)容的信息
  • 擴(kuò)展信息:特殊場景下上報的信息

例如:

埋點信息:

  • SDK版本
  • 事件產(chǎn)生的時間
  • 服務(wù)端接收的時間
  • 本次啟動的時間
  • Sessionid

用戶信息:

  • 賬號ID
  • 用戶昵稱
  • idfa/imei md5加密值
  • 設(shè)備id
  • 是否首日訪問
  • 國家
  • 城市
  • 省份
  • 縣區(qū)
  • 會員等級

設(shè)備信息:

  • 操作系統(tǒng)
  • 操作系統(tǒng)版本
  • 手機(jī)型號
  • 設(shè)備制造商
  • 設(shè)備型號
  • 屏幕高度
  • 屏幕寬度
  • 經(jīng)度
  • 緯度
  • 深色模式
  • 是否 WiFi
  • 網(wǎng)絡(luò)類型
  • 運營商名稱
  • IP
  • UA信息

應(yīng)用信息:

  • 是否是灰度版本
  • 當(dāng)前渠道
  • 應(yīng)用內(nèi)部版本號
  • AB測試標(biāo)識
  • 實驗ID
  • 包名
  • 是否青少年模式
  • 夜間模式
  • 位置是否授權(quán)
  • 提醒是否開啟
  • 安裝渠道

界面信息:

  • 當(dāng)前頁面
  • 當(dāng)前URL
  • URL參數(shù)
  • 當(dāng)前URI
  • 上一頁
  • 頁面標(biāo)題
  • 形式(原生/H5)

界面層級:

  • 一級
  • 二級
  • 三級
  • 四級

模塊信息:

  • 模塊名稱
  • 父模塊名稱
  • 模塊位置順序

內(nèi)容:

  • 內(nèi)容類型
  • 內(nèi)容名稱
  • 內(nèi)容 ID
  • 父內(nèi)容 ID

事件的觸發(fā)時機(jī)

????????說明每一個事件應(yīng)在何時觸發(fā),如一個事件在多個時機(jī)均有可能會被觸發(fā),則需要整理出所有的觸發(fā)時機(jī)。例如:“點擊開始注冊事件”的觸發(fā)時機(jī)應(yīng)為點擊注冊時,但注冊通常有多個不同的入口,因此,業(yè)務(wù)人員需要明確地枚舉出哪些注冊入口是需要研發(fā)人員進(jìn)行埋點的,如果有屬性值的區(qū)分也要標(biāo)注,避免遺漏。

事件 屬性 屬性值 觸發(fā)時機(jī)

點擊開始注冊

注冊入口

首頁右上
登錄頁去注冊
首頁下方

  • 首頁右上角點擊注冊時觸發(fā),注冊入口屬性值傳【首頁右上】
  • 登錄頁點擊去注冊時觸發(fā),注冊入口屬性值傳【登錄頁去注冊】
  • 首頁下方點擊去看看時觸發(fā),注冊入口屬性值傳【首頁下方】

用戶表設(shè)計要素

漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用

????????????用戶表,顧名思義是記錄用戶信息、用戶屬性的表,通過用戶的唯一標(biāo)識(user_id)能夠?qū)⑹录砗陀脩舯韮蓮埍磉M(jìn)行關(guān)聯(lián)。事件與用戶實現(xiàn)關(guān)聯(lián),事件表里一條條的數(shù)據(jù)記錄,就不會再是孤立的統(tǒng)計數(shù)字,而是能夠與具體的用戶產(chǎn)生關(guān)聯(lián)進(jìn)行分析,或者用行為來圈定用戶,給用戶設(shè)定分群和標(biāo)簽。?

? ? ? ? 某日商品詳情頁的總瀏覽數(shù)據(jù)是上升的,但是總GMV沒有明顯提高,從事件側(cè)分析,發(fā)現(xiàn)某類合作主推的單商品詳頁瀏覽數(shù)據(jù)上升,其他品類商詳頁沒有明確上升;從用戶側(cè)分析,該類單品新增流量主要來自于渠道A。

????????從此得出的初步判斷是:

  1. 對渠道A的用戶拉新效果明顯;
  2. 但是該類用戶被吸引來了,但是目標(biāo)群體卻沒有下單,很奇怪,需要確認(rèn)投放落地頁與站內(nèi)商品信息是否一致,尤其是價格、庫存等信息;
  3. 該類用戶對平臺其他商品的興趣不高。?????
  1. 確立觀察指標(biāo)

  2. 抽象過程行為

  3. 補(bǔ)充事件屬性

  4. 設(shè)計事件要素

  5. 補(bǔ)充用戶屬性??

確認(rèn)是否需要導(dǎo)入后臺業(yè)務(wù)數(shù)據(jù)庫、標(biāo)簽等數(shù)據(jù)

數(shù)據(jù)指標(biāo)地圖

????????數(shù)據(jù)能力推廣的第一個難點,是讓平臺上有哪些數(shù)據(jù)讓大家知道。一個是在各平臺埋設(shè)的指標(biāo),比如采用excel的方式進(jìn)行管理,問題是指標(biāo)一多起來,找起來不太方便,對于定義者來說自然很容易找到,但是對于使用者來說則不太友好。即使搜中文名稱,也會存在同一個地方,大家用不同的關(guān)鍵詞去搜索,比如:模塊、版塊、板塊。

????????因此在數(shù)據(jù)指標(biāo)表的第一個sheet,設(shè)計了一個數(shù)據(jù)指標(biāo)地圖,將不同功能模塊的數(shù)據(jù)指標(biāo)進(jìn)行了拆解和說明,運營同學(xué)找數(shù)據(jù)指標(biāo)之前,先打開指標(biāo)地圖大概定位,然后再去對應(yīng)的sheet表中尋找對應(yīng)指標(biāo)的細(xì)節(jié)定義和可下鉆的維度信息。

????????另一塊就是數(shù)據(jù)倉庫的各種表的定義。從數(shù)倉里自助取數(shù)時,會有以下的問題:有哪些表、表格對應(yīng)的是哪塊業(yè)務(wù)的數(shù)據(jù)、有哪些字段,字段的含義是什么?這個需要和數(shù)據(jù)同學(xué)一起來明確具體內(nèi)容了,這個工作并不復(fù)雜,就是需要開個小會進(jìn)行確認(rèn),并且約定好,新增表格時,及時更新對表格的解釋。

版本迭代功能埋點管理

隨著版本迭代有新功能的埋點,或者針對之前功能的優(yōu)化,所以需要對之前埋點進(jìn)行調(diào)整。從埋點管理的角度,新增/修改的埋點,需要整合到之前的埋點系統(tǒng)里,這樣能夠方便使用者查閱整體的埋點明細(xì)。

背景:產(chǎn)品迭代周期為兩周一個版本,有3位功能產(chǎn)品經(jīng)理,他們負(fù)責(zé)具體功能的設(shè)計和產(chǎn)品跟進(jìn),在設(shè)計產(chǎn)品功能時,也會提交與功能相關(guān)的埋點需求,在經(jīng)過功能評審后,會和數(shù)據(jù)產(chǎn)品就功能埋點進(jìn)行一次溝通,然后將確定的埋點需求梳理出來。

處理流程:功能在經(jīng)過需求評審(=技術(shù)評審)后,基本確定了這一次要做的功能點,因此也可以梳理出要做的埋點有哪些。所以從這個節(jié)點的處理流程是:

  1. 功能產(chǎn)品經(jīng)理(后稱功能PM)梳理相應(yīng)的埋點清單(按照符合總表設(shè)計邏輯的字段進(jìn)行梳理);
  2. 功能PM與數(shù)據(jù)產(chǎn)品經(jīng)理(后稱數(shù)據(jù)PM)做內(nèi)部評審,評審目標(biāo)是針對功能點梳理出與總埋點文檔保持兼容、同時又可以拎出來后給到開發(fā)看的埋點清單;
  3. 功能PM與開發(fā)進(jìn)行埋點需求評審,數(shù)據(jù)PM可旁聽。

埋點應(yīng)用

可視化數(shù)據(jù)大屏

????????數(shù)據(jù)大屏的視覺沖擊力強(qiáng),對于關(guān)注整體指標(biāo)的領(lǐng)導(dǎo)層來說,大屏解決了他們快速掌握全局?jǐn)?shù)據(jù)的需求,另外,如果常要接待其他單位或者到外面匯報、參展,動態(tài)數(shù)據(jù)大屏絕對是曝光度最高的產(chǎn)品。

漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用

開源數(shù)據(jù)展示工具?

????????數(shù)據(jù)大屏滿足了展示類需求,但是定制化一點的、操作類需求,數(shù)據(jù)大屏滿足不了。這時可以考慮使用別的工具,其核心就是通過該工具平臺,連接數(shù)據(jù)庫,讀取數(shù)據(jù)后進(jìn)行展現(xiàn),并且可以按照一定的維度,如日期、周期、item名稱等維度聚合數(shù)據(jù),形成一個個看板。看板里的單圖支持源數(shù)據(jù)下載、和簡單的SQL取數(shù)。能夠解決略進(jìn)一層的數(shù)據(jù)展示和分析訴求。

漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用

數(shù)據(jù)應(yīng)用平臺

????????數(shù)據(jù)終究要產(chǎn)生業(yè)務(wù)價值的,上面提到的數(shù)據(jù)展示工具,又無法以可視化形態(tài)做業(yè)務(wù)分析。因為數(shù)據(jù)需要結(jié)合具體的業(yè)務(wù)場景,然后選擇成熟的分析場景,例如:事件分析、漏斗分析、留存分析、歸因分析等,以及更深度的用戶畫像、精準(zhǔn)營銷,才能真正賦能業(yè)務(wù)。這類數(shù)據(jù)應(yīng)用工具,目前已經(jīng)有成熟廠商提供了標(biāo)準(zhǔn)化產(chǎn)品,如果公司規(guī)模沒有達(dá)到自研數(shù)據(jù)平臺時,建議采購。

數(shù)據(jù)倉庫

數(shù)據(jù)采集、錄入,最終會落入到數(shù)據(jù)倉庫中進(jìn)行存儲和后續(xù)使用,成為數(shù)據(jù)倉庫中的“彈藥”。在2019年熱門興起的“數(shù)據(jù)中臺”,去掉面子,里子其實就是一個數(shù)據(jù)倉庫。數(shù)據(jù)倉庫匯聚各業(yè)務(wù)端的原始數(shù)據(jù),和主題數(shù)據(jù),其建設(shè)過程是一個隨著業(yè)務(wù)發(fā)展不斷更新的過程。只是做數(shù)據(jù)的ETL本身并不是數(shù)據(jù)倉庫的價值,其核心是能夠收錄好業(yè)務(wù)側(cè)需要使用的數(shù)據(jù),或者在業(yè)務(wù)側(cè)提出新的數(shù)據(jù)需求時,能夠快速響應(yīng)。

按照數(shù)據(jù)倉庫設(shè)計的經(jīng)典三層結(jié)構(gòu):ODS層、DWD層、DM層,數(shù)據(jù)產(chǎn)品經(jīng)理在數(shù)據(jù)倉庫建設(shè)中的工作職責(zé),是:

  1. 約定進(jìn)入ODS層的原始數(shù)據(jù)的維度、周期;
  2. 定義DWD層主題寬表的字段、周期;
  3. 設(shè)計DM層應(yīng)用表的字段、周期(需要結(jié)合具體業(yè)務(wù),設(shè)計盡可能通用的主題表、應(yīng)用表);
  4. 設(shè)計監(jiān)控方案,ETL過程中異常需告警,并及時告知數(shù)據(jù)應(yīng)用側(cè)有污染數(shù)據(jù)。

建立標(biāo)準(zhǔn)化流程

一般無特殊情況開發(fā)可參考下圖:

漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用

某些特殊情況

相似場景是合并一個事件還是分不同的事件

示例如下:

事件設(shè)計 場景示例 說明
設(shè)計為同一事件 例如相似場景下的按鈕點擊可合并,不必一個點擊一個事件,需合并為一個事件。 對于全局性的事件,我們建議設(shè)計為同一事件,通過特定的屬性值對特定操作進(jìn)行區(qū)分,而不是針對每一個操作設(shè)計一個事件。
設(shè)計為同一事件 例如:點擊banner、點擊熱門活動位,都是點擊首頁的推薦位,可通過增加屬性區(qū)分。 各事件所需屬性相差不大,平時分析場景多整體分析。
設(shè)計為不同事件 例如一個內(nèi)容平臺,有視頻,有文章,因視頻和文章所記錄屬性差異較大,瀏覽內(nèi)容詳情應(yīng)區(qū)分為瀏覽視頻詳情和瀏覽文章詳情 各事件所需屬性相差很大,分析場景多分別分析。
設(shè)計為不同事件 例如:收藏、瀏覽詳情,雖屬性差異不大,但是收藏和瀏覽業(yè)務(wù)關(guān)系不大,且通常為單獨分析。 各事件所需屬性相差不大,但平時分析場景單一分析,并且業(yè)務(wù)含義區(qū)別較大。

多重身份用戶的設(shè)計

例如,在在線教育用戶中,有多重用戶身份,例如老師、學(xué)生、家長等,要做好用戶屬性的區(qū)分,對不同身份用戶的屬性進(jìn)行不同的設(shè)置。

主被動事件的處理

????????在線上行為中,很多需要記錄的埋點事件非用戶主動觸發(fā),為被動觸發(fā),例如平臺審核、發(fā)放優(yōu)惠券、被其他人關(guān)注等,所以這種場景下不存在主動事件,主動觸發(fā)行為的不是用戶,用戶是行為的接受者,被動受到影響。但是在分析需求比如審核通過率,需要提交審核-審核通過的主體ID為一人,此時被動事件的上報主體會影響到分析結(jié)果。

曝光事件的處理

和其他事件一樣,只是曝光事件的觸發(fā)時機(jī)需要注意,例如某平臺內(nèi)容曝光事件觸發(fā)時機(jī)為:

  1. 內(nèi)容露出全部,且feed流靜止?fàn)顟B(tài)超過2s算曝光。
  2. 限制單一內(nèi)容一次請求只會出現(xiàn)一次曝光(比如上下滑動屏幕,只要不刷新發(fā)生新請求,算一次曝光)。

注意 以上僅為示例,具體的規(guī)則可根據(jù)需求和研發(fā)的實現(xiàn)成本靈活變動。另外,需要注意的是,曝光觸發(fā)事件量巨大,一般分析CTR,或者有推薦算法數(shù)據(jù)需求時需要曝光事件,其他場景請根據(jù)需求謹(jǐn)慎埋點。

虛擬事件

????????虛擬事件是對元事件的合并和拆分,是一個特殊功能。所以在事件埋點設(shè)計時,如果虛擬事件可滿足,不必增加新埋點

社交數(shù)據(jù)采集方案示例

示例來源于火山引擎-增長平臺

用戶表

屬性顯示名 屬性英文變量名 數(shù)據(jù)類型 屬性值說明或示例
國家 user_country string 中國,美國
省份 user_province string 江蘇省,New York
用戶注冊時間 register_time int 用戶注冊時間
用戶最近一次登陸時間 last_login_in_time int 用戶最近一次登陸時間
性別 gender string 男性/女性
年齡 user_age int -
年齡段 user_age_interval string 年齡段:18歲以下、18-25歲、25-30歲、30-40歲、40-50歲、50-60歲、60-70歲、70歲以上
會員類型 vip_type string VIP、SVIP、黑鉆用戶
財富等級 wealth_level string LV1、LV2、LV3等
星座 star_name string 12星座名稱:白羊座、水瓶座、摩羯座等
學(xué)校 school string ***大學(xué)
職業(yè) job_type string 職業(yè)名稱:銷售、教師、律師、編輯、創(chuàng)始人、分析師等
行業(yè) job_industry string 職業(yè)領(lǐng)域:零售、教育、金融、影視、文化、互聯(lián)網(wǎng)等
是否被認(rèn)證真實頭像 if_real string 認(rèn)證/未認(rèn)證

公共屬性

預(yù)置屬性 屬性類型 展示名
app_version string 軟件版本
device_model string 設(shè)備型號
brand string 手機(jī)品牌
os_version string 系統(tǒng)版本
network_type string 網(wǎng)絡(luò)類型
network_carrier string 運營商
app_channel string 渠道
user_is_new int 新老用戶
resolution string 分辨率
language string 系統(tǒng)語言
app_id int app_ID
region string 系統(tǒng)國家
app_region string 軟件國家
loc_city_id string 城市
loc_province_id string 省份
loc_country_id string 國家
app_version_minor string 四位版本號

部分自定義事件

序號 事件名稱 事件標(biāo)識符 埋點觸發(fā)時機(jī)

前端

/

后端

屬性名稱 屬性標(biāo)識符 屬性類型 屬性含義
1 頁面瀏覽 page_view 用戶瀏覽頁面時觸發(fā) 前端 頁面類型 page_type string 注冊/登陸頁面、配對頁面、用戶詳細(xì)信息頁面、聊天列表頁面、社區(qū)頁面、會員套餐詳細(xì)頁、直播頁面、充值頁面
來源頁面 page_source string 頁面的上一級頁面
2 導(dǎo)航欄點擊 navigation_view 用戶點擊下方導(dǎo)航欄任一按鈕時觸發(fā) 前端 導(dǎo)航欄名稱 nav_name string 首頁、直播、消息、發(fā)現(xiàn)、我的頁面
3 點擊注冊按鈕 register_success_click 用戶點擊注冊按鈕時觸發(fā) 前端 注冊方式 register_type string 手機(jī)號注冊,微信注冊,QQ注冊,其他注冊
4 注冊成功 register_success 用戶注冊成功時觸發(fā) 前端 注冊方式 register_type string 手機(jī)號注冊,微信注冊,QQ注冊,其他注冊
5 注冊失敗 register_fail 用戶注冊失敗時觸發(fā) 前端 失敗原因 fail_reason string 網(wǎng)絡(luò)原因,用戶名已存在,密碼格式不正確,其他原因
注冊方式 register_type string 手機(jī)號注冊,微信注冊,QQ注冊,其他注冊
6 點擊喜歡 like_click 用戶點擊喜歡時觸發(fā) 前端 是否是會員 if_vip string 會員/非會員
是否有共同興趣 if_interests string 有/沒有
是否被認(rèn)證真實頭像 if_real string 認(rèn)證/未認(rèn)證
星座 star_name string 12星座名稱:白羊座、水瓶座、摩羯座等
性別 like_sex string 性別
年齡 like_age int 年齡
年齡段 like_age_interval string 年齡段:18歲以下、18-25歲、25-30歲、30-40歲、40-50歲、50-60歲、60-70歲、70歲以上
職業(yè) job_type string 職業(yè)名稱

預(yù)置事件

預(yù)置事件 事件標(biāo)識符 屬性名稱 屬性標(biāo)識符 屬性類型
應(yīng)用啟動 app_launch $預(yù)置屬性
session時長 session_duration int
應(yīng)用退出 app_terminate $預(yù)置屬性
session時長 session_duration int
全埋點頁面訪問 bav2b_page $預(yù)置屬性
全埋點元素點擊 bav2b_click $預(yù)置屬性

數(shù)據(jù)分析

數(shù)據(jù)分析種類繁多、樣式復(fù)雜,下文介紹僅為冰山一角。

????????數(shù)據(jù)分析是指對收集的業(yè)務(wù)數(shù)據(jù)進(jìn)行整理、處理和分析,以獲得有關(guān)用戶行為、業(yè)務(wù)指標(biāo)和趨勢的洞察和理解。數(shù)據(jù)分析可以幫助回答各種問題,如用戶使用模式、轉(zhuǎn)化率、流失率、用戶細(xì)分、產(chǎn)品功能效果等。

????????用戶數(shù)據(jù)收集是指通過各種方式和渠道收集和記錄關(guān)于用戶的信息。這些信息可以包括個人身份信息、行為數(shù)據(jù)、偏好、興趣、交易記錄等。用戶數(shù)據(jù)收集對于許多組織和企業(yè)來說是重要的,因為它可以提供有關(guān)用戶行為和需求的洞察,用于改進(jìn)產(chǎn)品和服務(wù)、優(yōu)化營銷策略、個性化用戶體驗等。

????????數(shù)據(jù)分析可以幫助發(fā)現(xiàn)隱藏在數(shù)據(jù)中的趨勢、模式和洞察,為業(yè)務(wù)提供有力的支持和指導(dǎo)。它可以用于預(yù)測未來趨勢、優(yōu)化業(yè)務(wù)流程、改進(jìn)產(chǎn)品和服務(wù)、優(yōu)化市場策略等。有效的數(shù)據(jù)分析可以提供有價值的見解,促使創(chuàng)新和業(yè)務(wù)增長。

數(shù)據(jù)分析的作用

描述性分析

????????故名思義,主要是對已經(jīng)發(fā)生的事實用數(shù)據(jù)做出準(zhǔn)確的描述。比如某企業(yè)訂單履約率從上月的98%下降到了95%,屬于偏基礎(chǔ)類的工作;

診斷性分析

????????在知道了發(fā)生什么之后,更重要的是,我們要明白為什么發(fā)生。比如經(jīng)過分析,發(fā)現(xiàn)訂單履約率下降的原因是成品生產(chǎn)不出來,無法完成交付;

預(yù)測性分析

????????基于上述兩個層次的分析,我們發(fā)現(xiàn)了其中的規(guī)律,即原材料供應(yīng)商的送貨及時率會影響成品訂單的履約率。假如上月某原材料供應(yīng)商A送貨及時率只有70%,通過建模,我們可以預(yù)測本月該供應(yīng)商會使我們的訂單履約率下降2%;

處方性分析

????????有了預(yù)測性分析的結(jié)果后,我們無需再做事后諸葛亮,而可以運籌帷幄,在事前就采取措施。上例中,供應(yīng)商A會導(dǎo)致本月我們的訂單履約率下降,我們可能采取的措施就是把A換掉,但是現(xiàn)在有B和C兩個供應(yīng)商供我們選擇,該選擇哪個呢?通過分析和計算得出:選用供應(yīng)商B會比選C的訂單履約率高1%,因此建議選擇供應(yīng)商B。

數(shù)據(jù)分析方法

漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用

事件分析

事件分析是對用戶觸發(fā)的行為事件進(jìn)行多角度分析。

按照小學(xué)時代的日記寫作方法理解,敘述一件事情重要的元素是時間、地點、人物、做了什么、怎么做的、為什么做、做了多少,也就等同于5W2H模型

一個用戶行為事件=時間when+地點where+人物who(單個用戶、用戶群)+行為what(動作+動作對象)+工具how(設(shè)備、操作系統(tǒng)、語言等)+指標(biāo)how much(統(tǒng)計事件的計量方式)。

????????由于用戶的行為是動態(tài)的,所以在前端事件分析的結(jié)果會展示過去、實時現(xiàn)在、趨勢未來。例如實時在線人數(shù)、實時交易額等;用曲線圖展示事件的發(fā)展的趨勢,以預(yù)測未來的變化方向;也能夠統(tǒng)計事件總體情況。經(jīng)過細(xì)化的分層,又能夠?qū)τ脩暨M(jìn)行精細(xì)化的分組,以便于精準(zhǔn)的用戶運營。

????????經(jīng)過對事件分析的總結(jié),事件分析是所有分析方法的前提,捋清楚了事件分析的思路和各維度參數(shù)的含義,才能進(jìn)一步的去了解其他的分析方法,特別是對用戶行為和用戶屬性的理解,如何能夠全量地進(jìn)行分類和局部關(guān)鍵行為的概括。

分布分析

分布分析主要分析兩種情況:

  1. 洞察用戶行為分布規(guī)律;
  2. 觀察不同維度(渠道、地區(qū)等)用戶分布情況。

說到底分布分析就是事件分析中分層和分組的過程,是一種非連續(xù)性變量的統(tǒng)計分析方法,其目的就是為了進(jìn)行層間和組間對比分析,以找到產(chǎn)品優(yōu)化方向、甄別核心用戶群、實時調(diào)整運營策略。

留存分析

一種用來分析用戶參與情況/活躍程度的分析模型,考察進(jìn)行初始行為的用戶中,有多少人會進(jìn)行后續(xù)行為,衡量產(chǎn)品對用戶價值高低的重要方法。

????????留存分析較其他的分析方法,更側(cè)重于分析產(chǎn)品對用戶的意義,只有用戶覺得產(chǎn)品幫助自己解決了某些問題、滿足了自己的需求、或者功能用起來更便捷的時候才會延用下去,否則用戶一定吝嗇自己的時間和手機(jī)內(nèi)存的。這也是驗證用戶需求分析是否到位,產(chǎn)品設(shè)計是否合理的關(guān)鍵指標(biāo)。

漏斗分析

漏斗分析是對多個行為進(jìn)行分析,并且這些行為不僅有先后次序的,而且是一個完整的復(fù)雜事件,對漏斗的每個行為我們都很關(guān)心

漏斗分析是需要先預(yù)設(shè)好漏斗步驟和窗口期,總的來說是設(shè)計好的轉(zhuǎn)化漏斗和轉(zhuǎn)化周期,一般情況是對核心事件的轉(zhuǎn)化行為的一個衡量方法。

????????漏斗分析沒有強(qiáng)順序,中間可以重復(fù)步驟內(nèi)的行為,也可以穿插步驟外的行為,只要在窗口期內(nèi)完成漏斗步驟內(nèi)的行為即可。例如:窗口期為1天,漏斗步驟為“A->B->C->D->E”,在用戶觸發(fā)A->B ,又回到A,再回到B或F,那么只會記錄A->B一次,而F行為不在漏斗步驟內(nèi),則不參與統(tǒng)計。

漏斗分析是衡量流量轉(zhuǎn)化、頁面轉(zhuǎn)化的高頻數(shù)據(jù)分析方法。

從產(chǎn)品的角度來說:

  • 核心轉(zhuǎn)化行為的觸達(dá)在預(yù)設(shè)的步驟中是否科學(xué)合理,是否能夠讓用戶有效觸發(fā)產(chǎn)品的核心功能。
  • 產(chǎn)品的核心功能在用戶使用時,是否達(dá)到簡單快捷,從而提高轉(zhuǎn)化效率?如果不是,那么卡在哪個環(huán)節(jié),對該環(huán)節(jié)進(jìn)行深入分析。
  • 獲得轉(zhuǎn)化周期等等

從用戶角度來說:

  • 在每個漏斗步驟上,既有進(jìn)入下一個步驟的用戶,也有在這個步驟上流失的用戶,從而對用戶進(jìn)行更細(xì)致的分群,也獲得了忠實用戶群和潛在用戶群,對于精細(xì)化的用戶運營提供了數(shù)據(jù)支撐。

路徑分析

路徑分析顧名思義就是用戶在產(chǎn)品上進(jìn)行操作的過程,有些地方會用“用戶旅程”、“用戶動線”詞匯來形容用戶路徑。這好比是一種數(shù)字化方式來跟蹤和監(jiān)控用戶的所有行為,從而可以得到頻繁訪問路徑。和漏斗分析一樣,目標(biāo)還是為了提升關(guān)鍵模塊的轉(zhuǎn)化率。因此,路徑分析需要得出最短路徑、優(yōu)化最低轉(zhuǎn)化環(huán)節(jié)、跟蹤主流路徑。

路徑分析主要分為三類:轉(zhuǎn)化漏斗、智能路徑、用戶路徑。

小結(jié)

???????每種分析是對立而又統(tǒng)一的,看似目的不同,但是又是相互補(bǔ)充,使得產(chǎn)品的成長獲得全面的營養(yǎng)素。用戶網(wǎng)絡(luò)行為數(shù)據(jù)越來越龐大,充分挖掘數(shù)據(jù)的價值是數(shù)據(jù)分析的目的,不論使用的一般的統(tǒng)計方法,還是機(jī)器學(xué)習(xí)等模型算法,都是為了 理解數(shù)據(jù)

數(shù)據(jù)分析切入點

????????產(chǎn)品數(shù)據(jù)分析從以下幾方面入手:1、功能交互數(shù)據(jù)分析,2、競品調(diào)研,3、UGC數(shù)據(jù),4、KPI數(shù)據(jù)。其中“功能交互數(shù)據(jù)”是比較細(xì)節(jié)的數(shù)據(jù)分析,能直接反應(yīng)功能的好壞以及交互流程是否如預(yù)期。好壞和預(yù)期的標(biāo)準(zhǔn)都是依據(jù)自己設(shè)計這個功能的目標(biāo)。

功能交互數(shù)據(jù)分析

功能交互數(shù)據(jù)是比較細(xì)節(jié)的數(shù)據(jù)分析,能直接反應(yīng)功能的好壞以及交互流程是否如預(yù)期。好壞和預(yù)期的標(biāo)準(zhǔn)都是依據(jù)自己設(shè)計這個功能的目標(biāo)。

比如交互流程優(yōu)化,目的是想通過交互流程的優(yōu)化提升點擊率。所以在此目標(biāo)下,需要看現(xiàn)有的流程每一步的轉(zhuǎn)化情況,那么每一步的統(tǒng)計參數(shù)都要加。

分析方法:轉(zhuǎn)化漏斗

????????功能交互類的分析效果好壞,主要用的就是轉(zhuǎn)化漏斗。栗子依然是分享,可看哪步流失多,也可看是否減少步驟。比如很多網(wǎng)站或APP由原來的統(tǒng)一分享按鈕變?yōu)榉窒砬乐苯颖┞叮瑴p少步驟一定是可以提升轉(zhuǎn)化率的,因為每一個步驟都會有流失。

競品調(diào)研

競品的數(shù)據(jù)情況獲取主要是以下幾種方式:搜集資料、可通過技術(shù)手段獲取、估算。

KPI數(shù)據(jù)

KPI數(shù)據(jù)很重要很重要很重要,因為這是你一季度、半年、一年的奮斗目標(biāo),所有的工作計劃都圍繞著KPI進(jìn)行。有條件的話可以讓技術(shù)同學(xué)將重點KPI數(shù)據(jù)做成日報,每天早上發(fā)你郵箱。

  • 數(shù)據(jù)日報

????????數(shù)據(jù)日報是將你想要看的各種數(shù)據(jù)匯集在一起,方便提升產(chǎn)品工作效率的一種方式。除了各類數(shù)據(jù)項的當(dāng)天數(shù)據(jù),還需要增加對比前一天、前一周、前一月等增加下降的比例,這樣才能有效分析。

  • 流量(PV、UV、留存率)

????????大多數(shù)產(chǎn)品應(yīng)該都是這兩項,PV和日活躍用戶數(shù),APP應(yīng)該還會有留存數(shù)據(jù)。這是最能直接反應(yīng)網(wǎng)站或APP的情況,也是全年提升的目標(biāo)。APP的UV就是日活躍設(shè)備數(shù),網(wǎng)站的則是cookie。

  • PV、UV

????????外部來源渠道,通過拆解來源渠道分析哪種上升哪種下降、哪種還可以提升拓展;留存率更多的是與push推送相關(guān),好的push可以大大提升留存率

  • 廣告收入

????????時刻關(guān)注變現(xiàn),有了錢錢才更有話語權(quán)。主要關(guān)注項:收入錢錢、各廣告位CTR、RPM、廣告物料返回率。CTR高能證明廣告位置以及廣告相關(guān)性較好;RPM,可用來估算廣告的價值以及我們接入后的收益;廣告物料返回率,只有返回了物料我們的接入才有效。

數(shù)據(jù)報告流程

漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用

挑幾個點介紹一下

數(shù)據(jù)清洗

在工作中,90%以上的情況,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無效值、重復(fù)值等等。這項工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時間。
如果在上一步中,你的數(shù)據(jù)是通過手工復(fù)制/下載獲取的,那么通常會比較干凈,不需要做太多清洗工作。但如果數(shù)據(jù)是通過爬蟲等方式得來,那么你需要進(jìn)行清洗,提取核心內(nèi)容,去掉網(wǎng)頁代碼、標(biāo)點符號等無用內(nèi)容。
無論你采用哪一種方式獲取數(shù)據(jù),請記住,數(shù)據(jù)清洗永遠(yuǎn)是你必須要做的一項工作。

數(shù)據(jù)整理

清洗過后,需要進(jìn)行數(shù)據(jù)整理,即將數(shù)據(jù)整理為能夠進(jìn)行下一步分析的格式,對于初學(xué)者,用Excel來完成這一工作就OK。
如果你的數(shù)據(jù)已經(jīng)是表格形式,那么計算一些二級指標(biāo)就好,比如用今年銷量和去年銷量算出同比增長率。鑒于你是第一次做數(shù)據(jù)報告,建議你不要計算太多復(fù)雜的二級指標(biāo),基本的同比、環(huán)比、占比分布這些就OK。
如果你收集的是一些非數(shù)字的數(shù)據(jù),比如對商家的點評,那么你進(jìn)行下一步統(tǒng)計之前,需要通過“關(guān)鍵詞-標(biāo)簽”方式,將句子轉(zhuǎn)化為標(biāo)簽,再對標(biāo)簽進(jìn)行統(tǒng)計。

描述分析

描述分析是最基本的分析統(tǒng)計方法,在實際工作中也是應(yīng)用最廣的分析方法。描述統(tǒng)計分為兩大部分:數(shù)據(jù)描述和指標(biāo)統(tǒng)計。

數(shù)據(jù)描述:用來對數(shù)據(jù)進(jìn)行基本情況的刻畫,包括:數(shù)據(jù)總數(shù)、時間跨度、時間粒度、空間范圍、空間粒度、數(shù)據(jù)來源等。如果是建模,那么還要看數(shù)據(jù)的極值、分布、離散度等內(nèi)容。這次我們是零基礎(chǔ)做數(shù)據(jù)報告,那么就不用考慮后一類數(shù)據(jù)了。
指標(biāo)統(tǒng)計:用來作報告,分析實際情況的數(shù)據(jù)指標(biāo),可粗略分為四大類:變化、分布、對比、預(yù)測;
變化:指標(biāo)隨時間的變動,表現(xiàn)為增幅(同比、環(huán)比等);
分布:指標(biāo)在不同層次上的表現(xiàn),包括地域分布(省、市、區(qū)縣、店/網(wǎng)點)、用戶群分布(年齡、性別、職業(yè)等)、產(chǎn)品分布(如動感地帶和全球通)等;
對比:包括內(nèi)部對比和外部對比,內(nèi)部對比包括團(tuán)隊對比、產(chǎn)品線對比;外部對比主要是與市場環(huán)境和競爭者對比;這一部分和分布有重疊的地方,但分布更多用于找出好或壞的地方,而對比更偏重于找到好或壞的原因;
預(yù)測:根據(jù)現(xiàn)有情況,估計下個分析時段的指標(biāo)值。

數(shù)據(jù)敏感性

????????數(shù)據(jù)敏感度是業(yè)務(wù)理解力、客戶理解力、數(shù)據(jù)理解力三者的綜合結(jié)果。很多人誤以為數(shù)據(jù)敏感度只是數(shù)據(jù)能力強(qiáng)。事實上,要對數(shù)據(jù)敏感,業(yè)務(wù)理解力、客戶理解力、數(shù)據(jù)理解力,三者缺一不可。因為數(shù)據(jù)只是對商業(yè)行為的客觀描述,只有真正懂?dāng)?shù)據(jù)背后的意義,才能解讀數(shù)據(jù),才能挖掘數(shù)據(jù)背后的含義,才能形成數(shù)據(jù)敏感。

1)看到數(shù)據(jù)后,能一眼判斷數(shù)據(jù)靠不靠譜,因為很多數(shù)據(jù)本身不靠譜,有指標(biāo)口徑問題、有數(shù)據(jù)質(zhì)量問題,也有可能搞數(shù)據(jù)的人真的不理解業(yè)務(wù),放了個風(fēng)馬牛不相及的數(shù)據(jù)。

2)看到數(shù)據(jù)后,能馬上思考數(shù)據(jù)本身的商業(yè)意義,有人能快速定位數(shù)據(jù)背后的原因,并找到機(jī)會,有人眼里只是一個數(shù)字。對數(shù)據(jù)的解讀基于對數(shù)據(jù)的理解,對數(shù)據(jù)的理解則基于對業(yè)務(wù)、客戶、數(shù)據(jù)的理解。

合法化

最后最后,切記!用戶數(shù)據(jù)的收集和使用應(yīng)該始終遵循以下幾個原則

  1. 合法性和透明度:用戶數(shù)據(jù)的收集應(yīng)遵循適用的法律法規(guī),包括隱私保護(hù)法和數(shù)據(jù)保護(hù)法。組織應(yīng)該明確告知用戶哪些數(shù)據(jù)被收集,收集目的是什么,并在隱私政策或其他適當(dāng)方式中提供相關(guān)信息。

  2. 最小化原則:僅收集與所需目的相關(guān)的最少數(shù)據(jù)。不應(yīng)該收集不必要或無關(guān)的用戶數(shù)據(jù)。

  3. 安全保護(hù):采取適當(dāng)?shù)陌踩胧﹣肀Wo(hù)用戶數(shù)據(jù)的機(jī)密性和完整性,防止未經(jīng)授權(quán)的訪問、泄露或濫用。

  4. 用戶選擇和控制:用戶應(yīng)該有權(quán)選擇是否提供他們的數(shù)據(jù),并可以隨時訪問、更正或刪除他們的個人數(shù)據(jù)。組織應(yīng)該提供簡單和透明的方式讓用戶行使他們的權(quán)利。

  5. 數(shù)據(jù)用途限制:用戶數(shù)據(jù)只能用于事先明確指定的目的,并且不得超出合理的范圍。數(shù)據(jù)不應(yīng)該用于與原始收集目的不相關(guān)的用途,除非獲得用戶明確的同意。

  6. 數(shù)據(jù)共享與轉(zhuǎn)讓:用戶數(shù)據(jù)不應(yīng)未經(jīng)明確的同意而與第三方共享或轉(zhuǎn)讓,除非受法律要求或有合法依據(jù)。

---------------------------

2023.06.06文章來源地址http://www.zghlxwxcb.cn/news/detail-503451.html

到了這里,關(guān)于漫談大數(shù)據(jù) - 如何設(shè)計業(yè)務(wù)埋點方案與數(shù)據(jù)采集應(yīng)用的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 基于Zynq的雷達(dá)10Gbps高速PCIE數(shù)據(jù)采集卡方案(一)總體設(shè)計

    基于Zynq的雷達(dá)10Gbps高速PCIE數(shù)據(jù)采集卡方案(一)總體設(shè)計

    2.1 引言 本課題是來源于雷達(dá)輻射源識別項目,需要對雷達(dá)輻射源中頻信號進(jìn)行采集傳輸 和存儲。本章基于項目需求,介紹采集卡的總體設(shè)計方案。采集卡設(shè)計包括硬件設(shè)計 和軟件設(shè)計。首先對采集卡的性能和指標(biāo)進(jìn)行分析,接著提出硬件的總體設(shè)計,在硬 件設(shè)計基礎(chǔ)上提

    2024年02月05日
    瀏覽(20)
  • 基于DSP+FPGA+ADS1282支持32Bit高精度數(shù)據(jù)采集方案(二)模擬電路設(shè)計

    基于DSP+FPGA+ADS1282支持32Bit高精度數(shù)據(jù)采集方案(二)模擬電路設(shè)計

    如圖 4.1 所示是系統(tǒng)硬件系統(tǒng)的信號框圖,數(shù)字信號處理板上的主要核心是 兩個處理芯片,即 FPGA 和 DSP ,其中 FPGA 主要作用是做 DSP 和外圍接口的 橋梁及數(shù)據(jù)預(yù)處理, DSP 做為數(shù)據(jù)解算核心。 FPGA 通過各種的數(shù)據(jù)總線接收外部設(shè)備傳輸過來的數(shù)據(jù),并進(jìn)行打包處理 以及其他

    2024年02月02日
    瀏覽(107)
  • 線上問診:業(yè)務(wù)數(shù)據(jù)采集

    線上問診:業(yè)務(wù)數(shù)據(jù)采集

    線上問診:業(yè)務(wù)數(shù)據(jù)采集 暑假躺了兩個月,也沒咋寫博客,準(zhǔn)備在開學(xué)前再做個項目找找感覺,由于之前做過廣告數(shù)倉的案例,這次的博客會相對簡略一些,數(shù)倉包括離線和實時兩個部分,離線用來加深記憶,實時用來學(xué)習(xí)新技術(shù)。 由于很多內(nèi)容之前博客都完成過。這里就

    2024年02月11日
    瀏覽(27)
  • 1、電商數(shù)倉(用戶行為采集平臺)數(shù)據(jù)倉庫概念、用戶行為日志、業(yè)務(wù)數(shù)據(jù)、模擬數(shù)據(jù)、用戶行為數(shù)據(jù)采集模塊、日志采集Flume

    1、電商數(shù)倉(用戶行為采集平臺)數(shù)據(jù)倉庫概念、用戶行為日志、業(yè)務(wù)數(shù)據(jù)、模擬數(shù)據(jù)、用戶行為數(shù)據(jù)采集模塊、日志采集Flume

    數(shù)據(jù)倉庫( Data Warehouse ),是為企業(yè)制定決策,提供數(shù)據(jù)支持的。可以幫助企業(yè),改進(jìn)業(yè)務(wù)流程、提高產(chǎn)品質(zhì)量等。 數(shù)據(jù)倉庫的輸入數(shù)據(jù)通常包括:業(yè)務(wù)數(shù)據(jù)、用戶行為數(shù)據(jù)和爬蟲數(shù)據(jù)等。 業(yè)務(wù)數(shù)據(jù):就是各行業(yè)在處理事務(wù)過程中產(chǎn)生的數(shù)據(jù)。比如用戶在電商網(wǎng)站中登錄、

    2024年02月12日
    瀏覽(46)
  • 數(shù)據(jù)通訊平臺建設(shè)方案(物聯(lián)網(wǎng)數(shù)據(jù)采集平臺)

    數(shù)據(jù)通訊平臺建設(shè)方案(物聯(lián)網(wǎng)數(shù)據(jù)采集平臺)

    軟件開發(fā)全資料獲?。很浖椖块_發(fā)全套文檔下載_軟件項目技術(shù)實現(xiàn)文檔-CSDN博客 對不同的數(shù)據(jù)協(xié)議、數(shù)據(jù)模式進(jìn)行采集適配?;赬X智慧平臺統(tǒng)一數(shù)據(jù)交換標(biāo)準(zhǔn),與第三方系統(tǒng)對接,實現(xiàn)數(shù)據(jù)交換;實現(xiàn)不同場景中的在線監(jiān)測儀表以及其他物聯(lián)傳感設(shè)備的通訊和數(shù)據(jù)交換。

    2024年02月01日
    瀏覽(23)
  • 水庫安全監(jiān)測方案(實時數(shù)據(jù)采集、高速數(shù)據(jù)傳輸)

    水庫安全監(jiān)測方案(實時數(shù)據(jù)采集、高速數(shù)據(jù)傳輸)

    ? 一、引言 水庫的安全監(jiān)測對于防止水災(zāi)和保障人民生命財產(chǎn)安全至關(guān)重要。為了提高水庫安全監(jiān)測的效率和準(zhǔn)確性,本文將介紹一種使用星創(chuàng)易聯(lián)DTU200和SG800 5g工業(yè)路由器部署的水庫安全監(jiān)測方案。 二、方案概述 本方案主要通過使用星創(chuàng)易聯(lián)DTU200和SG800 5g工業(yè)路由器實現(xiàn)

    2024年02月08日
    瀏覽(27)
  • 使用python腳本生成datax-json腳本(一次性操作多張表),并使用datax將業(yè)務(wù)數(shù)據(jù)從mysql采集到hdfs

    廢話不多說,上代碼(因為這個代碼是從別的地方復(fù)制后修改的,有許多冗余的地方,但是不影響運行--從mysql將數(shù)據(jù)導(dǎo)入到hdfs):? 接下來是通過shell腳本,使用datax將數(shù)據(jù)從mysql?采集到hdfs (下面是一個離線數(shù)倉項目的demo): 當(dāng)然我們也可以使用sqoop,shell腳本如下: ? 業(yè)務(wù)數(shù)

    2024年02月15日
    瀏覽(92)
  • 藍(lán)牙智能設(shè)備數(shù)據(jù)采集平臺化方案

    隨著人們生活水平的提升,對健康的關(guān)注意識也隨之提高;另外人口結(jié)構(gòu)的老齡化,慢性病發(fā)病率升高,以及新冠疫情持久廣泛的影響,進(jìn)一步提高了大眾對疾病早期預(yù)防、身體數(shù)據(jù)定期自測、慢性病持續(xù)關(guān)注等各個層面的重視程度;典型的,比如體溫、血氧、血壓、體重等

    2024年02月14日
    瀏覽(23)
  • 漫談數(shù)據(jù)倉庫之拉鏈表(原理、設(shè)計以及在Hive中的實現(xiàn)

    漫談數(shù)據(jù)倉庫之拉鏈表(原理、設(shè)計以及在Hive中的實現(xiàn)

    本文將會談一談在數(shù)據(jù)倉庫中拉鏈表相關(guān)的內(nèi)容,包括它的原理、設(shè)計、以及在我們大數(shù)據(jù)場景下的實現(xiàn)方式。 全文由下面幾個部分組成: 先分享一下拉鏈表的用途、什么是拉鏈表。 通過一些小的使用場景來對拉鏈表做近一步的闡釋,以及拉鏈表和常用的切片表的區(qū)別。

    2024年04月12日
    瀏覽(24)
  • 遠(yuǎn)程監(jiān)控及數(shù)據(jù)采集解決方案

    遠(yuǎn)程監(jiān)控及數(shù)據(jù)采集解決方案

    越來越多的企業(yè)集團(tuán)呈跨地域的發(fā)展趨勢。隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,很多跨地域企業(yè)把遠(yuǎn)程監(jiān)控應(yīng)用在生產(chǎn)過程的管理中。通過遠(yuǎn)程監(jiān)控,專業(yè)技術(shù)人員可以管理和維護(hù)生產(chǎn)過程,通過遠(yuǎn)程監(jiān)控現(xiàn)場運行數(shù)據(jù)的實時采集和快速集中,專業(yè)技術(shù)人員可以獲得監(jiān)控現(xiàn)場數(shù)據(jù),以

    2024年02月13日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包