一、數(shù)據(jù)預(yù)處理
1.1概述
-
數(shù)據(jù)預(yù)處理的重要性
- 雜亂性:如命名規(guī)則。
- 重復性:同一客觀事再
- 不完整性:
- 噪聲數(shù)據(jù):數(shù)據(jù)中存在錯誤或異常的現(xiàn)象。
- 數(shù)據(jù)預(yù)處理的常見方法
- 數(shù)據(jù)清洗:去掉數(shù)據(jù)中的噪聲,糾正不一致。
- 數(shù)據(jù)集成:將多個數(shù)據(jù)源合成一致的數(shù)據(jù)存儲
- 數(shù)據(jù)變換(轉(zhuǎn)換):對數(shù)據(jù)的格式進行轉(zhuǎn)換,如數(shù)據(jù)的歸一化處理。
- 數(shù)據(jù)歸約(消減):通過聚集、刪除冗余屬性、局類等方法,來實現(xiàn)數(shù)據(jù)的壓縮。
?1.2數(shù)據(jù)清洗
1.空缺值
- 忽略該元組:
- 其中一條記錄中有屬性值被遺漏
- 缺少類標號
- 但是,當某一類屬性的空缺值占百分比很大,若直接忽略,則會使挖掘性能變得非常差。
- eg:Y:N=1:1,忽略后會變成Y:N=3:1
- 人工填寫空缺值
- 使用屬性的平均值來填充空缺值
- 使用與給定元組屬同一類的平均值來代替
- 使用一個全局變量填充空缺值(不推薦)
-
使用最可能的值填充空缺值
- 回歸、貝葉斯、判定樹歸納確定
2.噪聲數(shù)據(jù)的處理
-
分箱方法(重點)
分箱的步驟:
- 先排 序排序,將其分到等深(等寬)的箱中
- 按箱的平 均 值(在出現(xiàn)極端數(shù)據(jù)的情況下,不能用均值處理)、中 值、邊界(用左右邊界進行替換)進行平滑
等深分箱(分塊)
按記錄數(shù)進行分箱,每箱具有相同的記錄數(shù),每箱的記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。
等寬分箱
在整個屬性值的區(qū)間上平均分布,即每個箱的區(qū)間范圍設(shè)定為一一個常量,稱為箱子的寬度。
聚類方法
- 相似、向鄰近的數(shù)據(jù)集合在一起形成各個聚類集合。
- 特點:直接形成一簇,不需要先驗知識。
- 查找孤立點,消除噪聲
線性回歸
- 通過回歸方程獲得擬合函數(shù)
人機結(jié)合共同檢測
3.不一致數(shù)據(jù)
- 人工更正
- 利用知識工程工具
- 屬性之間的函數(shù)依賴關(guān)系
- 數(shù)據(jù)字典
1.3數(shù)據(jù)集成和變換
- 數(shù)據(jù)集成:將來自多個數(shù)據(jù)源的數(shù)據(jù)合并到一起
- 數(shù)據(jù)變換:對數(shù)據(jù)進行規(guī)范化操作,將其轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的形式。
1.數(shù)據(jù)集成
- 需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處
- 同名異義、異名同義、單位不不統(tǒng)一、字長不一致。
- 需要注意的問題:
- 模式匹配
- 整合不同數(shù)據(jù)源中的元數(shù)據(jù)。
- 進行實 體 識 別
- 借助于數(shù)據(jù)字典、元數(shù)據(jù)
- 數(shù)據(jù)冗余? ?
- 計算相關(guān)分析檢測:?
- 若有高的相關(guān)系數(shù),則可以去除掉。
- 數(shù)據(jù)值沖突
- 產(chǎn)生原因:表示、比例、編碼不同
- 比如:單位不統(tǒng)一、成績的百分之和五分值。
- 模式匹配
2.數(shù)據(jù)變換(重點)
常用方法:
- 平滑處理:消除噪聲
- 分箱
- 聚集操作:對數(shù)據(jù)進行綜合
- 函數(shù):avg(),count(),min(),max()…
- 數(shù)據(jù)規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換到一個較小的范圍內(nèi),兩個數(shù)據(jù)相差比較大。
-
最小-最大規(guī)范化
- 將原始屬性映射到區(qū)間[new_min,new_max]
- 公式:
-
z-score規(guī)范化
- 根據(jù)均值、標準差進行計算
- 常用于:最大值、最小值未知
- 不保證取值區(qū)間一致,但新的取值滿足01分布
-
- 小數(shù)定標規(guī)范化
1.4數(shù)據(jù)規(guī)約
1. 數(shù)據(jù)規(guī)約的標準:
- 時間:原始數(shù)據(jù)集挖掘時間:t,數(shù)據(jù)規(guī)約時間:t0,挖掘后時間t’,滿足:?t_0+t'≤t?
- 性能:歸約后得到的數(shù)據(jù)比原數(shù)據(jù)小的多,并可以產(chǎn)生相同或差不多的結(jié)果。
2. 策略:
- 數(shù)據(jù)立方體聚集:
-
維 歸 約 ( 重 點 )?
- ?主要檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性維
- .方法:屬性子集選擇
- ?目標:尋找出最小的屬性子集,并確保新數(shù)據(jù)子集的概率分布盡可能接近原來的數(shù)據(jù)集的概率分布。
- 啟發(fā)式算法找出"好的’子集
- ?逐步向前選擇:選擇原屬性集中最好的屬性,并將它添加到該集合中。
- 逐步向后刪除:由整個屬性集開始,每一步都刪除現(xiàn)在屬性集中最壞的屬性。
- 向前選擇和向后刪除結(jié)合:每一步選擇一個最好的屬性,并在剩余屬性中刪除一個最壞的屬性。
- 判定樹歸納:出現(xiàn)在判定樹中的屬性形成規(guī)約后的屬性子集。
1.5數(shù)據(jù)離散化(重點)
1.三種類型的屬性值
- 標稱型(名稱、名義):數(shù)值來自于無序集合,不需要離散化,如性別、地名、人名。
- 不可比、不可加
- 序數(shù)型:來自于有序集合,不需要離散化,如等級
- 可比、不可加
- 連續(xù)型:實數(shù)值,需要離散化,如溫度、體重、考試成績。
- 可比、可加
2.離散化技術(shù)
- 分箱
- 基于熵的離散化
- 通過自然劃分分段
![]()
- 聚類(不推薦)
文章來源:http://www.zghlxwxcb.cn/news/detail-728342.html
?文章來源地址http://www.zghlxwxcb.cn/news/detail-728342.html
到了這里,關(guān)于數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!