數(shù)據(jù)挖掘 實驗一、數(shù)據(jù)預(yù)處理
一、 實驗?zāi)康模?/strong>
(1) 熟悉 VC++編程工具和完全數(shù)據(jù)立方體構(gòu)建、聯(lián)機分析處理算法。
(2) 瀏覽擬被處理的的數(shù)據(jù),發(fā)現(xiàn)各維屬性可能的噪聲、缺失值、不一致性等,針對存在的問題擬出采用的數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成的具體算法。
(3) 用VC++編程工具編寫程序,實現(xiàn)數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成等功能。
(4) 調(diào)試整個程序獲得清潔的、一致的、集成的數(shù)據(jù),選擇適于全局優(yōu)化的參數(shù)。
(5) 寫出實驗報告。
二、 實驗原理:
- 數(shù)據(jù)預(yù)處理
現(xiàn)實世界中的數(shù)據(jù)庫極易受噪音數(shù)據(jù)、遺漏數(shù)據(jù)和不一致性數(shù)據(jù)的侵擾,為提高數(shù)據(jù)質(zhì)量進而提高挖掘結(jié)果的質(zhì)量,產(chǎn)生了大量數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。 - 數(shù)據(jù)清理
數(shù)據(jù)清理例程通過填寫遺漏的值,平滑噪音數(shù)據(jù),識別、刪除離群點,并解決不一致來“清理”數(shù)據(jù)。 - 數(shù)據(jù)集成
數(shù)據(jù)集成將數(shù)據(jù)由多個源合并成一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫或數(shù)據(jù)立方體。 - 數(shù)據(jù)變換
通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。 - 數(shù)據(jù)歸約
使用數(shù)據(jù)歸約可以得到數(shù)據(jù)集的壓縮表示,它小得多,但能產(chǎn)生同樣(或幾乎同樣的)分析結(jié)果。常用的數(shù)據(jù)歸約策略有數(shù)據(jù)聚集、維歸約、數(shù)據(jù)壓縮和數(shù)字歸約等。
三、 實驗內(nèi)容:
- 實驗內(nèi)容
- 用 VC++編程工具編寫程序,實現(xiàn)數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成等功能,并在實驗報告中寫出主要的預(yù)處理過程和采用的方法。
- 產(chǎn)生清潔的、一致的、集成的數(shù)據(jù)。
- 在試驗報告中寫明各主要程序片段的功能和作用。
- 實驗步驟
- 仔細研究和審查數(shù)據(jù),找出應(yīng)當包含在你分析中的屬性或維,發(fā)現(xiàn)數(shù)據(jù)中的一些錯誤、不尋常的值、和某些事務(wù)記錄中的不一致性。
- 進行數(shù)據(jù)清理,對遺漏值、噪音數(shù)據(jù)、不一致的數(shù)據(jù)進行處理。
例如:
1、 日期中的缺失值可以根據(jù)統(tǒng)一的流水號來確定。
2、 購買的數(shù)量不能為負值。
1) 進行數(shù)據(jù)集成和數(shù)據(jù)變換和數(shù)據(jù)歸約,將多個數(shù)據(jù)源中的數(shù)據(jù)集成起來,減少或避免結(jié)果數(shù)據(jù)中的數(shù)據(jù)冗余或不一致性。并將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。
例如:
1、 進行完數(shù)據(jù)清理后發(fā)現(xiàn)購買數(shù)量、銷售價格、總額是相互關(guān)聯(lián)的項可以去掉總額。
2、 三個流水表日期的格式不一樣應(yīng)統(tǒng)一成相同的日期格式。
3、 門號和 pos 機號碼一樣,可以去掉一個。
4、 附加:同一購物籃的商品序號應(yīng)該是順序遞增的。
-
程序框圖
文章來源:http://www.zghlxwxcb.cn/news/detail-719135.html
-
關(guān)鍵代碼文章來源地址http://www.zghlxwxcb.cn/news/detail-719135.html
#include<iostream>
#include<string>
#include<fstream>
#include<algorithm>
using namespace std;
class Sales {
public: //1.定義銷售類
string serial;
int market;
int posno;
string date;
int sn;
int id;
float num;
float price;
float total;
friend
到了這里,關(guān)于數(shù)據(jù)挖掘 實驗一、數(shù)據(jù)預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!