国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<object id="lq78t"></object>

<tbody id="lq78t"></tbody>

<small id="lq78t"></small>

<td id="lq78t"></td>

數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理

2年前作者：煙雨平生9527分類：Toy博客閱讀(24)違法舉報

這篇具有很好參考價值的文章主要介紹了數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、數(shù)據(jù)預(yù)處理

1.1概述

數(shù)據(jù)預(yù)處理的重要性
1. 雜亂性：如命名規(guī)則。
2. 重復性：同一客觀事再
3. 不完整性：
4. 噪聲數(shù)據(jù)：數(shù)據(jù)中存在錯誤或異常的現(xiàn)象。
數(shù)據(jù)預(yù)處理的常見方法
1. 數(shù)據(jù)清洗：去掉數(shù)據(jù)中的噪聲，糾正不一致。
2. 數(shù)據(jù)集成：將多個數(shù)據(jù)源合成一致的數(shù)據(jù)存儲
3. 數(shù)據(jù)變換（轉(zhuǎn)換）：對數(shù)據(jù)的格式進行轉(zhuǎn)換，如數(shù)據(jù)的歸一化處理。
4. 數(shù)據(jù)歸約（消減）：通過聚集、刪除冗余屬性、局類等方法，來實現(xiàn)數(shù)據(jù)的壓縮。

?1.2數(shù)據(jù)清洗

1.空缺值

忽略該元組：
- 其中一條記錄中有屬性值被遺漏
- 缺少類標號
- 但是，當某一類屬性的空缺值占百分比很大，若直接忽略，則會使挖掘性能變得非常差。
  - eg：Y:N=1:1，忽略后會變成Y:N=3:1
  - 人工填寫空缺值
  - 使用屬性的平均值來填充空缺值
  - 使用與給定元組屬同一類的平均值來代替
  - 使用一個全局變量填充空缺值(不推薦)
  - 使用最可能的值填充空缺值
    - 回歸、貝葉斯、判定樹歸納確定

2.噪聲數(shù)據(jù)的處理

數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

分箱方法(重點)

分箱的步驟：

先排序排序，將其分到等深(等寬)的箱中

按箱的平均值(在出現(xiàn)極端數(shù)據(jù)的情況下，不能用均值處理)、中值、邊界(用左右邊界進行替換)進行平滑

等深分箱(分塊)

按記錄數(shù)進行分箱，每箱具有相同的記錄數(shù)，每箱的記錄數(shù)稱為箱的權(quán)重，也稱箱子的深度。

等寬分箱

在整個屬性值的區(qū)間上平均分布，即每個箱的區(qū)間范圍設(shè)定為一一個常量，稱為箱子的寬度。

聚類方法

相似、向鄰近的數(shù)據(jù)集合在一起形成各個聚類集合。
特點：直接形成一簇，不需要先驗知識。
查找孤立點，消除噪聲

線性回歸

通過回歸方程獲得擬合函數(shù)

人機結(jié)合共同檢測

3.不一致數(shù)據(jù)

人工更正
利用知識工程工具
- 屬性之間的函數(shù)依賴關(guān)系
數(shù)據(jù)字典

1.3數(shù)據(jù)集成和變換

數(shù)據(jù)集成：將來自多個數(shù)據(jù)源的數(shù)據(jù)合并到一起

數(shù)據(jù)變換：對數(shù)據(jù)進行規(guī)范化操作，將其轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的形式。

1.數(shù)據(jù)集成

需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處
- 同名異義、異名同義、單位不不統(tǒng)一、字長不一致。
需要注意的問題：
- 模式匹配
  - 整合不同數(shù)據(jù)源中的元數(shù)據(jù)。
  - 進行實體識別
  - 借助于數(shù)據(jù)字典、元數(shù)據(jù)
- 數(shù)據(jù)冗余? ?
  - 計算相關(guān)分析檢測：?
  - 若有高的相關(guān)系數(shù)，則可以去除掉。
- 數(shù)據(jù)值沖突
  - 產(chǎn)生原因：表示、比例、編碼不同
  - 比如：單位不統(tǒng)一、成績的百分之和五分值。

2.數(shù)據(jù)變換(重點)

常用方法：

平滑處理：消除噪聲
- 分箱
聚集操作：對數(shù)據(jù)進行綜合
- 函數(shù)：avg(),count(),min(),max()…
- 數(shù)據(jù)規(guī)范化：將數(shù)據(jù)轉(zhuǎn)換到一個較小的范圍內(nèi)，兩個數(shù)據(jù)相差比較大。
- 最小-最大規(guī)范化
  - 將原始屬性映射到區(qū)間[new_min,new_max]
  - 公式： $數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能$
- z-score規(guī)范化
  - 根據(jù)均值、標準差進行計算
  - 常用于：最大值、最小值未知
  - 不保證取值區(qū)間一致,但新的取值滿足01分布
- 小數(shù)定標規(guī)范化

數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

1.4數(shù)據(jù)規(guī)約

1. 數(shù)據(jù)規(guī)約的標準：

時間：原始數(shù)據(jù)集挖掘時間：t，數(shù)據(jù)規(guī)約時間：t0，挖掘后時間t’,滿足:?t_0+t'≤t?
性能：歸約后得到的數(shù)據(jù)比原數(shù)據(jù)小的多，并可以產(chǎn)生相同或差不多的結(jié)果。

2. 策略：

數(shù)據(jù)立方體聚集：
維歸約 ( 重點 )?
1. ?主要檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性維
2. .方法：屬性子集選擇
  1. ?目標：尋找出最小的屬性子集，并確保新數(shù)據(jù)子集的概率分布盡可能接近原來的數(shù)據(jù)集的概率分布。
  2. 啟發(fā)式算法找出"好的’子集
    1. ?逐步向前選擇：選擇原屬性集中最好的屬性，并將它添加到該集合中。
    2. 逐步向后刪除：由整個屬性集開始，每一步都刪除現(xiàn)在屬性集中最壞的屬性。
    3. 向前選擇和向后刪除結(jié)合：每一步選擇一個最好的屬性，并在剩余屬性中刪除一個最壞的屬性。
    4. 判定樹歸納：出現(xiàn)在判定樹中的屬性形成規(guī)約后的屬性子集。

數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

1.5數(shù)據(jù)離散化(重點)

1.三種類型的屬性值

標稱型(名稱、名義)：數(shù)值來自于無序集合，不需要離散化，如性別、地名、人名。
- 不可比、不可加
序數(shù)型：來自于有序集合，不需要離散化，如等級
- 可比、不可加
連續(xù)型：實數(shù)值，需要離散化，如溫度、體重、考試成績。
- 可比、可加

2.離散化技術(shù)

分箱

基于熵的離散化

通過自然劃分分段

聚類（不推薦）

數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

?文章來源地址http://www.zghlxwxcb.cn/news/detail-728342.html

到了這里，關(guān)于數(shù)據(jù)挖掘（2）數(shù)據(jù)預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

數(shù)據(jù)挖掘 | 實驗一數(shù)據(jù)的清洗與預(yù)處理
1）了解數(shù)據(jù)質(zhì)量問題、掌握常用解決方法； 2）熟練掌握數(shù)據(jù)預(yù)處理方法，并使用Python語言實現(xiàn)； PC機 + Python3.7環(huán)境（pycharm、anaconda或其它都可以）清洗與預(yù)處理的必要性在實際數(shù)據(jù)挖掘過程中，我們拿到的初始數(shù)據(jù)，往往存在缺失值、重復值、異常值或者錯誤值，通常這
2023年04月08日
瀏覽(23)
【數(shù)據(jù)挖掘 | 數(shù)據(jù)預(yù)處理】缺失值處理 & 重復值處理 & 文本處理確定不來看看？
???♂? 個人主頁: @AI_magician ??主頁地址：作者簡介：CSDN內(nèi)容合伙人，全棧領(lǐng)域優(yōu)質(zhì)創(chuàng)作者。 ?????景愿：旨在于能和更多的熱愛計算機的伙伴一起成長??！????? ???♂?聲明：本人目前大學就讀于大二，研究興趣方向人工智能硬件（雖然硬件還沒開始玩，但一直
2024年02月07日
瀏覽(28)
數(shù)據(jù)挖掘?qū)W習——數(shù)據(jù)預(yù)處理方法代碼匯總（python）
目錄一、歸一化處理方法（1）min-max方法（離散歸一化）（2）零-均值規(guī)范化方法（3）小數(shù)定標規(guī)范化二、插值法（1）拉格朗日插值法三、相關(guān)性分析（1）pearson相關(guān)性系數(shù) （2）spearman相關(guān)性系數(shù) 四、主成分分析（PCA）歸一化常用方法有：（1）min-max方法（離散歸一化
2024年02月08日
瀏覽(99)
數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中的重要性
數(shù)據(jù)挖掘作為從大量數(shù)據(jù)中提取有用信息和知識的過程，其結(jié)果的準確性和可靠性直接受到數(shù)據(jù)質(zhì)量的影響。因此，數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中扮演著至關(guān)重要的角色。讓我們探討數(shù)據(jù)質(zhì)量對數(shù)據(jù)挖掘結(jié)果的影響，并介紹常見的數(shù)據(jù)預(yù)處理方法以及它們?nèi)绾翁岣邤?shù)據(jù)挖掘的效果
2024年03月20日
瀏覽(33)
Python數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理案例（以航空公司數(shù)據(jù)為例）
1、數(shù)據(jù)清洗 2、數(shù)據(jù)集成 3、數(shù)據(jù)可視化根據(jù)航空公司系統(tǒng)內(nèi)的客戶基本信息、乘機信息以及積分信息等詳細數(shù)據(jù)，依據(jù)末次飛行日期( LAST_FLIGHT_DATE)，以2014年3月31日為結(jié)束時間，選取寬度為兩年的時間段作為分析觀測窗口，抽取觀測窗口2012年4月1日至2014年3月31日內(nèi)有乘機記
2024年02月04日
瀏覽(24)
數(shù)據(jù)挖掘?qū)嶒灒ǘ?shù)據(jù)預(yù)處理【等深分箱與等寬分箱】
在分箱前，一定要先排序數(shù)據(jù)，再將它們分到等深（等寬）的箱中。常見的有兩種分箱方法：等深分箱和等寬分箱。等深分箱：按記錄數(shù)進行分箱，每箱具有相同的記錄數(shù)，每箱的記錄數(shù)稱為箱的權(quán)重，也稱箱子的深度。等寬分箱：在整個屬性值的區(qū)間上平均分布，即每個
2024年02月07日
瀏覽(22)
GEO生信數(shù)據(jù)挖掘（六）實踐案例——四分類結(jié)核病基因數(shù)據(jù)預(yù)處理分析
前面五節(jié)，我們使用阿爾茲海默癥數(shù)據(jù)做了一個數(shù)據(jù)預(yù)處理案例，包括如下內(nèi)容： GEO生信數(shù)據(jù)挖掘（一）數(shù)據(jù)集下載和初步觀察 GEO生信數(shù)據(jù)挖掘（二）下載基因芯片平臺文件及注釋 GEO生信數(shù)據(jù)挖掘（三）芯片探針I(yè)D與基因名映射處理 GEO生信數(shù)據(jù)挖掘（四）數(shù)據(jù)清洗（離群值
2024年02月07日
瀏覽(66)
GPT-4科研實踐：數(shù)據(jù)可視化、統(tǒng)計分析、編程、機器學習數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)處理、代碼優(yōu)化、科研方法論
查看原文GPT4科研實踐技術(shù)與AI繪圖 GPT對于每個科研人員已經(jīng)成為不可或缺的輔助工具，不同的研究領(lǐng)域和項目具有不同的需求。例如在科研編程、繪圖領(lǐng)域： 1、編程建議和示例代碼: ?無論你使用的編程語言是Python、R、MATLAB還是其他語言，都可以為你提供相關(guān)的代碼示例。
2024年02月07日
瀏覽(106)
【數(shù)據(jù)挖掘與人工智能自然語言處理】自然語言處理和人工智能：如何利用自然語言處理技術(shù)進行數(shù)據(jù)挖掘
作者：禪與計算機程序設(shè)計藝術(shù) 隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時代的到來，數(shù)據(jù)挖掘已成為各個行業(yè)的熱門話題。數(shù)據(jù)挖掘的核心在于發(fā)現(xiàn)數(shù)據(jù)中的有價值信息，而自然語言處理（NLP）技術(shù)是實現(xiàn)這一目標的重要手段。本文旨在通過自然語言處理技術(shù)進行數(shù)據(jù)挖掘，為數(shù)據(jù)挖掘提供一
2024年02月05日
瀏覽(103)
數(shù)據(jù)預(yù)處理與模型評估【機器學習、人工智能、實際事例】
在機器學習領(lǐng)域，數(shù)據(jù)預(yù)處理和模型評估是兩個至關(guān)重要的步驟。它們確保我們構(gòu)建的機器學習模型能夠從數(shù)據(jù)中有效地學習并做出準確的預(yù)測。本文將詳細介紹數(shù)據(jù)預(yù)處理和模型評估的概念，并通過現(xiàn)實中的例子來闡述它們之間的密切關(guān)系。什么是數(shù)據(jù)預(yù)處理？數(shù)據(jù)預(yù)處
2024年02月07日
瀏覽(103)

<s id="jctii"></s>