国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理

這篇具有很好參考價值的文章主要介紹了數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、數(shù)據(jù)預(yù)處理

1.1概述

  1. 數(shù)據(jù)預(yù)處理的重要性
    1. 雜亂性:如命名規(guī)則。
    2. 重復性:同一客觀事再
    3. 不完整性:
    4. 噪聲數(shù)據(jù):數(shù)據(jù)中存在錯誤或異常的現(xiàn)象。
  2. 數(shù)據(jù)預(yù)處理的常見方法
    1. 數(shù)據(jù)清洗:去掉數(shù)據(jù)中的噪聲,糾正不一致。
    2. 數(shù)據(jù)集成:將多個數(shù)據(jù)源合成一致的數(shù)據(jù)存儲
    3. 數(shù)據(jù)變換(轉(zhuǎn)換):對數(shù)據(jù)的格式進行轉(zhuǎn)換,如數(shù)據(jù)的歸一化處理。
    4. 數(shù)據(jù)歸約(消減):通過聚集、刪除冗余屬性、局類等方法,來實現(xiàn)數(shù)據(jù)的壓縮。數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

?1.2數(shù)據(jù)清洗

1.空缺值

  1. 忽略該元組:
    • 其中一條記錄中有屬性值被遺漏
    • 缺少類標號
    • 但是,當某一類屬性的空缺值占百分比很大,若直接忽略,則會使挖掘性能變得非常差。
      • eg:Y:N=1:1,忽略后會變成Y:N=3:1
      • 人工填寫空缺值
      • 使用屬性的平均值來填充空缺值
      • 使用與給定元組屬同一類的平均值來代替
      • 使用一個全局變量填充空缺值(不推薦)
      • 使用最可能的值填充空缺值
        • 回歸、貝葉斯、判定樹歸納確定

2.噪聲數(shù)據(jù)的處理

數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

  1. 分箱方法(重點)

分箱的步驟:

  1. 先排 序排序,將其分到等深(等寬)的箱中
  2. 按箱的平 均 值(在出現(xiàn)極端數(shù)據(jù)的情況下,不能用均值處理)、中 值、邊界(用左右邊界進行替換)進行平滑

等深分箱(分塊)

按記錄數(shù)進行分箱,每箱具有相同的記錄數(shù),每箱的記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。

數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

等寬分箱

在整個屬性值的區(qū)間上平均分布,即每個箱的區(qū)間范圍設(shè)定為一一個常量,稱為箱子的寬度。數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

聚類方法
  1. 相似、向鄰近的數(shù)據(jù)集合在一起形成各個聚類集合。
  2. 特點:直接形成一簇,不需要先驗知識。
  3. 查找孤立點,消除噪聲
線性回歸
  1. 通過回歸方程獲得擬合函數(shù)
人機結(jié)合共同檢測

3.不一致數(shù)據(jù)

  1. 人工更正
  2. 利用知識工程工具
    • 屬性之間的函數(shù)依賴關(guān)系
  3. 數(shù)據(jù)字典

1.3數(shù)據(jù)集成和變換

  1. 數(shù)據(jù)集成:將來自多個數(shù)據(jù)源的數(shù)據(jù)合并到一起
  2. 數(shù)據(jù)變換:對數(shù)據(jù)進行規(guī)范化操作,將其轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的形式。
1.數(shù)據(jù)集成
  1. 需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處
    • 同名異義、異名同義、單位不不統(tǒng)一、字長不一致。
  2. 需要注意的問題:
    • 模式匹配
      • 整合不同數(shù)據(jù)源中的元數(shù)據(jù)。
      • 進行實 體 識 別
      • 借助于數(shù)據(jù)字典、元數(shù)據(jù)
    • 數(shù)據(jù)冗余? ?
      • 計算相關(guān)分析檢測:?
      • 若有高的相關(guān)系數(shù),則可以去除掉。
    • 數(shù)據(jù)值沖突
      • 產(chǎn)生原因:表示、比例、編碼不同
      • 比如:單位不統(tǒng)一、成績的百分之和五分值。
2.數(shù)據(jù)變換(重點)

常用方法:

  1. 平滑處理:消除噪聲
    • 分箱
  2. 聚集操作:對數(shù)據(jù)進行綜合
    • 函數(shù):avg(),count(),min(),max()…
    • 數(shù)據(jù)規(guī)范化:將數(shù)據(jù)轉(zhuǎn)換到一個較小的范圍內(nèi),兩個數(shù)據(jù)相差比較大。
    • 最小-最大規(guī)范化
      • 將原始屬性映射到區(qū)間[new_min,new_max]
      • 公式:數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能
    • z-score規(guī)范化
      • 根據(jù)均值、標準差進行計算
      • 常用于:最大值、最小值未知
      • 不保證取值區(qū)間一致,但新的取值滿足01分布
      • 數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能
    • 小數(shù)定標規(guī)范化數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

1.4數(shù)據(jù)規(guī)約

1. 數(shù)據(jù)規(guī)約的標準:
  1. 時間:原始數(shù)據(jù)集挖掘時間:t,數(shù)據(jù)規(guī)約時間:t0,挖掘后時間t’,滿足:?t_0+t'≤t?
  2. 性能:歸約后得到的數(shù)據(jù)比原數(shù)據(jù)小的多,并可以產(chǎn)生相同或差不多的結(jié)果。
2. 策略:
  1. 數(shù)據(jù)立方體聚集:數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能
  2. 維 歸 約 ( 重 點 )?
    1. ?主要檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性維
    2. .方法:屬性子集選擇
      1. ?目標:尋找出最小的屬性子集,并確保新數(shù)據(jù)子集的概率分布盡可能接近原來的數(shù)據(jù)集的概率分布。
      2. 啟發(fā)式算法找出"好的’子集
        1. ?逐步向前選擇:選擇原屬性集中最好的屬性,并將它添加到該集合中。
        2. 逐步向后刪除:由整個屬性集開始,每一步都刪除現(xiàn)在屬性集中最壞的屬性。
        3. 向前選擇和向后刪除結(jié)合:每一步選擇一個最好的屬性,并在剩余屬性中刪除一個最壞的屬性。
        4. 判定樹歸納:出現(xiàn)在判定樹中的屬性形成規(guī)約后的屬性子集。

數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

1.5數(shù)據(jù)離散化(重點)

1.三種類型的屬性值
  1. 標稱型(名稱、名義):數(shù)值來自于無序集合,不需要離散化,如性別、地名、人名。
    • 不可比、不可加
  2. 序數(shù)型:來自于有序集合,不需要離散化,如等級
    • 可比、不可加
  3. 連續(xù)型:實數(shù)值,需要離散化,如溫度、體重、考試成績。
    • 可比、可加
2.離散化技術(shù)
  1. 分箱
  2. 基于熵的離散化
  3. 通過自然劃分分段數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能
  4. 聚類(不推薦)

數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘,人工智能

?文章來源地址http://www.zghlxwxcb.cn/news/detail-728342.html

到了這里,關(guān)于數(shù)據(jù)挖掘(2)數(shù)據(jù)預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 數(shù)據(jù)挖掘 | 實驗一 數(shù)據(jù)的清洗與預(yù)處理

    數(shù)據(jù)挖掘 | 實驗一 數(shù)據(jù)的清洗與預(yù)處理

    1)了解數(shù)據(jù)質(zhì)量問題、掌握常用解決方法; 2)熟練掌握數(shù)據(jù)預(yù)處理方法,并使用Python語言實現(xiàn); PC機 + Python3.7環(huán)境(pycharm、anaconda或其它都可以) 清洗與預(yù)處理的必要性 在實際數(shù)據(jù)挖掘過程中,我們拿到的初始數(shù)據(jù),往往存在缺失值、重復值、異常值或者錯誤值,通常這

    2023年04月08日
    瀏覽(23)
  • 【數(shù)據(jù)挖掘 | 數(shù)據(jù)預(yù)處理】缺失值處理 & 重復值處理 & 文本處理 確定不來看看?

    【數(shù)據(jù)挖掘 | 數(shù)據(jù)預(yù)處理】缺失值處理 & 重復值處理 & 文本處理 確定不來看看?

    ???♂? 個人主頁: @AI_magician ??主頁地址: 作者簡介:CSDN內(nèi)容合伙人,全棧領(lǐng)域優(yōu)質(zhì)創(chuàng)作者。 ?????景愿:旨在于能和更多的熱愛計算機的伙伴一起成長??!????? ???♂?聲明:本人目前大學就讀于大二,研究興趣方向人工智能硬件(雖然硬件還沒開始玩,但一直

    2024年02月07日
    瀏覽(28)
  • 數(shù)據(jù)挖掘?qū)W習——數(shù)據(jù)預(yù)處理方法代碼匯總(python)

    數(shù)據(jù)挖掘?qū)W習——數(shù)據(jù)預(yù)處理方法代碼匯總(python)

    目錄 一、歸一化處理方法 (1)min-max方法(離散歸一化) (2)零-均值規(guī)范化方法 (3)小數(shù)定標規(guī)范化 二、插值法 (1)拉格朗日插值法 三、相關(guān)性分析 (1)pearson相關(guān)性系數(shù) (2)spearman相關(guān)性系數(shù) 四、主成分分析(PCA) 歸一化常用方法有: (1)min-max方法(離散歸一化

    2024年02月08日
    瀏覽(99)
  • 數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中的重要性

    數(shù)據(jù)挖掘作為從大量數(shù)據(jù)中提取有用信息和知識的過程,其結(jié)果的準確性和可靠性直接受到數(shù)據(jù)質(zhì)量的影響。因此,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中扮演著至關(guān)重要的角色。讓我們探討數(shù)據(jù)質(zhì)量對數(shù)據(jù)挖掘結(jié)果的影響,并介紹常見的數(shù)據(jù)預(yù)處理方法以及它們?nèi)绾翁岣邤?shù)據(jù)挖掘的效果

    2024年03月20日
    瀏覽(33)
  • Python數(shù)據(jù)挖掘 數(shù)據(jù)預(yù)處理案例(以航空公司數(shù)據(jù)為例)

    Python數(shù)據(jù)挖掘 數(shù)據(jù)預(yù)處理案例(以航空公司數(shù)據(jù)為例)

    1、數(shù)據(jù)清洗 2、數(shù)據(jù)集成 3、數(shù)據(jù)可視化 根據(jù)航空公司系統(tǒng)內(nèi)的客戶基本信息、乘機信息以及積分信息等詳細數(shù)據(jù),依據(jù)末次飛行日期( LAST_FLIGHT_DATE),以2014年3月31日為結(jié)束時間,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口2012年4月1日至2014年3月31日內(nèi)有乘機記

    2024年02月04日
    瀏覽(24)
  • 數(shù)據(jù)挖掘?qū)嶒灒ǘ?shù)據(jù)預(yù)處理【等深分箱與等寬分箱】

    在分箱前,一定要先排序數(shù)據(jù),再將它們分到等深(等寬)的箱中。 常見的有兩種分箱方法:等深分箱和等寬分箱。 等深分箱:按記錄數(shù)進行分箱,每箱具有相同的記錄數(shù),每箱的記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。 等寬分箱:在整個屬性值的區(qū)間上平均分布,即每個

    2024年02月07日
    瀏覽(22)
  • GEO生信數(shù)據(jù)挖掘(六)實踐案例——四分類結(jié)核病基因數(shù)據(jù)預(yù)處理分析

    GEO生信數(shù)據(jù)挖掘(六)實踐案例——四分類結(jié)核病基因數(shù)據(jù)預(yù)處理分析

    前面五節(jié),我們使用阿爾茲海默癥數(shù)據(jù)做了一個數(shù)據(jù)預(yù)處理案例,包括如下內(nèi)容: GEO生信數(shù)據(jù)挖掘(一)數(shù)據(jù)集下載和初步觀察 GEO生信數(shù)據(jù)挖掘(二)下載基因芯片平臺文件及注釋 GEO生信數(shù)據(jù)挖掘(三)芯片探針I(yè)D與基因名映射處理 GEO生信數(shù)據(jù)挖掘(四)數(shù)據(jù)清洗(離群值

    2024年02月07日
    瀏覽(66)
  • GPT-4科研實踐:數(shù)據(jù)可視化、統(tǒng)計分析、編程、機器學習數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)處理、代碼優(yōu)化、科研方法論

    GPT-4科研實踐:數(shù)據(jù)可視化、統(tǒng)計分析、編程、機器學習數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)處理、代碼優(yōu)化、科研方法論

    查看原文GPT4科研實踐技術(shù)與AI繪圖 GPT對于每個科研人員已經(jīng)成為不可或缺的輔助工具,不同的研究領(lǐng)域和項目具有不同的需求。 例如在科研編程、繪圖領(lǐng)域 : 1、編程建議和示例代碼: ?無論你使用的編程語言是Python、R、MATLAB還是其他語言,都可以為你提供相關(guān)的代碼示例。

    2024年02月07日
    瀏覽(106)
  • 【數(shù)據(jù)挖掘與人工智能自然語言處理】自然語言處理和人工智能:如何利用自然語言處理技術(shù)進行數(shù)據(jù)挖掘

    作者:禪與計算機程序設(shè)計藝術(shù) 隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘已成為各個行業(yè)的熱門話題。數(shù)據(jù)挖掘的核心在于發(fā)現(xiàn)數(shù)據(jù)中的有價值信息,而自然語言處理(NLP)技術(shù)是實現(xiàn)這一目標的重要手段。本文旨在通過自然語言處理技術(shù)進行數(shù)據(jù)挖掘,為數(shù)據(jù)挖掘提供一

    2024年02月05日
    瀏覽(103)
  • 數(shù)據(jù)預(yù)處理與模型評估【機器學習、人工智能、實際事例】

    在機器學習領(lǐng)域,數(shù)據(jù)預(yù)處理和模型評估是兩個至關(guān)重要的步驟。它們確保我們構(gòu)建的機器學習模型能夠從數(shù)據(jù)中有效地學習并做出準確的預(yù)測。本文將詳細介紹數(shù)據(jù)預(yù)處理和模型評估的概念,并通過現(xiàn)實中的例子來闡述它們之間的密切關(guān)系。 什么是數(shù)據(jù)預(yù)處理? 數(shù)據(jù)預(yù)處

    2024年02月07日
    瀏覽(103)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包