數(shù)據(jù)挖掘學習——數(shù)據(jù)預處理方法代碼匯總（python）

2年前作者：長弓同學分類：Toy博客閱讀(99)違法舉報

這篇具有很好參考價值的文章主要介紹了數(shù)據(jù)挖掘學習——數(shù)據(jù)預處理方法代碼匯總（python）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、歸一化處理方法

（1）min-max方法（離散歸一化）

（2）零-均值規(guī)范化方法

（3）小數(shù)定標規(guī)范化

二、插值法

（1）拉格朗日插值法

三、相關性分析

（1）pearson相關性系數(shù)

（2）spearman相關性系數(shù)

四、主成分分析（PCA）

一、歸一化處理方法

歸一化常用方法有：

（1）min-max方法（離散歸一化）

對原始數(shù)據(jù)的線性變換，將數(shù)據(jù)點映射到了[0,1]區(qū)間（默認）

一般調用sklearn庫中的min_max_scaler函數(shù)實現(xiàn)，代碼如下：

from sklearn import preprocessing
import numpy as np

x =  np.array(
    [[1972, 685, 507, 962, 610, 1434, 1542, 1748, 1247, 1345],

[262, 1398, 1300, 1056, 552, 1306, 788, 1434, 907, 1374],])

# 調用min_max_scaler函數(shù)
min_max_scaler = preprocessing.MinMaxScaler()
minmax_x = min_max_scaler.fit_transform(x)

（2）零-均值規(guī)范化方法

??? 把特征值的分布變化到均值為零。這種做法可以消除不同特征(或樣本)之間的量級差異,使得特征之間的分布更加接近的變化,這在某些模型(如SVM)中,能夠極大地提升處理效果,促使模型更加穩(wěn)定,提升預測準確度。

代碼實現(xiàn)：

import numpy as np
# 零-均值規(guī)范化
def ZeroAvg_Normalize(data):
    text=(data - data.mean())/data.std()
    return text

（3）小數(shù)定標規(guī)范化

小數(shù)定標規(guī)范化就是通過移動小數(shù)點的位置來進行規(guī)范化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。

實現(xiàn)代碼如下：

import numpy as np

# 小數(shù)定標規(guī)范化
def deci_sca(data):
    new_data=data/(10**(np.ceil(np.log10(data.max()))))
    return new_data

二、插值法

在離散數(shù)據(jù)的基礎上補插連續(xù)函數(shù)，使得這條連續(xù)曲線通過全部給定的離散數(shù)據(jù)點。

插值是逼近的重要方法，利用它可通過函數(shù)在有限個點處的取值狀況，估算出函數(shù)在其他點處的近似值。

在圖像的應用中，是填充圖像變換時造成的空隙。

（1）拉格朗日插值法

在節(jié)點上給出節(jié)點基函數(shù)，然后做基函數(shù)的線性組合，組合系數(shù)為節(jié)點函數(shù)值的一種插值多項式。

可以通過調用scipy庫中的lagrange方法實現(xiàn)，代碼如下：

'''拉格朗日插值法實現(xiàn)'''
from scipy.interpolate  import lagrange
import numpy as np
x_known = np.array([987,1325,1092,475,2911])
y_known = np.array([372,402,1402,1725,1410])
new_data = lagrange(x_known,y_known)(4)
print(new_data)

三、相關性分析

（1）pearson相關性系數(shù)

協(xié)方差除以標準差的乘積，pearson相關系數(shù)是線性相關關系，pearson相關系數(shù)呈現(xiàn)連續(xù)型正態(tài)分布變量之間的線性關系。

調用corr()方法，定義參數(shù)為pearson方法即可實現(xiàn)，代碼如下：

# pearson相關系數(shù)計算
corr_pearson = df.corr(method='pearson')

（2）spearman相關性系數(shù)

秩（有序）變量之間的Pearson相關系數(shù)，spearman相關系數(shù)呈現(xiàn)非線性相關，spearman相關系數(shù)不要求正態(tài)連續(xù)，但至少是有序的。

# spearman相關系數(shù)計算
corr_spearman = df.corr(method='spearman')

四、主成分分析（PCA）

主成分分析（Principal Component Analysis，PCA），是一種統(tǒng)計方法，通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量，轉換后的這組變量叫主成分。

在數(shù)據(jù)預處理中，我們常用PCA的方法對數(shù)據(jù)進行降維處理，將n維特征映射到k維上，這k維是全新的正交特征也被稱為主成分，是在原有n維特征的基礎上重新構造出來的k維特征。

具體實現(xiàn)步驟如下：

1）首先對數(shù)據(jù)進行標準化，消除不同量綱對數(shù)據(jù)的影響，標準化可采用極值法

及標準差標準化法。

2）根據(jù)標準化數(shù)據(jù)求出方差矩陣。

3）求出共變量矩陣的特征根和特征變量，根據(jù)特征根，確定主成分。

4）結合專業(yè)知識和各主成分所蘊藏的信息給予恰當?shù)慕忉尅?/p>

可以直接調用sklearn中的pca方法實現(xiàn)，代碼如下：

# 調用sklearn的PCA
from sklearn.decomposition import PCA
import numpy as np
import pandas as pd

df=pd.DataFrame({'能力':[66,65,57,67,61,64,64,63,65,67,62,68,65,62,64],

                '品格':[64,63,58,69,61,65,63,63,64,69,63,67,65,63,66],

                '擔保':[65,63,63,65,62,63,63,63,65,69,65,65,66,64,66],

                '資本':[65,65,59,68,62,63,63,63,66,68,64,67,65,62,65],

                '環(huán)境':[65,64,66,64,63,63,64,63,64,67,64,65,64,66,67]
                 })

#調用sklearn中的PCA函數(shù)對數(shù)據(jù)進行主成分分析
pca=PCA()
pca.fit(df) # 用訓練數(shù)據(jù)X訓練模型

'''投影后的特征維度的方差比例'''
print('--------------投影后的特征維度的方差比例(每個特征方差貢獻率)-------------------')
print(pca.explained_variance_ratio_)

'''投影后的特征維度的方差'''
print('--------------投影后的特征維度的方差-------------------')
print(pca.explained_variance_)
print('--------------模型的主成分對應的特征向量-------------------')
print(pca.components_)
print('--------------使用pca模型對數(shù)據(jù)進行降維-------------------')
print(pca.transform(df))# 對數(shù)據(jù)進行降維

運行結果：

數(shù)據(jù)挖掘學習——數(shù)據(jù)預處理方法代碼匯總（python）

?文章來源地址http://www.zghlxwxcb.cn/news/detail-472873.html

到了這里，關于數(shù)據(jù)挖掘學習——數(shù)據(jù)預處理方法代碼匯總（python）的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

數(shù)據(jù)挖掘(2.1)--數(shù)據(jù)預處理
1.1基礎知識數(shù)據(jù) 是數(shù)據(jù)對象(Data Objects)及其屬性(Attributes) 的集合。數(shù)據(jù)對象 (一條記錄、一個實體、一個案例、一個樣本等)是對一個事物或者物理對象的描述。數(shù)據(jù)對象的屬性則是這個對象的性質或特征，例如一個人的膚色、眼球顏色等是這個人的屬性。每一行為一
2024年02月02日
瀏覽(23)
數(shù)據(jù)挖掘(2.3)--數(shù)據(jù)預處理
目錄三、數(shù)據(jù)集成和轉換 1.數(shù)據(jù)集成? 2.數(shù)據(jù)冗余性? 2.1 皮爾森相關系數(shù) 2.2卡方檢驗? 3.數(shù)據(jù)轉換四、數(shù)據(jù)的規(guī)約和變換 1.數(shù)據(jù)歸約 2數(shù)據(jù)離散化數(shù)據(jù)集成是將不同來源的數(shù)據(jù)整合并一致地存儲起來的過程。不同來源的數(shù)據(jù)可能有不同的格式、不同的元信息和不同的表示
2024年02月02日
瀏覽(23)
數(shù)據(jù)挖掘 | 實驗一數(shù)據(jù)的清洗與預處理
1）了解數(shù)據(jù)質量問題、掌握常用解決方法； 2）熟練掌握數(shù)據(jù)預處理方法，并使用Python語言實現(xiàn)； PC機 + Python3.7環(huán)境（pycharm、anaconda或其它都可以）清洗與預處理的必要性在實際數(shù)據(jù)挖掘過程中，我們拿到的初始數(shù)據(jù)，往往存在缺失值、重復值、異常值或者錯誤值，通常這
2023年04月08日
瀏覽(23)
【數(shù)據(jù)挖掘 | 數(shù)據(jù)預處理】缺失值處理 & 重復值處理 & 文本處理確定不來看看？
???♂? 個人主頁: @AI_magician ??主頁地址：作者簡介：CSDN內容合伙人，全棧領域優(yōu)質創(chuàng)作者。 ?????景愿：旨在于能和更多的熱愛計算機的伙伴一起成長??！????? ???♂?聲明：本人目前大學就讀于大二，研究興趣方向人工智能硬件（雖然硬件還沒開始玩，但一直
2024年02月07日
瀏覽(28)
數(shù)據(jù)預處理在數(shù)據(jù)挖掘中的重要性
數(shù)據(jù)挖掘作為從大量數(shù)據(jù)中提取有用信息和知識的過程，其結果的準確性和可靠性直接受到數(shù)據(jù)質量的影響。因此，數(shù)據(jù)預處理在數(shù)據(jù)挖掘中扮演著至關重要的角色。讓我們探討數(shù)據(jù)質量對數(shù)據(jù)挖掘結果的影響，并介紹常見的數(shù)據(jù)預處理方法以及它們如何提高數(shù)據(jù)挖掘的效果
2024年03月20日
瀏覽(33)
Python數(shù)據(jù)挖掘數(shù)據(jù)預處理案例（以航空公司數(shù)據(jù)為例）
1、數(shù)據(jù)清洗 2、數(shù)據(jù)集成 3、數(shù)據(jù)可視化根據(jù)航空公司系統(tǒng)內的客戶基本信息、乘機信息以及積分信息等詳細數(shù)據(jù)，依據(jù)末次飛行日期( LAST_FLIGHT_DATE)，以2014年3月31日為結束時間，選取寬度為兩年的時間段作為分析觀測窗口，抽取觀測窗口2012年4月1日至2014年3月31日內有乘機記
2024年02月04日
瀏覽(25)
數(shù)據(jù)挖掘實驗（二）數(shù)據(jù)預處理【等深分箱與等寬分箱】
在分箱前，一定要先排序數(shù)據(jù)，再將它們分到等深（等寬）的箱中。常見的有兩種分箱方法：等深分箱和等寬分箱。等深分箱：按記錄數(shù)進行分箱，每箱具有相同的記錄數(shù)，每箱的記錄數(shù)稱為箱的權重，也稱箱子的深度。等寬分箱：在整個屬性值的區(qū)間上平均分布，即每個
2024年02月07日
瀏覽(23)
GEO生信數(shù)據(jù)挖掘（六）實踐案例——四分類結核病基因數(shù)據(jù)預處理分析
前面五節(jié)，我們使用阿爾茲海默癥數(shù)據(jù)做了一個數(shù)據(jù)預處理案例，包括如下內容： GEO生信數(shù)據(jù)挖掘（一）數(shù)據(jù)集下載和初步觀察 GEO生信數(shù)據(jù)挖掘（二）下載基因芯片平臺文件及注釋 GEO生信數(shù)據(jù)挖掘（三）芯片探針I(yè)D與基因名映射處理 GEO生信數(shù)據(jù)挖掘（四）數(shù)據(jù)清洗（離群值
2024年02月07日
瀏覽(66)
matlab數(shù)據(jù)的獲取、預處理、統(tǒng)計、可視化、降維 | 《matlab數(shù)學建模方法與實踐（第三版）》學習筆記
一、數(shù)據(jù)的獲取 1.1 從Excel中獲取使用readtable() 使用xlsread()——xlswrite() 1.2? 從TXT中獲取使用load() 使用textread() 使用fopen() fread() fclose()? 使用fprintf()寫入信息到txt ?1.3?從圖片中獲取使用imread? 1.4 從視頻獲取? 使用視覺工具箱中的VideoFileReader? 二、數(shù)據(jù)的預處理 2.1 缺失值處
2024年01月19日
瀏覽(43)
大數(shù)據(jù)采集技術與預處理學習一：大數(shù)據(jù)概念、數(shù)據(jù)預處理、網(wǎng)絡數(shù)據(jù)采集
目錄大數(shù)據(jù)概念： 1.數(shù)據(jù)采集過程中會采集哪些類型的數(shù)據(jù)？ 2.非結構化數(shù)據(jù)采集的特點是什么？ 3.請闡述傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別？ ???????????????4.大數(shù)據(jù)采集的數(shù)據(jù)源有哪些？針對不同的數(shù)據(jù)源，我們可以采用哪些不同的方法和工具？數(shù)據(jù)
2024年01月25日
瀏覽(30)