国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機器學習】數(shù)據(jù)預處理 - 歸一化和標準化

這篇具有很好參考價值的文章主要介紹了【機器學習】數(shù)據(jù)預處理 - 歸一化和標準化。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

「作者主頁」:士別三日wyx
「作者簡介」:CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡安全領域優(yōu)質(zhì)創(chuàng)作者
「推薦專欄」:對網(wǎng)絡安全感興趣的小伙伴可以關注專欄《網(wǎng)絡安全入門到精通》

處理數(shù)據(jù)之前,通常會使用一些轉(zhuǎn)換函數(shù)將「特征數(shù)據(jù)」轉(zhuǎn)換成更適合「算法模型」的特征數(shù)據(jù)。這個過程,也叫數(shù)據(jù)預處理。

比如,我們在擇偶時,有身高、體重、存款三個特征,身高是180、體重是180、存款是180000;存款的數(shù)值跟其他數(shù)據(jù)不在一個數(shù)量級,這意味著存款的對擇偶結果的影響比較大,但我們認為這三個特征同樣重要,這時候就需要把這些規(guī)格不同的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格。

「歸一化」是常用的預處理方式之一,就是把數(shù)據(jù)轉(zhuǎn)換到 0~1 之間。


一、數(shù)據(jù)預處理API

sklearn.preprocessing 是數(shù)據(jù)預處理的 API

sklearn.preprocessing.MinMaxScaler( feature_range=(0,1) )

  • MinMaxScaler.fit_transform( data ):接收array類型數(shù)據(jù),返回歸一化后的array類型數(shù)據(jù)。

參數(shù):

  • feature_range=(0,1):(可選,默認0~1)指定歸一化的范圍,。

二、準備數(shù)據(jù)集

準備一個測試用的「數(shù)據(jù)集」,這里我們用 datasets 自帶的 鳶尾花數(shù)據(jù)集

from sklearn import datasets

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()
# 打印數(shù)據(jù)
print(iris.data)

輸出:

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 ......
 [5.9 3.  5.1 1.8]]

從輸出結果可以看到,數(shù)據(jù)規(guī)格都是有「差異」的,接下來,我們對數(shù)據(jù)進行歸一。


三、歸一化處理

fit_transform() 可以對數(shù)據(jù)進行「歸一」處理

from sklearn import preprocessing
from sklearn import datasets


# 初始化
mm = preprocessing.MinMaxScaler()

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()

# 歸一化處理
new_data = mm.fit_transform(iris.data)
print(new_data)

輸出:

[[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 ......
 [0.44444444 0.41666667 0.69491525 0.70833333]]

從結果可以看到,歸一后的結果,數(shù)據(jù)規(guī)格都在 0~1 之間。

實際上,fit_transform() 不只可以 “歸1” ,我們自己設置歸一的范圍。


四、設置歸一化范圍

實例化 MinMaxScaler 時,指定 feature_range 參數(shù)的值,可以設置歸一的「范圍」。

from sklearn import preprocessing
from sklearn import datasets


# 初始化
mm = preprocessing.MinMaxScaler(feature_range=(2,3))

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()

# 歸一化處理
new_data = mm.fit_transform(iris.data)
print(new_data)

輸出:

[[2.22222222 2.625      2.06779661 2.04166667]
 [2.16666667 2.41666667 2.06779661 2.04166667]
 ......
 [2.44444444 2.41666667 2.69491525 2.70833333]]

從輸出結果可以看到,數(shù)據(jù)的范圍變成 2~3 區(qū)間。

接下來,我們了解一下,MinMaxScaler 是如何進行歸一的。


五、歸一化原理

MinMaxScaler 根據(jù)以下「公式」進行歸一:

數(shù)據(jù)預處理歸一化,《機器學習入門到精通》,機器學習,人工智能,ai

  • 以列為基準,max為一列的最大值,min為一列的最小值
  • mx、mi是歸一指定的區(qū)間,默認mx=1,mi=0

我們準備一些測試數(shù)據(jù):

數(shù)據(jù)預處理歸一化,《機器學習入門到精通》,機器學習,人工智能,ai

我們拿特征一這一列舉例,第一個數(shù)是90,先帶入第一個公式:X‘=(90-60)/(90-60)=1
再帶入第二個公式:X"=1*1+0=1
那么第一個數(shù)就轉(zhuǎn)換成1.

知道了歸一化的計算方式后,可以發(fā)現(xiàn)歸一化存在一定的「局限性」。
歸一化是根據(jù)最大值和最小值來計算的,當最大值/最小值出現(xiàn)異常時,比如最大值跟其他數(shù)據(jù)差的非常多,那么這種計算方式就會存在較大的誤差。只適合傳統(tǒng)精確小數(shù)據(jù)場景,對于其他場景,可以使用標準化的方式。


六、標準化

sklearn.preprocessing.StandardScaler()

  • StandardScaler.fit_transform( data ):接收array類型數(shù)據(jù),返回保準化后的array類型數(shù)據(jù)。

我們將歸一化的案例,用「標準化」函數(shù)再處理一遍

from sklearn import preprocessing
from sklearn import datasets


# 初始化
ss = preprocessing.StandardScaler()

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()

# 標準化處理
new_data = ss.fit_transform(iris.data)
print(new_data)

輸出:

[[-9.00681170e-01  1.01900435e+00 -1.34022653e+00 -1.31544430e+00]
 [-1.14301691e+00 -1.31979479e-01 -1.34022653e+00 -1.31544430e+00]
 ......
 [ 6.86617933e-02 -1.31979479e-01  7.62758269e-01  7.90670654e-01]]

標準化的計算方式和概率論的標準化公式一樣:

數(shù)據(jù)預處理歸一化,《機器學習入門到精通》,機器學習,人工智能,ai文章來源地址http://www.zghlxwxcb.cn/news/detail-554554.html

  • 以列為基準,mean是平均值,0是標準差

到了這里,關于【機器學習】數(shù)據(jù)預處理 - 歸一化和標準化的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • matlab中矩陣的歸一化和標準化處理

    matlab中矩陣的歸一化和標準化處理

    1、歸一化:將數(shù)據(jù)映射到0-1的區(qū)間中。 matlab中矩陣的歸一化處理: X=(value-value_min) / (value_max-value_min) 函數(shù):mapminmax(A,M),A—需要處理的矩陣,M—需要映射到的范圍,M通默認為[-1,1],也可設置為常用的0和1之間。 結果: 2、標準化:將數(shù)據(jù)映射到方差為1,均值為0的數(shù)據(jù)。

    2024年04月13日
    瀏覽(15)
  • 【Pytorch基礎知識】數(shù)據(jù)的歸一化和反歸一化

    【Pytorch基礎知識】數(shù)據(jù)的歸一化和反歸一化

    一張正常的圖,或者說是人眼習慣的圖是這樣的: 但是,為了 神經(jīng)網(wǎng)絡更快收斂 ,我們在深度學習網(wǎng)絡過程中 通常需要將讀取的圖片轉(zhuǎn)為tensor并歸一化 (此處的歸一化指 transforms .Normalize()操作)輸入到網(wǎng)絡中進行系列操作。 如果將轉(zhuǎn)成的tensor再直接轉(zhuǎn)為圖片,就會變成下

    2023年04月09日
    瀏覽(20)
  • 深度學習基礎入門篇[七]:常用歸一化算法、層次歸一化算法、歸一化和標準化區(qū)別于聯(lián)系、應用案例場景分析。

    深度學習基礎入門篇[七]:常用歸一化算法、層次歸一化算法、歸一化和標準化區(qū)別于聯(lián)系、應用案例場景分析。

    【深度學習入門到進階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預訓練模型、對抗神經(jīng)網(wǎng)絡等 專欄詳細介紹:【深度學習入門到進階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、

    2024年02月13日
    瀏覽(23)
  • 機器學習(8)---數(shù)據(jù)預處理

    機器學習(8)---數(shù)據(jù)預處理

    ?1. 在機器學習算法實踐中,我們往往有著將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格,或不同分布的數(shù)據(jù)轉(zhuǎn)換到某個特定分布的需求,這種需求統(tǒng)稱為將數(shù)據(jù)“無量綱化”。 譬如梯度和矩陣為核心的算法中,譬如邏輯回歸,支持向量機,神經(jīng)網(wǎng)絡,無量綱化可以加快求解速度. 而在

    2024年02月09日
    瀏覽(30)
  • 機器學習實戰(zhàn)4-數(shù)據(jù)預處理

    機器學習實戰(zhàn)4-數(shù)據(jù)預處理

    導庫 歸一化 另一種寫法 將歸一化的結果逆轉(zhuǎn) 用numpy實現(xiàn)歸一化 逆轉(zhuǎn) 導庫 實例化 查看屬性 查看結果 逆標準化 關于如何選擇這兩種無量綱化的方式要具體問題具體分析,但是我們一般在機器學習算法中選擇標準化,這就好比我們能讓他符合標準正態(tài)分布為什么不呢?而且

    2024年02月13日
    瀏覽(26)
  • 【機器學習6】數(shù)據(jù)預處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標稱數(shù)據(jù))

    【機器學習6】數(shù)據(jù)預處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標稱數(shù)據(jù))

    在【機器學習4】構建良好的訓練數(shù)據(jù)集——數(shù)據(jù)預處理(一)處理缺失值及異常值這一篇文章中,主要說明熱數(shù)據(jù)預處理的重要性以及如何處理缺失值及異常值這些數(shù)值特征。然而,在現(xiàn)實生活中遇到的數(shù)據(jù)集往往不僅僅只會包含 數(shù)值型特征 ,還會包含一個或者多個 類別特征

    2024年02月12日
    瀏覽(28)
  • 機器學習流程—數(shù)據(jù)預處理 縮放和轉(zhuǎn)換

    相信機器學習的從業(yè)者,一定聽到到過“特征縮放”這個術語,它被認為是數(shù)據(jù)處理周期中不可跳過的部分,因進行相應的操作們可以實現(xiàn) ML 算法的穩(wěn)定和快速訓練。在本文中,我們將了解在實踐中用于執(zhí)行特征縮放的不同技術。 不同評價指標往往具有不同的 量綱 和量綱單

    2024年03月11日
    瀏覽(23)
  • 【Python機器學習】SVM——預處理數(shù)據(jù)

    【Python機器學習】SVM——預處理數(shù)據(jù)

    為了解決特征特征數(shù)量級差異過大,導致的模型過擬合問題,有一種方法就是對每個特征進行縮放,使其大致處于同一范圍。核SVM常用的縮放方法是將所有的特征縮放到0和1之間。 “人工”處理方法: 可以看到,最終的結果上訓練集和測試集的精度都非常好,但還沒有接近

    2024年01月17日
    瀏覽(32)
  • 《人工智能-機器學習》數(shù)據(jù)預處理和機器學習算法(以企鵝penguins數(shù)據(jù)集為例)

    《人工智能-機器學習》數(shù)據(jù)預處理和機器學習算法(以企鵝penguins數(shù)據(jù)集為例)

    本項目使用到的數(shù)據(jù)集鏈接: https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv 加載給定或者自行選定的數(shù)據(jù)集,對數(shù)據(jù)進行查看和理解,例如樣本數(shù)量,各特征數(shù)據(jù)類型、分布、特征和標簽所表達的含義等,然后對其進行數(shù)據(jù)預處理工作,包括但不限于對敏感數(shù)據(jù)

    2024年02月10日
    瀏覽(25)
  • 數(shù)據(jù)預處理與模型評估【機器學習、人工智能、實際事例】

    在機器學習領域,數(shù)據(jù)預處理和模型評估是兩個至關重要的步驟。它們確保我們構建的機器學習模型能夠從數(shù)據(jù)中有效地學習并做出準確的預測。本文將詳細介紹數(shù)據(jù)預處理和模型評估的概念,并通過現(xiàn)實中的例子來闡述它們之間的密切關系。 什么是數(shù)據(jù)預處理? 數(shù)據(jù)預處

    2024年02月07日
    瀏覽(103)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包