国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strong id="ub53q"></strong>

<span id="ub53q"><ul id="ub53q"></ul></span>

<sup id="ub53q"></sup>

【機器學習】數(shù)據(jù)預處理 - 歸一化和標準化

2年前作者：士別三日wyx分類：Toy博客閱讀(32)違法舉報

這篇具有很好參考價值的文章主要介紹了【機器學習】數(shù)據(jù)預處理 - 歸一化和標準化。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

「作者主頁」：士別三日wyx
「作者簡介」：CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡安全領域優(yōu)質(zhì)創(chuàng)作者
「推薦專欄」：對網(wǎng)絡安全感興趣的小伙伴可以關注專欄《網(wǎng)絡安全入門到精通》

處理數(shù)據(jù)之前，通常會使用一些轉(zhuǎn)換函數(shù)將「特征數(shù)據(jù)」轉(zhuǎn)換成更適合「算法模型」的特征數(shù)據(jù)。這個過程，也叫數(shù)據(jù)預處理。

比如，我們在擇偶時，有身高、體重、存款三個特征，身高是180、體重是180、存款是180000；存款的數(shù)值跟其他數(shù)據(jù)不在一個數(shù)量級，這意味著存款的對擇偶結果的影響比較大，但我們認為這三個特征同樣重要，這時候就需要把這些規(guī)格不同的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格。

「歸一化」是常用的預處理方式之一，就是把數(shù)據(jù)轉(zhuǎn)換到 0~1 之間。

一、數(shù)據(jù)預處理API

sklearn.preprocessing 是數(shù)據(jù)預處理的 API

sklearn.preprocessing.MinMaxScaler( feature_range=(0,1) )

MinMaxScaler.fit_transform（ data ）：接收array類型數(shù)據(jù)，返回歸一化后的array類型數(shù)據(jù)。

參數(shù)：

feature_range=(0,1)：（可選，默認0~1）指定歸一化的范圍，。

二、準備數(shù)據(jù)集

準備一個測試用的「數(shù)據(jù)集」，這里我們用 datasets 自帶的鳶尾花數(shù)據(jù)集

from sklearn import datasets

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()
# 打印數(shù)據(jù)
print(iris.data)

輸出：

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 ......
 [5.9 3.  5.1 1.8]]

從輸出結果可以看到，數(shù)據(jù)規(guī)格都是有「差異」的，接下來，我們對數(shù)據(jù)進行歸一。

三、歸一化處理

fit_transform() 可以對數(shù)據(jù)進行「歸一」處理

from sklearn import preprocessing
from sklearn import datasets


# 初始化
mm = preprocessing.MinMaxScaler()

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()

# 歸一化處理
new_data = mm.fit_transform(iris.data)
print(new_data)

輸出：

[[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 ......
 [0.44444444 0.41666667 0.69491525 0.70833333]]

從結果可以看到，歸一后的結果，數(shù)據(jù)規(guī)格都在 0~1 之間。

實際上，fit_transform() 不只可以 “歸1” ，我們自己設置歸一的范圍。

四、設置歸一化范圍

實例化 MinMaxScaler 時，指定 feature_range 參數(shù)的值，可以設置歸一的「范圍」。

from sklearn import preprocessing
from sklearn import datasets


# 初始化
mm = preprocessing.MinMaxScaler(feature_range=(2,3))

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()

# 歸一化處理
new_data = mm.fit_transform(iris.data)
print(new_data)

輸出：

[[2.22222222 2.625      2.06779661 2.04166667]
 [2.16666667 2.41666667 2.06779661 2.04166667]
 ......
 [2.44444444 2.41666667 2.69491525 2.70833333]]

從輸出結果可以看到，數(shù)據(jù)的范圍變成 2~3 區(qū)間。

接下來，我們了解一下，MinMaxScaler 是如何進行歸一的。

五、歸一化原理

MinMaxScaler 根據(jù)以下「公式」進行歸一：

數(shù)據(jù)預處理歸一化,《機器學習入門到精通》,機器學習,人工智能,ai

以列為基準，max為一列的最大值，min為一列的最小值
mx、mi是歸一指定的區(qū)間，默認mx=1，mi=0

我們準備一些測試數(shù)據(jù)：

數(shù)據(jù)預處理歸一化,《機器學習入門到精通》,機器學習,人工智能,ai

我們拿特征一這一列舉例，第一個數(shù)是90，先帶入第一個公式：X‘=（90-60）/（90-60）=1
再帶入第二個公式：X"=1*1+0=1
那么第一個數(shù)就轉(zhuǎn)換成1.

知道了歸一化的計算方式后，可以發(fā)現(xiàn)歸一化存在一定的「局限性」。
歸一化是根據(jù)最大值和最小值來計算的，當最大值/最小值出現(xiàn)異常時，比如最大值跟其他數(shù)據(jù)差的非常多，那么這種計算方式就會存在較大的誤差。只適合傳統(tǒng)精確小數(shù)據(jù)場景，對于其他場景，可以使用標準化的方式。

六、標準化

sklearn.preprocessing.StandardScaler()

StandardScaler.fit_transform（ data ）：接收array類型數(shù)據(jù)，返回保準化后的array類型數(shù)據(jù)。

我們將歸一化的案例，用「標準化」函數(shù)再處理一遍

from sklearn import preprocessing
from sklearn import datasets


# 初始化
ss = preprocessing.StandardScaler()

# 獲取數(shù)據(jù)源
iris = datasets.load_iris()

# 標準化處理
new_data = ss.fit_transform(iris.data)
print(new_data)

輸出：

[[-9.00681170e-01  1.01900435e+00 -1.34022653e+00 -1.31544430e+00]
 [-1.14301691e+00 -1.31979479e-01 -1.34022653e+00 -1.31544430e+00]
 ......
 [ 6.86617933e-02 -1.31979479e-01  7.62758269e-01  7.90670654e-01]]

標準化的計算方式和概率論的標準化公式一樣：

數(shù)據(jù)預處理歸一化,《機器學習入門到精通》,機器學習,人工智能,ai 文章來源地址http://www.zghlxwxcb.cn/news/detail-554554.html

以列為基準，mean是平均值，0是標準差

到了這里，關于【機器學習】數(shù)據(jù)預處理 - 歸一化和標準化的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

matlab中矩陣的歸一化和標準化處理
1、歸一化：將數(shù)據(jù)映射到0-1的區(qū)間中。 matlab中矩陣的歸一化處理： X=(value-value_min) / (value_max-value_min) 函數(shù)：mapminmax（A,M）,A—需要處理的矩陣，M—需要映射到的范圍，M通默認為[-1，1]，也可設置為常用的0和1之間。結果： 2、標準化：將數(shù)據(jù)映射到方差為1，均值為0的數(shù)據(jù)。
2024年04月13日
瀏覽(15)
【Pytorch基礎知識】數(shù)據(jù)的歸一化和反歸一化
一張正常的圖，或者說是人眼習慣的圖是這樣的：但是，為了神經(jīng)網(wǎng)絡更快收斂，我們在深度學習網(wǎng)絡過程中通常需要將讀取的圖片轉(zhuǎn)為tensor并歸一化（此處的歸一化指 transforms .Normalize()操作）輸入到網(wǎng)絡中進行系列操作。如果將轉(zhuǎn)成的tensor再直接轉(zhuǎn)為圖片，就會變成下
2023年04月09日
瀏覽(20)
深度學習基礎入門篇[七]：常用歸一化算法、層次歸一化算法、歸一化和標準化區(qū)別于聯(lián)系、應用案例場景分析。
【深度學習入門到進階】必看系列，含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、序列模型、預訓練模型、對抗神經(jīng)網(wǎng)絡等專欄詳細介紹：【深度學習入門到進階】必看系列，含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調(diào)優(yōu)、歸一化算法、卷積模型、
2024年02月13日
瀏覽(23)
機器學習（8）---數(shù)據(jù)預處理
?1. 在機器學習算法實踐中，我們往往有著將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格，或不同分布的數(shù)據(jù)轉(zhuǎn)換到某個特定分布的需求，這種需求統(tǒng)稱為將數(shù)據(jù)“無量綱化”。譬如梯度和矩陣為核心的算法中，譬如邏輯回歸，支持向量機，神經(jīng)網(wǎng)絡，無量綱化可以加快求解速度. 而在
2024年02月09日
瀏覽(30)
機器學習實戰(zhàn)4-數(shù)據(jù)預處理
導庫歸一化另一種寫法將歸一化的結果逆轉(zhuǎn) 用numpy實現(xiàn)歸一化逆轉(zhuǎn) 導庫實例化查看屬性查看結果逆標準化關于如何選擇這兩種無量綱化的方式要具體問題具體分析，但是我們一般在機器學習算法中選擇標準化，這就好比我們能讓他符合標準正態(tài)分布為什么不呢？而且
2024年02月13日
瀏覽(26)
【機器學習6】數(shù)據(jù)預處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標稱數(shù)據(jù))
在【機器學習4】構建良好的訓練數(shù)據(jù)集——數(shù)據(jù)預處理(一)處理缺失值及異常值這一篇文章中，主要說明熱數(shù)據(jù)預處理的重要性以及如何處理缺失值及異常值這些數(shù)值特征。然而，在現(xiàn)實生活中遇到的數(shù)據(jù)集往往不僅僅只會包含數(shù)值型特征，還會包含一個或者多個類別特征
2024年02月12日
瀏覽(28)
機器學習流程—數(shù)據(jù)預處理縮放和轉(zhuǎn)換
相信機器學習的從業(yè)者，一定聽到到過“特征縮放”這個術語，它被認為是數(shù)據(jù)處理周期中不可跳過的部分，因進行相應的操作們可以實現(xiàn) ML 算法的穩(wěn)定和快速訓練。在本文中，我們將了解在實踐中用于執(zhí)行特征縮放的不同技術。不同評價指標往往具有不同的量綱和量綱單
2024年03月11日
瀏覽(23)
【Python機器學習】SVM——預處理數(shù)據(jù)
為了解決特征特征數(shù)量級差異過大，導致的模型過擬合問題，有一種方法就是對每個特征進行縮放，使其大致處于同一范圍。核SVM常用的縮放方法是將所有的特征縮放到0和1之間。 “人工”處理方法：可以看到，最終的結果上訓練集和測試集的精度都非常好，但還沒有接近
2024年01月17日
瀏覽(32)
《人工智能-機器學習》數(shù)據(jù)預處理和機器學習算法（以企鵝penguins數(shù)據(jù)集為例）
本項目使用到的數(shù)據(jù)集鏈接： https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv 加載給定或者自行選定的數(shù)據(jù)集，對數(shù)據(jù)進行查看和理解，例如樣本數(shù)量，各特征數(shù)據(jù)類型、分布、特征和標簽所表達的含義等，然后對其進行數(shù)據(jù)預處理工作，包括但不限于對敏感數(shù)據(jù)
2024年02月10日
瀏覽(25)
數(shù)據(jù)預處理與模型評估【機器學習、人工智能、實際事例】
在機器學習領域，數(shù)據(jù)預處理和模型評估是兩個至關重要的步驟。它們確保我們構建的機器學習模型能夠從數(shù)據(jù)中有效地學習并做出準確的預測。本文將詳細介紹數(shù)據(jù)預處理和模型評估的概念，并通過現(xiàn)實中的例子來闡述它們之間的密切關系。什么是數(shù)據(jù)預處理？數(shù)據(jù)預處
2024年02月07日
瀏覽(103)

<center id="1bl8l"></center>