国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【scikit-learn基礎(chǔ)】--『預(yù)處理』之數(shù)據(jù)縮放

2年前作者：wang_yb分類：Toy博客閱讀(26)違法舉報

這篇具有很好參考價值的文章主要介紹了【scikit-learn基礎(chǔ)】--『預(yù)處理』之數(shù)據(jù)縮放。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

數(shù)據(jù)的預(yù)處理是數(shù)據(jù)分析，或者機器學(xué)習(xí)訓(xùn)練前的重要步驟。
通過數(shù)據(jù)預(yù)處理，可以

提高數(shù)據(jù)質(zhì)量，處理數(shù)據(jù)的缺失值、異常值和重復(fù)值等問題，增加數(shù)據(jù)的準(zhǔn)確性和可靠性
整合不同數(shù)據(jù)，數(shù)據(jù)的來源和結(jié)構(gòu)可能多種多樣，分析和訓(xùn)練前要整合成一個數(shù)據(jù)集
提高數(shù)據(jù)性能，對數(shù)據(jù)的值進行變換，規(guī)約等（比如無量綱化），讓算法更加高效

本篇介紹的數(shù)據(jù)縮放處理，主要目的是消除數(shù)據(jù)的不同特征之間的量綱差異，使得每個特征的數(shù)值范圍相同。這樣可以避免某些特征對模型的影響過大，從而提高模型的性能。

1. 原理

數(shù)據(jù)縮放有多種方式，其中有一種按照最小值-最大值縮放的算法是最常用的。
其主要步驟如下：

計算數(shù)據(jù)列的最小值（min）和最大值（max）
對數(shù)據(jù)列中的每個值進行最小-最大縮放，即將其轉(zhuǎn)換為 **[0,1]區(qū)間 **之內(nèi)的一個值

縮放公式為：\(new\_data = \frac{data -min}{max-min}\)

實現(xiàn)縮放的代碼如下：

# 數(shù)據(jù)縮放的實現(xiàn)原理

data = np.array([10, 20, 30, 40, 50])
min = np.min(data)
max = np.max(data)

data_new = (data - min) / (max-min)

print("處理前: {}".format(data))
print("處理后: {}".format(data_new))

# 運行結(jié)果
處理前: [10 20 30 40 50]
處理后: [0.   0.25 0.5  0.75 1.  ]

數(shù)值被縮放到 **[0,1]區(qū)間 **之內(nèi)。
這個示例只是為了演示縮放的過程，實際場景中最好使用scikit-learn庫中的函數(shù)。

scikit-learn中的minmax_scale函數(shù)是封裝好的數(shù)據(jù)縮放函數(shù)。

from sklearn import preprocessing as pp

data = np.array([10, 20, 30, 40, 50])
pp.minmax_scale(data, feature_range=(0, 1))

# 運行結(jié)果
array([0.  , 0.25, 0.5 , 0.75, 1.  ])

使用scikit-learn中的minmax_scale函數(shù)得到的結(jié)果是一樣的，數(shù)據(jù)也被壓縮到 **[0,1]區(qū)間 **之內(nèi)。
所以 數(shù)據(jù)縮放 的這個操作有時也被稱為歸一化。

不過，數(shù)據(jù)縮放不一定非得把數(shù)據(jù)壓縮到 **[0,1]區(qū)間 **之內(nèi)，
通過調(diào)整feature_range參數(shù)，可以把數(shù)據(jù)壓縮到任意的區(qū)間。

# 壓縮到[0, 1]
print(pp.minmax_scale(data, feature_range=(0, 1)))

# 壓縮到[-1, 1]
print(pp.minmax_scale(data, feature_range=(-1, 1)))

# 壓縮到[0, 5]
print(pp.minmax_scale(data, feature_range=(0, 5)))

# 運行結(jié)果
[0.   0.25 0.5  0.75 1.  ]
[-1.  -0.5  0.   0.5  1. ]
[0.   1.25 2.5  3.75 5.  ]

2. 作用

數(shù)據(jù)縮放的作用主要有：

2.1. 統(tǒng)一數(shù)據(jù)尺度

通過縮放處理，將不同量綱、不同尺度、不同單位的數(shù)據(jù)轉(zhuǎn)換成一個統(tǒng)一的尺度，
避免由于數(shù)據(jù)量綱不一致而導(dǎo)致的數(shù)據(jù)分析結(jié)果失真或誤導(dǎo)。

2.2. 增強數(shù)據(jù)可比性

通過縮放處理，將不同量綱、不同尺度、不同單位的數(shù)據(jù)轉(zhuǎn)換成一個統(tǒng)一的尺度，使得不同數(shù)據(jù)之間的比較更加方便和有意義。
例如，在評價多個樣本的性能時，如果采用不同的量綱、不同尺度、不同單位進行比較，會導(dǎo)致比較結(jié)果不準(zhǔn)確甚至誤導(dǎo)。
通過統(tǒng)一的縮放處理之后，可以消除這種影響，使得比較結(jié)果更加準(zhǔn)確可信。

2.3. 增強數(shù)據(jù)穩(wěn)定性

通過縮放處理，將數(shù)據(jù)的數(shù)值范圍調(diào)整到一個相對較小的區(qū)間內(nèi)，
增加數(shù)據(jù)的穩(wěn)定性，避免由于數(shù)據(jù)分布范圍過大或過小而導(dǎo)致的分析誤差或計算誤差。

2.4. 提高算法效率和精度

通過縮放處理，使得一些計算算法的效率和精度得到提高。
例如，在神經(jīng)網(wǎng)絡(luò)算法中，如果輸入數(shù)據(jù)的尺度過大或過小，會導(dǎo)致算法訓(xùn)練時間過長或過短，同時也會影響算法的精度和穩(wěn)定性。
而縮放處理之后，就可以使算法的訓(xùn)練時間和精度得到優(yōu)化。

3. 總結(jié)

在scikit-learn庫中，處理數(shù)據(jù)縮放不是只有上面的最小值-最大值縮放，
還可用StandardScaler進行標(biāo)準(zhǔn)化縮放；用RobustScaler實現(xiàn)尺度縮放和平移等等。

進行數(shù)據(jù)縮放時，需要注意一點，就是縮放處理對異常值非常敏感，
如果數(shù)據(jù)中存在極大或者極小的異常值時，有可能會破壞原始數(shù)據(jù)本身。
所以，縮放處理前，最好把異常值過濾掉。文章來源地址http://www.zghlxwxcb.cn/news/detail-759996.html

到了這里，關(guān)于【scikit-learn基礎(chǔ)】--『預(yù)處理』之數(shù)據(jù)縮放的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之外部數(shù)據(jù)集
這是 scikit-learn 數(shù)據(jù)加載系列的最后一篇，本篇介紹如何加載外部的數(shù)據(jù)集。外部數(shù)據(jù)集不像之前介紹的幾種類型的數(shù)據(jù)集那樣，針對每種數(shù)據(jù)提供對應(yīng)的接口，每個接口加載的數(shù)據(jù)都是固定的。而外部數(shù)據(jù)集加載之后，數(shù)據(jù)的字段和類型是不確定的。簡單來說，我們在
2024年02月05日
瀏覽(19)
【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之真實數(shù)據(jù)集
上一篇介紹了 scikit-learn 中的幾個玩具數(shù)據(jù)集，本篇介紹 scikit-learn 提供的一些真實的數(shù)據(jù)集。玩具數(shù)據(jù)集：scikit-learn 基礎(chǔ)(01)--『數(shù)據(jù)加載』之玩具數(shù)據(jù)集與玩具數(shù)據(jù)集不同，真實的數(shù)據(jù)集的數(shù)據(jù)不僅數(shù)據(jù)特征多，而且數(shù)據(jù)量也比較大，所以沒有直接包含在 scikit-learn 庫中。
2024年02月05日
瀏覽(25)
【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之樣本生成器
除了內(nèi)置的數(shù)據(jù)集， scikit-learn 還提供了隨機樣本的生成器。通過這些生成器函數(shù)，可以生成具有特定特性和分布的隨機數(shù)據(jù)集，以幫助進行機器學(xué)習(xí)算法的研究、測試和比較。目前， scikit-learn 庫（ v1.3.0 版）中有 20個不同的生成樣本的函數(shù)。本篇重點介紹其中幾個具有代
2024年02月05日
瀏覽(20)
機器學(xué)習(xí)-決策樹-回歸-CPU(中央處理單元)數(shù)據(jù)-python scikit-learn
決策樹是一種監(jiān)督機器學(xué)習(xí)算法，用于回歸和分類任務(wù)。樹是可以處理復(fù)雜數(shù)據(jù)集的強大算法。決策樹特性：不需要數(shù)值輸入數(shù)據(jù)進行縮放。無論數(shù)值是多少，決策樹都不在乎。不同于其他復(fù)雜的學(xué)習(xí)算法，決策樹的結(jié)果是可以解釋的，決策樹不是黑盒類型的模型。雖然大
2024年02月20日
瀏覽(25)
【scikit-learn基礎(chǔ)】--概述
Scikit-learn 是一個基于 Python 的開源機器學(xué)習(xí)庫，它提供了大量的機器學(xué)習(xí)算法和工具，方便用戶進行數(shù)據(jù)挖掘、分析和預(yù)測。 Scikit-learn 是基于另外兩個知名的庫 Scipy 和 Numpy 的，關(guān)于 Scipy 和 Numpy 等庫，之前的系列文章中有介紹： Scipy 基礎(chǔ)系列 Numpy 基礎(chǔ)系列自從 AlphaGo 再度
2024年02月05日
瀏覽(18)
機器學(xué)習(xí)基礎(chǔ)07-模型選擇01-利用scikit-learn 基于Pima 數(shù)據(jù)集對LogisticRegression算法進行評估
選擇合適的模型是機器學(xué)習(xí)和深度學(xué)習(xí)中非常重要的一步，它直接影響到模型的性能和泛化能力。 “所有模型都是壞的，但有些模型是有用的”。建立模型之后就要去評估模型，確定模型是否有用。模型評估是模型開發(fā)過程中不可或缺的一部分，有助于發(fā)現(xiàn)表達數(shù)據(jù)的最佳
2024年02月14日
瀏覽(18)
【scikit-learn基礎(chǔ)】--『回歸模型評估』之偏差分析
模型評估在統(tǒng)計學(xué)和機器學(xué)習(xí)中具有至關(guān)重要，它幫助我們主要目標(biāo)是量化模型預(yù)測新數(shù)據(jù)的能力。本篇主要介紹模型評估時，如何利用 scikit-learn 幫助我們快速進行各種偏差的分析。 R2 分?jǐn)?shù) （也叫決定系數(shù) ），用于衡量模型預(yù)測的擬合優(yōu)度，它表示模型中因變量的
2024年01月24日
瀏覽(19)
【scikit-learn基礎(chǔ)】--『回歸模型評估』之誤差分析
模型評估在統(tǒng)計學(xué)和機器學(xué)習(xí)中具有至關(guān)重要，它幫助我們主要目標(biāo)是量化模型預(yù)測新數(shù)據(jù)的能力。在這個數(shù)據(jù)充斥的時代，沒有評估的模型就如同盲人摸象，可能帶來誤導(dǎo)和誤判。模型評估不僅是一種方法，更是一種保障，確保我們在數(shù)據(jù)海洋中航行時，能夠依賴準(zhǔn)確的
2024年01月22日
瀏覽(21)
【數(shù)據(jù)科學(xué)】Scikit-learn
Scikit-learn 是開源的Python庫，通過統(tǒng)一的界面實現(xiàn) 機器學(xué)習(xí) 、預(yù)處理、交叉驗證及可視化算法。 ??以上是使用 scikit-learn 庫進行 k-最近鄰（KNN）分類的流程，得到 KNN 分類器在 iris 數(shù)據(jù)集上的預(yù)測準(zhǔn)確率。 ?? Scikit-learn 處理的數(shù)據(jù)是存儲為 NumPy 數(shù)組或 SciPy 稀疏矩陣
2024年02月07日
瀏覽(33)
Python數(shù)據(jù)科學(xué)：Scikit-Learn機器學(xué)習(xí)
Scikit-Learn使用的數(shù)據(jù)表示：二維網(wǎng)格數(shù)據(jù)表鳶尾花數(shù)據(jù)集說明： sepal_length:萼片長度 sepal_width:萼片寬度 petal_length:花瓣長度 petal_width:花瓣寬度 species:鳶尾花類型，Iris-setosa(山鳶尾)，Iris-versicolor(變色鳶尾)，Iris-virginica(維吉尼亞鳶尾) df_iris.head() 樣本：鳶尾花數(shù)據(jù)集矩陣，矩陣
2024年02月21日
瀏覽(100)

<del id="bpkbu"><form id="bpkbu"></form></del>