国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【scikit-learn基礎(chǔ)】--『預(yù)處理』之 數(shù)據(jù)縮放

這篇具有很好參考價值的文章主要介紹了【scikit-learn基礎(chǔ)】--『預(yù)處理』之 數(shù)據(jù)縮放。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

數(shù)據(jù)的預(yù)處理是數(shù)據(jù)分析,或者機器學(xué)習(xí)訓(xùn)練前的重要步驟。
通過數(shù)據(jù)預(yù)處理,可以

  • 提高數(shù)據(jù)質(zhì)量,處理數(shù)據(jù)的缺失值、異常值和重復(fù)值等問題,增加數(shù)據(jù)的準(zhǔn)確性和可靠性
  • 整合不同數(shù)據(jù),數(shù)據(jù)的來源和結(jié)構(gòu)可能多種多樣,分析和訓(xùn)練前要整合成一個數(shù)據(jù)集
  • 提高數(shù)據(jù)性能,對數(shù)據(jù)的值進行變換,規(guī)約等(比如無量綱化),讓算法更加高效

本篇介紹的數(shù)據(jù)縮放處理,主要目的是消除數(shù)據(jù)的不同特征之間的量綱差異,使得每個特征的數(shù)值范圍相同。這樣可以避免某些特征對模型的影響過大,從而提高模型的性能。

1. 原理

數(shù)據(jù)縮放有多種方式,其中有一種按照最小值-最大值縮放的算法是最常用的。
其主要步驟如下:

  1. 計算數(shù)據(jù)列的最小值(min)和最大值(max
  2. 對數(shù)據(jù)列中的每個值進行最小-最大縮放,即將其轉(zhuǎn)換為 **[0,1]區(qū)間 **之內(nèi)的一個值

縮放公式為:\(new\_data = \frac{data -min}{max-min}\)

實現(xiàn)縮放的代碼如下:

# 數(shù)據(jù)縮放的實現(xiàn)原理

data = np.array([10, 20, 30, 40, 50])
min = np.min(data)
max = np.max(data)

data_new = (data - min) / (max-min)

print("處理前: {}".format(data))
print("處理后: {}".format(data_new))

# 運行結(jié)果
處理前: [10 20 30 40 50]
處理后: [0.   0.25 0.5  0.75 1.  ]

數(shù)值被縮放到 **[0,1]區(qū)間 **之內(nèi)。
這個示例只是為了演示縮放的過程,實際場景中最好使用scikit-learn庫中的函數(shù)。

scikit-learn中的minmax_scale函數(shù)是封裝好的數(shù)據(jù)縮放函數(shù)。

from sklearn import preprocessing as pp

data = np.array([10, 20, 30, 40, 50])
pp.minmax_scale(data, feature_range=(0, 1))

# 運行結(jié)果
array([0.  , 0.25, 0.5 , 0.75, 1.  ])

使用scikit-learn中的minmax_scale函數(shù)得到的結(jié)果是一樣的,數(shù)據(jù)也被壓縮到 **[0,1]區(qū)間 **之內(nèi)。
所以 數(shù)據(jù)縮放 的這個操作有時也被稱為歸一化

不過,數(shù)據(jù)縮放不一定非得把數(shù)據(jù)壓縮到 **[0,1]區(qū)間 **之內(nèi),
通過調(diào)整feature_range參數(shù),可以把數(shù)據(jù)壓縮到任意的區(qū)間。

# 壓縮到[0, 1]
print(pp.minmax_scale(data, feature_range=(0, 1)))

# 壓縮到[-1, 1]
print(pp.minmax_scale(data, feature_range=(-1, 1)))

# 壓縮到[0, 5]
print(pp.minmax_scale(data, feature_range=(0, 5)))

# 運行結(jié)果
[0.   0.25 0.5  0.75 1.  ]
[-1.  -0.5  0.   0.5  1. ]
[0.   1.25 2.5  3.75 5.  ]

2. 作用

數(shù)據(jù)縮放的作用主要有:

2.1. 統(tǒng)一數(shù)據(jù)尺度

通過縮放處理,將不同量綱、不同尺度、不同單位的數(shù)據(jù)轉(zhuǎn)換成一個統(tǒng)一的尺度,
避免由于數(shù)據(jù)量綱不一致而導(dǎo)致的數(shù)據(jù)分析結(jié)果失真或誤導(dǎo)。

2.2. 增強數(shù)據(jù)可比性

通過縮放處理,將不同量綱、不同尺度、不同單位的數(shù)據(jù)轉(zhuǎn)換成一個統(tǒng)一的尺度,使得不同數(shù)據(jù)之間的比較更加方便和有意義。
例如,在評價多個樣本的性能時,如果采用不同的量綱、不同尺度、不同單位進行比較,會導(dǎo)致比較結(jié)果不準(zhǔn)確甚至誤導(dǎo)。
通過統(tǒng)一的縮放處理之后,可以消除這種影響,使得比較結(jié)果更加準(zhǔn)確可信。

2.3. 增強數(shù)據(jù)穩(wěn)定性

通過縮放處理,將數(shù)據(jù)的數(shù)值范圍調(diào)整到一個相對較小的區(qū)間內(nèi),
增加數(shù)據(jù)的穩(wěn)定性,避免由于數(shù)據(jù)分布范圍過大或過小而導(dǎo)致的分析誤差或計算誤差。

2.4. 提高算法效率和精度

通過縮放處理,使得一些計算算法的效率和精度得到提高。
例如,在神經(jīng)網(wǎng)絡(luò)算法中,如果輸入數(shù)據(jù)的尺度過大或過小,會導(dǎo)致算法訓(xùn)練時間過長或過短,同時也會影響算法的精度和穩(wěn)定性。
而縮放處理之后,就可以使算法的訓(xùn)練時間和精度得到優(yōu)化。

3. 總結(jié)

scikit-learn庫中,處理數(shù)據(jù)縮放不是只有上面的最小值-最大值縮放
還可用StandardScaler進行標(biāo)準(zhǔn)化縮放;用RobustScaler實現(xiàn)尺度縮放和平移等等。

進行數(shù)據(jù)縮放時,需要注意一點,就是縮放處理對異常值非常敏感,
如果數(shù)據(jù)中存在極大或者極小的異常值時,有可能會破壞原始數(shù)據(jù)本身。
所以,縮放處理前,最好把異常值過濾掉。文章來源地址http://www.zghlxwxcb.cn/news/detail-759996.html

到了這里,關(guān)于【scikit-learn基礎(chǔ)】--『預(yù)處理』之 數(shù)據(jù)縮放的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之外部數(shù)據(jù)集

    【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之外部數(shù)據(jù)集

    這是 scikit-learn 數(shù)據(jù)加載系列的最后一篇,本篇介紹如何加載 外部的數(shù)據(jù)集 。 外部數(shù)據(jù)集 不像之前介紹的幾種類型的數(shù)據(jù)集那樣,針對每種數(shù)據(jù)提供對應(yīng)的接口,每個接口加載的數(shù)據(jù)都是固定的。 而外部數(shù)據(jù)集加載之后,數(shù)據(jù)的字段和類型是不確定的。 簡單來說,我們在

    2024年02月05日
    瀏覽(19)
  • 【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之真實數(shù)據(jù)集

    上一篇介紹了 scikit-learn 中的幾個玩具數(shù)據(jù)集,本篇介紹 scikit-learn 提供的一些真實的數(shù)據(jù)集。 玩具數(shù)據(jù)集:scikit-learn 基礎(chǔ)(01)--『數(shù)據(jù)加載』之玩具數(shù)據(jù)集 與玩具數(shù)據(jù)集不同,真實的數(shù)據(jù)集的數(shù)據(jù)不僅數(shù)據(jù)特征多,而且數(shù)據(jù)量也比較大, 所以沒有直接包含在 scikit-learn 庫中。

    2024年02月05日
    瀏覽(25)
  • 【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之樣本生成器

    【scikit-learn基礎(chǔ)】--『數(shù)據(jù)加載』之樣本生成器

    除了內(nèi)置的數(shù)據(jù)集, scikit-learn 還提供了隨機樣本的生成器。 通過這些生成器函數(shù),可以生成具有特定特性和分布的隨機數(shù)據(jù)集,以幫助進行機器學(xué)習(xí)算法的研究、測試和比較。 目前, scikit-learn 庫( v1.3.0 版)中有 20個 不同的生成樣本的函數(shù)。 本篇重點介紹其中幾個具有代

    2024年02月05日
    瀏覽(20)
  • 機器學(xué)習(xí)-決策樹-回歸-CPU(中央處理單元)數(shù)據(jù)-python scikit-learn

    機器學(xué)習(xí)-決策樹-回歸-CPU(中央處理單元)數(shù)據(jù)-python scikit-learn

    決策樹是一種監(jiān)督機器學(xué)習(xí)算法,用于回歸和分類任務(wù)。樹是可以處理復(fù)雜數(shù)據(jù)集的強大算法。 決策樹特性: 不需要數(shù)值輸入數(shù)據(jù)進行縮放。無論數(shù)值是多少,決策樹都不在乎。 不同于其他復(fù)雜的學(xué)習(xí)算法,決策樹的結(jié)果是可以解釋的,決策樹不是黑盒類型的模型。 雖然大

    2024年02月20日
    瀏覽(25)
  • 【scikit-learn基礎(chǔ)】--概述

    Scikit-learn 是一個基于 Python 的開源機器學(xué)習(xí)庫,它提供了大量的機器學(xué)習(xí)算法和工具,方便用戶進行數(shù)據(jù)挖掘、分析和預(yù)測。 Scikit-learn 是基于另外兩個知名的庫 Scipy 和 Numpy 的, 關(guān)于 Scipy 和 Numpy 等庫,之前的系列文章中有介紹: Scipy 基礎(chǔ)系列 Numpy 基礎(chǔ)系列 自從 AlphaGo 再度

    2024年02月05日
    瀏覽(18)
  • 機器學(xué)習(xí)基礎(chǔ)07-模型選擇01-利用scikit-learn 基于Pima 數(shù)據(jù)集對LogisticRegression算法進行評估

    選擇合適的模型是機器學(xué)習(xí)和深度學(xué)習(xí)中非常重要的一步,它直接影響到模型的性能和泛化能力。 “所有模型都是壞的,但有些模型是有用的”。建立模型之后就要去評 估模型,確定模型是否有用。模型評估是模型開發(fā)過程中不可或缺的一部 分,有助于發(fā)現(xiàn)表達數(shù)據(jù)的最佳

    2024年02月14日
    瀏覽(18)
  • 【scikit-learn基礎(chǔ)】--『回歸模型評估』之偏差分析

    模型評估 在統(tǒng)計學(xué)和機器學(xué)習(xí)中具有至關(guān)重要,它幫助我們主要目標(biāo)是量化模型預(yù)測新數(shù)據(jù)的能力。 本篇主要介紹 模型評估 時,如何利用 scikit-learn 幫助我們快速進行各種 偏差 的分析。 R2 分?jǐn)?shù) (也叫 決定系數(shù) ),用于衡量模型預(yù)測的擬合優(yōu)度,它表示模型中 因變量 的

    2024年01月24日
    瀏覽(19)
  • 【scikit-learn基礎(chǔ)】--『回歸模型評估』之誤差分析

    模型評估 在統(tǒng)計學(xué)和機器學(xué)習(xí)中具有至關(guān)重要,它幫助我們主要目標(biāo)是量化模型預(yù)測新數(shù)據(jù)的能力。 在這個數(shù)據(jù)充斥的時代,沒有評估的模型就如同盲人摸象,可能帶來誤導(dǎo)和誤判。 模型評估 不僅是一種方法,更是一種保障,確保我們在數(shù)據(jù)海洋中航行時,能夠依賴準(zhǔn)確的

    2024年01月22日
    瀏覽(21)
  • 【數(shù)據(jù)科學(xué)】Scikit-learn

    【數(shù)據(jù)科學(xué)】Scikit-learn

    Scikit-learn 是 開源的Python庫 ,通過統(tǒng)一的界面實現(xiàn) 機器學(xué)習(xí) 、 預(yù)處理 、 交叉驗證及可視化算法 。 ??以上是使用 scikit-learn 庫 進行 k-最近鄰(KNN)分類 的流程,得到 KNN 分類器在 iris 數(shù)據(jù)集上的預(yù)測準(zhǔn)確率。 ?? Scikit-learn 處理的數(shù)據(jù)是 存儲為 NumPy 數(shù)組或 SciPy 稀疏矩陣

    2024年02月07日
    瀏覽(33)
  • Python數(shù)據(jù)科學(xué):Scikit-Learn機器學(xué)習(xí)

    Python數(shù)據(jù)科學(xué):Scikit-Learn機器學(xué)習(xí)

    Scikit-Learn使用的數(shù)據(jù)表示:二維網(wǎng)格數(shù)據(jù)表 鳶尾花數(shù)據(jù)集說明: sepal_length:萼片長度 sepal_width:萼片寬度 petal_length:花瓣長度 petal_width:花瓣寬度 species:鳶尾花類型,Iris-setosa(山鳶尾),Iris-versicolor(變色鳶尾),Iris-virginica(維吉尼亞鳶尾) df_iris.head() 樣本:鳶尾花數(shù)據(jù)集矩陣,矩陣

    2024年02月21日
    瀏覽(100)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包