国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold

這篇具有很好參考價值的文章主要介紹了【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

「作者主頁」:士別三日wyx
「作者簡介」:CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡(luò)安全領(lǐng)域優(yōu)質(zhì)創(chuàng)作者
「推薦專欄」:對網(wǎng)絡(luò)安全感興趣的小伙伴可以關(guān)注專欄《網(wǎng)絡(luò)安全入門到精通》

提取的特征當(dāng)中,有一些相關(guān)(相似)的「冗余特征」,這種特征是沒有必要統(tǒng)計的,我們需要「減少」相關(guān)的特征,留下不相關(guān)的特征。也就是「特征降維」。

特征降維的方式有很多,這里使用其中的一種:方差選擇法(低方差過濾)

一、方差科普

先簡單科普一下,方差=平方的均值減去均值的平方,公式是:

【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold,機(jī)器學(xué)習(xí),人工智能

比如,1、2、3、4、5這五個數(shù),平均數(shù)是3;

「方差」是各個數(shù)據(jù)分別與其和的平均數(shù)之差的平方的和的平均數(shù):[(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2]/5=2,也就是2。

方差小,就意味某個特征大多樣本的值比較相近;方差大,就意味著某個特征大多樣本的值都有差別。

方差選擇法也叫「低方差過濾」,顧名思義,就是設(shè)定一個方差的值,所有低于這個方差的特征都會被刪掉。


二、方差選擇API

sklearn.feature_selection 是特征選擇的API

sklearn.feature_selection.VarianceThreshold( threshold=0 )

  • VarianceThreshold.fit_transform( data ):接收字典類型的原始數(shù)據(jù),返回方差過濾后的數(shù)字特征
  • VarianceThreshold.inverse_transform( data ):將過濾后的數(shù)字特征,轉(zhuǎn)回原始數(shù)據(jù)
  • VarianceThreshold.get_feature_names_out():返回特征名字
  • VarianceThreshold.variances_:返回每個特征對應(yīng)的方差值

三、獲取數(shù)據(jù)集

這里我們使用鳶尾花數(shù)據(jù)集來做示例

from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()

# 打印數(shù)據(jù)特征
print(iris.data)
# 打印特征數(shù)總結(jié)
print(iris.data.shape)

輸出:

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 ......
 [5.9 3.  5.1 1.8]]
(150, 4)

從輸出結(jié)果可以看到,數(shù)據(jù)集現(xiàn)在有150條數(shù)據(jù),每條數(shù)據(jù)有4個特征。


四、進(jìn)行方差過濾

接下來我們進(jìn)行方差過濾,指定方差為0.2

from sklearn import feature_selection
from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()
# 初始化轉(zhuǎn)換器(指定方差為0.2)
vt = feature_selection.VarianceThreshold(threshold=0.2)

# 使用轉(zhuǎn)換器對數(shù)據(jù)進(jìn)行低方差過濾
result = vt.fit_transform(iris.data)

# 打印數(shù)據(jù)特征
print(result)
print(result.shape)

輸出:

[[5.1 1.4 0.2]
 [4.9 1.4 0.2]
 ......
 [5.9 5.1 1.8]]
(150, 3)

從輸出結(jié)果可以看到,轉(zhuǎn)換后的數(shù)據(jù)集有150條數(shù)據(jù),每條數(shù)據(jù)有3個特征,方差小于0.2的那個特征被過濾掉了。

接下來,我們把方差改成1

from sklearn import feature_selection
from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()
# 初始化轉(zhuǎn)換器(指定方差為1)
vt = feature_selection.VarianceThreshold(threshold=1)

# 使用轉(zhuǎn)換器對數(shù)據(jù)進(jìn)行低方差過濾
result = vt.fit_transform(iris.data)

# 打印數(shù)據(jù)特征
print(result)
print(result.shape)

輸出:

[[1.4]
 [1.4]
 ......
 [5.1]]
(150, 1)

從輸出結(jié)果可以看到,數(shù)據(jù)集的的特征變成了1個,方差小于1的那三個特征被過濾掉了。


五、獲取特征的方差值

接下來,我們獲取每一個特征的方差值,來驗證過濾的準(zhǔn)確性。

from sklearn import feature_selection
from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()
# 初始化轉(zhuǎn)換器(指定方差為1)
vt = feature_selection.VarianceThreshold(threshold=0.2)

# 使用轉(zhuǎn)換器對數(shù)據(jù)進(jìn)行低方差過濾
result = vt.fit_transform(iris.data)

# 獲取特征的方差值
print(vt.variances_)

輸出:

[0.68112222 0.18871289 3.09550267 0.57713289]

從輸出結(jié)果可以看到,4個特征的方差值,有3個大于0.2,有1個大于1,上述試驗的過濾結(jié)果符合預(yù)期。文章來源地址http://www.zghlxwxcb.cn/news/detail-540424.html

到了這里,關(guān)于【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 機(jī)器學(xué)習(xí)(10)---特征選擇

    機(jī)器學(xué)習(xí)(10)---特征選擇

    ?1. 從所有的特征中,選擇出有意義,對模型有幫助的特征,以避免必須將所有特征都導(dǎo)入模型去訓(xùn)練的情況。 ?2. 我們來看一組數(shù)據(jù): ? 注 :這個數(shù)據(jù)量相對夸張,如果使用支持向量機(jī)和神經(jīng)網(wǎng)絡(luò),很可能會直接跑不出來。使用KNN跑一次大概需要半個小時。用這個數(shù)據(jù)舉

    2024年02月09日
    瀏覽(14)
  • 機(jī)器學(xué)習(xí)基礎(chǔ) 數(shù)據(jù)集、特征工程、特征預(yù)處理、特征選擇 7.27

    無量綱化 1.標(biāo)準(zhǔn)化 2.歸一化 信息數(shù)據(jù)化 1.特征二值化 2. Ont-hot編碼 3.缺失數(shù)據(jù)補全 1.方差選擇法 2.相關(guān)系數(shù)法

    2024年02月14日
    瀏覽(32)
  • 機(jī)器學(xué)習(xí)-特征選擇:如何使用遞歸特征消除算法自動篩選出最優(yōu)特征?

    在實際應(yīng)用中,特征選擇作為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的重要環(huán)節(jié),對于提高模型性能和減少計算開銷具有關(guān)鍵影響。特征選擇是從原始特征集中選擇最相關(guān)和最具區(qū)分力的特征子集,以提高模型的泛化能力和可解釋性。 特征選擇在實踐中具有以下重要性: 提高模型性能:

    2024年02月12日
    瀏覽(33)
  • 人工智能的分類:機(jī)器學(xué)習(xí)/專家系統(tǒng)/推薦系統(tǒng)/知識圖譜/強(qiáng)化學(xué)習(xí)/遷移學(xué)習(xí)/特征工程/模式識別

    機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)算法工程師:技術(shù)路線、方向選擇、職業(yè)規(guī)劃、最新技術(shù)(從小白到大魔王全攻略)_會害羞的楊卓越的博客-CSDN博客 專家系統(tǒng) 知識圖譜 知識圖譜:實體-關(guān)系-實體/知識建模/知識獲取/知識融合/知識存儲/知識應(yīng)用_會害羞的楊卓越的博客-CSDN博客 特征工程

    2024年02月16日
    瀏覽(26)
  • 【特征選擇】CMA-ES(協(xié)方差矩陣適應(yīng)進(jìn)化策略)

    【特征選擇】CMA-ES(協(xié)方差矩陣適應(yīng)進(jìn)化策略)

    當(dāng)將模型擬合到數(shù)據(jù)集時,可能需要執(zhí)行特征選擇:由于多種原因,僅保留某些特征子集來擬合模型,而丟棄其余特征具有一定的必要性,如下: 保持模型的可解釋性(特征太多會使解釋變得更加困難) 避免維度過大 最大化/最小化與模型相關(guān)的一些目標(biāo)函數(shù)(R 平方、AIC

    2024年04月12日
    瀏覽(26)
  • python——機(jī)器學(xué)習(xí):sklearn特征選擇feature_selection

    python——機(jī)器學(xué)習(xí):sklearn特征選擇feature_selection

    ? ? 特征選擇是機(jī)器學(xué)習(xí)中很重要的一部分,構(gòu)造并選取合適的特征,能極大的提高模型的表現(xiàn)。sklearn中feature_selection模塊提供了一些特征選擇方法??梢酝ㄟ^dir()的方法整體看一下。 0. 讀取測試數(shù)據(jù) ?1. 方差閾值法 VarianceThreshold ? ? ? ? 該方法篩選掉方差低于某個值的變量

    2024年02月19日
    瀏覽(28)
  • 【機(jī)器學(xué)習(xí)】包裹式特征選擇之拉斯維加斯包裝器(LVW)算法

    【機(jī)器學(xué)習(xí)】包裹式特征選擇之拉斯維加斯包裝器(LVW)算法

    ??個人主頁:豌豆射手^ ??歡迎 ??點贊?評論?收藏 ??收錄專欄:機(jī)器學(xué)習(xí) ??希望本文對您有所裨益,如有不足之處,歡迎在評論區(qū)提出指正,讓我們共同學(xué)習(xí)、交流進(jìn)步! 引言: 在機(jī)器學(xué)習(xí)的世界中,特征選擇是一項至關(guān)重要的任務(wù)。它能夠幫助我們篩選出與目標(biāo)變量

    2024年03月14日
    瀏覽(17)
  • 基于協(xié)方差矩陣自適應(yīng)演化策略(CMA-ES)的高效特征選擇

    基于協(xié)方差矩陣自適應(yīng)演化策略(CMA-ES)的高效特征選擇

    特征選擇是指從原始特征集中選擇一部分特征,以提高模型性能、減少計算開銷或改善模型的解釋性。特征選擇的目標(biāo)是找到對目標(biāo)變量預(yù)測最具信息量的特征,同時減少不必要的特征。這有助于防止過擬合、提高模型的泛化能力,并且可以減少訓(xùn)練和推理的計算成本。 如果

    2024年01月19日
    瀏覽(14)
  • 機(jī)器學(xué)習(xí)-降維簡介

    ? ? 機(jī)器學(xué)習(xí):? 正如本文所討論的,機(jī)器學(xué)習(xí)不過是一個研究領(lǐng)域,它允許計算機(jī)像人類一樣“學(xué)習(xí)”而無需顯式編程。? 什么是預(yù)測建模:? 預(yù)測建模是一個概率過程,允許我們根據(jù)一些預(yù)測變量來預(yù)測結(jié)果。這些預(yù)測變量基本上是在決定最終結(jié)果(即模型的結(jié)果)時發(fā)

    2023年04月09日
    瀏覽(17)
  • 機(jī)器學(xué)習(xí)-PCA降維【手撕】

    降維算法中的”降維“,指的是降低特征矩陣中特征的數(shù)量,其目的是為了讓算法運算更快,效果更好,同時可以方便數(shù)據(jù)可視化。過高的維度特征維度的特征矩陣無法通過可視化,數(shù)據(jù)的性質(zhì)也就比較難理解。其中主要用到的降維方法為PCA和SVD 在降維中,我們會減少特征的

    2024年01月24日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包