国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold

2年前作者：士別三日wyx分類：Toy博客閱讀(18)違法舉報

這篇具有很好參考價值的文章主要介紹了【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

「作者主頁」：士別三日wyx
「作者簡介」：CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡(luò)安全領(lǐng)域優(yōu)質(zhì)創(chuàng)作者
「推薦專欄」：對網(wǎng)絡(luò)安全感興趣的小伙伴可以關(guān)注專欄《網(wǎng)絡(luò)安全入門到精通》

提取的特征當(dāng)中，有一些相關(guān)（相似）的「冗余特征」，這種特征是沒有必要統(tǒng)計的，我們需要「減少」相關(guān)的特征，留下不相關(guān)的特征。也就是「特征降維」。

特征降維的方式有很多，這里使用其中的一種：方差選擇法（低方差過濾）

一、方差科普

先簡單科普一下，方差=平方的均值減去均值的平方，公式是：

【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold,機(jī)器學(xué)習(xí),人工智能

比如，1、2、3、4、5這五個數(shù)，平均數(shù)是3；

而「方差」是各個數(shù)據(jù)分別與其和的平均數(shù)之差的平方的和的平均數(shù)：[(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2]/5=2，也就是2。

方差小，就意味某個特征大多樣本的值比較相近；方差大，就意味著某個特征大多樣本的值都有差別。

方差選擇法也叫「低方差過濾」，顧名思義，就是設(shè)定一個方差的值，所有低于這個方差的特征都會被刪掉。

二、方差選擇API

sklearn.feature_selection 是特征選擇的API

sklearn.feature_selection.VarianceThreshold( threshold=0 )

VarianceThreshold.fit_transform( data )：接收字典類型的原始數(shù)據(jù)，返回方差過濾后的數(shù)字特征
VarianceThreshold.inverse_transform( data )：將過濾后的數(shù)字特征，轉(zhuǎn)回原始數(shù)據(jù)
VarianceThreshold.get_feature_names_out()：返回特征名字
VarianceThreshold.variances_：返回每個特征對應(yīng)的方差值

三、獲取數(shù)據(jù)集

這里我們使用鳶尾花數(shù)據(jù)集來做示例

from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()

# 打印數(shù)據(jù)特征
print(iris.data)
# 打印特征數(shù)總結(jié)
print(iris.data.shape)

輸出：

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 ......
 [5.9 3.  5.1 1.8]]
(150, 4)

從輸出結(jié)果可以看到，數(shù)據(jù)集現(xiàn)在有150條數(shù)據(jù)，每條數(shù)據(jù)有4個特征。

四、進(jìn)行方差過濾

接下來我們進(jìn)行方差過濾，指定方差為0.2

from sklearn import feature_selection
from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()
# 初始化轉(zhuǎn)換器（指定方差為0.2）
vt = feature_selection.VarianceThreshold(threshold=0.2)

# 使用轉(zhuǎn)換器對數(shù)據(jù)進(jìn)行低方差過濾
result = vt.fit_transform(iris.data)

# 打印數(shù)據(jù)特征
print(result)
print(result.shape)

輸出：

[[5.1 1.4 0.2]
 [4.9 1.4 0.2]
 ......
 [5.9 5.1 1.8]]
(150, 3)

從輸出結(jié)果可以看到，轉(zhuǎn)換后的數(shù)據(jù)集有150條數(shù)據(jù)，每條數(shù)據(jù)有3個特征，方差小于0.2的那個特征被過濾掉了。

接下來，我們把方差改成1

from sklearn import feature_selection
from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()
# 初始化轉(zhuǎn)換器（指定方差為1）
vt = feature_selection.VarianceThreshold(threshold=1)

# 使用轉(zhuǎn)換器對數(shù)據(jù)進(jìn)行低方差過濾
result = vt.fit_transform(iris.data)

# 打印數(shù)據(jù)特征
print(result)
print(result.shape)

輸出：

[[1.4]
 [1.4]
 ......
 [5.1]]
(150, 1)

從輸出結(jié)果可以看到，數(shù)據(jù)集的的特征變成了1個，方差小于1的那三個特征被過濾掉了。

五、獲取特征的方差值

接下來，我們獲取每一個特征的方差值，來驗證過濾的準(zhǔn)確性。

from sklearn import feature_selection
from sklearn import datasets

# 初始化鳶尾花數(shù)據(jù)集
iris = datasets.load_iris()
# 初始化轉(zhuǎn)換器（指定方差為1）
vt = feature_selection.VarianceThreshold(threshold=0.2)

# 使用轉(zhuǎn)換器對數(shù)據(jù)進(jìn)行低方差過濾
result = vt.fit_transform(iris.data)

# 獲取特征的方差值
print(vt.variances_)

輸出：

[0.68112222 0.18871289 3.09550267 0.57713289]

從輸出結(jié)果可以看到，4個特征的方差值，有3個大于0.2，有1個大于1，上述試驗的過濾結(jié)果符合預(yù)期。文章來源地址http://www.zghlxwxcb.cn/news/detail-540424.html

到了這里，關(guān)于【機(jī)器學(xué)習(xí)】特征降維 - 方差選擇法VarianceThreshold的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

機(jī)器學(xué)習(xí)（10）---特征選擇
?1. 從所有的特征中，選擇出有意義，對模型有幫助的特征，以避免必須將所有特征都導(dǎo)入模型去訓(xùn)練的情況。 ?2. 我們來看一組數(shù)據(jù)： ? 注：這個數(shù)據(jù)量相對夸張，如果使用支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)，很可能會直接跑不出來。使用KNN跑一次大概需要半個小時。用這個數(shù)據(jù)舉
2024年02月09日
瀏覽(14)
機(jī)器學(xué)習(xí)基礎(chǔ) 數(shù)據(jù)集、特征工程、特征預(yù)處理、特征選擇 7.27
無量綱化 1.標(biāo)準(zhǔn)化 2.歸一化信息數(shù)據(jù)化 1.特征二值化 2. Ont-hot編碼 3.缺失數(shù)據(jù)補全 1.方差選擇法 2.相關(guān)系數(shù)法
2024年02月14日
瀏覽(32)
機(jī)器學(xué)習(xí)-特征選擇：如何使用遞歸特征消除算法自動篩選出最優(yōu)特征？
在實際應(yīng)用中，特征選擇作為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的重要環(huán)節(jié)，對于提高模型性能和減少計算開銷具有關(guān)鍵影響。特征選擇是從原始特征集中選擇最相關(guān)和最具區(qū)分力的特征子集，以提高模型的泛化能力和可解釋性。特征選擇在實踐中具有以下重要性：提高模型性能：
2024年02月12日
瀏覽(33)
人工智能的分類：機(jī)器學(xué)習(xí)/專家系統(tǒng)/推薦系統(tǒng)/知識圖譜/強(qiáng)化學(xué)習(xí)/遷移學(xué)習(xí)/特征工程/模式識別
機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)算法工程師：技術(shù)路線、方向選擇、職業(yè)規(guī)劃、最新技術(shù)（從小白到大魔王全攻略）_會害羞的楊卓越的博客-CSDN博客專家系統(tǒng) 知識圖譜知識圖譜：實體-關(guān)系-實體/知識建模/知識獲取/知識融合/知識存儲/知識應(yīng)用_會害羞的楊卓越的博客-CSDN博客特征工程
2024年02月16日
瀏覽(26)
【特征選擇】CMA-ES（協(xié)方差矩陣適應(yīng)進(jìn)化策略）
當(dāng)將模型擬合到數(shù)據(jù)集時，可能需要執(zhí)行特征選擇：由于多種原因，僅保留某些特征子集來擬合模型，而丟棄其余特征具有一定的必要性，如下：保持模型的可解釋性（特征太多會使解釋變得更加困難）避免維度過大最大化/最小化與模型相關(guān)的一些目標(biāo)函數(shù)（R 平方、AIC
2024年04月12日
瀏覽(26)
python——機(jī)器學(xué)習(xí)：sklearn特征選擇feature_selection
? ? 特征選擇是機(jī)器學(xué)習(xí)中很重要的一部分，構(gòu)造并選取合適的特征，能極大的提高模型的表現(xiàn)。sklearn中feature_selection模塊提供了一些特征選擇方法?？梢酝ㄟ^dir()的方法整體看一下。 0. 讀取測試數(shù)據(jù) ?1. 方差閾值法 VarianceThreshold ? ? ? ? 該方法篩選掉方差低于某個值的變量
2024年02月19日
瀏覽(28)
【機(jī)器學(xué)習(xí)】包裹式特征選擇之拉斯維加斯包裝器（LVW）算法
??個人主頁：豌豆射手^ ??歡迎 ??點贊?評論?收藏 ??收錄專欄：機(jī)器學(xué)習(xí) ??希望本文對您有所裨益，如有不足之處，歡迎在評論區(qū)提出指正，讓我們共同學(xué)習(xí)、交流進(jìn)步！引言: 在機(jī)器學(xué)習(xí)的世界中，特征選擇是一項至關(guān)重要的任務(wù)。它能夠幫助我們篩選出與目標(biāo)變量
2024年03月14日
瀏覽(17)
基于協(xié)方差矩陣自適應(yīng)演化策略（CMA-ES）的高效特征選擇
特征選擇是指從原始特征集中選擇一部分特征，以提高模型性能、減少計算開銷或改善模型的解釋性。特征選擇的目標(biāo)是找到對目標(biāo)變量預(yù)測最具信息量的特征，同時減少不必要的特征。這有助于防止過擬合、提高模型的泛化能力，并且可以減少訓(xùn)練和推理的計算成本。如果
2024年01月19日
瀏覽(14)
機(jī)器學(xué)習(xí)-降維簡介
? ? 機(jī)器學(xué)習(xí)：? 正如本文所討論的，機(jī)器學(xué)習(xí)不過是一個研究領(lǐng)域，它允許計算機(jī)像人類一樣“學(xué)習(xí)”而無需顯式編程。? 什么是預(yù)測建模：? 預(yù)測建模是一個概率過程，允許我們根據(jù)一些預(yù)測變量來預(yù)測結(jié)果。這些預(yù)測變量基本上是在決定最終結(jié)果（即模型的結(jié)果）時發(fā)
2023年04月09日
瀏覽(17)
機(jī)器學(xué)習(xí)-PCA降維【手撕】
降維算法中的”降維“，指的是降低特征矩陣中特征的數(shù)量，其目的是為了讓算法運算更快，效果更好，同時可以方便數(shù)據(jù)可視化。過高的維度特征維度的特征矩陣無法通過可視化，數(shù)據(jù)的性質(zhì)也就比較難理解。其中主要用到的降維方法為PCA和SVD 在降維中，我們會減少特征的
2024年01月24日
瀏覽(25)