国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機器學習】特征工程 - 字典特征提取

這篇具有很好參考價值的文章主要介紹了【機器學習】特征工程 - 字典特征提取。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

「作者主頁」:士別三日wyx
「作者簡介」:CSDN top100、阿里云博客專家、華為云享專家、網絡安全領域優(yōu)質創(chuàng)作者
「推薦專欄」:對網絡安全感興趣的小伙伴可以關注專欄《網絡安全入門到精通》

特征工程就是從「原始數據」中提取「特征」,以供「算法」「模型」使用。

簡單來說就是將任意數據(比如文本和圖像)轉換為可用于機器學習的數字特征。

一、特征提取API

sklearn.feature_extraction 是用來提取特征的 API 。

sklearn.feature_extraction.DictVectorizer(sparse=True)

  • DictVectorizer.fit_transform( data ):接收字典類型的原始數據,返回提取的數字特征(sparse矩陣)
  • DictVectorizer.inverse_transform( data ):將提取的數字特征,轉回原始數據。
  • DictVectorizer.get_feature_names_out():返回特征名字

一、提取數字特征

我們準備一個字典類型的數據,然后「提取」數字特征。

from sklearn import feature_extraction

# 原始數據(字典)
old_data = [
    {'name': "張三", 'age': 18},
    {'name': "李四", 'age': 20}]

# 初始化
vector = feature_extraction.DictVectorizer(sparse=False)

# 轉換數據
new_data = vector.fit_transform(old_data)
print(new_data)

輸出:

[[18.  1.  0.]
 [20.  0.  1.]]

二、特征名字

如果想知道提取的數字特征是什么意思,可以用 get_feature_names_out() 獲取「特征名字」,也就是特征和原始數據的對應關系。

from sklearn import feature_extraction

# 原始數據(字典)
old_data = [
    {'name': "張三", 'age': 18},
    {'name': "李四", 'age': 20},
    {'name': "王五", 'age': 22}]

# 初始化
vector = feature_extraction.DictVectorizer(sparse=False)

# 轉換數據
new_data = vector.fit_transform(old_data)
print(new_data)
# 特征名字
print(vector.get_feature_names_out())

輸出:

[[18.  1.  0.  0.]
 [20.  0.  1.  0.]
 [22.  0.  0.  1.]]
['age' 'name=張三' 'name=李四' 'name=王五']

接下來,解釋一下提取的數字特征是什么意思。提取的數字特征是個二維數組,里面包含了三個數組。

一個數組即一行,代表一個樣本;而一列,就代表一個特征。比如上面這個特征:

每個數組的第一列是age特征,age本來就是數字,所以就沒必要轉換了;
第二列是張三特征,用0和1表示,1表示name是張三,0表示name不是張三;
第三列是李四特征,1表示name是李四,0表示name不是李四;
第四列十王五特征,1表示name是王五,0表示name不是王五。

如果沒看懂,可以自己修改原始數據,然后查看輸出的結果。

這個提取的數字特征數組,其位置和特征類型有關,比如這里有 age、張三、李四、王五 四種特征類型,那么數字特征數組就有4個位置。如果特征類型有五種,那么數字特征數組就會變成5個位置,以此類推。這種提取方式也叫 one-hot編碼,


三、返回原始數據

將提取的數字特征,轉換會原始數據,可以使用 inverse_transform()。

from sklearn import feature_extraction

# 原始數據(字典)
old_data = [
    {'name': "張三", 'age': 18},
    {'name': "李四", 'age': 20},
    {'name': "王五", 'age': 22}]

# 初始化
vector = feature_extraction.DictVectorizer(sparse=False)

# 轉換數據
new_data = vector.fit_transform(old_data)
print(new_data)
# 轉回原始數據
print(vector.inverse_transform(new_data))

輸出:文章來源地址http://www.zghlxwxcb.cn/news/detail-510603.html

[[18.  1.  0.  0.]
 [20.  0.  1.  0.]
 [22.  0.  0.  1.]]
[{'age': 18.0, 'name=張三': 1.0}, {'age': 20.0, 'name=李四': 1.0}, {'age': 22.0, 'name=王五': 1.0}]

到了這里,關于【機器學習】特征工程 - 字典特征提取的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 機器學習圖像特征提取—顏色(RGB、HSV、Lab)特征提取并繪制直方圖

    機器學習圖像特征提取—顏色(RGB、HSV、Lab)特征提取并繪制直方圖

    目錄 1 顏色特征 1.1 RGB色彩空間 1.2 HSV色彩空間 1.3 Lab色彩空間 2 使用opencv-python對圖像顏色特征提取并繪制直方圖 2.1 RGB顏色特征和直方圖 2.2 HSV顏色特征和直方圖 2.3 Lab顏色特征和直方圖 RGB色彩模式是工業(yè)界的一種顏色標準,是通過對紅(R)、綠(G)、藍(B)三個顏色通道的變化以

    2024年02月08日
    瀏覽(28)
  • 機器學習基礎之《特征工程(2)—特征工程介紹、特征抽取》

    機器學習基礎之《特征工程(2)—特征工程介紹、特征抽取》

    一、什么是特征工程 機器學習領域的大神Andrew Ng(吳恩達)老師說“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ” 注:業(yè)界廣泛流傳:數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已

    2024年02月13日
    瀏覽(21)
  • 機器學習:特征工程之特征預處理

    機器學習:特征工程之特征預處理

    目錄 特征預處理 1、簡述 2、內容 3、歸一化 3.1、魯棒性 3.2、存在的問題 4、標準化 ?所屬專欄:人工智能 文中提到的代碼如有需要可以私信我發(fā)給你?? 什么是特征預處理:scikit-learn的解釋: provides several common utility functions and transformer classes to change raw feature vectors into a r

    2024年02月12日
    瀏覽(36)
  • 機器學習重要內容:特征工程之特征抽取

    機器學習重要內容:特征工程之特征抽取

    目錄 1、簡介 2、?為什么需要特征工程 3、特征抽取 3.1、簡介 3.2、特征提取主要內容 3.3、字典特征提取 3.4、\\\"one-hot\\\"編碼 3.5、文本特征提取 3.5.1、英文文本 3.5.2、結巴分詞 3.5.3、中文文本 3.5.4、Tf-idf ?所屬專欄:人工智能 文中提到的代碼如有需要可以私信我發(fā)給你噢?? 特

    2024年02月12日
    瀏覽(27)
  • python機器學習——機器學習相關概念 & 特征工程

    python機器學習——機器學習相關概念 & 特征工程

    監(jiān)督學習:輸入數據有特征有標簽,即有標準答案 分類:k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網絡 回歸:線性回歸、嶺回歸 標注:隱馬爾可夫模型 (不做要求) 無監(jiān)督學習:輸入數據有特征無標簽,即無標準答案 聚類:k-means 特征工程是將原始數據

    2024年02月11日
    瀏覽(18)
  • 機器學習特征工程學習筆記(一)

    ????????機器學習特征工程是指在機器學習任務中對原始數據進行轉換、提取和選擇,以創(chuàng)建更有效、更具有表征能力的特征的過程。良好的特征工程可以顯著提升模型的性能,并幫助解決數據中存在的各種問題。 ????????以下是一些常見的機器學習特征工程技術:

    2024年02月11日
    瀏覽(22)
  • 【機器學習】小波變換在特征提取中的實踐與應用

    【機器學習】小波變換在特征提取中的實踐與應用

    在信號處理與數據分析領域,小波變換作為一種強大的數學工具,其多尺度分析特性使得它在特征提取中扮演著至關重要的角色。本文將從小波變換的基本原理出發(fā),結合實例和代碼,深入探討小波變換在特征提取中的應用,并著重分析幾種常見的基于小波變換的特征提取方

    2024年04月22日
    瀏覽(29)
  • 機器學習基礎之《特征工程(4)—特征降維》

    機器學習基礎之《特征工程(4)—特征降維》

    一、什么是特征降維 降維是指在某些限定條件下,降低隨機變量(特征)個數,得到一組“不相關”主變量的過程 1、降維 降低維度 ndarry ? ? 維數:嵌套的層數 ? ? 0維:標量,具體的數0 1 2 3... ? ? 1維:向量 ? ? 2維:矩陣 ? ? 3維:多個二維數組嵌套 ? ? n維:繼續(xù)嵌套

    2024年02月13日
    瀏覽(23)
  • 機器學習7:特征工程

    在傳統(tǒng)的軟件工程中,核心是代碼,然而,在機器學習項目中,重點則是特征——也就是說,開發(fā)人員優(yōu)化模型的方法之一是增加和改進其輸入特征。很多時候,優(yōu)化特征比優(yōu)化模型帶來的增益要大得多。 筆者曾經參與過一個“商品推薦”的項目,在項目中,筆者發(fā)現商品的

    2024年02月11日
    瀏覽(27)
  • 機器學習 特征工程

    機器學習 特征工程

    特征工程就是將原始數據空間映射到新的特征向量空間,使得在新的特征空間中,模型能夠更好地學習數據中的規(guī)律。如果特征工程做的足夠好,即使是簡單的模型,也能表現出非常好的效果。而復雜的模型可以在一定程度上減少特征工程的工作量。例如,對于線性模型,我

    2023年04月19日
    瀏覽(36)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包