国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機器學習】特征工程 - 文本特征提取TfidfVectorizer

這篇具有很好參考價值的文章主要介紹了【機器學習】特征工程 - 文本特征提取TfidfVectorizer。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

「作者主頁」:士別三日wyx
「作者簡介」:CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡安全領域優(yōu)質創(chuàng)作者
「推薦專欄」:對網(wǎng)絡安全感興趣的小伙伴可以關注專欄《網(wǎng)絡安全入門到精通》

「文本」進行特征提取時,一般會用「單詞」作為特征,即特征詞。

TfidfVectorizer會計算特征詞的「權重」,幫我們發(fā)現(xiàn)哪個詞是最重要的。

比如,某個詞在這篇文章中出現(xiàn)的頻率很高,但在其他文章中出現(xiàn)的頻率很低,那么這個詞對于這篇文章的權重就高。

而 CountVectorizer 則只是單純的計算特征詞出現(xiàn)的「次數(shù)」,對于多篇文章的特征提取,就相對遜色。

一、特征提取API

sklearn.feature_extraction 是用來提取特征的API。

sklearn.feature_extraction.text.TfidfVectorizer( stop_words=[…] )

  • fit_transform( data ):接收數(shù)據(jù)(文本或包含文本字符串的可迭代對象),返回提取的特征(權重矩陣)
  • vector.inverse_transform(new_data):將提取的特征,轉換成之前的數(shù)據(jù)
  • get_feature_names_out():獲取(特征)單詞列表

參數(shù):

  • stop_words:停用詞,數(shù)組類型,指定的停用詞不再作為特征詞。

二、提取特征

我們準備一組原始數(shù)據(jù),「提取」特征:

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data)

輸出:

  (0, 1)	0.31622776601683794
  (0, 2)	0.31622776601683794
  (0, 3)	0.6324555320336759
  (0, 0)	0.6324555320336759

提取的結果是sparse類型的特征矩陣,我們用type查看一下返回值類型:

new_data = tf.fit_transform(old_data)
print(type(new_data))

輸出:

<class 'scipy.sparse._csr.csr_matrix'>

這種存儲形式目的是「節(jié)省內(nèi)存」,但不利于我們分析,接下來,我們把結果轉化成數(shù)組形式。

三、轉成數(shù)組

使用sparse矩陣的內(nèi)置方法 toarray() 轉成「數(shù)組」

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data.toarray())

輸出:

[[0.63245553 0.31622777 0.31622777 0.63245553]]

這種格式看起來友好一些,接下來,我們來分析一下這個輸出結果是什么意思。

四、特征名字

get_feature_names_out() 獲取提取特征的「名字」

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data.toarray())
print(tf.get_feature_names_out())

輸出:

[[0.63245553 0.31622777 0.31622777 0.63245553]]
['am' 'father' 'mather' 'your']

原始數(shù)據(jù)中的每一個單詞,都被當做一個特征;

當然,字母和標點符號默認不統(tǒng)計,因為沒有意義。

特征名字 [‘a(chǎn)m’ ‘father’ ‘mather’ ‘your’] 和 提取的特征 [0.63245553 0.31622777 0.31622777 0.63245553] 是一 一 對應的。

意思是:特征詞 am 的權重是 0.63245553,特征詞 father 的權重是 0.31622777,…

五、轉回原始數(shù)據(jù)

inverse_transform( ) 方法可以將提取的特征轉換成原始數(shù)據(jù):

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data.toarray())
# 轉回原始數(shù)據(jù)
print(tf.inverse_transform(new_data))

輸出:文章來源地址http://www.zghlxwxcb.cn/news/detail-525373.html

[[0.63245553 0.31622777 0.31622777 0.63245553]]
[array(['father', 'mather', 'your', 'am'], dtype='<U6')]

到了這里,關于【機器學習】特征工程 - 文本特征提取TfidfVectorizer的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 機器學習圖像特征提取—SIFT特征提取原理及代碼實現(xiàn)

    目錄 1 SIFT簡介 2 SIFT原理及特點 2.1 SIFT算法特點 2.2 SIFT特征檢測 3 SIFT代碼實現(xiàn) ? ? ? ?SIFT,即尺度不變特征變換(Scale-invariant feature transform,SIFT),是用于圖像處理領域的一種描述。這種描述具有尺度不變性,可在圖像中檢測出關鍵點,是一種局部特征描述子。 ? ? ? SIF

    2024年02月06日
    瀏覽(50)
  • 機器學習---特征提取

    機器學習---特征提取

    1.? 手工特征 —— 圖像 1.1? Harris 角點檢測 角點的特性 :向任何方向移動變化都 很大 。 Chris_Harris 和 Mike_Stephens 早在 1988 年的文章 《A CombinedCorner and Edge Detector》 中就已經(jīng)提出 了角點 檢測的方法,被稱為 Harris 角點檢 測。他把這個簡單的想法轉換成了數(shù)學形式。將窗口向

    2024年01月19日
    瀏覽(26)
  • 機器學習圖像特征提取—顏色(RGB、HSV、Lab)特征提取并繪制直方圖

    機器學習圖像特征提取—顏色(RGB、HSV、Lab)特征提取并繪制直方圖

    目錄 1 顏色特征 1.1 RGB色彩空間 1.2 HSV色彩空間 1.3 Lab色彩空間 2 使用opencv-python對圖像顏色特征提取并繪制直方圖 2.1 RGB顏色特征和直方圖 2.2 HSV顏色特征和直方圖 2.3 Lab顏色特征和直方圖 RGB色彩模式是工業(yè)界的一種顏色標準,是通過對紅(R)、綠(G)、藍(B)三個顏色通道的變化以

    2024年02月08日
    瀏覽(28)
  • 機器學習基礎之《特征工程(2)—特征工程介紹、特征抽取》

    機器學習基礎之《特征工程(2)—特征工程介紹、特征抽取》

    一、什么是特征工程 機器學習領域的大神Andrew Ng(吳恩達)老師說“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ” 注:業(yè)界廣泛流傳:數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已

    2024年02月13日
    瀏覽(21)
  • AI實踐與學習1_NLP文本特征提取以及Milvus向量數(shù)據(jù)庫實踐

    AI實踐與學習1_NLP文本特征提取以及Milvus向量數(shù)據(jù)庫實踐

    隨著NLP預訓練模型(大模型)以及多模態(tài)研究領域的發(fā)展,向量數(shù)據(jù)庫被使用的越來越多。 在XOP億級題庫業(yè)務背景下,對于試題召回搜索單單靠著ES分片集群普通搜索已經(jīng)出現(xiàn)性能瓶頸,因此需要預研其他技術方案提高試題搜索召回率。 現(xiàn)一個方案就是使用Bert等模型提取試

    2024年01月24日
    瀏覽(48)
  • 機器學習:特征工程之特征預處理

    機器學習:特征工程之特征預處理

    目錄 特征預處理 1、簡述 2、內(nèi)容 3、歸一化 3.1、魯棒性 3.2、存在的問題 4、標準化 ?所屬專欄:人工智能 文中提到的代碼如有需要可以私信我發(fā)給你?? 什么是特征預處理:scikit-learn的解釋: provides several common utility functions and transformer classes to change raw feature vectors into a r

    2024年02月12日
    瀏覽(36)
  • 機器學習重要內(nèi)容:特征工程之特征抽取

    機器學習重要內(nèi)容:特征工程之特征抽取

    目錄 1、簡介 2、?為什么需要特征工程 3、特征抽取 3.1、簡介 3.2、特征提取主要內(nèi)容 3.3、字典特征提取 3.4、\\\"one-hot\\\"編碼 3.5、文本特征提取 3.5.1、英文文本 3.5.2、結巴分詞 3.5.3、中文文本 3.5.4、Tf-idf ?所屬專欄:人工智能 文中提到的代碼如有需要可以私信我發(fā)給你噢?? 特

    2024年02月12日
    瀏覽(27)
  • python機器學習——機器學習相關概念 & 特征工程

    python機器學習——機器學習相關概念 & 特征工程

    監(jiān)督學習:輸入數(shù)據(jù)有特征有標簽,即有標準答案 分類:k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經(jīng)網(wǎng)絡 回歸:線性回歸、嶺回歸 標注:隱馬爾可夫模型 (不做要求) 無監(jiān)督學習:輸入數(shù)據(jù)有特征無標簽,即無標準答案 聚類:k-means 特征工程是將原始數(shù)據(jù)

    2024年02月11日
    瀏覽(18)
  • 機器學習特征工程學習筆記(一)

    ????????機器學習特征工程是指在機器學習任務中對原始數(shù)據(jù)進行轉換、提取和選擇,以創(chuàng)建更有效、更具有表征能力的特征的過程。良好的特征工程可以顯著提升模型的性能,并幫助解決數(shù)據(jù)中存在的各種問題。 ????????以下是一些常見的機器學習特征工程技術:

    2024年02月11日
    瀏覽(22)
  • 【機器學習】小波變換在特征提取中的實踐與應用

    【機器學習】小波變換在特征提取中的實踐與應用

    在信號處理與數(shù)據(jù)分析領域,小波變換作為一種強大的數(shù)學工具,其多尺度分析特性使得它在特征提取中扮演著至關重要的角色。本文將從小波變換的基本原理出發(fā),結合實例和代碼,深入探討小波變換在特征提取中的應用,并著重分析幾種常見的基于小波變換的特征提取方

    2024年04月22日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包