国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<li id="5bq1w"></li>

<center id="5bq1w"><optgroup id="5bq1w"></optgroup></center>

<i id="5bq1w"></i>

【機器學習】特征工程 - 文本特征提取TfidfVectorizer

2年前作者：士別三日wyx分類：Toy博客閱讀(28)違法舉報

這篇具有很好參考價值的文章主要介紹了【機器學習】特征工程 - 文本特征提取TfidfVectorizer。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

「作者主頁」：士別三日wyx
「作者簡介」：CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡安全領域優(yōu)質創(chuàng)作者
「推薦專欄」：對網(wǎng)絡安全感興趣的小伙伴可以關注專欄《網(wǎng)絡安全入門到精通》

對「文本」進行特征提取時，一般會用「單詞」作為特征，即特征詞。

TfidfVectorizer會計算特征詞的「權重」，幫我們發(fā)現(xiàn)哪個詞是最重要的。

比如，某個詞在這篇文章中出現(xiàn)的頻率很高，但在其他文章中出現(xiàn)的頻率很低，那么這個詞對于這篇文章的權重就高。

而 CountVectorizer 則只是單純的計算特征詞出現(xiàn)的「次數(shù)」，對于多篇文章的特征提取，就相對遜色。

一、特征提取API

sklearn.feature_extraction 是用來提取特征的API。

sklearn.feature_extraction.text.TfidfVectorizer( stop_words=[…] )

fit_transform( data )：接收數(shù)據(jù)（文本或包含文本字符串的可迭代對象），返回提取的特征（權重矩陣）
vector.inverse_transform(new_data)：將提取的特征，轉換成之前的數(shù)據(jù)
get_feature_names_out()：獲取（特征）單詞列表

參數(shù)：

stop_words：停用詞，數(shù)組類型，指定的停用詞不再作為特征詞。

二、提取特征

我們準備一組原始數(shù)據(jù)，「提取」特征：

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data)

輸出：

  (0, 1)	0.31622776601683794
  (0, 2)	0.31622776601683794
  (0, 3)	0.6324555320336759
  (0, 0)	0.6324555320336759

提取的結果是sparse類型的特征矩陣，我們用type查看一下返回值類型：

new_data = tf.fit_transform(old_data)
print(type(new_data))

輸出：

<class 'scipy.sparse._csr.csr_matrix'>

這種存儲形式目的是「節(jié)省內(nèi)存」，但不利于我們分析，接下來，我們把結果轉化成數(shù)組形式。

三、轉成數(shù)組

使用sparse矩陣的內(nèi)置方法 toarray() 轉成「數(shù)組」

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data.toarray())

輸出：

[[0.63245553 0.31622777 0.31622777 0.63245553]]

這種格式看起來友好一些，接下來，我們來分析一下這個輸出結果是什么意思。

四、特征名字

get_feature_names_out() 獲取提取特征的「名字」

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data.toarray())
print(tf.get_feature_names_out())

輸出：

[[0.63245553 0.31622777 0.31622777 0.63245553]]
['am' 'father' 'mather' 'your']

原始數(shù)據(jù)中的每一個單詞，都被當做一個特征；

當然，字母和標點符號默認不統(tǒng)計，因為沒有意義。

特征名字 [‘a(chǎn)m’ ‘father’ ‘mather’ ‘your’] 和提取的特征 [0.63245553 0.31622777 0.31622777 0.63245553] 是一一對應的。

意思是：特征詞 am 的權重是 0.63245553，特征詞 father 的權重是 0.31622777，…

五、轉回原始數(shù)據(jù)

inverse_transform( ) 方法可以將提取的特征轉換成原始數(shù)據(jù)：

from sklearn import feature_extraction

# 原始數(shù)據(jù)
old_data = [
    "I am your mather !"
    "I am your father !"
]

# 初始化
tf = feature_extraction.text.TfidfVectorizer()

# 提取特征
new_data = tf.fit_transform(old_data)
print(new_data.toarray())
# 轉回原始數(shù)據(jù)
print(tf.inverse_transform(new_data))

輸出：文章來源地址http://www.zghlxwxcb.cn/news/detail-525373.html

[[0.63245553 0.31622777 0.31622777 0.63245553]]
[array(['father', 'mather', 'your', 'am'], dtype='<U6')]

到了這里，關于【機器學習】特征工程 - 文本特征提取TfidfVectorizer的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

機器學習圖像特征提取—SIFT特征提取原理及代碼實現(xiàn)
目錄 1 SIFT簡介 2 SIFT原理及特點 2.1 SIFT算法特點 2.2 SIFT特征檢測 3 SIFT代碼實現(xiàn) ? ? ? ?SIFT，即尺度不變特征變換（Scale-invariant feature transform，SIFT），是用于圖像處理領域的一種描述。這種描述具有尺度不變性，可在圖像中檢測出關鍵點，是一種局部特征描述子。 ? ? ? SIF
2024年02月06日
瀏覽(50)
機器學習---特征提取
1.? 手工特征 —— 圖像 1.1? Harris 角點檢測角點的特性：向任何方向移動變化都很大。 Chris_Harris 和 Mike_Stephens 早在 1988 年的文章《A CombinedCorner and Edge Detector》中就已經(jīng)提出了角點檢測的方法，被稱為 Harris 角點檢測。他把這個簡單的想法轉換成了數(shù)學形式。將窗口向
2024年01月19日
瀏覽(26)
機器學習圖像特征提取—顏色（RGB、HSV、Lab）特征提取并繪制直方圖
目錄 1 顏色特征 1.1 RGB色彩空間 1.2 HSV色彩空間 1.3 Lab色彩空間 2 使用opencv-python對圖像顏色特征提取并繪制直方圖 2.1 RGB顏色特征和直方圖 2.2 HSV顏色特征和直方圖 2.3 Lab顏色特征和直方圖 RGB色彩模式是工業(yè)界的一種顏色標準，是通過對紅(R)、綠(G)、藍(B)三個顏色通道的變化以
2024年02月08日
瀏覽(28)
機器學習基礎之《特征工程（2）—特征工程介紹、特征抽取》
一、什么是特征工程機器學習領域的大神Andrew Ng(吳恩達)老師說“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ” 注：業(yè)界廣泛流傳：數(shù)據(jù)和特征決定了機器學習的上限，而模型和算法只是逼近這個上限而已
2024年02月13日
瀏覽(21)
AI實踐與學習1_NLP文本特征提取以及Milvus向量數(shù)據(jù)庫實踐
隨著NLP預訓練模型（大模型）以及多模態(tài)研究領域的發(fā)展，向量數(shù)據(jù)庫被使用的越來越多。在XOP億級題庫業(yè)務背景下，對于試題召回搜索單單靠著ES分片集群普通搜索已經(jīng)出現(xiàn)性能瓶頸，因此需要預研其他技術方案提高試題搜索召回率。現(xiàn)一個方案就是使用Bert等模型提取試
2024年01月24日
瀏覽(48)
機器學習：特征工程之特征預處理
目錄特征預處理 1、簡述 2、內(nèi)容 3、歸一化 3.1、魯棒性 3.2、存在的問題 4、標準化 ?所屬專欄：人工智能文中提到的代碼如有需要可以私信我發(fā)給你?? 什么是特征預處理：scikit-learn的解釋： provides several common utility functions and transformer classes to change raw feature vectors into a r
2024年02月12日
瀏覽(36)
機器學習重要內(nèi)容：特征工程之特征抽取
目錄 1、簡介 2、?為什么需要特征工程 3、特征抽取 3.1、簡介 3.2、特征提取主要內(nèi)容 3.3、字典特征提取 3.4、\\\"one-hot\\\"編碼 3.5、文本特征提取 3.5.1、英文文本 3.5.2、結巴分詞 3.5.3、中文文本 3.5.4、Tf-idf ?所屬專欄：人工智能文中提到的代碼如有需要可以私信我發(fā)給你噢?? 特
2024年02月12日
瀏覽(27)
python機器學習——機器學習相關概念 & 特征工程
監(jiān)督學習：輸入數(shù)據(jù)有特征有標簽，即有標準答案分類：k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經(jīng)網(wǎng)絡回歸：線性回歸、嶺回歸標注：隱馬爾可夫模型 (不做要求) 無監(jiān)督學習：輸入數(shù)據(jù)有特征無標簽，即無標準答案聚類：k-means 特征工程是將原始數(shù)據(jù)
2024年02月11日
瀏覽(18)
機器學習特征工程學習筆記（一）
????????機器學習特征工程是指在機器學習任務中對原始數(shù)據(jù)進行轉換、提取和選擇，以創(chuàng)建更有效、更具有表征能力的特征的過程。良好的特征工程可以顯著提升模型的性能，并幫助解決數(shù)據(jù)中存在的各種問題。 ????????以下是一些常見的機器學習特征工程技術：
2024年02月11日
瀏覽(22)
【機器學習】小波變換在特征提取中的實踐與應用
在信號處理與數(shù)據(jù)分析領域，小波變換作為一種強大的數(shù)學工具，其多尺度分析特性使得它在特征提取中扮演著至關重要的角色。本文將從小波變換的基本原理出發(fā)，結合實例和代碼，深入探討小波變換在特征提取中的應用，并著重分析幾種常見的基于小波變換的特征提取方
2024年04月22日
瀏覽(29)