国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

^{<legend id="dekj0"></legend>}

【自然語言】使用詞袋模型，TF-IDF模型和Word2Vec模型進(jìn)行文本向量化

1年前作者：文公子WGZ分類：Toy博客閱讀(20)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【自然語言】使用詞袋模型，TF-IDF模型和Word2Vec模型進(jìn)行文本向量化。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、任務(wù)目標(biāo)

python代碼寫將 HarryPorter 電子書作為語料庫，分別使用詞袋模型，TF-IDF模型和Word2Vec模型進(jìn)行文本向量化。

1. 首先將數(shù)據(jù)預(yù)處理，Word2Vec 訓(xùn)練時(shí)要求考慮每個(gè)單詞前后的五個(gè)詞匯，地址為

作為其上下文，生成的向量維度為50維

2.分別搜索 courtroom 和 wizard 這兩個(gè)詞語義最近的5個(gè)單詞

3.對(duì)wizard 和witch 這兩個(gè)單詞在二維平面上進(jìn)行可視化

內(nèi)容補(bǔ)充：

什么是對(duì)他們進(jìn)行向量化？

當(dāng)涉及將文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可以處理的形式時(shí)，常用的方法之一是文本向量化。文本向量化是將文本文檔轉(zhuǎn)換為數(shù)值向量的過程，以便計(jì)算機(jī)可以理解和處理。

?

詞袋模型（Bag of Words Model）：

詞袋模型是一種簡(jiǎn)單而常用的文本向量化方法。

在詞袋模型中，每個(gè)文檔被表示為一個(gè)向量，其中每個(gè)維度對(duì)應(yīng)于詞匯表中的一個(gè)詞。

文檔向量的每個(gè)維度表示對(duì)應(yīng)詞在文檔中出現(xiàn)的頻次（或者可以是二進(jìn)制值，表示是否出現(xiàn)）。

這意味著詞袋模型忽略了單詞的順序和上下文，只關(guān)注詞的出現(xiàn)頻率。

?

TF-IDF模型（Term Frequency-Inverse Document Frequency Model）：

TF-IDF是一種用于評(píng)估一個(gè)詞對(duì)于一個(gè)文檔在語料庫中的重要性的統(tǒng)計(jì)方法。

與詞袋模型類似，TF-IDF模型也將文檔表示為向量，但是每個(gè)維度的值是基于詞的TF-IDF得分。

Term Frequency（TF）表示詞在文檔中出現(xiàn)的頻率，而Inverse Document Frequency（IDF）表示詞的稀有程度或信息量。

TF-IDF的計(jì)算方法是將TF與IDF相乘，以突出顯示在文檔中頻繁出現(xiàn)但在整個(gè)語料庫中稀有的詞語。

?

Word2Vec模型：

Word2Vec是一種用于將詞語表示為連續(xù)向量空間中的向量的技術(shù)。

Word2Vec模型基于分布式假設(shè)，即在語料庫中，具有相似上下文的詞在向量空間中應(yīng)該具有相似的表示。

Word2Vec模型通常通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)詞向量，其中每個(gè)詞都被表示為一個(gè)密集的向量，稱為嵌入（embedding）。

通過Word2Vec，詞向量可以捕捉到詞語之間的語義和語法關(guān)系，例如，語義上相似的詞在向量空間中會(huì)更加接近。

二、代碼部分?

nltk.download('punkt')
nltk.download('stopwords')

【自然語言】使用詞袋模型，TF-IDF模型和Word2Vec模型進(jìn)行文本向量化,學(xué)習(xí)過程,人工智能,word2vec,tf-idf,自然語言處理

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec
from gensim.models import TfidfModel
from gensim.corpora import Dictionary
import matplotlib.pyplot as plt

# 導(dǎo)入停用詞
stop_words = set(stopwords.words('english'))

# 加載數(shù)據(jù)
corpus_file = '/Users/zhengyawen/Downloads/HarryPorter.txt'
with open(corpus_file, 'r', encoding='utf-8') as file:
    data = file.read()

# 預(yù)處理數(shù)據(jù)
sentences = [word_tokenize(sentence.lower()) for sentence in data.split('.')]
preprocessed_sentences = []
for sentence in sentences:
    valid_words = []
    for word in sentence:
        if word.isalpha() and word not in stop_words:
            valid_words.append(word)
    preprocessed_sentences.append(valid_words)

# 構(gòu)建Word2Vec模型
w2v_model = Word2Vec(sentences=preprocessed_sentences, vector_size=50, window=5, min_count=1, sg=0)

# 獲取單詞向量
vector_courtroom = w2v_model.wv['courtroom']
vector_wizard = w2v_model.wv['wizard']

# 搜索與“courtroom”和“wizard”最相似的5個(gè)單詞
similar_words_courtroom = w2v_model.wv.most_similar('courtroom', topn=5)
similar_words_wizard = w2v_model.wv.most_similar('wizard', topn=5)

print("Word2Vec模型:")
print("單詞 courtroom 的向量:", vector_courtroom)
print("單詞 wizard 的向量:", vector_wizard)
print("語義最近的5個(gè)單詞 (courtroom):")
for word, similarity in similar_words_courtroom:
    print(f"{word}: {similarity}")

print("\n語義最近的5個(gè)單詞 (wizard):")
for word, similarity in similar_words_wizard:
    print(f"{word}: {similarity}")

# 構(gòu)建詞袋模型
dictionary = Dictionary(preprocessed_sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in preprocessed_sentences]
tfidf_model = TfidfModel(corpus)
corpus_tfidf = tfidf_model[corpus]

# 可視化Word2Vec模型中wizard和witch的向量
words_to_plot = ['wizard', 'witch']
word_vectors = [w2v_model.wv[word] for word in words_to_plot]

# 可視化
plt.figure(figsize=(10, 6))
for i, word in enumerate(words_to_plot):
    plt.scatter(word_vectors[i][0], word_vectors[i][1], label=word)

plt.xlabel('Dimension 1')
plt.ylabel('Dimension 2')
plt.title('Visualization of Word Vectors')
plt.legend()
plt.show()

三、代碼運(yùn)行結(jié)果

【自然語言】使用詞袋模型，TF-IDF模型和Word2Vec模型進(jìn)行文本向量化,學(xué)習(xí)過程,人工智能,word2vec,tf-idf,自然語言處理

【自然語言】使用詞袋模型，TF-IDF模型和Word2Vec模型進(jìn)行文本向量化,學(xué)習(xí)過程,人工智能,word2vec,tf-idf,自然語言處理文章來源地址http://www.zghlxwxcb.cn/news/detail-850620.html

到了這里，關(guān)于【自然語言】使用詞袋模型，TF-IDF模型和Word2Vec模型進(jìn)行文本向量化的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

文本分析-使用jieba庫實(shí)現(xiàn)TF-IDF算法提取關(guān)鍵詞
???♂? 個(gè)人主頁：@艾派森的個(gè)人主頁 ???作者簡(jiǎn)介：Python學(xué)習(xí)者 ?? 希望大家多多支持，我們一起進(jìn)步！?? 如果文章對(duì)你有幫助的話，歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ ????????TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率)是一種用于資訊檢索與資
2024年02月11日
瀏覽(19)
什么是 TF-IDF 算法？
簡(jiǎn)單來說，向量空間模型就是希望把查詢和文檔都表達(dá)成向量，然后利用向量之間的運(yùn)算來進(jìn)一步表達(dá)向量間的關(guān)系。比如，一個(gè)比較常用的運(yùn)算就是計(jì)算查詢所對(duì)應(yīng)的向量和文檔所對(duì)應(yīng)的向量之間的 “ 相關(guān)度 ”。簡(jiǎn)單解釋TF-IDF TF （Term Frequency）—— “單詞
2024年02月10日
瀏覽(26)
[nlp] TF-IDF算法介紹
（1）TF是詞頻(Term Frequency) 詞頻是文檔中詞出現(xiàn)的概率。（2） IDF是逆向文件頻率(Inverse Document Frequency) 包含詞條的文檔越少，IDF越大。
2024年02月15日
瀏覽(20)
基于TF-IDF+Tensorflow+pyQT+孿生神經(jīng)網(wǎng)絡(luò)的智能聊天機(jī)器人（深度學(xué)習(xí)）含全部工程源碼及模型+訓(xùn)練數(shù)據(jù)集
本項(xiàng)目利用TF-IDF（Term Frequency-Inverse Document Frequency 詞頻-逆文檔頻率）檢索模型和CNN（卷積神經(jīng)網(wǎng)絡(luò)）精排模型構(gòu)建了一個(gè)聊天機(jī)器人，旨在實(shí)現(xiàn)一個(gè)能夠進(jìn)行日常對(duì)話和情感陪伴的聊天機(jī)器人。首先，我們使用TF-IDF技術(shù)構(gòu)建了一個(gè)檢索模型。TF-IDF可以衡量一個(gè)詞語在文檔中
2024年02月12日
瀏覽(92)
基于TF-IDF+Tensorflow+PyQt+孿生神經(jīng)網(wǎng)絡(luò)的智能聊天機(jī)器人（深度學(xué)習(xí)）含全部Python工程源碼及模型+訓(xùn)練數(shù)據(jù)集
本項(xiàng)目利用TF-IDF（Term Frequency-Inverse Document Frequency 詞頻-逆文檔頻率）檢索模型和CNN（卷積神經(jīng)網(wǎng)絡(luò)）精排模型構(gòu)建了一個(gè)聊天機(jī)器人，旨在實(shí)現(xiàn)一個(gè)能夠進(jìn)行日常對(duì)話和情感陪伴的聊天機(jī)器人。首先，我們使用TF-IDF技術(shù)構(gòu)建了一個(gè)檢索模型。TF-IDF可以衡量一個(gè)詞語在文檔中
2024年02月13日
瀏覽(98)
TF-IDF (BigData, Data Mining)
TF-IDF （term frequency–inverse document frequency）是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。 TF 是詞頻(Term Frequency)， IDF 是逆文本頻率指數(shù)(Inverse Document Frequency)。 TF-IDF是一種統(tǒng)計(jì)方法，用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要
2024年02月06日
瀏覽(24)
tf-idf原理 & TfidfVectorizer參數(shù)詳解及實(shí)戰(zhàn)
???????? 目錄一、原理二、實(shí)戰(zhàn) sklearn中提供的文本處理方法 1、導(dǎo)包 ?2、初始化詞頻向量/tf_idf的訓(xùn)練參數(shù) 3、CountVectorizer訓(xùn)練及應(yīng)用函數(shù) 4、CountVectorizer使用 5、TfidfTransformer訓(xùn)練及應(yīng)用函數(shù) 6、TfidfTransformer訓(xùn)練及應(yīng)用函數(shù) 三、劃重點(diǎn) 少走10年彎路 ????????tf-idf作為
2024年02月02日
瀏覽(45)
用Python實(shí)現(xiàn)TF-IDF算法：從原理到實(shí)現(xiàn)
TF-IDF算法是一種用于文本處理和信息檢索的算法，用于衡量單詞在文本中的重要性。在TF-IDF算法中，每個(gè)單詞都被賦予一個(gè)權(quán)重，該權(quán)重由該單詞在文本中的頻率（TF）和在整個(gè)文本集合中的頻率（IDF）共同決定。 Term Frequency（TF）指一個(gè)單詞在文本中出現(xiàn)的頻率。TF值的計(jì)算
2024年02月04日
瀏覽(19)
大數(shù)據(jù)課程K15——Spark的TF-IDF計(jì)算Term權(quán)重
文章作者郵箱：yugongshiye@sina.cn? ? ? ? ? ? ? 地址：廣東惠州 ? 了解Spark的TF-IDF算法概念； ??了解Spark的TF-IDF算法定義； ??了解Spark的TF-IDF算法案例； TF-IDF（term frequency–inverse document frequency）是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(Term Frequency)，
2024年02月10日
瀏覽(22)
【小沐學(xué)NLP】Python實(shí)現(xiàn)TF-IDF算法（nltk、sklearn、jieba）
TF-IDF（term frequency–inverse document frequency）是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency)，IDF是逆文本頻率指數(shù)(Inverse Document Frequency)。 TF-IDF是一種統(tǒng)計(jì)方法，用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨
2024年02月03日
瀏覽(92)

<abbr id="42wn0"></abbr>