国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【自然語言】使用詞袋模型,TF-IDF模型和Word2Vec模型進(jìn)行文本向量化

這篇具有很好參考價(jià)值的文章主要介紹了【自然語言】使用詞袋模型,TF-IDF模型和Word2Vec模型進(jìn)行文本向量化。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、任務(wù)目標(biāo)

python代碼寫將 HarryPorter 電子書作為語料庫,分別使用詞袋模型,TF-IDF模型和Word2Vec模型進(jìn)行文本向量化。

1. 首先將數(shù)據(jù)預(yù)處理,Word2Vec 訓(xùn)練時(shí)要求考慮每個(gè)單詞前后的五個(gè)詞匯,地址為

作為其上下文 ,生成的向量維度為50維

2.分別搜索 courtroom 和 wizard 這兩個(gè)詞語義最近的5個(gè)單詞

3.對(duì)wizard 和witch 這兩個(gè)單詞在二維平面上進(jìn)行可視化

內(nèi)容補(bǔ)充:

什么是對(duì)他們進(jìn)行向量化?

當(dāng)涉及將文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可以處理的形式時(shí),常用的方法之一是文本向量化。文本向量化是將文本文檔轉(zhuǎn)換為數(shù)值向量的過程,以便計(jì)算機(jī)可以理解和處理。

?

  1. 詞袋模型(Bag of Words Model):

    • 詞袋模型是一種簡(jiǎn)單而常用的文本向量化方法。
    • 在詞袋模型中,每個(gè)文檔被表示為一個(gè)向量,其中每個(gè)維度對(duì)應(yīng)于詞匯表中的一個(gè)詞。
    • 文檔向量的每個(gè)維度表示對(duì)應(yīng)詞在文檔中出現(xiàn)的頻次(或者可以是二進(jìn)制值,表示是否出現(xiàn))。
    • 這意味著詞袋模型忽略了單詞的順序和上下文,只關(guān)注詞的出現(xiàn)頻率。

?

  1. TF-IDF模型(Term Frequency-Inverse Document Frequency Model):

    • TF-IDF是一種用于評(píng)估一個(gè)詞對(duì)于一個(gè)文檔在語料庫中的重要性的統(tǒng)計(jì)方法。
    • 與詞袋模型類似,TF-IDF模型也將文檔表示為向量,但是每個(gè)維度的值是基于詞的TF-IDF得分。
    • Term Frequency(TF)表示詞在文檔中出現(xiàn)的頻率,而Inverse Document Frequency(IDF)表示詞的稀有程度或信息量。
    • TF-IDF的計(jì)算方法是將TF與IDF相乘,以突出顯示在文檔中頻繁出現(xiàn)但在整個(gè)語料庫中稀有的詞語。

?

  1. Word2Vec模型:

    • Word2Vec是一種用于將詞語表示為連續(xù)向量空間中的向量的技術(shù)。
    • Word2Vec模型基于分布式假設(shè),即在語料庫中,具有相似上下文的詞在向量空間中應(yīng)該具有相似的表示。
    • Word2Vec模型通常通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)詞向量,其中每個(gè)詞都被表示為一個(gè)密集的向量,稱為嵌入(embedding)。
    • 通過Word2Vec,詞向量可以捕捉到詞語之間的語義和語法關(guān)系,例如,語義上相似的詞在向量空間中會(huì)更加接近。

二、代碼部分?

nltk.download('punkt')
nltk.download('stopwords')

【自然語言】使用詞袋模型,TF-IDF模型和Word2Vec模型進(jìn)行文本向量化,學(xué)習(xí)過程,人工智能,word2vec,tf-idf,自然語言處理

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec
from gensim.models import TfidfModel
from gensim.corpora import Dictionary
import matplotlib.pyplot as plt

# 導(dǎo)入停用詞
stop_words = set(stopwords.words('english'))

# 加載數(shù)據(jù)
corpus_file = '/Users/zhengyawen/Downloads/HarryPorter.txt'
with open(corpus_file, 'r', encoding='utf-8') as file:
    data = file.read()

# 預(yù)處理數(shù)據(jù)
sentences = [word_tokenize(sentence.lower()) for sentence in data.split('.')]
preprocessed_sentences = []
for sentence in sentences:
    valid_words = []
    for word in sentence:
        if word.isalpha() and word not in stop_words:
            valid_words.append(word)
    preprocessed_sentences.append(valid_words)

# 構(gòu)建Word2Vec模型
w2v_model = Word2Vec(sentences=preprocessed_sentences, vector_size=50, window=5, min_count=1, sg=0)

# 獲取單詞向量
vector_courtroom = w2v_model.wv['courtroom']
vector_wizard = w2v_model.wv['wizard']

# 搜索與“courtroom”和“wizard”最相似的5個(gè)單詞
similar_words_courtroom = w2v_model.wv.most_similar('courtroom', topn=5)
similar_words_wizard = w2v_model.wv.most_similar('wizard', topn=5)

print("Word2Vec模型:")
print("單詞 courtroom 的向量:", vector_courtroom)
print("單詞 wizard 的向量:", vector_wizard)
print("語義最近的5個(gè)單詞 (courtroom):")
for word, similarity in similar_words_courtroom:
    print(f"{word}: {similarity}")

print("\n語義最近的5個(gè)單詞 (wizard):")
for word, similarity in similar_words_wizard:
    print(f"{word}: {similarity}")

# 構(gòu)建詞袋模型
dictionary = Dictionary(preprocessed_sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in preprocessed_sentences]
tfidf_model = TfidfModel(corpus)
corpus_tfidf = tfidf_model[corpus]

# 可視化Word2Vec模型中wizard和witch的向量
words_to_plot = ['wizard', 'witch']
word_vectors = [w2v_model.wv[word] for word in words_to_plot]

# 可視化
plt.figure(figsize=(10, 6))
for i, word in enumerate(words_to_plot):
    plt.scatter(word_vectors[i][0], word_vectors[i][1], label=word)

plt.xlabel('Dimension 1')
plt.ylabel('Dimension 2')
plt.title('Visualization of Word Vectors')
plt.legend()
plt.show()

三、代碼運(yùn)行結(jié)果

【自然語言】使用詞袋模型,TF-IDF模型和Word2Vec模型進(jìn)行文本向量化,學(xué)習(xí)過程,人工智能,word2vec,tf-idf,自然語言處理

【自然語言】使用詞袋模型,TF-IDF模型和Word2Vec模型進(jìn)行文本向量化,學(xué)習(xí)過程,人工智能,word2vec,tf-idf,自然語言處理文章來源地址http://www.zghlxwxcb.cn/news/detail-850620.html


到了這里,關(guān)于【自然語言】使用詞袋模型,TF-IDF模型和Word2Vec模型進(jìn)行文本向量化的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 文本分析-使用jieba庫實(shí)現(xiàn)TF-IDF算法提取關(guān)鍵詞

    文本分析-使用jieba庫實(shí)現(xiàn)TF-IDF算法提取關(guān)鍵詞

    ???♂? 個(gè)人主頁:@艾派森的個(gè)人主頁 ???作者簡(jiǎn)介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話, 歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ ????????TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率)是一種用于資訊檢索與資

    2024年02月11日
    瀏覽(19)
  • 什么是 TF-IDF 算法?

    什么是 TF-IDF 算法?

    簡(jiǎn)單來說, 向量空間模型就是希望把查詢和文檔都表達(dá)成向量,然后利用向量之間的運(yùn)算來進(jìn)一步表達(dá)向量間的關(guān)系 。比如,一個(gè)比較常用的運(yùn)算就是計(jì)算查詢所對(duì)應(yīng)的向量和文檔所對(duì)應(yīng)的向量之間的 “ 相關(guān)度 ”。 簡(jiǎn)單解釋TF-IDF TF (Term Frequency)—— “單詞

    2024年02月10日
    瀏覽(26)
  • [nlp] TF-IDF算法介紹

    [nlp] TF-IDF算法介紹

    (1)TF是詞頻(Term Frequency) 詞頻是文檔中詞出現(xiàn)的概率。 (2) IDF是逆向文件頻率(Inverse Document Frequency) 包含詞條的文檔越少,IDF越大。

    2024年02月15日
    瀏覽(20)
  • 基于TF-IDF+Tensorflow+pyQT+孿生神經(jīng)網(wǎng)絡(luò)的智能聊天機(jī)器人(深度學(xué)習(xí))含全部工程源碼及模型+訓(xùn)練數(shù)據(jù)集

    基于TF-IDF+Tensorflow+pyQT+孿生神經(jīng)網(wǎng)絡(luò)的智能聊天機(jī)器人(深度學(xué)習(xí))含全部工程源碼及模型+訓(xùn)練數(shù)據(jù)集

    本項(xiàng)目利用TF-IDF(Term Frequency-Inverse Document Frequency 詞頻-逆文檔頻率)檢索模型和CNN(卷積神經(jīng)網(wǎng)絡(luò))精排模型構(gòu)建了一個(gè)聊天機(jī)器人,旨在實(shí)現(xiàn)一個(gè)能夠進(jìn)行日常對(duì)話和情感陪伴的聊天機(jī)器人。 首先,我們使用TF-IDF技術(shù)構(gòu)建了一個(gè)檢索模型。TF-IDF可以衡量一個(gè)詞語在文檔中

    2024年02月12日
    瀏覽(92)
  • 基于TF-IDF+Tensorflow+PyQt+孿生神經(jīng)網(wǎng)絡(luò)的智能聊天機(jī)器人(深度學(xué)習(xí))含全部Python工程源碼及模型+訓(xùn)練數(shù)據(jù)集

    基于TF-IDF+Tensorflow+PyQt+孿生神經(jīng)網(wǎng)絡(luò)的智能聊天機(jī)器人(深度學(xué)習(xí))含全部Python工程源碼及模型+訓(xùn)練數(shù)據(jù)集

    本項(xiàng)目利用TF-IDF(Term Frequency-Inverse Document Frequency 詞頻-逆文檔頻率)檢索模型和CNN(卷積神經(jīng)網(wǎng)絡(luò))精排模型構(gòu)建了一個(gè)聊天機(jī)器人,旨在實(shí)現(xiàn)一個(gè)能夠進(jìn)行日常對(duì)話和情感陪伴的聊天機(jī)器人。 首先,我們使用TF-IDF技術(shù)構(gòu)建了一個(gè)檢索模型。TF-IDF可以衡量一個(gè)詞語在文檔中

    2024年02月13日
    瀏覽(98)
  • TF-IDF (BigData, Data Mining)

    TF-IDF (BigData, Data Mining)

    TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。 TF 是詞頻(Term Frequency), IDF 是逆文本頻率指數(shù)(Inverse Document Frequency)。 TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。 字詞的重要

    2024年02月06日
    瀏覽(24)
  • tf-idf原理 & TfidfVectorizer參數(shù)詳解及實(shí)戰(zhàn)

    tf-idf原理 & TfidfVectorizer參數(shù)詳解及實(shí)戰(zhàn)

    ???????? 目錄 一、原理 二、實(shí)戰(zhàn) sklearn中提供的文本處理方法 1、導(dǎo)包 ?2、初始化詞頻向量/tf_idf的訓(xùn)練參數(shù) 3、CountVectorizer訓(xùn)練及應(yīng)用函數(shù) 4、CountVectorizer使用 5、TfidfTransformer訓(xùn)練及應(yīng)用函數(shù) 6、TfidfTransformer訓(xùn)練及應(yīng)用函數(shù) 三、劃重點(diǎn) 少走10年彎路 ????????tf-idf作為

    2024年02月02日
    瀏覽(45)
  • 用Python實(shí)現(xiàn)TF-IDF算法:從原理到實(shí)現(xiàn)

    TF-IDF算法是一種用于文本處理和信息檢索的算法,用于衡量單詞在文本中的重要性。在TF-IDF算法中,每個(gè)單詞都被賦予一個(gè)權(quán)重,該權(quán)重由該單詞在文本中的頻率(TF)和在整個(gè)文本集合中的頻率(IDF)共同決定。 Term Frequency(TF)指一個(gè)單詞在文本中出現(xiàn)的頻率。TF值的計(jì)算

    2024年02月04日
    瀏覽(19)
  • 大數(shù)據(jù)課程K15——Spark的TF-IDF計(jì)算Term權(quán)重

    文章作者郵箱:yugongshiye@sina.cn? ? ? ? ? ? ? 地址:廣東惠州 ? 了解Spark的TF-IDF算法概念; ??了解Spark的TF-IDF算法定義; ??了解Spark的TF-IDF算法案例; TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(Term Frequency),

    2024年02月10日
    瀏覽(22)
  • 【小沐學(xué)NLP】Python實(shí)現(xiàn)TF-IDF算法(nltk、sklearn、jieba)

    【小沐學(xué)NLP】Python實(shí)現(xiàn)TF-IDF算法(nltk、sklearn、jieba)

    TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency)。 TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨

    2024年02月03日
    瀏覽(92)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包