接續(xù)前文
【NLP初級(jí)概念】 01-稀疏文檔表示(第 1/30 部分)_無水先生的博客-CSDN博客
一、說明
????????在前文中,我們已經(jīng)了解如何為文檔創(chuàng)建像“TF-IDF”和“BoW”這樣的稀疏向量,其維度對(duì)應(yīng)于語料庫(kù)詞匯表中的單詞(這個(gè)維度將是巨大的)。在這篇博客中,我們將看到如何使用降維技術(shù)以及重要的深度學(xué)習(xí)來解決這些問題。使用不同的技術(shù),我們將提取稱為嵌入(密集,短向量)的強(qiáng)大單詞表示。與TFIDF或BoW不同,這些向量的長(zhǎng)度在50-300的范圍內(nèi)。這些向量在每個(gè)NLP問題中都比稀疏向量工作得更好,因?yàn)閱卧~的順序/結(jié)構(gòu)起著重要作用。所以相似含義的詞有相似的表示。
????????例如:“輪船”和“舟”在稀疏向量表示中意味著兩個(gè)不同的東西,但嵌入成功地捕獲了這些詞之間的相似性。有 2 個(gè)最流行和開源的嵌入模型 Word2Vec 和 GLoVe。word2vec 方法快速、高效訓(xùn)練,并且可通過靜態(tài)代碼和預(yù)訓(xùn)練嵌入輕松在線獲得。文章來源:http://www.zghlxwxcb.cn/news/detail-627125.html
二、word2Vec?
????????在本節(jié)中,我們將了解如何使用深度學(xué)習(xí)來創(chuàng)建單詞嵌入。這些嵌入是如此強(qiáng)大,以至于女王的向量表示與 v(king) ? v(man) + v(woman&#文章來源地址http://www.zghlxwxcb.cn/news/detail-627125.html
到了這里,關(guān)于【NLP概念源和流】 02-稠密文檔表示(第 2/20 部分)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!