国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機(jī)器學(xué)習(xí)——Word2Vec

這篇具有很好參考價(jià)值的文章主要介紹了機(jī)器學(xué)習(xí)——Word2Vec。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

參考資料:

  • https://zhuanlan.zhihu.com/p/114538417
  • https://www.cnblogs.com/pinard/p/7243513.html

1 背景知識(shí)

1.1 統(tǒng)計(jì)語(yǔ)言模型

統(tǒng)計(jì)語(yǔ)言模型是基于語(yǔ)料庫(kù)構(gòu)建的概率模型,用來(lái)計(jì)算一個(gè)詞串 W = ( w 1 , w 2 , ? ? , w T ) W=(w_1,w_2,\cdots,w_T) W=(w1?,w2?,?,wT?) 構(gòu)成句子的概率
p ( W ) = p ( w 1 , w 2 , ? ? . w T ) = p ( w 1 ) p ( w 2 ∣ w 1 ) ? p ( w T ∣ w 1 , w 2 , ? ? , w T ? 1 ) (乘法公式) \begin{align} p(W)&=p(w_1,w_2,\cdots.w_T)\\ &=p(w_1)p(w_2|w_1)\cdots p(w_T|w_1,w_2,\cdots,w_{T-1})(乘法公式) \end{align} p(W)?=p(w1?,w2?,?.wT?)=p(w1?)p(w2?w1?)?p(wT?w1?,w2?,?,wT?1?)(乘法公式)??
p ( W ) p(W) p(W) 被稱為語(yǔ)言模型,(2)式中的每個(gè)因子即為語(yǔ)言模型的參數(shù)。理論上,只要我們根據(jù)語(yǔ)料庫(kù)計(jì)算出所有的模型參數(shù),就能對(duì)很方便地計(jì)算出任意詞串構(gòu)成句子的概率,但由于參數(shù)過(guò)多,這種方法是不現(xiàn)實(shí)的。

1.2 N-gram模型

N-gram 模型的基本思想是做 n ? 1 n-1 n?1 階 Markov 假設(shè),即認(rèn)為:
p ( w k ∣ w 1 , w 2 , ? ? , w k ? 1 ) = p ( w k ∣ w k ? n + 1 ? ? , w k ? 1 ) ≈ c o u n t ( w k ? n + 1 ? ? , w k ? 1 , w k ) c o u n t ( w k ? n + 1 ? ? , w k ? 1 ) (大數(shù)定律) \begin{align} p(w_k|w_1,w_2,\cdots,w_{k-1})&=p(w_k|w_{k-n+1}\cdots,w_{k-1})\\ &\approx\frac{count(w_{k-n+1}\cdots,w_{k-1},w_k)}{count(w_{k-n+1}\cdots,w_{k-1})}(大數(shù)定律) \end{align} p(wk?w1?,w2?,?,wk?1?)?=p(wk?wk?n+1??,wk?1?)count(wk?n+1??,wk?1?)count(wk?n+1??,wk?1?,wk?)?(大數(shù)定律)??
其中, c o u n t ( W ) count(W) count(W) 表示詞串 W W W 在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)。

需要注意的是:根據(jù)實(shí)際意義,即使 c o u n t ( w k ? n + 1 ? ? , w k ? 1 , w k ) = 0 count(w_{k-n+1}\cdots,w_{k-1},w_k)=0 count(wk?n+1??,wk?1?,wk?)=0,也不能認(rèn)為 p ( w k ∣ w k ? n + 1 ? ? , w k ? 1 ) = 0 p(w_k|w_{k-n+1}\cdots,w_{k-1})=0 p(wk?wk?n+1??,wk?1?)=0 ;同理,即使 c o u n t ( w k ? n + 1 ? ? , w k ? 1 , w k ) = c o u n t ( w k ? n + 1 ? ? , w k ? 1 ) {count(w_{k-n+1}\cdots,w_{k-1},w_k)}={count(w_{k-n+1}\cdots,w_{k-1})} count(wk?n+1??,wk?1?,wk?)=count(wk?n+1??,wk?1?),也不能認(rèn)為 p ( w k ∣ w k ? n + 1 ? ? , w k ? 1 ) = 1 p(w_k|w_{k-n+1}\cdots,w_{k-1})=1 p(wk?wk?n+1??,wk?1?)=1,故 N-gram 模型往往需要進(jìn)行平滑處理。

但這種方法的參數(shù)仍然很多,所以我們可以考慮構(gòu)建一個(gè)函數(shù) F = ( w , c o n t e x t ( w ) , θ ) F=(w,{\rm context}(w),\theta) F=(w,context(w),θ),通過(guò)極大似然估計(jì)的方式估計(jì)出參數(shù) θ \theta θ
L ( θ ) = ∑ w ∈ C log ? p ( w ∣ c o n t e x t ( w ) , θ ) L(\theta)=\sum\limits_{w\in C}\log p(w|{\rm context}(w),\theta) L(θ)=wC?logp(wcontext(w),θ)
其中 C 為語(yǔ)料庫(kù)。這樣以來(lái),所有條件概率的計(jì)算都可以通過(guò)計(jì)算 F ( w , c o n t e x t ( w ) , θ ^ ) F(w,{\rm context}(w),\hat\theta) F(w,context(w),θ^) 來(lái)完成。顯然,如何構(gòu)建 F F F 成為了這一方法的關(guān)鍵問(wèn)題。

直白地說(shuō),就是從語(yǔ)料庫(kù)中選擇及其上下文,讓由上下文通過(guò)模型推出詞的概率最大。

2 詞向量

詞向量:對(duì)詞典中的任意詞 w w w,指定一個(gè)固定長(zhǎng)度的向量 v ( w ) ∈ R m v(w)\in\mathbb R^m v(w)Rm。

2.1 獨(dú)熱編碼

One-Hot 編碼的向量長(zhǎng)度為詞典大小,向量中只有一個(gè) 1 1 1 ,位置與該詞在詞典中的位置相對(duì)應(yīng)。

這樣的編碼主要有如下問(wèn)題:

  • 向量維數(shù)過(guò)大。
  • 無(wú)法表現(xiàn)詞之間的相關(guān)性。

2.2 Distributed Representation

基本想法:將詞映射到一個(gè)向量空間,并在向量空間中引入“距離”,用以刻畫詞之間的關(guān)聯(lián)程度。

Word2Vec 就是生成詞向量的經(jīng)典模型。

3 Word2Vec

Word2Vec 是輕量級(jí)的神經(jīng)網(wǎng)絡(luò),其模型僅僅包括輸入層、隱藏層和輸出層,主要包括 CBOW 和 Skip-gram 模型

3.1 Simple CBOW Model

機(jī)器學(xué)習(xí)——Word2Vec
如上圖所示:

  • 輸入為單詞的獨(dú)熱編碼,與輸入層與隱藏層之間的權(quán)重矩陣相乘( W T X W^TX WTX ),相當(dāng)于得到權(quán)重矩陣中某一行的轉(zhuǎn)置。
  • 隱藏層再和隱藏層與輸出層之間的權(quán)重矩陣相乘( ( W ′ ) T h (W')^{T}h (W)Th ),得到輸出層 u u u
  • 將輸出向量的每一個(gè)分量經(jīng)過(guò) sotfmax 函數(shù)歸一化,令概率最大的那個(gè)分量為 1 ,其余為 0 ,得到的向量即為預(yù)測(cè)詞的獨(dú)熱編碼。

由于該模型在輸出層需要對(duì)每一個(gè)分量進(jìn)行 softmax 函數(shù)歸一化,而輸出層的分量數(shù)由于詞典的詞數(shù)相同,故其計(jì)算量很大。

3.2 基于Hierarchical Softmax的CBOW

機(jī)器學(xué)習(xí)——Word2Vec
這部分建議直接看參考資料 2文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-514684.html

到了這里,關(guān)于機(jī)器學(xué)習(xí)——Word2Vec的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文精讀--word2vec

    論文精讀--word2vec

    word2vec從大量文本語(yǔ)料中以無(wú)監(jiān)督方式學(xué)習(xí)語(yǔ)義知識(shí),是用來(lái)生成詞向量的工具 把文本分散嵌入到另一個(gè)離散空間,稱作分布式表示,又稱為詞嵌入(word embedding)或詞向量 We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The qua

    2024年02月22日
    瀏覽(19)
  • 深度學(xué)習(xí)(3)--遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和詞向量模型Word2Vec

    深度學(xué)習(xí)(3)--遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和詞向量模型Word2Vec

    目錄 一.遞歸神經(jīng)網(wǎng)絡(luò)基礎(chǔ)概念 二.自然語(yǔ)言處理-詞向量模型Word2Vec 2.1.詞向量模型 2.2.常用模型對(duì)比 2.3.負(fù)采樣方案 2.4.詞向量訓(xùn)練過(guò)程 遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)可以解決有時(shí)間序列的問(wèn)題,處理諸如樹、圖這樣的遞歸結(jié)構(gòu)。 CNN主要應(yīng)用在計(jì)算機(jī)視覺CV中,RNN主要

    2024年01月21日
    瀏覽(28)
  • 深度學(xué)習(xí)的Natural Language Processing:從Word2Vec到BERT

    自然語(yǔ)言處理(Natural Language Processing,NLP)是人工智能(Artificial Intelligence,AI)領(lǐng)域的一個(gè)重要分支,其目標(biāo)是讓計(jì)算機(jī)理解、生成和翻譯人類語(yǔ)言。隨著大數(shù)據(jù)、云計(jì)算和深度學(xué)習(xí)等技術(shù)的發(fā)展,深度學(xué)習(xí)的NLP(Deep Learning for NLP)在處理自然語(yǔ)言文本和語(yǔ)音的能力得到了顯

    2024年02月03日
    瀏覽(42)
  • Word2Vec的CBOW模型

    Word2Vec的CBOW模型

    Word2Vec中的CBOW(Continuous Bag of Words)模型是一種用于學(xué)習(xí)詞向量的神經(jīng)網(wǎng)絡(luò)模型。CBOW的核心思想是根據(jù)上下文中的周圍單詞來(lái)預(yù)測(cè)目標(biāo)單詞。 例如,對(duì)于句子“The cat climbed up the tree”,如果窗口大小為5,那么當(dāng)中心單詞為“climbed”時(shí),上下文單詞為“The”、“cat”、“up”

    2024年02月02日
    瀏覽(26)
  • Word2Vec實(shí)現(xiàn)文本識(shí)別分類

    Word2Vec實(shí)現(xiàn)文本識(shí)別分類

    ?? 本文為??365天深度學(xué)習(xí)訓(xùn)練營(yíng) 中的學(xué)習(xí)記錄博客 ?? 參考文章:365天深度學(xué)習(xí)訓(xùn)練營(yíng)-第N4周:用Word2Vec實(shí)現(xiàn)文本分類 ?? 原作者:K同學(xué)啊|接輔導(dǎo)、項(xiàng)目定制 語(yǔ)言環(huán)境:Python3.9.12 編譯器:jupyter notebook 深度學(xué)習(xí)環(huán)境:TensorFlow2 本次內(nèi)容我本來(lái)是使用miniconda的環(huán)境的,但是好

    2024年02月16日
    瀏覽(25)
  • 大語(yǔ)言模型系列-word2vec

    大語(yǔ)言模型系列-word2vec

    在前文大語(yǔ)言模型系列-總述已經(jīng)提到傳統(tǒng)NLP的一般流程: 傳統(tǒng)的分詞向量化的手段是進(jìn)行簡(jiǎn)單編碼(如one-hot),存在如下缺點(diǎn): 如果詞庫(kù)過(guò)大, one-hot編碼生成的向量會(huì)造成維度災(zāi)難 one-hot編碼生成的向量是稀疏的,它們之間的距離相等,無(wú)法捕捉單詞之間的語(yǔ)義關(guān)系。

    2024年01月18日
    瀏覽(31)
  • 【NLP】Word2Vec原理和認(rèn)識(shí)

    ????????Word2Vec是NLP領(lǐng)域的最新突破。Tomas Mikolov是捷克計(jì)算機(jī)科學(xué)家,目前是CIIRC(捷克信息學(xué),機(jī)器人和控制論研究所)的研究員,是word2vec研究和實(shí)施的主要貢獻(xiàn)者之一。詞嵌入是解決NLP中許多問(wèn)題不可或缺的一部分。它們描繪了人類如何向機(jī)器理解語(yǔ)言。您可以將它

    2024年02月12日
    瀏覽(22)
  • 一文了解Word2vec 闡述訓(xùn)練流程

    一文了解Word2vec 闡述訓(xùn)練流程

    ??在機(jī)器學(xué)習(xí)領(lǐng)域,嵌入(embeddings)的概念無(wú)疑是其中最令人興奮的創(chuàng)新之一。想象一下,每當(dāng)你與 Siri 、 Google Assistant 、 Alexa 或 Google Translate 互動(dòng),甚至在使用具有下一個(gè)詞預(yù)測(cè)功能的手機(jī)輸入法(比如蘋果輸入法、搜狗輸入法)時(shí),你其實(shí)都在享受詞嵌入模型帶來(lái)的

    2024年02月05日
    瀏覽(26)
  • NLP實(shí)戰(zhàn):使用Word2vec實(shí)現(xiàn)文本分類

    NLP實(shí)戰(zhàn):使用Word2vec實(shí)現(xiàn)文本分類

    目錄 一、數(shù)據(jù)預(yù)處理 1、加載數(shù)據(jù) 2. 構(gòu)建詞典 3.生成數(shù)據(jù)批次和迭代器 二、模型構(gòu)建 1.搭建模型 2.初始化模型 3.定義訓(xùn)練與評(píng)估函數(shù) 三、訓(xùn)練模型 1. 拆分?jǐn)?shù)據(jù)集并運(yùn)行模型 2. 測(cè)試指定數(shù)據(jù) ?? 本文為[??365天深度學(xué)習(xí)訓(xùn)練營(yíng)]內(nèi)部限免文章(版權(quán)歸 *K同學(xué)啊* 所有) ?? 作者

    2024年02月10日
    瀏覽(21)
  • 【NLP】Word2vec概念和演進(jìn)史

    ????????“萬(wàn)物都有一種模式,它是我們宇宙的一部分。它具有對(duì)稱、優(yōu)雅和優(yōu)雅——這些品質(zhì)你總能在真正的藝術(shù)家捕捉到的作品中找到。” ~ 沙丘 (1965) ? ? ? ? 對(duì)于word2vec,它不是一個(gè)或一種算法,而是一系列思想和算法的綜合。本文通過(guò)有限篇幅,試圖穿越思想跨

    2024年02月11日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包