通常數(shù)據(jù)的維度越高,能提供的信息也就越多,從而計(jì)算結(jié)果的可靠性就更值得信賴
如何來(lái)描述語(yǔ)言的特征呢,通常都在詞的層面上構(gòu)建特征,Word2Vec就是要把詞轉(zhuǎn)換成向量
假設(shè)現(xiàn)在已經(jīng)拿到一份訓(xùn)練好的詞向量,其中每一個(gè)詞都表示為50維的向量
如果在熱度圖中顯示,結(jié)果如下
在結(jié)果中可以發(fā)現(xiàn),相似的詞在特征表達(dá)中比較相似,也就是說(shuō)詞的特征是有意義的!
在詞向量模型中,輸入和輸出分別是什么?
數(shù)據(jù)從哪來(lái)?
構(gòu)建訓(xùn)練數(shù)據(jù)
不同模型對(duì)比
CBOW模型
Skip-gram模型
Skip-gram模型所需訓(xùn)練數(shù)據(jù)集
如何進(jìn)行訓(xùn)練?
如果一個(gè)語(yǔ)料庫(kù)稍微大一些,可能的結(jié)果簡(jiǎn)直太多了,最后一層相當(dāng)于softmax,計(jì)算起來(lái)十分耗時(shí),有什么別的方法嗎?
初始方案:輸入兩個(gè)單詞,看他們是不是前后對(duì)應(yīng)的輸入輸出,也就相當(dāng)于一個(gè)二分類任務(wù)
出發(fā)點(diǎn)非常好,但是此時(shí)訓(xùn)練集構(gòu)建出來(lái)的標(biāo)簽全為1,無(wú)法進(jìn)行較好的訓(xùn)練
改進(jìn)方案。加入一些負(fù)樣本(負(fù)采樣模型)
詞向量訓(xùn)練過(guò)程
初始化詞向量矩陣
通過(guò)神經(jīng)網(wǎng)絡(luò)反向傳播來(lái)計(jì)算更新,此時(shí)不光更新權(quán)重參數(shù),還更新輸入數(shù)據(jù)文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-701441.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-701441.html
到了這里,關(guān)于自然語(yǔ)言處理-詞向量模型-Word2Vec的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!