国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建

2年前作者：尹煜分類(lèi)：Toy博客閱讀(17)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

最近有空，把論文中用到的技術(shù)和大家分享一下（以組件化的形式），本文是第一篇，將講述如何從大量的語(yǔ)料中獲取諸多關(guān)鍵詞和構(gòu)建關(guān)鍵詞詞庫(kù)或 xx 關(guān)鍵詞詞庫(kù)（細(xì)分領(lǐng)域）。舉例以購(gòu)物網(wǎng)站的在線(xiàn)評(píng)論作為語(yǔ)料庫(kù)，對(duì)其進(jìn)行分詞等操作，最終構(gòu)建關(guān)鍵詞詞庫(kù)（以物流關(guān)鍵詞詞庫(kù)為例）和順便繪制詞云圖。關(guān)鍵詞詞庫(kù)構(gòu)建完成后，可以做的事情就多了，往后包括權(quán)值計(jì)算和情感分析，這些都是將關(guān)鍵詞作為基礎(chǔ)單位的，往前對(duì)接 xx 評(píng)價(jià)指標(biāo)體系（這些是題外話(huà)，可以忽略）。

目錄

1?Jieba?分詞及詞頻統(tǒng)計(jì)

1.1?自定義詞典

1.2?停用詞典

1.3?詞頻統(tǒng)計(jì)—初步構(gòu)建詞庫(kù)

①?語(yǔ)料

②?處理 excel 語(yǔ)料數(shù)據(jù)

③ 分詞及詞頻統(tǒng)計(jì)

④ 初步構(gòu)建物流關(guān)鍵詞詞庫(kù)

2 word2vec 拓展關(guān)鍵詞詞庫(kù)

2.1 訓(xùn)練 word2vec 模型

2.2 使用模型—最終構(gòu)建詞庫(kù)

2.3?Wordcloud 詞云圖

代碼地址：https://gitee.com/yinyuu/nlp_yinyu

1?Jieba?分詞及詞頻統(tǒng)計(jì)

jieba 是一種中文分詞工具，它可以將中文文本進(jìn)行分詞，將文本中的詞語(yǔ)分開(kāi)，并標(biāo)注它們的詞性。可以通過(guò)以下命令進(jìn)行安裝：

pip install jieba

1.1?自定義詞典

jieba 進(jìn)行分詞時(shí)，絕大部分的詞匯都能識(shí)別出來(lái)，但是對(duì)于一些特有名詞的識(shí)別就比較困難了，比如京東、淘寶、拼多多等等，這些特有詞匯與在線(xiàn)評(píng)論的語(yǔ)料緊密關(guān)聯(lián)，但是作為特有名詞一般不會(huì)被記錄在?jieba 模型中。

因此需求構(gòu)建自定義詞典，來(lái)處理語(yǔ)料中可能出現(xiàn)的特有名詞，進(jìn)而避免過(guò)度切分（比如將拼多多切分為拼和多多）。

同時(shí)，自定義詞典也承擔(dān)著指導(dǎo)關(guān)鍵詞詞庫(kù)的作用，針對(duì)購(gòu)物網(wǎng)站的在線(xiàn)評(píng)論，比如構(gòu)建物流關(guān)鍵詞詞庫(kù)，那么就需要補(bǔ)充物流相關(guān)特有名詞加入自定義詞典；比如構(gòu)建包裝關(guān)鍵詞詞庫(kù)，那么就需要包裝相關(guān)特有名詞......

?? 詞庫(kù)網(wǎng)站

這里推薦搜狗輸入法的詞庫(kù)網(wǎng)站，涵蓋了蠻多領(lǐng)域，詞庫(kù)的選擇取決于你研究的對(duì)象和語(yǔ)料基礎(chǔ)。

https://pinyin.sogou.com/dict/cate/index/96

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

?? 處理?scel 格式文件

下載完某詞庫(kù)后，它是?scel 格式文件，這不符合 jieba 自定義詞典的加載格式，因此需要進(jìn)行處理。

比如物流詞匯大全【官方推薦】.scel，大家可以下載深藍(lán)詞庫(kù)工具將其轉(zhuǎn)化為 text 文本（隨后可將后綴改為 txt 即可），或者以下在線(xiàn)處理網(wǎng)站：https://www.toolnb.com/tools/scelto.html，這樣就更方便了。

處理完后如下：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

1.2?停用詞典

分詞時(shí)，其實(shí)并沒(méi)有將數(shù)字、符號(hào)、虛詞等不相關(guān)內(nèi)容做區(qū)分，這些詞就是停用詞，因?yàn)檫@些詞對(duì)于后面的研究來(lái)說(shuō)意義不大，而且還可能影響文本分析的效率和準(zhǔn)確性，因此需要使用停用詞典。

之前我整合了百度停用詞表+哈工大停用詞表+機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)等詞表，可在項(xiàng)目中自取~

1.3?詞頻統(tǒng)計(jì)—初步構(gòu)建詞庫(kù)

①?語(yǔ)料

接下來(lái)使用 jieba 進(jìn)行一次簡(jiǎn)單的詞頻統(tǒng)計(jì)，語(yǔ)料是我之前爬取的京東網(wǎng)站上的 5000 條評(píng)論數(shù)據(jù)，可在文章頂部下載查看，截圖如下：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

②?處理 excel 語(yǔ)料數(shù)據(jù)

大家可以看到，目前語(yǔ)料數(shù)據(jù)還是 excel 格式，這是不滿(mǎn)足 jieba 分詞的要求的，因此需要對(duì)其做進(jìn)一步的處理，代碼如下：

import xlrd

'''
工具類(lèi)
'''
class BaseHandle(object):

    def read_col_merge_file(self, url):
        '''讀取合并列表comments列的值輸出為txt'''
        excel = xlrd.open_workbook(url)  # 打開(kāi)excel文件
        table = excel.sheet_by_index(0)  # 根據(jù)下標(biāo)獲取工作薄，這里獲取第一個(gè)
        comments_list = table.col_values(1, start_rowx=1)  # 獲取第一列的內(nèi)容
        comments_str = '\n'.join(comments_list)  # 將數(shù)組轉(zhuǎn)換成字符串,空行連接,模仿text文本
        return comments_str

    def get_file_abspath(self, filename):
        '''獲取文件的根本路徑，文件一般在\nlp_yinyu\下'''
        # 拼接路徑
        path = os.path.join(os.path.dirname(os.getcwd()), filename)
        # 返回根本路徑
        return os.path.abspath(path)


if __name__ == '__main__':
    base = BaseHandle()
    comments_str = base.read_col_merge_file('語(yǔ)料庫(kù)_京東_5000條評(píng)論.xlsx')
    print(comments_str)

注意 xlrd 庫(kù)的版本，需要小于等于 1.2.0，不然無(wú)法解析 xlsx 格式文件。同時(shí)由于我把文件放在了同目錄下，因此 filename 直接使用文件名，不然建議使用絕對(duì)路徑。

該方法使用后效果如下：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

③ 分詞及詞頻統(tǒng)計(jì)

因?yàn)楸疚囊詷?gòu)建物流關(guān)鍵詞詞庫(kù)為例，因此引入物流詞匯自定義詞典，主要分為以下三步：

引入語(yǔ)料 excel 數(shù)據(jù)
jieba 分詞
對(duì)分詞結(jié)果進(jìn)行統(tǒng)計(jì)，最后生成【高頻詞統(tǒng)計(jì).xlsx】文件

注意，需要安裝 openpyxl 這個(gè)庫(kù)，那么?DataFrame 才能生成 excel 文件。

代碼如下：

import jieba
import pandas as pd
from base_handle import BaseHandle # 引入工具類(lèi)

baseHandle = BaseHandle() #實(shí)例化

'''
1.1 Jieba 分詞及詞頻統(tǒng)計(jì)
'''

def split_words_jieba(text):
    '''jieba分詞操作'''
    diy_dict = (baseHandle.get_file_abspath('物流詞匯大全.txt'))  # 引入自定義詞典
    jieba.load_userdict(diy_dict)  # 加載自定義字典
    comment_cut = jieba.lcut(text)  # 分詞結(jié)果
    # print(comment_cut)

    # 引入停用詞表,當(dāng)文本文件中帶有英文雙引號(hào)時(shí)，直接用pd.read_csv進(jìn)行讀取會(huì)導(dǎo)致行數(shù)減少,因此使用quoting=3
    stop_dic = (baseHandle.get_file_abspath('百度+哈工大+機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù).txt'))
    stopwords = pd.read_csv(stop_dic, names=['w'], header=None, sep='\t', encoding='utf-8', quoting=3)
    datas = []  # 去除停用詞提取名詞
    for word in comment_cut:
        if word not in list(stopwords.w) and len(word) > 1:
            datas.append(word)
    # print("分詞+停用詞成功\n"+str(data))
    return datas


def count_fre_words(datas):
    '''高頻詞統(tǒng)計(jì)'''
    counts = {}  # 新建1個(gè)字典
    for data in datas:
        counts[data] = counts.get(data, 0) + 1
    # 將字典列表化，并按頻次排序
    items = list(counts.items())
    items.sort(key=lambda x: x[1], reverse=True)
    dt = pd.DataFrame(items, columns=['keyword', 'fre'])  # list 轉(zhuǎn)換為 df
    # print(dt)
    dt1 = dt[(dt.fre != 1)]  # 刪去頻次為1的關(guān)鍵詞
    dt1.to_excel('高頻詞統(tǒng)計(jì).xlsx')  # 儲(chǔ)存為表格


if __name__ == "__main__":
    # 1.引入語(yǔ)料excel數(shù)據(jù)
    text = baseHandle.read_col_merge_file(baseHandle.get_file_abspath('語(yǔ)料庫(kù)_京東_5000條評(píng)論.xlsx'))
    # 2.jieba分詞
    datas = split_words_jieba(text)
    # 3.對(duì)分詞結(jié)果進(jìn)行統(tǒng)計(jì)，最后生成【高頻詞統(tǒng)計(jì).xlsx】文件
    count_fre_words(datas)

部分分詞結(jié)果如下，可以看到語(yǔ)料數(shù)據(jù)被切分成一個(gè)個(gè)詞匯：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

最終輸出【高頻詞統(tǒng)計(jì).xlsx】文件如下：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

④ 初步構(gòu)建物流關(guān)鍵詞詞庫(kù)

此時(shí)，物流關(guān)鍵詞詞庫(kù)已經(jīng)初具模型了，基于這個(gè)高頻詞統(tǒng)計(jì)結(jié)果，我們可以將其中聯(lián)系到物流的關(guān)鍵詞篩選出來(lái)，作為物流關(guān)鍵詞的初步詞庫(kù)。

因?yàn)樽远x詞典已經(jīng)是【物流詞匯大全.txt】了，因此絕大部分物流詞匯都將包含在內(nèi)，這些關(guān)鍵詞排名越靠前，那么他在語(yǔ)料中的頻次或者說(shuō)重要性越大。一般來(lái)說(shuō)，取排名靠前的關(guān)鍵詞即可，排名越靠后，那么該關(guān)鍵詞的影響作用也就越小，對(duì)于后邊的統(tǒng)計(jì)研究意義也不大。

舉例來(lái)說(shuō)，我在此取 20 個(gè)物流關(guān)鍵詞，將其放入工具類(lèi)中：

class BaseHandle(object):

    def __init__(self):
        # 物流關(guān)鍵詞詞庫(kù)：初步20個(gè)
        self.logistics_list = ['京東', '新鮮', '包裝', '物流', '很快', '快遞', '收到','速度', '送貨', '推薦',
                               '小哥', '服務(wù)', '發(fā)貨', '配送', '送到', '到貨', '第二天', '冷鏈', '完好', '送貨上門(mén)']

接下來(lái)就是通過(guò) Word2vec 對(duì)物流關(guān)鍵詞詞庫(kù)進(jìn)行拓展。

2 word2vec 拓展關(guān)鍵詞詞庫(kù)

簡(jiǎn)單來(lái)說(shuō)，上邊的流程已經(jīng)滿(mǎn)足構(gòu)建基礎(chǔ)關(guān)鍵詞詞庫(kù)的要求了，不過(guò)為了使得研究更加“高級(jí)”一些，可以考慮使用 Word2vec 來(lái)拓展關(guān)鍵詞詞庫(kù)，主要是起到完善關(guān)鍵詞詞庫(kù)的作用。

關(guān)于 word2vec 的理論知識(shí)就暫且不提了，主要是分析詞匯間的相關(guān)度（相關(guān)度越高，兩詞匯越緊密），以下是如何使用 word2vec 的流程。

Gensim 是 Python 的一個(gè)自然語(yǔ)言處理模塊，該模塊下命名為 word2vec 的模型封裝了word2vec 的實(shí)現(xiàn)邏輯，可以使用它來(lái)進(jìn)行?word2vec 算法操作：

pip install gensim

2.1 訓(xùn)練 word2vec 模型

word2vec 使用第一步是針對(duì)語(yǔ)料訓(xùn)練屬于該語(yǔ)料數(shù)據(jù)的模型，特殊的一點(diǎn)在于，它需要針對(duì)每條評(píng)論/語(yǔ)料的的分詞結(jié)果進(jìn)行訓(xùn)練分析，這是因?yàn)?word2vec 本質(zhì)在于分析詞匯間的聯(lián)系，他需要許多獨(dú)立的分詞結(jié)果進(jìn)行解析。

代碼如下：

import xlrd
from gensim.models import word2vec
from word_count import split_words_jieba

def wordcut_listinlist(url):
    '''讀取excel評(píng)論并分別對(duì)每條評(píng)論進(jìn)行分詞操作'''
    excel = xlrd.open_workbook(url)  # 打開(kāi)excel文件
    table = excel.sheet_by_index(0)  # 根據(jù)下標(biāo)獲取工作薄，這里獲取第一個(gè)
    comments_list = table.col_values(1, start_rowx=1)  # 獲取第一列的內(nèi)容
    list = []
    for i in comments_list:
        a = split_words_jieba(i)
        list.append(a)
    return list  # [['xx','xx]、['X']、['XXX']]


def word2vec_trainmodel(url):  # 訓(xùn)練一次就行了
    '''Word2vec關(guān)鍵詞擴(kuò)展——訓(xùn)練模型'''
    sentennce = wordcut_listinlist(url)
    # 1.建立模型
    model = word2vec.Word2Vec(sentennce, vector_size=200)  # 訓(xùn)練skip-gram模型，默認(rèn)window=5
    # 2.保存模型，以便重用
    model.save(u"word2vec_last.model")

if __name__ == "__main__":
    word2vec_trainmodel(baseHandle.get_file_abspath('語(yǔ)料庫(kù)_京東_5000條評(píng)論.xlsx')) # 5000條評(píng)論，運(yùn)行2分鐘

隨后同目錄下會(huì)輸出命名為?word2vec_last.model 的文件，這表示訓(xùn)練成功：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

2.2 使用模型—最終構(gòu)建詞庫(kù)

然后就是直接使用該模型就行了，入?yún)⑹悄硞€(gè)關(guān)鍵詞，輸出 10 個(gè)與其相近的關(guān)鍵詞，可修改 topn 來(lái)控制輸出相關(guān)關(guān)鍵詞的個(gè)數(shù)。

def similar_words(word):
    '''計(jì)算某個(gè)詞的相關(guān)詞列表——前提是已存在訓(xùn)練好的模型'''
    model1 = word2vec.Word2Vec.load("word2vec_last.model")  # 模型的加載方式
    y2 = model1.wv.most_similar(word, topn=10)  # 10個(gè)最相關(guān)的
    print("和{}最相關(guān)的詞有：".format(word))
    for item in y2:
        print(item[0], '%.3f' % item[1])

if __name__ == "__main__":
    similar_words('物流')

比如查詢(xún)“物流”的在該語(yǔ)料中最相關(guān)的關(guān)鍵詞：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

接下來(lái)就可以依據(jù)現(xiàn)實(shí)情況給關(guān)鍵詞詞庫(kù)添加關(guān)鍵詞了，這都取決于你。我簡(jiǎn)單地給之前的物流關(guān)鍵詞詞庫(kù)加 8?個(gè)關(guān)鍵詞：

class BaseHandle(object):

    def __init__(self):
        # 物流關(guān)鍵詞詞庫(kù)：目前28個(gè)物流關(guān)鍵詞
        self.logistics_list = ['京東', '新鮮', '包裝', '物流', '很快', '快遞', '收到', '速度', '送貨', '推薦',
                               '小哥', '服務(wù)', '發(fā)貨', '配送', '送到', '到貨', '第二天', '冷鏈', '完好', '送貨上門(mén)'
                               # 使用word2vec加的關(guān)鍵詞 ??
                               '嚴(yán)謹(jǐn)','保障', '效率', '方便快捷', '客服', '省心', '快捷', '嚴(yán)實(shí)']

當(dāng)然這只是做個(gè)演示，實(shí)際研究時(shí)很難不上百。

2.3?Wordcloud 詞云圖

前邊我們已經(jīng)構(gòu)建完物流關(guān)鍵詞詞庫(kù)了，那么為了繼續(xù)整活，可以給詞庫(kù)里的關(guān)鍵詞做個(gè)詞云圖，這不就顯得高大上了。

?? 物流關(guān)鍵詞詞頻

雖然前邊構(gòu)建了詞庫(kù)，但是并不知道具體某個(gè)關(guān)鍵詞的詞頻是多少，這時(shí)之前的【高頻詞統(tǒng)計(jì).xlsx】就派上用場(chǎng)了。簡(jiǎn)單來(lái)說(shuō)，就算依據(jù)每個(gè)物流關(guān)鍵詞，遍歷【高頻詞統(tǒng)計(jì).xlsx】，找到屬于每個(gè)物流關(guān)鍵詞的詞頻，這是做關(guān)鍵詞詞庫(kù)詞云圖的基礎(chǔ)。

依舊將他放在工具類(lèi)里邊，代碼如下：

import xlrd
import pandas as pd

'''
工具類(lèi)
'''
class BaseHandle(object):

    def __init__(self):
        # 物流關(guān)鍵詞詞庫(kù)：目前28個(gè)物流關(guān)鍵詞
        self.logistics_list = ['京東', '新鮮', '包裝', '物流', '很快', '快遞', '收到', '速度', '送貨', '推薦',
                               '小哥', '服務(wù)', '發(fā)貨', '配送', '送到', '到貨', '第二天', '冷鏈', '完好', '送貨上門(mén)'
                               # 使用word2vec加的關(guān)鍵詞 ??
                               '嚴(yán)謹(jǐn)','保障', '效率', '方便快捷', '客服', '省心', '快捷', '嚴(yán)實(shí)']

    def words_fre_match(self, filename, lis):
        '''關(guān)鍵詞批量匹配詞頻'''
        df = pd.read_excel(filename)#'高頻詞統(tǒng)計(jì).xlsx'
        b1 = []
        b2 = []
        for i in range(len(df)):
            keyword = df.loc[i, 'keyword']
            if any(word if word == keyword else False for word in lis):  # 判斷列表(list)內(nèi)一個(gè)或多個(gè)元素是否與關(guān)鍵詞相同
                a1 = df.loc[i, 'keyword']
                a2 = df.loc[i, 'fre']
                b1.append(a1)
                b2.append(a2)
            else:
                continue
        f1 = pd.DataFrame(columns=['關(guān)鍵詞', '詞頻'])
        f1['關(guān)鍵詞'] = b1
        f1['詞頻'] = b2
        f1.to_excel('物流關(guān)鍵詞詞頻匹配表.xlsx')

if __name__ == '__main__':
    base = BaseHandle()
    base.words_fre_match(os.path.abspath(os.getcwd() + '/01/高頻詞統(tǒng)計(jì).xlsx'), base.logistics_list)
    pass

輸出文件內(nèi)容如下：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

?? 詞云圖

接下來(lái)就可以使用這個(gè)匹配表來(lái)繪制詞云圖了富裕的同學(xué)可以使用在線(xiàn)網(wǎng)站來(lái)進(jìn)行制作，畢竟要比代碼制作美觀方便多了，比如：https://design.weiciyun.com/。

以下以 wordcloud 庫(kù)繪制詞云圖為例，由于 wordcloud 庫(kù)依賴(lài) numpy 庫(kù)和 PIL 庫(kù)的，因此需要提前安裝好這兩個(gè)庫(kù)。詞云圖有兩種做法：

針對(duì)文本，先 jieba 分詞，然后進(jìn)行繪制
根據(jù)已知的詞頻進(jìn)行繪制

那我們正是使用第二種方式，讀取【物流關(guān)鍵詞詞頻匹配表.xlsx】文件如下：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

把該方法放在工具類(lèi)中，以下是簡(jiǎn)單繪制的代碼：

import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

class BaseHandle(object):

    def wordcloud_by_wordcount(self, url):
        '''根據(jù)詞匯及對(duì)應(yīng)詞頻繪制詞云圖'''
        data = pd.read_excel(url, sheet_name='Sheet1') # 獲得數(shù)據(jù)
        data_gr = data.groupby(by='關(guān)鍵詞', as_index=False).agg({'詞頻': int}) # 拿數(shù)據(jù)
        dic = dict(zip(data_gr['關(guān)鍵詞'], data_gr['詞頻'])) # 轉(zhuǎn)化為字典形式
        # print(dic)

        # fit_word函數(shù)，接受字典類(lèi)型，其他類(lèi)型會(huì)報(bào)錯(cuò)
        wordcloud = WordCloud(font_path='simhei.ttf', background_color="white", width=4000, height=2000,
                              margin=10).fit_words(dic)
        plt.imshow(wordcloud)
        plt.axis("off") # 取消坐標(biāo)軸
        plt.show() # 顯示

if __name__ == '__main__':
    base = BaseHandle()
    base.wordcloud_by_wordcount(os.path.abspath(os.getcwd() + '/01/物流關(guān)鍵詞詞頻匹配表.xlsx'))
    pass

生成詞云圖如下：

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

如果大家想制作更加精美的詞云圖，可繼續(xù)深入研究~文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-568438.html

到了這里，關(guān)于基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

論文精讀--word2vec
word2vec從大量文本語(yǔ)料中以無(wú)監(jiān)督方式學(xué)習(xí)語(yǔ)義知識(shí)，是用來(lái)生成詞向量的工具把文本分散嵌入到另一個(gè)離散空間，稱(chēng)作分布式表示，又稱(chēng)為詞嵌入（word embedding）或詞向量 We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The qua
2024年02月22日
瀏覽(19)
【自然語(yǔ)言處理（NLP）】基于Skip-gram實(shí)現(xiàn)Word2Vec
活動(dòng)地址：[CSDN21天學(xué)習(xí)挑戰(zhàn)賽](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd) 作者簡(jiǎn)介：在校大學(xué)生一枚，華為云享專(zhuān)家，阿里云星級(jí)博主，騰云先鋒（TDP）成員，云曦智劃項(xiàng)目總負(fù)責(zé)人，全國(guó)高等學(xué)校計(jì)算機(jī)教學(xué)與產(chǎn)業(yè)實(shí)踐資源建設(shè)專(zhuān)家委員會(huì)（TIPCC）志愿者，以及編程
2024年02月09日
瀏覽(26)
Word2Vec的CBOW模型
Word2Vec中的CBOW（Continuous Bag of Words）模型是一種用于學(xué)習(xí)詞向量的神經(jīng)網(wǎng)絡(luò)模型。CBOW的核心思想是根據(jù)上下文中的周?chē)鷨卧~來(lái)預(yù)測(cè)目標(biāo)單詞。例如，對(duì)于句子“The cat climbed up the tree”，如果窗口大小為5，那么當(dāng)中心單詞為“climbed”時(shí)，上下文單詞為“The”、“cat”、“up”
2024年02月02日
瀏覽(26)
Word2Vec實(shí)現(xiàn)文本識(shí)別分類(lèi)
?? 本文為??365天深度學(xué)習(xí)訓(xùn)練營(yíng) 中的學(xué)習(xí)記錄博客 ?? 參考文章：365天深度學(xué)習(xí)訓(xùn)練營(yíng)-第N4周：用Word2Vec實(shí)現(xiàn)文本分類(lèi) ?? 原作者：K同學(xué)啊|接輔導(dǎo)、項(xiàng)目定制語(yǔ)言環(huán)境：Python3.9.12 編譯器：jupyter notebook 深度學(xué)習(xí)環(huán)境：TensorFlow2 本次內(nèi)容我本來(lái)是使用miniconda的環(huán)境的,但是好
2024年02月16日
瀏覽(25)
大語(yǔ)言模型系列-word2vec
在前文大語(yǔ)言模型系列-總述已經(jīng)提到傳統(tǒng)NLP的一般流程：傳統(tǒng)的分詞向量化的手段是進(jìn)行簡(jiǎn)單編碼（如one-hot），存在如下缺點(diǎn)：如果詞庫(kù)過(guò)大， one-hot編碼生成的向量會(huì)造成維度災(zāi)難 one-hot編碼生成的向量是稀疏的，它們之間的距離相等，無(wú)法捕捉單詞之間的語(yǔ)義關(guān)系。
2024年01月18日
瀏覽(31)
【NLP】Word2Vec原理和認(rèn)識(shí)
????????Word2Vec是NLP領(lǐng)域的最新突破。Tomas Mikolov是捷克計(jì)算機(jī)科學(xué)家，目前是CIIRC（捷克信息學(xué)，機(jī)器人和控制論研究所）的研究員，是word2vec研究和實(shí)施的主要貢獻(xiàn)者之一。詞嵌入是解決NLP中許多問(wèn)題不可或缺的一部分。它們描繪了人類(lèi)如何向機(jī)器理解語(yǔ)言。您可以將它
2024年02月12日
瀏覽(22)
一文了解Word2vec 闡述訓(xùn)練流程
??在機(jī)器學(xué)習(xí)領(lǐng)域，嵌入（embeddings）的概念無(wú)疑是其中最令人興奮的創(chuàng)新之一。想象一下，每當(dāng)你與 Siri 、 Google Assistant 、 Alexa 或 Google Translate 互動(dòng)，甚至在使用具有下一個(gè)詞預(yù)測(cè)功能的手機(jī)輸入法（比如蘋(píng)果輸入法、搜狗輸入法）時(shí)，你其實(shí)都在享受詞嵌入模型帶來(lái)的
2024年02月05日
瀏覽(26)
自然語(yǔ)言處理-詞向量模型-Word2Vec
通常數(shù)據(jù)的維度越高，能提供的信息也就越多，從而計(jì)算結(jié)果的可靠性就更值得信賴(lài) 如何來(lái)描述語(yǔ)言的特征呢，通常都在詞的層面上構(gòu)建特征，Word2Vec就是要把詞轉(zhuǎn)換成向量假設(shè)現(xiàn)在已經(jīng)拿到一份訓(xùn)練好的詞向量，其中每一個(gè)詞都表示為50維的向量如果在熱度圖中顯示，結(jié)果
2024年02月09日
瀏覽(26)
NLP實(shí)戰(zhàn)：使用Word2vec實(shí)現(xiàn)文本分類(lèi)
目錄一、數(shù)據(jù)預(yù)處理 1、加載數(shù)據(jù) 2. 構(gòu)建詞典 3.生成數(shù)據(jù)批次和迭代器二、模型構(gòu)建 1.搭建模型 2.初始化模型 3.定義訓(xùn)練與評(píng)估函數(shù) 三、訓(xùn)練模型 1. 拆分?jǐn)?shù)據(jù)集并運(yùn)行模型 2. 測(cè)試指定數(shù)據(jù) ?? 本文為[??365天深度學(xué)習(xí)訓(xùn)練營(yíng)]內(nèi)部限免文章（版權(quán)歸 *K同學(xué)啊* 所有） ?? 作者
2024年02月10日
瀏覽(21)
【NLP】Word2vec概念和演進(jìn)史
????????“萬(wàn)物都有一種模式，它是我們宇宙的一部分。它具有對(duì)稱(chēng)、優(yōu)雅和優(yōu)雅——這些品質(zhì)你總能在真正的藝術(shù)家捕捉到的作品中找到?！?~ 沙丘 (1965) ? ? ? ? 對(duì)于word2vec，它不是一個(gè)或一種算法，而是一系列思想和算法的綜合。本文通過(guò)有限篇幅，試圖穿越思想跨
2024年02月11日
瀏覽(24)

<strong id="mhwu8"><dl id="mhwu8"></dl></strong>