国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建

這篇具有很好參考價(jià)值的文章主要介紹了基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

最近有空,把論文中用到的技術(shù)和大家分享一下(以組件化的形式),本文是第一篇,將講述如何從大量的語(yǔ)料中獲取諸多關(guān)鍵詞和構(gòu)建關(guān)鍵詞詞庫(kù)或 xx 關(guān)鍵詞詞庫(kù)(細(xì)分領(lǐng)域)。舉例以購(gòu)物網(wǎng)站的在線(xiàn)評(píng)論作為語(yǔ)料庫(kù),對(duì)其進(jìn)行分詞等操作,最終構(gòu)建關(guān)鍵詞詞庫(kù)(以物流關(guān)鍵詞詞庫(kù)為例)和順便繪制詞云圖。關(guān)鍵詞詞庫(kù)構(gòu)建完成后,可以做的事情就多了,往后包括權(quán)值計(jì)算和情感分析,這些都是將關(guān)鍵詞作為基礎(chǔ)單位的,往前對(duì)接 xx 評(píng)價(jià)指標(biāo)體系(這些是題外話(huà),可以忽略)。

目錄

1?Jieba?分詞及詞頻統(tǒng)計(jì)

1.1?自定義詞典

1.2?停用詞典

1.3?詞頻統(tǒng)計(jì)—初步構(gòu)建詞庫(kù)

①?語(yǔ)料

②?處理 excel 語(yǔ)料數(shù)據(jù)

③ 分詞及詞頻統(tǒng)計(jì)

④ 初步構(gòu)建物流關(guān)鍵詞詞庫(kù)

2 word2vec 拓展關(guān)鍵詞詞庫(kù)

2.1 訓(xùn)練 word2vec 模型

2.2 使用模型—最終構(gòu)建詞庫(kù)

2.3?Wordcloud 詞云圖


代碼地址:https://gitee.com/yinyuu/nlp_yinyu

1?Jieba?分詞及詞頻統(tǒng)計(jì)

jieba 是一種中文分詞工具,它可以將中文文本進(jìn)行分詞,將文本中的詞語(yǔ)分開(kāi),并標(biāo)注它們的詞性。可以通過(guò)以下命令進(jìn)行安裝:

pip install jieba

1.1?自定義詞典

jieba 進(jìn)行分詞時(shí),絕大部分的詞匯都能識(shí)別出來(lái),但是對(duì)于一些特有名詞的識(shí)別就比較困難了,比如京東、淘寶、拼多多等等,這些特有詞匯與在線(xiàn)評(píng)論的語(yǔ)料緊密關(guān)聯(lián),但是作為特有名詞一般不會(huì)被記錄在?jieba 模型中。

因此需求構(gòu)建自定義詞典,來(lái)處理語(yǔ)料中可能出現(xiàn)的特有名詞,進(jìn)而避免過(guò)度切分(比如將拼多多切分為多多)。

同時(shí),自定義詞典也承擔(dān)著指導(dǎo)關(guān)鍵詞詞庫(kù)的作用,針對(duì)購(gòu)物網(wǎng)站的在線(xiàn)評(píng)論,比如構(gòu)建物流關(guān)鍵詞詞庫(kù),那么就需要補(bǔ)充物流相關(guān)特有名詞加入自定義詞典;比如構(gòu)建包裝關(guān)鍵詞詞庫(kù),那么就需要包裝相關(guān)特有名詞......

?? 詞庫(kù)網(wǎng)站

這里推薦搜狗輸入法的詞庫(kù)網(wǎng)站,涵蓋了蠻多領(lǐng)域,詞庫(kù)的選擇取決于你研究的對(duì)象和語(yǔ)料基礎(chǔ)。

https://pinyin.sogou.com/dict/cate/index/96

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

?? 處理?scel 格式文件

下載完某詞庫(kù)后,它是?scel 格式文件,這不符合 jieba 自定義詞典的加載格式,因此需要進(jìn)行處理。

比如物流詞匯大全【官方推薦】.scel,大家可以下載深藍(lán)詞庫(kù)工具將其轉(zhuǎn)化為 text 文本(隨后可將后綴改為 txt 即可),或者以下在線(xiàn)處理網(wǎng)站:https://www.toolnb.com/tools/scelto.html,這樣就更方便了。

處理完后如下:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

1.2?停用詞典

分詞時(shí),其實(shí)并沒(méi)有將數(shù)字、符號(hào)、虛詞等不相關(guān)內(nèi)容做區(qū)分,這些詞就是停用詞,因?yàn)檫@些詞對(duì)于后面的研究來(lái)說(shuō)意義不大,而且還可能影響文本分析的效率和準(zhǔn)確性,因此需要使用停用詞典。

之前我整合了百度停用詞表+哈工大停用詞表+機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)等詞表,可在項(xiàng)目中自取~

1.3?詞頻統(tǒng)計(jì)—初步構(gòu)建詞庫(kù)

①?語(yǔ)料

接下來(lái)使用 jieba 進(jìn)行一次簡(jiǎn)單的詞頻統(tǒng)計(jì),語(yǔ)料是我之前爬取的京東網(wǎng)站上的 5000 條評(píng)論數(shù)據(jù),可在文章頂部下載查看,截圖如下:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

②?處理 excel 語(yǔ)料數(shù)據(jù)

大家可以看到,目前語(yǔ)料數(shù)據(jù)還是 excel 格式,這是不滿(mǎn)足 jieba 分詞的要求的,因此需要對(duì)其做進(jìn)一步的處理,代碼如下:

import xlrd

'''
工具類(lèi)
'''
class BaseHandle(object):

    def read_col_merge_file(self, url):
        '''讀取合并列表comments列的值輸出為txt'''
        excel = xlrd.open_workbook(url)  # 打開(kāi)excel文件
        table = excel.sheet_by_index(0)  # 根據(jù)下標(biāo)獲取工作薄,這里獲取第一個(gè)
        comments_list = table.col_values(1, start_rowx=1)  # 獲取第一列的內(nèi)容
        comments_str = '\n'.join(comments_list)  # 將數(shù)組轉(zhuǎn)換成字符串,空行連接,模仿text文本
        return comments_str

    def get_file_abspath(self, filename):
        '''獲取文件的根本路徑,文件一般在\nlp_yinyu\下'''
        # 拼接路徑
        path = os.path.join(os.path.dirname(os.getcwd()), filename)
        # 返回根本路徑
        return os.path.abspath(path)


if __name__ == '__main__':
    base = BaseHandle()
    comments_str = base.read_col_merge_file('語(yǔ)料庫(kù)_京東_5000條評(píng)論.xlsx')
    print(comments_str)

注意 xlrd 庫(kù)的版本,需要小于等于 1.2.0,不然無(wú)法解析 xlsx 格式文件。同時(shí)由于我把文件放在了同目錄下,因此 filename 直接使用文件名,不然建議使用絕對(duì)路徑。

該方法使用后效果如下:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

③ 分詞及詞頻統(tǒng)計(jì)

因?yàn)楸疚囊詷?gòu)建物流關(guān)鍵詞詞庫(kù)為例,因此引入物流詞匯自定義詞典,主要分為以下三步:

  1. 引入語(yǔ)料 excel 數(shù)據(jù)
  2. jieba 分詞
  3. 對(duì)分詞結(jié)果進(jìn)行統(tǒng)計(jì),最后生成【高頻詞統(tǒng)計(jì).xlsx】文件

注意,需要安裝 openpyxl 這個(gè)庫(kù),那么?DataFrame 才能生成 excel 文件。

代碼如下:

import jieba
import pandas as pd
from base_handle import BaseHandle # 引入工具類(lèi)

baseHandle = BaseHandle() #實(shí)例化

'''
1.1 Jieba 分詞及詞頻統(tǒng)計(jì)
'''

def split_words_jieba(text):
    '''jieba分詞操作'''
    diy_dict = (baseHandle.get_file_abspath('物流詞匯大全.txt'))  # 引入自定義詞典
    jieba.load_userdict(diy_dict)  # 加載自定義字典
    comment_cut = jieba.lcut(text)  # 分詞結(jié)果
    # print(comment_cut)

    # 引入停用詞表,當(dāng)文本文件中帶有英文雙引號(hào)時(shí),直接用pd.read_csv進(jìn)行讀取會(huì)導(dǎo)致行數(shù)減少,因此使用quoting=3
    stop_dic = (baseHandle.get_file_abspath('百度+哈工大+機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù).txt'))
    stopwords = pd.read_csv(stop_dic, names=['w'], header=None, sep='\t', encoding='utf-8', quoting=3)
    datas = []  # 去除停用詞提取名詞
    for word in comment_cut:
        if word not in list(stopwords.w) and len(word) > 1:
            datas.append(word)
    # print("分詞+停用詞成功\n"+str(data))
    return datas


def count_fre_words(datas):
    '''高頻詞統(tǒng)計(jì)'''
    counts = {}  # 新建1個(gè)字典
    for data in datas:
        counts[data] = counts.get(data, 0) + 1
    # 將字典列表化,并按頻次排序
    items = list(counts.items())
    items.sort(key=lambda x: x[1], reverse=True)
    dt = pd.DataFrame(items, columns=['keyword', 'fre'])  # list 轉(zhuǎn)換為 df
    # print(dt)
    dt1 = dt[(dt.fre != 1)]  # 刪去頻次為1的關(guān)鍵詞
    dt1.to_excel('高頻詞統(tǒng)計(jì).xlsx')  # 儲(chǔ)存為表格


if __name__ == "__main__":
    # 1.引入語(yǔ)料excel數(shù)據(jù)
    text = baseHandle.read_col_merge_file(baseHandle.get_file_abspath('語(yǔ)料庫(kù)_京東_5000條評(píng)論.xlsx'))
    # 2.jieba分詞
    datas = split_words_jieba(text)
    # 3.對(duì)分詞結(jié)果進(jìn)行統(tǒng)計(jì),最后生成【高頻詞統(tǒng)計(jì).xlsx】文件
    count_fre_words(datas)

部分分詞結(jié)果如下,可以看到語(yǔ)料數(shù)據(jù)被切分成一個(gè)個(gè)詞匯

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

最終輸出【高頻詞統(tǒng)計(jì).xlsx】文件如下:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

④ 初步構(gòu)建物流關(guān)鍵詞詞庫(kù)

此時(shí),物流關(guān)鍵詞詞庫(kù)已經(jīng)初具模型了,基于這個(gè)高頻詞統(tǒng)計(jì)結(jié)果,我們可以將其中聯(lián)系到物流的關(guān)鍵詞篩選出來(lái),作為物流關(guān)鍵詞的初步詞庫(kù)

因?yàn)樽远x詞典已經(jīng)是【物流詞匯大全.txt】了,因此絕大部分物流詞匯都將包含在內(nèi),這些關(guān)鍵詞排名越靠前,那么他在語(yǔ)料中的頻次或者說(shuō)重要性越大。一般來(lái)說(shuō),取排名靠前的關(guān)鍵詞即可,排名越靠后,那么該關(guān)鍵詞的影響作用也就越小,對(duì)于后邊的統(tǒng)計(jì)研究意義也不大。

舉例來(lái)說(shuō),我在此取 20 個(gè)物流關(guān)鍵詞,將其放入工具類(lèi)中:

class BaseHandle(object):

    def __init__(self):
        # 物流關(guān)鍵詞詞庫(kù):初步20個(gè)
        self.logistics_list = ['京東', '新鮮', '包裝', '物流', '很快', '快遞', '收到','速度', '送貨', '推薦',
                               '小哥', '服務(wù)', '發(fā)貨', '配送', '送到', '到貨', '第二天', '冷鏈', '完好', '送貨上門(mén)']

接下來(lái)就是通過(guò) Word2vec 對(duì)物流關(guān)鍵詞詞庫(kù)進(jìn)行拓展。

2 word2vec 拓展關(guān)鍵詞詞庫(kù)

簡(jiǎn)單來(lái)說(shuō),上邊的流程已經(jīng)滿(mǎn)足構(gòu)建基礎(chǔ)關(guān)鍵詞詞庫(kù)的要求了,不過(guò)為了使得研究更加“高級(jí)”一些,可以考慮使用 Word2vec 來(lái)拓展關(guān)鍵詞詞庫(kù),主要是起到完善關(guān)鍵詞詞庫(kù)的作用。

關(guān)于 word2vec 的理論知識(shí)就暫且不提了,主要是分析詞匯間的相關(guān)度(相關(guān)度越高,兩詞匯越緊密),以下是如何使用 word2vec 的流程。

Gensim Python 的一個(gè)自然語(yǔ)言處理模塊,該模塊下命名為 word2vec 的模型封裝了word2vec 的實(shí)現(xiàn)邏輯,可以使用它來(lái)進(jìn)行?word2vec 算法操作:

pip install gensim

2.1 訓(xùn)練 word2vec 模型

word2vec 使用第一步是針對(duì)語(yǔ)料訓(xùn)練屬于該語(yǔ)料數(shù)據(jù)的模型,特殊的一點(diǎn)在于,它需要針對(duì)每條評(píng)論/語(yǔ)料的的分詞結(jié)果進(jìn)行訓(xùn)練分析,這是因?yàn)?word2vec 本質(zhì)在于分析詞匯間的聯(lián)系,他需要許多獨(dú)立的分詞結(jié)果進(jìn)行解析。

代碼如下:

import xlrd
from gensim.models import word2vec
from word_count import split_words_jieba

def wordcut_listinlist(url):
    '''讀取excel評(píng)論并分別對(duì)每條評(píng)論進(jìn)行分詞操作'''
    excel = xlrd.open_workbook(url)  # 打開(kāi)excel文件
    table = excel.sheet_by_index(0)  # 根據(jù)下標(biāo)獲取工作薄,這里獲取第一個(gè)
    comments_list = table.col_values(1, start_rowx=1)  # 獲取第一列的內(nèi)容
    list = []
    for i in comments_list:
        a = split_words_jieba(i)
        list.append(a)
    return list  # [['xx','xx]、['X']、['XXX']]


def word2vec_trainmodel(url):  # 訓(xùn)練一次就行了
    '''Word2vec關(guān)鍵詞擴(kuò)展——訓(xùn)練模型'''
    sentennce = wordcut_listinlist(url)
    # 1.建立模型
    model = word2vec.Word2Vec(sentennce, vector_size=200)  # 訓(xùn)練skip-gram模型,默認(rèn)window=5
    # 2.保存模型,以便重用
    model.save(u"word2vec_last.model")

if __name__ == "__main__":
    word2vec_trainmodel(baseHandle.get_file_abspath('語(yǔ)料庫(kù)_京東_5000條評(píng)論.xlsx')) # 5000條評(píng)論,運(yùn)行2分鐘

隨后同目錄下會(huì)輸出命名為?word2vec_last.model 的文件,這表示訓(xùn)練成功:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

2.2 使用模型—最終構(gòu)建詞庫(kù)

然后就是直接使用該模型就行了,入?yún)⑹悄硞€(gè)關(guān)鍵詞,輸出 10 個(gè)與其相近的關(guān)鍵詞,可修改 topn 來(lái)控制輸出相關(guān)關(guān)鍵詞的個(gè)數(shù)。

def similar_words(word):
    '''計(jì)算某個(gè)詞的相關(guān)詞列表——前提是已存在訓(xùn)練好的模型'''
    model1 = word2vec.Word2Vec.load("word2vec_last.model")  # 模型的加載方式
    y2 = model1.wv.most_similar(word, topn=10)  # 10個(gè)最相關(guān)的
    print("和{}最相關(guān)的詞有:".format(word))
    for item in y2:
        print(item[0], '%.3f' % item[1])

if __name__ == "__main__":
    similar_words('物流')

比如查詢(xún)“物流”的在該語(yǔ)料中最相關(guān)的關(guān)鍵詞:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

接下來(lái)就可以依據(jù)現(xiàn)實(shí)情況給關(guān)鍵詞詞庫(kù)添加關(guān)鍵詞了,這都取決于你。我簡(jiǎn)單地給之前的物流關(guān)鍵詞詞庫(kù)加 8?個(gè)關(guān)鍵詞:

class BaseHandle(object):

    def __init__(self):
        # 物流關(guān)鍵詞詞庫(kù):目前28個(gè)物流關(guān)鍵詞
        self.logistics_list = ['京東', '新鮮', '包裝', '物流', '很快', '快遞', '收到', '速度', '送貨', '推薦',
                               '小哥', '服務(wù)', '發(fā)貨', '配送', '送到', '到貨', '第二天', '冷鏈', '完好', '送貨上門(mén)'
                               # 使用word2vec加的關(guān)鍵詞 ??
                               '嚴(yán)謹(jǐn)','保障', '效率', '方便快捷', '客服', '省心', '快捷', '嚴(yán)實(shí)']

當(dāng)然這只是做個(gè)演示,實(shí)際研究時(shí)很難不上百。

2.3?Wordcloud 詞云圖

前邊我們已經(jīng)構(gòu)建完物流關(guān)鍵詞詞庫(kù)了,那么為了繼續(xù)整活,可以給詞庫(kù)里的關(guān)鍵詞做個(gè)詞云圖,這不就顯得高大上了。

?? 物流關(guān)鍵詞詞頻

雖然前邊構(gòu)建了詞庫(kù),但是并不知道具體某個(gè)關(guān)鍵詞的詞頻是多少,這時(shí)之前的【高頻詞統(tǒng)計(jì).xlsx】就派上用場(chǎng)了。簡(jiǎn)單來(lái)說(shuō),就算依據(jù)每個(gè)物流關(guān)鍵詞,遍歷【高頻詞統(tǒng)計(jì).xlsx】,找到屬于每個(gè)物流關(guān)鍵詞的詞頻,這是做關(guān)鍵詞詞庫(kù)詞云圖的基礎(chǔ)。

依舊將他放在工具類(lèi)里邊,代碼如下:

import xlrd
import pandas as pd

'''
工具類(lèi)
'''
class BaseHandle(object):

    def __init__(self):
        # 物流關(guān)鍵詞詞庫(kù):目前28個(gè)物流關(guān)鍵詞
        self.logistics_list = ['京東', '新鮮', '包裝', '物流', '很快', '快遞', '收到', '速度', '送貨', '推薦',
                               '小哥', '服務(wù)', '發(fā)貨', '配送', '送到', '到貨', '第二天', '冷鏈', '完好', '送貨上門(mén)'
                               # 使用word2vec加的關(guān)鍵詞 ??
                               '嚴(yán)謹(jǐn)','保障', '效率', '方便快捷', '客服', '省心', '快捷', '嚴(yán)實(shí)']

    def words_fre_match(self, filename, lis):
        '''關(guān)鍵詞批量匹配詞頻'''
        df = pd.read_excel(filename)#'高頻詞統(tǒng)計(jì).xlsx'
        b1 = []
        b2 = []
        for i in range(len(df)):
            keyword = df.loc[i, 'keyword']
            if any(word if word == keyword else False for word in lis):  # 判斷列表(list)內(nèi)一個(gè)或多個(gè)元素是否與關(guān)鍵詞相同
                a1 = df.loc[i, 'keyword']
                a2 = df.loc[i, 'fre']
                b1.append(a1)
                b2.append(a2)
            else:
                continue
        f1 = pd.DataFrame(columns=['關(guān)鍵詞', '詞頻'])
        f1['關(guān)鍵詞'] = b1
        f1['詞頻'] = b2
        f1.to_excel('物流關(guān)鍵詞詞頻匹配表.xlsx')

if __name__ == '__main__':
    base = BaseHandle()
    base.words_fre_match(os.path.abspath(os.getcwd() + '/01/高頻詞統(tǒng)計(jì).xlsx'), base.logistics_list)
    pass

輸出文件內(nèi)容如下:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

?? 詞云圖

接下來(lái)就可以使用這個(gè)匹配表來(lái)繪制詞云圖了富裕的同學(xué)可以使用在線(xiàn)網(wǎng)站來(lái)進(jìn)行制作,畢竟要比代碼制作美觀方便多了,比如:https://design.weiciyun.com/。

以下以 wordcloud 庫(kù)繪制詞云圖為例,由于 wordcloud 庫(kù)依賴(lài) numpy 庫(kù)和 PIL 庫(kù)的,因此需要提前安裝好這兩個(gè)庫(kù)。詞云圖有兩種做法:

  1. 針對(duì)文本,先 jieba 分詞,然后進(jìn)行繪制
  2. 根據(jù)已知的詞頻進(jìn)行繪制

那我們正是使用第二種方式,讀取【物流關(guān)鍵詞詞頻匹配表.xlsx】文件如下:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

把該方法放在工具類(lèi)中,以下是簡(jiǎn)單繪制的代碼:

import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

class BaseHandle(object):

    def wordcloud_by_wordcount(self, url):
        '''根據(jù)詞匯及對(duì)應(yīng)詞頻繪制詞云圖'''
        data = pd.read_excel(url, sheet_name='Sheet1') # 獲得數(shù)據(jù)
        data_gr = data.groupby(by='關(guān)鍵詞', as_index=False).agg({'詞頻': int}) # 拿數(shù)據(jù)
        dic = dict(zip(data_gr['關(guān)鍵詞'], data_gr['詞頻'])) # 轉(zhuǎn)化為字典形式
        # print(dic)

        # fit_word函數(shù),接受字典類(lèi)型,其他類(lèi)型會(huì)報(bào)錯(cuò)
        wordcloud = WordCloud(font_path='simhei.ttf', background_color="white", width=4000, height=2000,
                              margin=10).fit_words(dic)
        plt.imshow(wordcloud)
        plt.axis("off") # 取消坐標(biāo)軸
        plt.show() # 顯示

if __name__ == '__main__':
    base = BaseHandle()
    base.wordcloud_by_wordcount(os.path.abspath(os.getcwd() + '/01/物流關(guān)鍵詞詞頻匹配表.xlsx'))
    pass

生成詞云圖如下:

基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建,# NLP,word2vec,人工智能,自然語(yǔ)言處理,python

如果大家想制作更加精美的詞云圖,可繼續(xù)深入研究~文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-568438.html

到了這里,關(guān)于基于 Jieba 和 Word2vec 的關(guān)鍵詞詞庫(kù)構(gòu)建的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文精讀--word2vec

    論文精讀--word2vec

    word2vec從大量文本語(yǔ)料中以無(wú)監(jiān)督方式學(xué)習(xí)語(yǔ)義知識(shí),是用來(lái)生成詞向量的工具 把文本分散嵌入到另一個(gè)離散空間,稱(chēng)作分布式表示,又稱(chēng)為詞嵌入(word embedding)或詞向量 We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The qua

    2024年02月22日
    瀏覽(19)
  • 【自然語(yǔ)言處理(NLP)】基于Skip-gram實(shí)現(xiàn)Word2Vec

    【自然語(yǔ)言處理(NLP)】基于Skip-gram實(shí)現(xiàn)Word2Vec

    活動(dòng)地址:[CSDN21天學(xué)習(xí)挑戰(zhàn)賽](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd) 作者簡(jiǎn)介 :在校大學(xué)生一枚,華為云享專(zhuān)家,阿里云星級(jí)博主,騰云先鋒(TDP)成員,云曦智劃項(xiàng)目總負(fù)責(zé)人,全國(guó)高等學(xué)校計(jì)算機(jī)教學(xué)與產(chǎn)業(yè)實(shí)踐資源建設(shè)專(zhuān)家委員會(huì)(TIPCC)志愿者,以及編程

    2024年02月09日
    瀏覽(26)
  • Word2Vec的CBOW模型

    Word2Vec的CBOW模型

    Word2Vec中的CBOW(Continuous Bag of Words)模型是一種用于學(xué)習(xí)詞向量的神經(jīng)網(wǎng)絡(luò)模型。CBOW的核心思想是根據(jù)上下文中的周?chē)鷨卧~來(lái)預(yù)測(cè)目標(biāo)單詞。 例如,對(duì)于句子“The cat climbed up the tree”,如果窗口大小為5,那么當(dāng)中心單詞為“climbed”時(shí),上下文單詞為“The”、“cat”、“up”

    2024年02月02日
    瀏覽(26)
  • Word2Vec實(shí)現(xiàn)文本識(shí)別分類(lèi)

    Word2Vec實(shí)現(xiàn)文本識(shí)別分類(lèi)

    ?? 本文為??365天深度學(xué)習(xí)訓(xùn)練營(yíng) 中的學(xué)習(xí)記錄博客 ?? 參考文章:365天深度學(xué)習(xí)訓(xùn)練營(yíng)-第N4周:用Word2Vec實(shí)現(xiàn)文本分類(lèi) ?? 原作者:K同學(xué)啊|接輔導(dǎo)、項(xiàng)目定制 語(yǔ)言環(huán)境:Python3.9.12 編譯器:jupyter notebook 深度學(xué)習(xí)環(huán)境:TensorFlow2 本次內(nèi)容我本來(lái)是使用miniconda的環(huán)境的,但是好

    2024年02月16日
    瀏覽(25)
  • 大語(yǔ)言模型系列-word2vec

    大語(yǔ)言模型系列-word2vec

    在前文大語(yǔ)言模型系列-總述已經(jīng)提到傳統(tǒng)NLP的一般流程: 傳統(tǒng)的分詞向量化的手段是進(jìn)行簡(jiǎn)單編碼(如one-hot),存在如下缺點(diǎn): 如果詞庫(kù)過(guò)大, one-hot編碼生成的向量會(huì)造成維度災(zāi)難 one-hot編碼生成的向量是稀疏的,它們之間的距離相等,無(wú)法捕捉單詞之間的語(yǔ)義關(guān)系。

    2024年01月18日
    瀏覽(31)
  • 【NLP】Word2Vec原理和認(rèn)識(shí)

    ????????Word2Vec是NLP領(lǐng)域的最新突破。Tomas Mikolov是捷克計(jì)算機(jī)科學(xué)家,目前是CIIRC(捷克信息學(xué),機(jī)器人和控制論研究所)的研究員,是word2vec研究和實(shí)施的主要貢獻(xiàn)者之一。詞嵌入是解決NLP中許多問(wèn)題不可或缺的一部分。它們描繪了人類(lèi)如何向機(jī)器理解語(yǔ)言。您可以將它

    2024年02月12日
    瀏覽(22)
  • 一文了解Word2vec 闡述訓(xùn)練流程

    一文了解Word2vec 闡述訓(xùn)練流程

    ??在機(jī)器學(xué)習(xí)領(lǐng)域,嵌入(embeddings)的概念無(wú)疑是其中最令人興奮的創(chuàng)新之一。想象一下,每當(dāng)你與 Siri 、 Google Assistant 、 Alexa 或 Google Translate 互動(dòng),甚至在使用具有下一個(gè)詞預(yù)測(cè)功能的手機(jī)輸入法(比如蘋(píng)果輸入法、搜狗輸入法)時(shí),你其實(shí)都在享受詞嵌入模型帶來(lái)的

    2024年02月05日
    瀏覽(26)
  • 自然語(yǔ)言處理-詞向量模型-Word2Vec

    自然語(yǔ)言處理-詞向量模型-Word2Vec

    通常數(shù)據(jù)的維度越高,能提供的信息也就越多,從而計(jì)算結(jié)果的可靠性就更值得信賴(lài) 如何來(lái)描述語(yǔ)言的特征呢,通常都在詞的層面上構(gòu)建特征,Word2Vec就是要把詞轉(zhuǎn)換成向量 假設(shè)現(xiàn)在已經(jīng)拿到一份訓(xùn)練好的詞向量,其中每一個(gè)詞都表示為50維的向量 如果在熱度圖中顯示,結(jié)果

    2024年02月09日
    瀏覽(26)
  • NLP實(shí)戰(zhàn):使用Word2vec實(shí)現(xiàn)文本分類(lèi)

    NLP實(shí)戰(zhàn):使用Word2vec實(shí)現(xiàn)文本分類(lèi)

    目錄 一、數(shù)據(jù)預(yù)處理 1、加載數(shù)據(jù) 2. 構(gòu)建詞典 3.生成數(shù)據(jù)批次和迭代器 二、模型構(gòu)建 1.搭建模型 2.初始化模型 3.定義訓(xùn)練與評(píng)估函數(shù) 三、訓(xùn)練模型 1. 拆分?jǐn)?shù)據(jù)集并運(yùn)行模型 2. 測(cè)試指定數(shù)據(jù) ?? 本文為[??365天深度學(xué)習(xí)訓(xùn)練營(yíng)]內(nèi)部限免文章(版權(quán)歸 *K同學(xué)啊* 所有) ?? 作者

    2024年02月10日
    瀏覽(21)
  • 【NLP】Word2vec概念和演進(jìn)史

    ????????“萬(wàn)物都有一種模式,它是我們宇宙的一部分。它具有對(duì)稱(chēng)、優(yōu)雅和優(yōu)雅——這些品質(zhì)你總能在真正的藝術(shù)家捕捉到的作品中找到?!?~ 沙丘 (1965) ? ? ? ? 對(duì)于word2vec,它不是一個(gè)或一種算法,而是一系列思想和算法的綜合。本文通過(guò)有限篇幅,試圖穿越思想跨

    2024年02月11日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包