国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

詳細(xì)介紹NLP中文分詞原理及分詞工具

這篇具有很好參考價(jià)值的文章主要介紹了詳細(xì)介紹NLP中文分詞原理及分詞工具。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

基于詞表的分詞方法

正向最大匹配算法FMM

從左到右掃描文本,得到詞的最大匹配。
詳細(xì)介紹NLP中文分詞原理及分詞工具
案例分析:
用正向最大匹配法對(duì)“秦皇島今天晴空萬(wàn)里”進(jìn)行中文分詞,見下表。
詞典 :“秦皇島”“島”“今天”“天晴”“晴空萬(wàn)里”“萬(wàn)里”……
根據(jù)當(dāng)前詞典,單詞掃描的最大長(zhǎng)度 max=4詳細(xì)介紹NLP中文分詞原理及分詞工具

正向最大匹配函數(shù):

def FMM(dict, sentence): # 正向最大匹配算法FMM函數(shù),參數(shù)dict: 詞典 ,參數(shù)sentence: 句子 
    fmmresult = [] 
    max_len = max([len(item) for item in dict])# max_len定義為詞典中最長(zhǎng)詞長(zhǎng)度 
    start = 0 
    while start != len(sentence): # FMM 為正向,start 從初始位置開始,指向結(jié)尾即為結(jié)束 
        index = start + max_len # index 的初始值為 start 的索引 + 詞典中元素的最大長(zhǎng)度或句子末尾 
        if index > len(sentence): 
           index = len(sentence) 
        for i in range(max_len): 
            # 當(dāng)分詞在字典中時(shí)或分到最后一個(gè)字時(shí),將其加入到結(jié)果列表中 
            if (sentence[start:index] in dict) or (len(sentence[start:index]) == 1): 
                # print(sentence[start:index], end='/')     
                fmmresult.append(sentence[start:index])     
                start = index# 分出一個(gè)詞,start 設(shè)置到 index 處 
                break                                                  
            index += -1# 如果匹配失敗,則去掉最后一個(gè)字符
    return fmmresult

逆向最大匹配算法RMM

從右到左掃描文本,得到詞的最大匹配。
詳細(xì)介紹NLP中文分詞原理及分詞工具
在中文中,由于偏正結(jié)構(gòu)較多,所以從后向前進(jìn)行匹配會(huì)提高精確度,因此,逆向最大匹配算法比正向最大匹配算法的誤差要小。

逆向最大匹配函數(shù):

def RMM(dict, sentence): # 逆向最大匹配算法RMM函數(shù),參數(shù)dict: 詞典 ,參數(shù)sentence: 句子 
    rmmresult = [] 
    max_len = max([len(item) for item in dict])# max_len定義為詞典中最長(zhǎng)詞長(zhǎng)度 
    start = len(sentence) 
    while start != 0: # RMM 為逆向,start 從末尾位置開始,指向開頭位置即為結(jié)束 
        index = start - max_len # 逆向時(shí) index 的初始值為 start 的索引 - 詞典中元素的最大長(zhǎng)度或句子開頭 
        if index < 0: 
           index = 0
        for i in range(max_len): 
            # 當(dāng)分詞在字典中時(shí)或分到最后一個(gè)字時(shí),將其加入到結(jié)果列表中 
            if (sentence[index:start] in dict) or (len(sentence[index:start]) == 1): 
                # print(sentence[index:start], end='/') 
                rmmresult.insert(0, sentence[index:start])   
                start = index# 分出一個(gè)詞,start 設(shè)置到 index 處 
                break                                    
            index += 1 # 如果匹配失敗,則去掉最前面一個(gè)字符
    return rmmresult

雙向最大匹配算法FMM

把正向最大匹配與逆向最大匹配都實(shí)施一遍,比較后選擇最優(yōu)結(jié)果。
詳細(xì)介紹NLP中文分詞原理及分詞工具
雙向最大匹配函數(shù):

def BM(dict, sentence):# 雙向最大匹配(BM),參數(shù)dict: 詞典 ,參數(shù)sentence: 句子 
    res1 = FMM(dict, sentence)     # res1 為 FMM 結(jié)果 
    res2 = RMM(dict, sentence)     # res2 為 RMM 結(jié)果
    if len(res1) == len(res2):     # 若分詞數(shù)相同,則分情況討論
        if res1 == res2:   # 若FMM 與 RMM 的結(jié)果相同,則可取任意一個(gè) 
            return res1 
        else:  # res1_sn 和 res2_sn 為兩個(gè)分詞結(jié)果的單字?jǐn)?shù)量,若二者不同,則返回單字較少的 
            res1_sn = len([i for i in res1 if len(i) == 1])  
            res2_sn = len([i for i in res2 if len(i) == 1]) 
            return res1 if res1_sn < res2_sn else res2 
    else:    # 若分詞數(shù)不同,則取分出詞較少的 
        return res1 if len(res1) < len(res2) else res2

調(diào)用函數(shù)舉例:

dict = [' 今日 ', ' 陽(yáng)光明媚 ', ' 光明 ', ' 明媚 ', ' 陽(yáng)光 ', ' 我們 ', ' 在 ', ' 在野 ', ' 生動(dòng) ', ' 野生 ', ' 動(dòng)物園 ', ' 野生動(dòng)物園 ', ' 物 ', ' 園 ', ' 玩 '] 
sentence = ' 在野生動(dòng)物園玩 ' 
print("the results of FMM :\n", FMM(dict, sentence), end="\n")     # 調(diào)用FMM函數(shù),輸出FMM分詞結(jié)果
print("the results of RMM :\n", RMM(dict, sentence), end="\n")    # 調(diào)用RMM函數(shù),輸出RMM分詞結(jié)果
print("the results of BM :\n", BM(dict, sentence))                # 調(diào)用BM函數(shù),輸出BM分詞結(jié)果

詳細(xì)介紹NLP中文分詞原理及分詞工具
缺點(diǎn): 基于詞表的分詞算法雖然簡(jiǎn)單快速,但對(duì)于未登錄詞以及切分歧義的情況無(wú)法處理。

基于N-gram的分詞方法

N-gram 模型稱為 N 元模型,它是一種語(yǔ)言模型,該語(yǔ)言模型是一個(gè)基于概率的判別模型,其輸入是一句話(詞的順序序列),輸出是這句話的概率, 即這句話里所有詞的聯(lián)合概率。 N-gram 模型可應(yīng)用在文化研究、分詞應(yīng)用、語(yǔ)音識(shí)別、輸入法、詞性標(biāo)注、垃圾短信分類、機(jī)器翻譯、語(yǔ)音識(shí)別、模糊匹配等領(lǐng)域。

N-gram分詞思想

此算法假設(shè)每個(gè)詞的出現(xiàn)只與它之前的 N-1 個(gè)詞相關(guān),通過(guò)大量的語(yǔ)料統(tǒng)計(jì)便可以得知句子中每個(gè)詞的出現(xiàn)概率,繼而計(jì)算出整個(gè)句子的出現(xiàn)概率。如果一個(gè)句子的出現(xiàn)概率越大,則越符合自然語(yǔ)言的規(guī)律。

通常 N 可以取 1、2、3、4, 其中 N 取 1、2、3 時(shí)分別稱為 unigram(一元分詞)、bigram(二元分詞)、trigram(三元分詞), 最常用的是 bigram 和 trigram。理論上,N 越大則 N-gram 模型越準(zhǔn)確,也越復(fù)雜,所需計(jì)算量和訓(xùn)練語(yǔ)料數(shù)據(jù)量也越大。

詞出現(xiàn)的概率可以直接從語(yǔ)料中統(tǒng)計(jì) N 個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。對(duì)于一個(gè)句子W,
假設(shè) W 是由詞序列 W1,W2,W3,…… ,Wn 組成的,那么概率可按如下公式計(jì)算。
P(W) =P(W1W2W3…Wn) =P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)
當(dāng)N=2時(shí),當(dāng)前詞只依賴它前面的詞(bigram):
P(W) =P(W1W2W3…Wn) =P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

N-gram分詞步驟:

①建立 N-gram 統(tǒng)計(jì)語(yǔ)言模型。
②對(duì)句子進(jìn)行單詞劃分,找出所有可能的分詞情況。
③對(duì)分詞的劃分結(jié)果進(jìn)行概率計(jì)算,找出出現(xiàn)可能性最大的分詞序列。

案例分析: 基于 N-gram 模型算法對(duì)“我喜歡觀賞日出”進(jìn)行中文分詞。
詳細(xì)介紹NLP中文分詞原理及分詞工具
特點(diǎn): 基于 N-gram 模型的分詞算法是在原有中文算法基礎(chǔ)上進(jìn)行了改進(jìn),設(shè)計(jì)并且實(shí)現(xiàn)了新的中文分詞系統(tǒng),既實(shí)現(xiàn)了文本的快速分詞,又提高了中文分詞的準(zhǔn)確性,但其計(jì)算開銷比較大,并且仍然存在未登錄詞難以處理的問(wèn)題。

基于序列標(biāo)注的分詞方法

基于隱馬爾可夫模型的分詞方法

隱馬爾可夫模型(Hidden Markov Model,HMM)是關(guān)于時(shí)序的概率模型,描述由一個(gè)隱藏的馬爾可夫鏈隨機(jī)生成不可觀測(cè)(或稱為隱狀態(tài))的狀態(tài)隨機(jī)序列,再由各個(gè)狀態(tài)生成一個(gè)觀測(cè)從而產(chǎn)生觀測(cè)隨機(jī)序列的過(guò)程。

隱藏的馬爾可夫鏈隨機(jī)生成的狀態(tài)的序列, 稱為狀態(tài)序列 ;每個(gè)狀態(tài)生成一個(gè)觀測(cè),而由此產(chǎn)生的觀測(cè)的隨機(jī)序列,稱為觀測(cè)序列。 序列的每一個(gè)位置可以看作是一個(gè)時(shí)刻?;谛蛄袠?biāo)注的分詞算法除了有基于隱馬爾可夫模型,還有基于 CRF、基于 LSTM 等多種分詞算法。

隱馬爾可夫模型常應(yīng)用于序列標(biāo)注的問(wèn)題。它用于標(biāo)注時(shí),狀態(tài)對(duì)應(yīng)著標(biāo)記,標(biāo)注問(wèn)題是給定觀測(cè)序列預(yù)測(cè)其對(duì)應(yīng)的標(biāo)記序列。
詳細(xì)介紹NLP中文分詞原理及分詞工具
隱馬爾可夫模型有兩個(gè)基本假設(shè) :馬爾可夫假設(shè)和觀測(cè)獨(dú)立性假設(shè)。
(1)馬爾可夫假設(shè) :即假設(shè)隱藏的馬爾可夫鏈在任意時(shí)刻 t 的狀態(tài)只依賴于其前一時(shí)刻的狀態(tài),與其他時(shí)刻的狀態(tài)及觀測(cè)無(wú)關(guān),也與時(shí)刻 t 無(wú)關(guān)。
詳細(xì)介紹NLP中文分詞原理及分詞工具
(2)觀測(cè)獨(dú)立性假設(shè) :即假設(shè)任意時(shí)刻的觀測(cè)只依賴于該時(shí)刻的馬爾可夫鏈的狀態(tài), 與其他觀測(cè)及狀態(tài)無(wú)關(guān)。
詳細(xì)介紹NLP中文分詞原理及分詞工具
基于隱馬爾可夫模型進(jìn)行中文分詞的基本原理: HMM 模型把分詞問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題, 也就是給定一個(gè)句子作為輸入,以“BEMS”組成的序列串作為輸出,然后再進(jìn)行分詞,從而得到輸入句子的劃分。其中:
? B(Begin)代表詞的起始位置,
? M(Middle) 代表詞的中間位置,
? E(End)表示詞的結(jié)束位置,
? S(Single)代表單字成詞。
設(shè)觀測(cè)狀態(tài)集合(輸入句子序列)為O={o1, o2, ?, on},隱藏狀態(tài)集合(“BMES”序列)I={i1, i2, ?, in},中文分詞就是對(duì)給定的觀測(cè)序列,求解對(duì)應(yīng)的最有可能的隱藏狀態(tài)序列,即求解最大條件概率maxP(i1, ?, in | o1,?, on),利用貝葉斯公式可得:
詳細(xì)介紹NLP中文分詞原理及分詞工具
案例分析: 其中觀測(cè)序列也就是可見序列,狀態(tài)序列也就是隱含序列。詳細(xì)介紹NLP中文分詞原理及分詞工具

基于條件隨機(jī)場(chǎng)(CRF)的分詞算法

基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的分詞算法是一種判別式的無(wú)向圖模型,它試圖對(duì)多個(gè)變量在給定觀測(cè)值后的條件概率進(jìn)行建模,常用于序列標(biāo)注問(wèn)題。 在 CRF 的假設(shè)中,每個(gè)狀態(tài)不僅僅與它前面的狀態(tài)有關(guān),還與它后面的狀態(tài)有關(guān)。與隱馬爾可夫模型相比,CRF考慮的影響范圍更大,顧及更多數(shù)量的特征函數(shù)以及相應(yīng)權(quán)重。 因此該算法的精度也更高,當(dāng)然計(jì)算代價(jià)也偏高。

基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的分詞算法

深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)也適用于序列標(biāo)注問(wèn)題,可以采用 CNN、LSTM 等深度學(xué)習(xí)模型,結(jié)合 CRF 等分類算法,從而實(shí)現(xiàn)中文分詞。

分詞工具

常見的中文分詞工具:
HanLP 分詞器、Jieba(結(jié)巴)分詞、哈工大的語(yǔ)言技術(shù)平臺(tái) LTP 及其語(yǔ)言云 LTP-Cloud、清華大學(xué)的中文詞法分析工具包 THULAC、北京大學(xué)的中文分詞工具包 pkuseg、斯坦福分詞器、 基于深度學(xué)習(xí)的分詞系統(tǒng) KCWS、新加坡科技設(shè)計(jì)大學(xué)的中文分詞器 ZPar、IKAnalyzer、 Jcseg、復(fù)旦大學(xué)的 FudanNLP、中文文本處理庫(kù)SnowNLP、ansj 分詞器、自然語(yǔ)言處理工 具包 NLTK、玻森中文語(yǔ)義開放平臺(tái) BosonNLP、簡(jiǎn)易中文分詞系統(tǒng) SCWS、IKAnalyzer、 庖丁解牛、中科院計(jì)算所 NLPIR 分詞系統(tǒng)、騰訊文智、百度 NLP、阿里云 NLP、新浪云、 搜狗分詞、盤古分詞等等。

Jieba 分詞

Jieba 分詞是一個(gè) Python 中文分詞組件。
功能:可以對(duì)中文文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞抽取等,并且支持自定義詞典。
原理:算法使用了基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能生成詞情況所構(gòu)成的有向無(wú)環(huán)圖,再采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,從而找出基于詞頻的最大切分組合。對(duì)于未登錄詞,它采用了基于漢字成詞能力的 HMM 模型,使用了 Viterbi 算法。
特點(diǎn):在詞典文件添加自定義詞典速度快,適用于詞典數(shù)量大于五千萬(wàn)。但是其自定義詞典時(shí),帶空格的詞并不支持。

安裝:
全自動(dòng)安裝:easy_install jieba 或者 pip install jieba / pip3 install jieba
半自動(dòng)安裝:先下載 http://pypi.python.org/pypi/jieba/ ,解壓后運(yùn)行 python setup.py install
手動(dòng)安裝:將 jieba 目錄放置于當(dāng)前目錄或者 site-packages 目錄
通過(guò)pycharm安裝

模式:
詳細(xì)介紹NLP中文分詞原理及分詞工具
基本應(yīng)用:
詳細(xì)介紹NLP中文分詞原理及分詞工具
案例分析:
對(duì)“燕山大學(xué)源于哈爾濱工業(yè)大學(xué),始建于 1920 年”這句中文文本,使用 Jieba 分詞工具進(jìn)行分詞。

import jieba
# 全模式 
seg_list = jieba.cut(" 燕山大學(xué)源于哈爾濱工業(yè)大學(xué),始建于 1920 年 ",cut_all=True) 
print(" 全模式 :", "/ ".join(seg_list))
# 精確模式 
seg_list = jieba.cut(" 燕山大學(xué)源于哈爾濱工業(yè)大學(xué),始建于 1920 年 ",cut_all=False) 
print(" 精確模式 :", "/ ".join(seg_list)) 
# 默認(rèn)是精確模式 
seg_list = jieba.cut(" 燕山大學(xué)源于哈爾濱工業(yè)大學(xué),始建于 1920 年 ") 
print(" 默認(rèn)模式 :",", ".join(seg_list))
# 搜索引擎模式 
seg_list = jieba.cut_for_search(" 燕山大學(xué)源于哈爾濱工業(yè)大學(xué),始建于 1920 年 ") 
print(" 搜素引擎模式 :",", ".join(seg_list))

詳細(xì)介紹NLP中文分詞原理及分詞工具文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-416572.html

到了這里,關(guān)于詳細(xì)介紹NLP中文分詞原理及分詞工具的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 中文分詞庫(kù)jieba的三種模式介紹

    中文分詞庫(kù)jieba的三種模式介紹

    精準(zhǔn)模式 jieba.cut(test_text, cut_all=False): 試圖將句子最精確地分開,適合文本分析 全模式 jieba.cut(test_text, cut_all=True): 把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái),速度非???,但是不能解決歧義 搜索引擎模式 jieba.cut_for_search(test_text):在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提

    2024年02月13日
    瀏覽(24)
  • LLaMA模型之中文詞表的蛻變

    在目前的開源模型中,LLaMA模型無(wú)疑是一顆閃亮的??,但是相對(duì)于ChatGLM、BaiChuan等國(guó)產(chǎn)大模型,其對(duì)于中文的支持能力不是很理想。原版LLaMA模型的詞表大小是32K,中文所占token是幾百個(gè)左右,這將會(huì)導(dǎo)致中文的編解碼效率低。 在將LLaMA系列模型用于中文語(yǔ)言時(shí)需要進(jìn)行中文

    2024年02月03日
    瀏覽(23)
  • 基于BERT+BiLSTM+CRF做中文分詞

    基于BERT+BiLSTM+CRF做中文分詞

    ????????本文是一次基于BERT+BiLSTM+CRF做中文分詞的具體流程,方便自己查看,如有錯(cuò)誤的地方,還請(qǐng)各位不吝賜教! ????????事先聲明,本節(jié)漢語(yǔ)分詞任務(wù)的介紹都可以百度出來(lái),只是整合搬運(yùn)了一下! (1)分詞的概念 ????????一般分詞是NLP(自然語(yǔ)言處理)的第

    2024年01月16日
    瀏覽(56)
  • 【一】頭歌平臺(tái)實(shí)驗(yàn)-基于jieba的中文分詞實(shí)戰(zhàn)

    【一】頭歌平臺(tái)實(shí)驗(yàn)-基于jieba的中文分詞實(shí)戰(zhàn)

    ? ? ? ?近年來(lái),隨著自然語(yǔ)言處理技術(shù)的日益成熟,開源實(shí)現(xiàn)的分詞工具越來(lái)越多,如 Ansj 、盤古分詞等。Jieba 是目前最好的 Python 中文分詞組件。 本實(shí)訓(xùn)主要介紹 Jieba 模塊的使用,并通過(guò)示例與實(shí)戰(zhàn),幫助大家掌握使用 Jieba 的方法。 1、jieba的特點(diǎn) ????????分詞是自然

    2024年02月05日
    瀏覽(136)
  • 中文LLaMa和Alpaca大語(yǔ)言模型開源方案 | 擴(kuò)充中文詞表 & 針對(duì)中文語(yǔ)料進(jìn)行高效編碼

    中文LLaMa和Alpaca大語(yǔ)言模型開源方案 | 擴(kuò)充中文詞表 & 針對(duì)中文語(yǔ)料進(jìn)行高效編碼

    歡迎關(guān)注『CVHub』官方微信公眾號(hào)! Title: Efficient and Effective Text Encoding for Chinese Llama and Alpaca PDF: https://arxiv.org/pdf/2304.08177v1.pdf Code: https://github.com/ymcui/Chinese-LLaMA-Alpaca 大型語(yǔ)言模型 LLM ,如ChatGPT和GPT-4,已經(jīng)徹底改變了自然語(yǔ)言處理研究。然而, LLMs 的昂貴訓(xùn)練和部署對(duì)于透明

    2024年02月09日
    瀏覽(30)
  • 帶你上手基于Pytorch和Transformers的中文NLP訓(xùn)練框架

    帶你上手基于Pytorch和Transformers的中文NLP訓(xùn)練框架

    本文分享自華為云社區(qū)《全套解決方案:基于pytorch、transformers的中文NLP訓(xùn)練框架,支持大模型訓(xùn)練和文本生成,快速上手,海量訓(xùn)練數(shù)據(jù)》,作者: 汀丶 。 目標(biāo) :基于 pytorch 、 transformers 做中文領(lǐng)域的nlp開箱即用的訓(xùn)練框架,提供全套的訓(xùn)練、微調(diào)模型(包括大模型、文本

    2024年02月11日
    瀏覽(13)
  • windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    目錄 問(wèn)題現(xiàn)象: 解決方法: 1、下載IK中文分詞器 2、部署 3、使用 前言(選看) ? ? ? 最近在重溫Elasticsearch,看來(lái)一下官網(wǎng),都出到8.4.3版本了。想當(dāng)初學(xué)的時(shí)候用的還是5.6.8,版本更新了很多意味著有大變動(dòng)。 ????????? windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安

    2024年02月13日
    瀏覽(33)
  • 基于 centos7 搭建 laravel+scout+elasticsearch+ik-analyzer 用于中文分詞全文檢索服務(wù)及測(cè)試

    基于 centos7 搭建 laravel+scout+elasticsearch+ik-analyzer 用于中文分詞全文檢索服務(wù)及測(cè)試

    瀏覽該文章,建議先食用 異常問(wèn)題 這一節(jié) 軟件/框架 版本 jdk 19.0.2 elasticsearch 8.1.1 ik-analyzer 8.1.1 laravel 7.x-dev elasticsearch/elasticsearch 7.17.1 tamayo/laravel-scout-elastic 8.0.3 下載jdk傳送門 安裝 下載:wget https://download.oracle.com/java/19/latest/jdk-19_linux-x64_bin.rpm 安裝:rpm -ivh jdk-19_linux-x64_bin.

    2023年04月09日
    瀏覽(60)
  • LLM-LLaMA中文衍生模型:Chinese-LLaMA-Alpaca【擴(kuò)充詞表、Lora部分參數(shù)預(yù)訓(xùn)練、微調(diào)】

    GitHub:GitHub - ymcui/Chinese-LLaMA-Alpaca: 中文LLaMAAlpaca大語(yǔ)言模型+本地CPU/GPU訓(xùn)練部署 (Chinese LLaMA Alpaca LLMs) 中文LLaMA模型 中文LLaMA模型在原版的基礎(chǔ)上擴(kuò)充了中文詞表,使用了中文通用純文本數(shù)據(jù)進(jìn)行二次預(yù)訓(xùn)練。 模型名稱 訓(xùn)練數(shù)據(jù) 重構(gòu)模型[1] 大小[2] LoRA下載[3] Chinese-LLaMA-7B 通用

    2024年02月15日
    瀏覽(22)
  • 【深度學(xué)習(xí)&NLP】基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn)中文文本情感分析(分類)附代碼以及數(shù)據(jù)集鏈接

    【深度學(xué)習(xí)&NLP】基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn)中文文本情感分析(分類)附代碼以及數(shù)據(jù)集鏈接

    【注】:本文所述的實(shí)驗(yàn)的完整實(shí)現(xiàn)代碼包括數(shù)據(jù)集的倉(cāng)庫(kù)鏈接會(huì)在文末給出(建議讀者自行配置GPU來(lái)加速TensorFlow的相關(guān)模型,運(yùn)行起來(lái)會(huì)快非常多) 目錄 一、研究的背景和目的 二、文本數(shù)據(jù)集描述 1、數(shù)據(jù)集來(lái)源以及使用目的 2、數(shù)據(jù)規(guī)模、以及如何劃分?jǐn)?shù)據(jù)集 3、數(shù)據(jù)集的

    2024年02月04日
    瀏覽(88)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包