Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典
1、統(tǒng)計(jì)詞頻
統(tǒng)計(jì)詞頻的測試文本如下:
布魯克林籃網(wǎng)隊(duì)(Brooklyn Nets),是一支屬于美國的紐約州紐約市布魯克林區(qū)為基地的男子職業(yè)籃球隊(duì),屬于NBA,于1967年組隊(duì)并在1976年加入NBA聯(lián)盟,是美國男籃職業(yè)聯(lián)賽東部聯(lián)盟大西洋賽區(qū)的一部分。
布魯克林籃網(wǎng)隊(duì)原為新澤西籃網(wǎng)隊(duì),球隊(duì)在1976年加入NBA聯(lián)盟后,未奪得總冠軍,但分別在2001-02和2002-03賽季獲得東部聯(lián)盟的頭名。在2004年球隊(duì)被轉(zhuǎn)讓給布魯斯·拉特納,2012-13賽季,籃網(wǎng)隊(duì)正式由新澤
西遷往紐約市的布魯克林區(qū),繼2006-07年賽季后,闖入NBA季后賽。2019年隨著夏季轉(zhuǎn)會期凱里·歐文、凱文·杜蘭特等明星球員的加盟,以及交易過的詹姆斯·哈登,布魯克林籃網(wǎng)隊(duì)一躍成為東部極具競爭力的一支球隊(duì)。
2021年8月4日消息,帕蒂·米爾斯與布魯克林籃網(wǎng)隊(duì)完成簽約。北京時間9月11日,籃網(wǎng)隊(duì)官方宣布,球隊(duì)正式簽下自由球員前鋒保羅-米爾薩普
編寫代碼
import jieba
from collections import Counter
content = open(r'test.txt', encoding='utf-8').read()
con_words = [x for x in jieba.cut(content) if len(x) >= 2]
result = Counter(content).most_common(10)
print(result)
運(yùn)行代碼查看統(tǒng)計(jì)結(jié)果
2、自定義分詞詞典
2.1 創(chuàng)建詞典
首先我們創(chuàng)建一個user_dict.txt
文本文件,在文件中添加我們需要的詞典,如下所示:
歐陽建國 5
創(chuàng)新辦 1
歡聚時代 5
云計(jì)算 5
2.2 編寫代碼
接著我們編寫代碼進(jìn)行詞典的測試,測試的文本如下:
歐陽建國是創(chuàng)新辦主任也是歡聚時代公司云計(jì)算方面的專家
首先我們不導(dǎo)入
自定義的分詞詞典,看看分詞結(jié)果如何:
代碼如下:
import jieba
txt = '歐陽建國是創(chuàng)新辦主任也是歡聚時代公司云計(jì)算方面的專家'
print(','.join(jieba.cut(txt)))
分詞結(jié)果
歐陽,建國,是,創(chuàng)新,辦,主任,也,是,歡聚,時代,公司,云,計(jì)算,方面,的,專家
接著我們導(dǎo)入
分詞詞典,查看分詞結(jié)果:
代碼
import jieba
txt = '歐陽建國是創(chuàng)新辦主任也是歡聚時代公司云計(jì)算方面的專家'
# 使用用戶字典的分詞
jieba.load_userdict('user_dict.txt')
print(','.join(jieba.cut(txt)))
分詞結(jié)果文章來源:http://www.zghlxwxcb.cn/news/detail-544536.html
歐陽建國,是,創(chuàng)新辦,主任,也,是,歡聚時代,公司,云計(jì)算,方面,的,專家
很明顯的可以看出,加入自定義的分詞詞典之后,所得到的分詞結(jié)果更符合實(shí)際情況。文章來源地址http://www.zghlxwxcb.cn/news/detail-544536.html
到了這里,關(guān)于Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!