国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典

這篇具有很好參考價值的文章主要介紹了Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典

1、統(tǒng)計(jì)詞頻

統(tǒng)計(jì)詞頻的測試文本如下:

布魯克林籃網(wǎng)隊(duì)(Brooklyn Nets),是一支屬于美國的紐約州紐約市布魯克林區(qū)為基地的男子職業(yè)籃球隊(duì),屬于NBA,于1967年組隊(duì)并在1976年加入NBA聯(lián)盟,是美國男籃職業(yè)聯(lián)賽東部聯(lián)盟大西洋賽區(qū)的一部分。
布魯克林籃網(wǎng)隊(duì)原為新澤西籃網(wǎng)隊(duì),球隊(duì)在1976年加入NBA聯(lián)盟后,未奪得總冠軍,但分別在2001-02和2002-03賽季獲得東部聯(lián)盟的頭名。在2004年球隊(duì)被轉(zhuǎn)讓給布魯斯·拉特納,2012-13賽季,籃網(wǎng)隊(duì)正式由新澤
西遷往紐約市的布魯克林區(qū),繼2006-07年賽季后,闖入NBA季后賽。2019年隨著夏季轉(zhuǎn)會期凱里·歐文、凱文·杜蘭特等明星球員的加盟,以及交易過的詹姆斯·哈登,布魯克林籃網(wǎng)隊(duì)一躍成為東部極具競爭力的一支球隊(duì)。
2021年8月4日消息,帕蒂·米爾斯與布魯克林籃網(wǎng)隊(duì)完成簽約。北京時間9月11日,籃網(wǎng)隊(duì)官方宣布,球隊(duì)正式簽下自由球員前鋒保羅-米爾薩普

編寫代碼

import jieba
from collections import Counter

content = open(r'test.txt', encoding='utf-8').read()

con_words = [x for x in jieba.cut(content) if len(x) >= 2]

result = Counter(content).most_common(10)

print(result)

運(yùn)行代碼查看統(tǒng)計(jì)結(jié)果

Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典,自然語言處理,Jieba,python

2、自定義分詞詞典

2.1 創(chuàng)建詞典

首先我們創(chuàng)建一個user_dict.txt文本文件,在文件中添加我們需要的詞典,如下所示:

歐陽建國 5
創(chuàng)新辦 1
歡聚時代 5
云計(jì)算 5

2.2 編寫代碼

接著我們編寫代碼進(jìn)行詞典的測試,測試的文本如下:

歐陽建國是創(chuàng)新辦主任也是歡聚時代公司云計(jì)算方面的專家

首先我們不導(dǎo)入自定義的分詞詞典,看看分詞結(jié)果如何:

代碼如下:

import jieba

txt = '歐陽建國是創(chuàng)新辦主任也是歡聚時代公司云計(jì)算方面的專家'

print(','.join(jieba.cut(txt)))

分詞結(jié)果

歐陽,建國,是,創(chuàng)新,辦,主任,也,是,歡聚,時代,公司,云,計(jì)算,方面,的,專家

接著我們導(dǎo)入分詞詞典,查看分詞結(jié)果:

代碼

import jieba

txt = '歐陽建國是創(chuàng)新辦主任也是歡聚時代公司云計(jì)算方面的專家'

# 使用用戶字典的分詞
jieba.load_userdict('user_dict.txt')

print(','.join(jieba.cut(txt)))

分詞結(jié)果

歐陽建國,是,創(chuàng)新辦,主任,也,是,歡聚時代,公司,云計(jì)算,方面,的,專家

很明顯的可以看出,加入自定義的分詞詞典之后,所得到的分詞結(jié)果更符合實(shí)際情況。文章來源地址http://www.zghlxwxcb.cn/news/detail-544536.html

到了這里,關(guān)于Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 字典類型操作、jieba庫使用及文本詞頻統(tǒng)計(jì)

    字典類型操作、jieba庫使用及文本詞頻統(tǒng)計(jì)

    字典的定義 理解“映射” 映射是一種鍵(索引)和值(數(shù)據(jù))的對應(yīng) 字典類型是“映射”的體現(xiàn) 鍵值對:鍵是數(shù)據(jù)索引的擴(kuò)展 字典是鍵值對的集合,鍵值對之間無序 采用大括號{}和dict()創(chuàng)建,鍵值對用冒號: 表示 {鍵1:值1,鍵2:值3} 可以通過鍵拿到值 我們在之前的的集合中說聲明

    2024年02月01日
    瀏覽(55)
  • 東南亞語種分詞和詞頻統(tǒng)計(jì)

    東南亞語種分詞和詞頻統(tǒng)計(jì)

    項(xiàng)目有一個需求,需要對16萬緬甸語新聞做詞頻統(tǒng)計(jì)。首先是分詞工具的選擇和使用,然后是詞頻統(tǒng)計(jì)。 工具有voyant-tools、myanmar-tokenizer以及我使用的es的icu_analyzer。 結(jié)果是voyant-tools基于java,看不懂怎么用,聽聞和myanmar-tokenizer一樣會把詞分得很細(xì)。icu_analyzer可以分得粗,音

    2024年02月09日
    瀏覽(27)
  • python處理Excel Pandas xlwings numpy, jupyter,docx,jieba 詞頻統(tǒng)計(jì) flash

    python處理Excel Pandas xlwings numpy, jupyter,docx,jieba 詞頻統(tǒng)計(jì) flash

    順序不變,是可以的 如果李四和王五兩行換一下,就不對了, 結(jié)果 pandas的nlargest(n,“排序的列”),只能求最大N個值 同比 df[‘昨日’] = df[“銷售金額”].shift() shift() 會把銷售金額放入昨日 python 在網(wǎng)頁上顯示Excel Excel 修改數(shù)據(jù),網(wǎng)頁只有刷新就可以了。 python 制作網(wǎng)頁查詢

    2024年02月10日
    瀏覽(21)
  • Jieba分詞模式詳解、詞庫的添加與刪除、自定義詞庫失敗的處理

    Jieba分詞模式詳解、詞庫的添加與刪除、自定義詞庫失敗的處理

    Jieba(結(jié)巴)是一個中文分詞第三方庫,它可以幫助我們將一段中文文本分成一個個獨(dú)立的詞語。Jieba具有以下特點(diǎn): 簡單易用:Jieba提供了簡潔的API接口,易于使用和擴(kuò)展。可以快速地實(shí)現(xiàn)中文分詞功能。 高效準(zhǔn)確:Jieba采用了基于前綴詞典和動態(tài)規(guī)劃算法的分詞方法,能夠

    2024年02月05日
    瀏覽(22)
  • NLP基礎(chǔ)—jieba分詞

    NLP基礎(chǔ)—jieba分詞

    支持四種分詞模式 精確模式 試圖將句子最精確地切開,適合文本分析; 全模式 把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義; 搜索引擎模式 在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。 paddle模式 利用Paddl

    2024年04月17日
    瀏覽(24)
  • python之jieba分詞庫使用

    一. 介紹 A. 什么是jieba庫 jieba庫是一款開源的中文分詞工具,能夠?qū)⒅形奈谋厩蟹殖稍~語。 B. jieba庫的特點(diǎn)和優(yōu)勢 支持四種分詞模式:精確模式、全模式、搜索引擎模式和paddle模式。 提供自定義詞典功能,可以添加、刪除詞語。 支持提取和詞性標(biāo)注。 提供Tokenize接口

    2024年02月16日
    瀏覽(27)
  • 分詞工具與方法:jieba、spaCy等

    分詞是自然語言處理中的一項(xiàng)重要任務(wù),將一段文本劃分成一系列有意義的詞語或單詞,是很多文本處理任務(wù)的基礎(chǔ),如文本分類、情感分析、機(jī)器翻譯等。在中文分詞中,jieba是一個常用的分詞工具,而在英文分詞中,spaCy是一個較為流行的選擇。本文將介紹jieba和spaCy的使

    2024年02月15日
    瀏覽(18)
  • Python中文分詞庫——jieba的用法

    jieba是優(yōu)秀的中文分詞第三方庫。由于中文文本之間每個漢字都是連續(xù)書寫的,我們需要通過特定的手段來獲得其中的每個單詞,這種手段就叫分詞。而jieba是Python計(jì)算生態(tài)中非常優(yōu)秀的中文分詞第三方庫,需要通過安裝來使用它。 jieba庫提供了三種分詞模式,但實(shí)際上要達(dá)到

    2023年04月25日
    瀏覽(24)
  • 數(shù)據(jù)分析之jieba分詞使用詳解

    數(shù)據(jù)分析之jieba分詞使用詳解

    在所有人類語言中,一句話、一段文本、一篇文章都是有一個個的詞組成的。詞是包含獨(dú)立意義的最小文本單元,將長文本拆分成單個獨(dú)立的詞匯的過程叫做分詞。分詞之后,文本原本的語義將被拆分到在更加精細(xì)化的各個獨(dú)立詞匯中,詞匯的結(jié)構(gòu)比長文本簡單,對于計(jì)算機(jī)

    2024年02月11日
    瀏覽(37)
  • 安裝elasticsearch、kibana、IK分詞器、擴(kuò)展IK詞典

    安裝elasticsearch、kibana、IK分詞器、擴(kuò)展IK詞典

    后面還會安裝 kibana ,這個會提供可視化界面方面學(xué)習(xí)。 需要注意的是 elasticsearch 和 kibana 版本一定要一樣?。?! 否則就像這樣 1、創(chuàng)建網(wǎng)絡(luò) 因?yàn)槲覀冞€需要部署kibana容器,因此需要讓es和kibana容器互聯(lián)。這里先創(chuàng)建一個網(wǎng)絡(luò): 2、鏡像安裝 pull 安裝 因?yàn)殓R像文件比較大,將

    2024年02月02日
    瀏覽(45)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包