国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)

這篇具有很好參考價(jià)值的文章主要介紹了強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

簡(jiǎn)介

原生jieba分詞是強(qiáng)大的Python組件,可以用來(lái)進(jìn)行關(guān)鍵詞提取,標(biāo)注以及定位。

java版支持三種模式

  • 精確模式:試圖將句子最精確地切開(kāi),適合文本分析;
  • 全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非???,但是不能解決歧義;
  • 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞

使用

導(dǎo)入maven依賴

項(xiàng)目地址:https://github.com/huaban/jieba-analysis

com.huaban
jieba-analysis
1.0.2

三種模式使用

準(zhǔn)備一段文本 奧利給 我是照明燈具 普通型 安全出口標(biāo)志燈 DC36V 6W 壁式,看三種模式抽取出的關(guān)鍵詞區(qū)別

  • 代碼
    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)
    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)
  • 效果
    精確模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標(biāo)志燈","DC36V6W","壁式"]
    INDEX模式:["奧利","給","我","是","照明","明燈","照明燈","具","普通","普通型","安全","出口","標(biāo)志","標(biāo)志燈","dc36v6w","壁式"]
    SEARCH模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標(biāo)志燈","dc36v6w","壁式"]
    可以看出serch模式和精確模式區(qū)別不大

自定義詞典

jieba 分詞內(nèi)置了常用詞典,在源代碼目錄下有個(gè)dic.txt文件
強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)

當(dāng)內(nèi)置詞典不滿足我們的業(yè)務(wù)場(chǎng)景時(shí),可以自定義詞典
詞典格式和 dict.txt 一樣,一個(gè)詞占一行;每一行分三部分:詞語(yǔ)、詞頻(可省略)、詞性(可省略),用空格隔開(kāi),順序不可顛倒

舉個(gè)栗子,把文本中的奧利給 和 我是照明燈 定義成關(guān)鍵詞,就得這樣定義
奧利給 50
我是照明燈具 50

  • 新建自定義詞典文件:
    在resource 目錄下新建jiebaCon目錄,并新建自定詞典文件
    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)
  • 加載用戶詞典文件
    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)
  • 效果
    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)

動(dòng)態(tài)加載用戶詞典

思路:從外部讀取詞典數(shù)據(jù),生成臨時(shí)文件供jieba分詞組件使用

  • 代碼
    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)
  • 效果
    強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)

實(shí)例代碼

關(guān)注公眾號(hào),回復(fù)jieba 即可獲取源碼
強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-599235.html

到了這里,關(guān)于強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Python文本分析之中文分詞(jieba庫(kù))

    (1)全自動(dòng)安裝 (2)半自動(dòng)安裝 首先登入https://pypi.org/project/jieba/下載安裝包 最后解壓安裝包: python setup py install (3)手動(dòng)安裝 首先登入https://pypi.org/project/jieba/下載安裝包 最后把jieba目錄放置在site-packages目錄內(nèi) 語(yǔ)法: jieba.cut(sentence, cut_all=False, HMM=True, use_paddle=False) 功能

    2024年02月07日
    瀏覽(42)
  • 中文分詞庫(kù)jieba的三種模式介紹

    中文分詞庫(kù)jieba的三種模式介紹

    精準(zhǔn)模式 jieba.cut(test_text, cut_all=False): 試圖將句子最精確地分開(kāi),適合文本分析 全模式 jieba.cut(test_text, cut_all=True): 把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái),速度非???,但是不能解決歧義 搜索引擎模式 jieba.cut_for_search(test_text):在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提

    2024年02月13日
    瀏覽(25)
  • 【一】頭歌平臺(tái)實(shí)驗(yàn)-基于jieba的中文分詞實(shí)戰(zhàn)

    【一】頭歌平臺(tái)實(shí)驗(yàn)-基于jieba的中文分詞實(shí)戰(zhàn)

    ? ? ? ?近年來(lái),隨著自然語(yǔ)言處理技術(shù)的日益成熟,開(kāi)源實(shí)現(xiàn)的分詞工具越來(lái)越多,如 Ansj 、盤(pán)古分詞等。Jieba 是目前最好的 Python 中文分詞組件。 本實(shí)訓(xùn)主要介紹 Jieba 模塊的使用,并通過(guò)示例與實(shí)戰(zhàn),幫助大家掌握使用 Jieba 的方法。 1、jieba的特點(diǎn) ????????分詞是自然

    2024年02月05日
    瀏覽(136)
  • Python——jieba優(yōu)秀的中文分詞庫(kù)(基礎(chǔ)知識(shí)+實(shí)例)

    Python——jieba優(yōu)秀的中文分詞庫(kù)(基礎(chǔ)知識(shí)+實(shí)例)

    Hello,World! 從去年開(kāi)始學(xué)習(xí)Python,在長(zhǎng)久的學(xué)習(xí)過(guò)程中,發(fā)現(xiàn)了許多有趣的知識(shí),不斷充實(shí)自己。今天我所寫(xiě)的內(nèi)容也是極具趣味性,關(guān)于優(yōu)秀的中文分詞庫(kù)——jieba庫(kù)。 ? ? ? ? ???什么是jieba? 1、jieba 是目前表現(xiàn)較為不錯(cuò)的 Python 中文分詞組件,它主要有以下特性: 中

    2024年02月03日
    瀏覽(32)
  • 使用.NET Jieba.NET 的 PosSegmenter 實(shí)現(xiàn)中文分詞匹配

    使用.NET Jieba.NET 的 PosSegmenter 實(shí)現(xiàn)中文分詞匹配

    ? 目錄 引言 1. 什么是中文分詞 2. Jieba.NET簡(jiǎn)介 3. PosSegmenter介紹 4. 實(shí)現(xiàn)中文分詞匹配 4.1 安裝Jieba.NET庫(kù) 4.2 創(chuàng)建PosSegmenter實(shí)例 4.3 分詞和詞性標(biāo)注 4.4 中文分詞匹配 5. 總結(jié) ? ????????在自然語(yǔ)言處理領(lǐng)域,中文分詞是一個(gè)重要且基礎(chǔ)的任務(wù)。中文文本通常沒(méi)有像英文那樣的

    2024年02月11日
    瀏覽(26)
  • es自定義分詞器支持?jǐn)?shù)字字母分詞,中文分詞器jieba支持添加禁用詞和擴(kuò)展詞典

    自定義分析器,分詞器 所有字段檢索 高亮搜索 分詞測(cè)試 GET /test_index/_analyze jieba中文分詞支持添加禁用詞和擴(kuò)展詞庫(kù)功能 創(chuàng)建索引:PUT http://xxxx:9200/test_index 分詞測(cè)試: GET http://xxxxxx:9200/test_index/_analyze

    2024年02月11日
    瀏覽(23)
  • 文本分析-使用jieba庫(kù)進(jìn)行中文分詞和去除停用詞(附案例實(shí)戰(zhàn))

    文本分析-使用jieba庫(kù)進(jìn)行中文分詞和去除停用詞(附案例實(shí)戰(zhàn))

    ? ???♂? 個(gè)人主頁(yè):@艾派森的個(gè)人主頁(yè) ???作者簡(jiǎn)介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對(duì)你有幫助的話, 歡迎評(píng)論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ ????????中文分詞是將中文文本切分成一系列有意義的詞語(yǔ)的過(guò)程。中文分詞可以用于

    2024年02月11日
    瀏覽(42)
  • NLP 之 jieba (結(jié)巴)制作詞云

    NLP 之 jieba (結(jié)巴)制作詞云

    一 、jieba的導(dǎo)入 二、 jieba 結(jié)巴分詞的幾種模式及使用 精確模式 精確劃分,視圖將句子最精確地切分,適合文本分析 全局模式 全模式 把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái),速度非???,但是不能解決歧義 搜索引擎模式 搜索引擎模式,是在精確劃分的基礎(chǔ)上,再進(jìn)行

    2023年04月09日
    瀏覽(10)
  • Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典

    Jieba分詞統(tǒng)計(jì)詞頻及自定義分詞詞典

    統(tǒng)計(jì)詞頻的測(cè)試文本如下: 編寫(xiě)代碼 運(yùn)行代碼查看統(tǒng)計(jì)結(jié)果 2.1 創(chuàng)建詞典 首先我們創(chuàng)建一個(gè) user_dict.txt 文本文件,在文件中添加我們需要的詞典,如下所示: 2.2 編寫(xiě)代碼 接著我們編寫(xiě)代碼進(jìn)行詞典的測(cè)試,測(cè)試的文本如下: 首先我們 不導(dǎo)入 自定義的分詞詞典,看看分詞

    2024年02月13日
    瀏覽(25)
  • NLP基礎(chǔ)—jieba分詞

    NLP基礎(chǔ)—jieba分詞

    支持四種分詞模式 精確模式 試圖將句子最精確地切開(kāi),適合文本分析; 全模式 把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非???,但是不能解決歧義; 搜索引擎模式 在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。 paddle模式 利用Paddl

    2024年04月17日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包