国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Java】jieba結(jié)巴分詞器自定義分詞詞典 超詳細(xì)完整版

這篇具有很好參考價值的文章主要介紹了【Java】jieba結(jié)巴分詞器自定義分詞詞典 超詳細(xì)完整版。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

發(fā)現(xiàn)一款很輕量好用的分詞器->結(jié)巴分詞器 分享給大家
不僅可以對常規(guī)語句分詞,還可以自定義分詞內(nèi)容,很強(qiáng)大??!

源碼地址??:https://github.com/huaban/jieba-analysis

簡單使用

如果是常規(guī)的語句,使用這種方式?jīng)]有問題,如果是復(fù)雜語句或帶有專業(yè)名詞的語句請看 下方“復(fù)雜語句分詞”

1.引入依賴

<dependency>
       <groupId>com.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
     <version>1.0.2</version>
 </dependency>

2.使用方法

	@Test
    public void demo() {
        String content = "中華人民共和國萬歲,世界人民大團(tuán)結(jié)萬歲";
        JiebaSegmenter segmenter = new JiebaSegmenter();
        List<String> result = segmenter.sentenceProcess(content);
        System.out.println("分詞:" + result );
        //分詞結(jié)果->分詞:中華人民共和國 萬歲  世界 人民 大團(tuán)結(jié) 萬歲
    }

復(fù)雜語句分詞

自定義分詞,適合對帶有專業(yè)名詞的語句分詞

問題復(fù)現(xiàn)

使用上方代碼如果我對“使用前對yb清洗后,將婦科凝膠推進(jìn)器伸入yd,將婦科凝膠推入yd深處。每日1次,每次1支。”分詞 ;

結(jié)果為:分詞:[使用, 前, 對, yb, 清洗, 后, ,, 將, 婦科, 凝膠, 推進(jìn)器, 伸入, yd, ,, 將, 婦科, 凝膠, 推入, yd, 深處, 。, 每日, 1, 次, ,, 每次, 1, 支, 。] ;
婦科凝膠是一個專業(yè)名詞,很顯然不符合我分詞的需求 另外我還想把每日1次每次1支合并在一起

自定義分詞

	@Test
    public void demo() {
   		String content = "使用前對yb清洗后,將婦科凝膠推進(jìn)器伸入yd,將婦科凝膠推入yd深處。每日1次,每次1支。";
        JiebaSegmenter segmenter = new JiebaSegmenter();
        List<String> result = segmenter.sentenceProcess(content);
        System.out.println("分詞:" + result);
        //↓↓↓↓自定義分詞器↓↓↓↓↓
        Path path = Paths.get("D:\\資料\\fkck.txt");
        WordDictionary.getInstance().loadUserDict(path);
        List<String> result2 = segmenter.sentenceProcess(content);
        System.out.println("自定義分詞:" + result2);
        //自定義分詞:[使用, 前, 對, yb, 清洗, 后, ,, 將, 婦科凝膠, 推進(jìn)器, 伸入, yd, ,, 將, 婦科凝膠, 推入, yd, 深處, 。, 每日1次, ,, 每次1支, 。]
        //可以看到婦科凝膠和每日1次,每次1支都正確的進(jìn)行了分詞
}
fkck.txt內(nèi)容

【Java】jieba結(jié)巴分詞器自定義分詞詞典 超詳細(xì)完整版

婦科凝膠 1 n
每日1次 1 num
每次1支 1 num

格式為:一個詞占一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。

去掉標(biāo)點符號

用正則表達(dá)式,把分詞后的結(jié)果中所有的標(biāo)點符號全部去除

result.toString().replaceAll("[\\pP‘’“”]", "")

覺得好用點個贊吧??????文章來源地址http://www.zghlxwxcb.cn/news/detail-420391.html

到了這里,關(guān)于【Java】jieba結(jié)巴分詞器自定義分詞詞典 超詳細(xì)完整版的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • NLP 之 jieba (結(jié)巴)制作詞云

    NLP 之 jieba (結(jié)巴)制作詞云

    一 、jieba的導(dǎo)入 二、 jieba 結(jié)巴分詞的幾種模式及使用 精確模式 精確劃分,視圖將句子最精確地切分,適合文本分析 全局模式 全模式 把句子中所有的可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義 搜索引擎模式 搜索引擎模式,是在精確劃分的基礎(chǔ)上,再進(jìn)行

    2023年04月09日
    瀏覽(10)
  • Jieba分詞模式詳解、詞庫的添加與刪除、自定義詞庫失敗的處理

    Jieba分詞模式詳解、詞庫的添加與刪除、自定義詞庫失敗的處理

    Jieba(結(jié)巴)是一個中文分詞第三方庫,它可以幫助我們將一段中文文本分成一個個獨立的詞語。Jieba具有以下特點: 簡單易用:Jieba提供了簡潔的API接口,易于使用和擴(kuò)展??梢钥焖俚貙崿F(xiàn)中文分詞功能。 高效準(zhǔn)確:Jieba采用了基于前綴詞典和動態(tài)規(guī)劃算法的分詞方法,能夠

    2024年02月05日
    瀏覽(22)
  • Python結(jié)巴中文分詞筆記

    Python結(jié)巴中文分詞筆記

    ?? jieba庫概述 Jieba是一個流行的中文分詞庫,它能夠?qū)⒅形奈谋厩蟹殖稍~語,并對每個詞語進(jìn)行詞性標(biāo)注。中文分詞是自然語言處理的重要步驟之一,它對于文本挖掘、信息檢索、情感分析等任務(wù)具有重要意義。 ?? jieba分詞的原理 jieba分詞的原理是基于統(tǒng)計和規(guī)則的混合分

    2024年02月16日
    瀏覽(16)
  • 推薦系統(tǒng)[一]:超詳細(xì)知識介紹,一份完整的入門指南,解答推薦系統(tǒng)相關(guān)算法流程、衡量指標(biāo)和應(yīng)用,以及如何使用jieba分詞庫進(jìn)行相似推薦,業(yè)界廣告推薦技術(shù)最新進(jìn)展

    推薦系統(tǒng)[一]:超詳細(xì)知識介紹,一份完整的入門指南,解答推薦系統(tǒng)相關(guān)算法流程、衡量指標(biāo)和應(yīng)用,以及如何使用jieba分詞庫進(jìn)行相似推薦,業(yè)界廣告推薦技術(shù)最新進(jìn)展

    搜索推薦系統(tǒng)專欄簡介:搜索推薦全流程講解(召回粗排精排重排混排)、系統(tǒng)架構(gòu)、常見問題、算法項目實戰(zhàn)總結(jié)、技術(shù)細(xì)節(jié)以及項目實戰(zhàn)(含碼源) 專欄詳細(xì)介紹:搜索推薦系統(tǒng)專欄簡介:搜索推薦全流程講解(召回粗排精排重排混排)、系統(tǒng)架構(gòu)、常見問題、算法項目

    2024年02月13日
    瀏覽(24)
  • 自然語言處理學(xué)習(xí)筆記(四)————詞典分詞

    目錄 1.中文分詞 2.詞典分詞 (1)詞的定義 (2)詞典性質(zhì)——齊夫定律 ?(3)詞典 (4)加載詞典 ?(5)hanlp詞典路徑 1.中文分詞 中文分詞 :指的是將一段文本拆分為一系列單詞的過程,這些單詞順序拼接后等于原文本。 中文分詞算法大致分為 基于詞典規(guī)則 與 基于機(jī)器學(xué)

    2024年02月14日
    瀏覽(20)
  • NLP基礎(chǔ)—jieba分詞

    NLP基礎(chǔ)—jieba分詞

    支持四種分詞模式 精確模式 試圖將句子最精確地切開,適合文本分析; 全模式 把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義; 搜索引擎模式 在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。 paddle模式 利用Paddl

    2024年04月17日
    瀏覽(24)
  • python之jieba分詞庫使用

    一. 介紹 A. 什么是jieba庫 jieba庫是一款開源的中文分詞工具,能夠?qū)⒅形奈谋厩蟹殖稍~語。 B. jieba庫的特點和優(yōu)勢 支持四種分詞模式:精確模式、全模式、搜索引擎模式和paddle模式。 提供自定義詞典功能,可以添加、刪除詞語。 支持提取和詞性標(biāo)注。 提供Tokenize接口

    2024年02月16日
    瀏覽(27)
  • 分詞工具與方法:jieba、spaCy等

    分詞是自然語言處理中的一項重要任務(wù),將一段文本劃分成一系列有意義的詞語或單詞,是很多文本處理任務(wù)的基礎(chǔ),如文本分類、情感分析、機(jī)器翻譯等。在中文分詞中,jieba是一個常用的分詞工具,而在英文分詞中,spaCy是一個較為流行的選擇。本文將介紹jieba和spaCy的使

    2024年02月15日
    瀏覽(18)
  • Python中文分詞庫——jieba的用法

    jieba是優(yōu)秀的中文分詞第三方庫。由于中文文本之間每個漢字都是連續(xù)書寫的,我們需要通過特定的手段來獲得其中的每個單詞,這種手段就叫分詞。而jieba是Python計算生態(tài)中非常優(yōu)秀的中文分詞第三方庫,需要通過安裝來使用它。 jieba庫提供了三種分詞模式,但實際上要達(dá)到

    2023年04月25日
    瀏覽(24)
  • 數(shù)據(jù)分析之jieba分詞使用詳解

    數(shù)據(jù)分析之jieba分詞使用詳解

    在所有人類語言中,一句話、一段文本、一篇文章都是有一個個的詞組成的。詞是包含獨立意義的最小文本單元,將長文本拆分成單個獨立的詞匯的過程叫做分詞。分詞之后,文本原本的語義將被拆分到在更加精細(xì)化的各個獨立詞匯中,詞匯的結(jié)構(gòu)比長文本簡單,對于計算機(jī)

    2024年02月11日
    瀏覽(37)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包