簡(jiǎn)介
原生jieba分詞是強(qiáng)大的Python組件,可以用來(lái)進(jìn)行關(guān)鍵詞提取,標(biāo)注以及定位。
java版支持三種模式
- 精確模式:試圖將句子最精確地切開(kāi),適合文本分析;
- 全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非???,但是不能解決歧義;
- 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞
使用
導(dǎo)入maven依賴
項(xiàng)目地址:https://github.com/huaban/jieba-analysis
三種模式使用
準(zhǔn)備一段文本 奧利給 我是照明燈具 普通型 安全出口標(biāo)志燈 DC36V 6W 壁式,看三種模式抽取出的關(guān)鍵詞區(qū)別
- 代碼
- 效果
精確模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標(biāo)志燈","DC36V6W","壁式"]
INDEX模式:["奧利","給","我","是","照明","明燈","照明燈","具","普通","普通型","安全","出口","標(biāo)志","標(biāo)志燈","dc36v6w","壁式"]
SEARCH模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標(biāo)志燈","dc36v6w","壁式"]
可以看出serch模式和精確模式區(qū)別不大
自定義詞典
jieba 分詞內(nèi)置了常用詞典,在源代碼目錄下有個(gè)dic.txt文件
當(dāng)內(nèi)置詞典不滿足我們的業(yè)務(wù)場(chǎng)景時(shí),可以自定義詞典
詞典格式和 dict.txt 一樣,一個(gè)詞占一行;每一行分三部分:詞語(yǔ)、詞頻(可省略)、詞性(可省略),用空格隔開(kāi),順序不可顛倒
舉個(gè)栗子,把文本中的奧利給 和 我是照明燈 定義成關(guān)鍵詞,就得這樣定義
奧利給 50
我是照明燈具 50
- 新建自定義詞典文件:
在resource 目錄下新建jiebaCon目錄,并新建自定詞典文件 - 加載用戶詞典文件
- 效果
動(dòng)態(tài)加載用戶詞典
思路:從外部讀取詞典數(shù)據(jù),生成臨時(shí)文件供jieba分詞組件使用文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-599235.html
- 代碼
- 效果
實(shí)例代碼
關(guān)注公眾號(hào),回復(fù)jieba 即可獲取源碼文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-599235.html
到了這里,關(guān)于強(qiáng)大的中文分詞器--結(jié)巴分詞(java版)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!