簡介
原生jieba分詞是強大的Python組件,可以用來進行關(guān)鍵詞提取,標注以及定位。
java版支持三種模式
- 精確模式:試圖將句子最精確地切開,適合文本分析;
- 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義;
- 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞
使用
導(dǎo)入maven依賴
項目地址:https://github.com/huaban/jieba-analysis
三種模式使用
準備一段文本 奧利給 我是照明燈具 普通型 安全出口標志燈 DC36V 6W 壁式,看三種模式抽取出的關(guān)鍵詞區(qū)別
- 代碼
- 效果
精確模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標志燈","DC36V6W","壁式"]
INDEX模式:["奧利","給","我","是","照明","明燈","照明燈","具","普通","普通型","安全","出口","標志","標志燈","dc36v6w","壁式"]
SEARCH模式:["奧利","給","我","是","照明燈","具","普通型","安全","出口","標志燈","dc36v6w","壁式"]
可以看出serch模式和精確模式區(qū)別不大
自定義詞典
jieba 分詞內(nèi)置了常用詞典,在源代碼目錄下有個dic.txt文件
當內(nèi)置詞典不滿足我們的業(yè)務(wù)場景時,可以自定義詞典
詞典格式和 dict.txt 一樣,一個詞占一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒
舉個栗子,把文本中的奧利給 和 我是照明燈 定義成關(guān)鍵詞,就得這樣定義
奧利給 50
我是照明燈具 50
- 新建自定義詞典文件:
在resource 目錄下新建jiebaCon目錄,并新建自定詞典文件 - 加載用戶詞典文件
- 效果
動態(tài)加載用戶詞典
思路:從外部讀取詞典數(shù)據(jù),生成臨時文件供jieba分詞組件使用文章來源:http://www.zghlxwxcb.cn/news/detail-599275.html
- 代碼
- 效果
實例代碼
關(guān)注公眾號,回復(fù)jieba 即可獲取源碼文章來源地址http://www.zghlxwxcb.cn/news/detail-599275.html
到了這里,關(guān)于結(jié)巴分詞-強大的中文分詞器實踐(java版)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!