一、什么是IK分詞器
所謂分詞,即把一段中文或者別的劃分成一個(gè)個(gè)的關(guān)鍵字,我們?cè)谒阉鲿r(shí)會(huì)把自己的信息進(jìn)行分詞,會(huì)把數(shù)據(jù)庫(kù)中或者索引庫(kù)中的數(shù)據(jù)進(jìn)行分詞,然后進(jìn)行一個(gè)匹配的操作,默認(rèn)的中文分詞器是將每一個(gè)字看成一個(gè)詞,比如“我愛中國(guó)”會(huì)被分成“我”、“愛”、“中”、“國(guó)”,這顯然是不符合要求的,所以我們需要安裝中文分詞器IK來(lái)解決這個(gè)問題!
二、IK分詞器的分詞算法
1、ik__smart最少切分
2、ik_max_word最細(xì)粒度劃分
三、安裝IK
1、官網(wǎng)地址:GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.
2、下載完畢之后,放入我們的elasticsearch的插件文件夾中
3、重啟觀察Elasticsearch
可以看到我們es啟動(dòng)的時(shí)候,加載了剛剛解壓的ik插件?
4、也可以通過ES的bin下的elasticsearch-plugin.bat查看安裝的插件
(1)在bin目錄下,打開cmd輸入命令
elasticsearch-plugin list
(2)可以查看當(dāng)前安裝的插件有哪些
5、使用kibana測(cè)試
(1)ik__smart最少切分:根據(jù)字典的配置,盡量少的對(duì)文檔進(jìn)行拆分
GET _analyze:這是通過RestFul風(fēng)格請(qǐng)求分詞器
“analyzer”:表示請(qǐng)求的分詞要求(選擇最少切分還是最細(xì)粒度?。?br> “text”:表示要分詞的文本
(2)ik_max_word最細(xì)粒度劃分:根據(jù)詞庫(kù)中的字典,最大程度的對(duì)文檔內(nèi)容進(jìn)行拆分
四、配置IK分詞器字典
假如我想對(duì)以下的內(nèi)容進(jìn)行分詞,我不希望“長(zhǎng)江東逝水”分開,這個(gè)時(shí)候就需要我們自己去配置一下屬于我們自己的字典了
配置方法:
1、打開IK分詞器的config配置文件夾
2、查看IKAnalyzer.cfg.xml配置文件
3、在目錄下新建一個(gè)文件,后綴為.dic,把我們想配置的字典內(nèi)容填進(jìn)去
如果我們不希望把某個(gè)詞給我拆開了,那么我就可以通過編寫自己的配置字典,把文本輸入進(jìn)去,綁定到IKAnalyzer.cfg.xml配置文件中即可!
4、把我們自己配置的字典注入進(jìn)來(lái)
5、重啟ES和kibana
(1)觀察ES細(xì)節(jié),我們自己編寫的字典被加載進(jìn)來(lái)了!
(2)重啟kibana即可
6、測(cè)試重新使用最少切分的算法,測(cè)試“滾滾長(zhǎng)江東逝水”,是否把我們的“長(zhǎng)江東逝水”拼接在一起了
成功!
將來(lái)我們所有需要自己配置特定的分詞效果,直接在我們自己定義的dic文件中進(jìn)行配置即可!?。。。。∮浀媒壎ǖ絀KAnalyzer.cfg.xml配置文件中哦文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-769825.html
至此,恭喜你已經(jīng)掌握了安裝和使用IK分詞器,掌握了分詞的基本規(guī)則。后續(xù)還會(huì)持續(xù)更新關(guān)于ES相關(guān)技術(shù)點(diǎn),敬清期待~~~文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-769825.html
到了這里,關(guān)于ElasticSearch篇——認(rèn)識(shí)、安裝和使用IK分詞器插件,一篇文章帶你徹底拿下!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!