国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

本地elasticsearch中文分詞器 ik分詞器安裝及使用

這篇具有很好參考價(jià)值的文章主要介紹了本地elasticsearch中文分詞器 ik分詞器安裝及使用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

ElasticSearch 內(nèi)置了分詞器,如標(biāo)準(zhǔn)分詞器、簡單分詞器、空白詞器等。但這些分詞器對我們最常使用的中文并不友好,不能按我們的語言習(xí)慣進(jìn)行分詞。

ik分詞器就是一個標(biāo)準(zhǔn)的中文分詞器。它可以根據(jù)定義的字典對域進(jìn)行分詞,并且支持用戶配置自己的字典,所以它除了可以按通用的習(xí)慣分詞外,我們還可以定制化分詞。

ik分詞器是一個插件包,我們可以用插件的方式將它接入到ES。

一、安裝

1.1 下載

下載地址:ik分詞器地址
注意要選擇跟自己es保持一致的版本下載。
本地elasticsearch中文分詞器 ik分詞器安裝及使用

1.2解壓

將下載的安裝包在es安裝目錄下的plugins下新建一個ik文件夾、將文件解壓。
本地elasticsearch中文分詞器 ik分詞器安裝及使用
本地elasticsearch中文分詞器 ik分詞器安裝及使用

1.3啟動

啟動成功之后可以看見ik插件已經(jīng)運(yùn)行
本地elasticsearch中文分詞器 ik分詞器安裝及使用
也可以通過當(dāng)前命令查看插件是否安裝。
本地elasticsearch中文分詞器 ik分詞器安裝及使用
插箱即用,到此ik分詞器的安裝就完成了。

二、使用IK分詞器

IK分詞器有兩種分詞模式:ik_max_word和ik_smart模式。
本地elasticsearch中文分詞器 ik分詞器安裝及使用

1、ik_max_word

會將文本做最細(xì)粒度的拆分,比如會將"曾舒琪董事長早上好"拆分為"曾、舒琪、董事長、董事、長、早上好、早上、上好"

GET /_analyze 
{
  "analyzer": "ik_max_word", // 最細(xì)粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下:

{
  "tokens" : [
    {
      "token" : "曾",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "舒琪",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "董事",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "長",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "CN_CHAR",
      "position" : 4
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "早上",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "上好",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 7
    }
  ]
}

2、ik_smart

會做最粗粒度的拆分,比如會將"曾舒琪董事長早上好"拆分成"曾、舒琪、董事長、早上好"

GET /_analyze
{
  "analyzer": "ik_smart",  // 最粗粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下:

{
  "tokens" : [
    {
      "token" : "曾",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "舒琪",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

這就是ik分詞器兩種簡單的使用模式

問題

我們使用這兩種模式,想讓ik分詞器把名詞進(jìn)行一個拆開劃分,但是有一個問題,曾舒琪這明顯就是一個人名,兩種模式都并沒有把這個詞匯拆開到一起

解決方法

其實(shí)ik分詞器給我們提供了一系列的詞典,我們只需要添加一個自己的詞典。

1、找到config目錄下的xml配置文件
本地elasticsearch中文分詞器 ik分詞器安裝及使用
2、這里我們需要添加我們自己的詞典。其實(shí)所謂詞典就是創(chuàng)建一個名稱后綴以dict結(jié)尾的文件。
本地elasticsearch中文分詞器 ik分詞器安裝及使用
3、這里我添加了一個shipley_zeng.dict的詞典
本地elasticsearch中文分詞器 ik分詞器安裝及使用
4、那這個詞典哪里來的呢?憑空出現(xiàn)嗎?我們返回上一級目錄??梢钥匆娪泻芏嘣~典、我們隨便打開一個看看。
本地elasticsearch中文分詞器 ik分詞器安裝及使用
看看這個main.dict
本地elasticsearch中文分詞器 ik分詞器安裝及使用
可以看見這邊有特別多的詞匯、這些詞匯在實(shí)際的應(yīng)用開發(fā)過程當(dāng)中肯定是不夠用的、我們要創(chuàng)建一個屬于我們自己的詞典。

5、創(chuàng)建一個自己的詞典到config目錄下,名字跟上面提到的一樣叫做shipley_zeng.dict
本地elasticsearch中文分詞器 ik分詞器安裝及使用
內(nèi)容如下,這邊我們要注意一下編碼格式為UTF-8
本地elasticsearch中文分詞器 ik分詞器安裝及使用
6、加入這個詞典后我們在重新啟動es,可以看見已經(jīng)成功的加載了我們創(chuàng)建的詞典
本地elasticsearch中文分詞器 ik分詞器安裝及使用
7、我們在使用 ik_max_word 最細(xì)粒度查詢看看效果

GET /_analyze 
{
  "analyzer": "ik_max_word", // 最細(xì)粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下:

{
  "tokens" : [
    {
      "token" : "曾舒琪",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "舒琪",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "董事",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "長",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "CN_CHAR",
      "position" : 4
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "早上",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "上好",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 7
    }
  ]
}

8、使用 ik_smart 最粗粒度查詢看看效果

GET /_analyze
{
  "analyzer": "ik_smart",  // 最粗粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下:

{
  "tokens" : [
    {
      "token" : "曾舒琪",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

9、我們可以看見、現(xiàn)在不管使用ik_max_word還是ik_smart,他都能將曾舒琪這個詞匯拆開組合,達(dá)到了我們所需要的訴求。
本地elasticsearch中文分詞器 ik分詞器安裝及使用

總結(jié)

以上就是本地elasticsearch中文分詞器 ik分詞器及使用,希望對剛剛接觸es的小伙伴有所幫助,謝謝,如有疑問請隨時聯(lián)系我。文章來源地址http://www.zghlxwxcb.cn/news/detail-447636.html

到了這里,關(guān)于本地elasticsearch中文分詞器 ik分詞器安裝及使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • ElasticSearch:centos7安裝elasticsearch7,kibana,ik中文分詞器,云服務(wù)器安裝elasticsearch

    ElasticSearch:centos7安裝elasticsearch7,kibana,ik中文分詞器,云服務(wù)器安裝elasticsearch

    系統(tǒng):centos7 elasticsearch: 7.17.16 安裝目錄:/usr/local 云服務(wù)器的安全組:開放 9200 和5601的端口 1、安裝 2、修改es的配置文件 注意:es集群啟動后,所有節(jié)點(diǎn)的cluster.initial_master_nodes: [\\\"node-1\\\"] 都要注釋掉。 3、修改jvm.options 可能出現(xiàn)報(bào)錯 1、配置elasticsearch.yml ? 錯誤內(nèi)容 : the de

    2024年02月03日
    瀏覽(31)
  • Linux下安裝ElasticSearch-analysis-ik中文分詞器插件,以及可能出現(xiàn)的異常處理

    Linux下安裝ElasticSearch-analysis-ik中文分詞器插件,以及可能出現(xiàn)的異常處理

    ? ? ? ? 注意:安裝可以采用在線方式、離線方式,但是不建議在線安裝,速度超級慢,本文只介紹離線安裝方式 ? ? ? ? ????????下載地址:https://github.com/medcl/elasticsearch-analysis-ik ? ? ? ? ? ? ? ? 切記選擇版本需要跟ElasticSearch保持一致,否則可能會出現(xiàn)一些未知的異

    2024年02月07日
    瀏覽(37)
  • Elasticsearch7.15.2 安裝ik中文分詞器后啟動ES服務(wù)報(bào)錯的解決辦法

    Elasticsearch7.15.2 安裝ik中文分詞器后啟動ES服務(wù)報(bào)錯的解決辦法

    下載elasticsearch ik中文分詞器,在elasticsearch安裝目錄下的plugins文件夾下創(chuàng)建名為ik的文件夾,將下載的ik中文分詞器解壓縮到新建的ik文件夾下,再次運(yùn)行 ./bin/elasticsearch啟動ES服務(wù)時出現(xiàn)以下錯誤: Exception in thread \\\"main\\\" java.nio.file.NotDirectoryException: /Users/amelia/work/elasticsearch-7.1

    2024年02月12日
    瀏覽(34)
  • Elasticsearch之ik中文分詞篇

    es在7.3版本已經(jīng)支持中文分詞,由于中文分詞只能支持到單個字進(jìn)行分詞,不夠靈活與適配我們平常使用習(xí)慣,所以有很多對應(yīng)中文分詞出現(xiàn),最近使用的是ik分詞器,就說說它吧。 安裝可以百度下有很多教程,需要注意的是ik分詞器的版本要跟es版本對應(yīng)上,避免出現(xiàn)不必要

    2024年02月02日
    瀏覽(29)
  • Elasticsearch下載安裝,IK分詞器、Kibana下載安裝使用,elasticsearch使用演示

    Elasticsearch下載安裝,IK分詞器、Kibana下載安裝使用,elasticsearch使用演示

    首先給出自己使用版本的網(wǎng)盤鏈接:自己的版本7.17.14 鏈接:https://pan.baidu.com/s/1FSlI9jNf1KRP-OmZlCkEZw 提取碼:1234 一般情況下 Elastic Search(ES) 并不單獨(dú)使用,例如主流的技術(shù)組合 ELK(Elasticsearch + Logstash + Kibana ) 1. Elasticsearch下載 下載之前,先看下和 JDK 版本的對應(yīng)關(guān)系,版本

    2024年02月05日
    瀏覽(34)
  • ElasticSearch之IK分詞器安裝以及使用介紹

    ElasticSearch之IK分詞器安裝以及使用介紹

    elasticsearch 默認(rèn)的內(nèi)置分詞器對中文的分詞效果可能并不理想,因?yàn)樗鼈冎饕轻槍τ⑽牡壤≌Z系的文本設(shè)計(jì)的。如果要在中文文本上獲得更好的分詞效果,我們可以考慮使用中文專用的分詞器。 IK 分詞器是一個開源的中文分詞器插件,特別為 Elasticsearch 設(shè)計(jì)和優(yōu)化。它在

    2024年02月13日
    瀏覽(30)
  • Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    閑來無事,發(fā)現(xiàn)上一篇ES博客還是 去年9月份 寫的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用,該篇文章還挖了一個 大坑 沒有填,快一年了,是時候填下坑了。 針對股票查詢這個特點(diǎn)場景,再結(jié)合一般使用者的搜索習(xí)慣,暫時確定如下7種期望效果。 上一篇博客Elast

    2023年04月09日
    瀏覽(30)
  • es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫

    es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫

    目錄 中文分詞器ik分詞器 介紹 安裝 使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫 介紹 中文分詞器按照中文進(jìn)行分詞,中文應(yīng)用最廣泛的是ik分詞器 安裝 官網(wǎng)下載對應(yīng)版本zip 下載 ?放到 ?plugins 目錄 新建 ik文件夾 考入解析zip 重啟 es //分成小單詞 使用分詞器 ik_max_word分成

    2024年02月07日
    瀏覽(21)
  • elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    錯誤截圖 在命令行窗口,執(zhí)行如下命令安裝 IK 中文分詞器 失敗。 錯誤日志 1、自己到github下載對應(yīng)版本的ik中文分詞器 上面命令中兩個插件版本號應(yīng)該和 Elasticsearch 的版本保持一致,我現(xiàn)在用的是 7.14.1 版本。 首先版本和命令是對得上的。 命令行窗口通過命令下載失敗的話

    2024年04月11日
    瀏覽(30)
  • Elasticsearch7.8.0版本進(jìn)階——IK中文分詞器

    Elasticsearch7.8.0版本進(jìn)階——IK中文分詞器

    通過 Postman 發(fā)送 GET 請求查詢分詞效果,在消息體里,指定要分析的文本 輸出結(jié)果如下: 由上圖輸出結(jié)果可知,ES 的默認(rèn)分詞器無法識別中文中測試、單詞這樣的詞匯,而是簡單的將每個字拆完分為一個詞,這樣的結(jié)果顯然不符合我們的使用要求,所以我們需要下載 ES 對應(yīng)

    2024年02月01日
    瀏覽(50)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包