国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<nobr id="2sumh"></nobr>

<del id="2sumh"><b id="2sumh"><td id="2sumh"></td></b></del>

本地elasticsearch中文分詞器 ik分詞器安裝及使用

2年前作者：aq_money分類：Toy博客閱讀(36)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了本地elasticsearch中文分詞器 ik分詞器安裝及使用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

ElasticSearch 內(nèi)置了分詞器，如標(biāo)準(zhǔn)分詞器、簡單分詞器、空白詞器等。但這些分詞器對我們最常使用的中文并不友好，不能按我們的語言習(xí)慣進(jìn)行分詞。

ik分詞器就是一個標(biāo)準(zhǔn)的中文分詞器。它可以根據(jù)定義的字典對域進(jìn)行分詞，并且支持用戶配置自己的字典，所以它除了可以按通用的習(xí)慣分詞外，我們還可以定制化分詞。

ik分詞器是一個插件包，我們可以用插件的方式將它接入到ES。

一、安裝

1.1 下載

下載地址：ik分詞器地址
注意要選擇跟自己es保持一致的版本下載。
本地elasticsearch中文分詞器 ik分詞器安裝及使用

1.2解壓

將下載的安裝包在es安裝目錄下的plugins下新建一個ik文件夾、將文件解壓。
本地elasticsearch中文分詞器 ik分詞器安裝及使用

1.3啟動

啟動成功之后可以看見ik插件已經(jīng)運(yùn)行
本地elasticsearch中文分詞器 ik分詞器安裝及使用
也可以通過當(dāng)前命令查看插件是否安裝。

插箱即用，到此ik分詞器的安裝就完成了。

二、使用IK分詞器

IK分詞器有兩種分詞模式：ik_max_word和ik_smart模式。
本地elasticsearch中文分詞器 ik分詞器安裝及使用

1、ik_max_word

會將文本做最細(xì)粒度的拆分，比如會將"曾舒琪董事長早上好"拆分為"曾、舒琪、董事長、董事、長、早上好、早上、上好"

GET /_analyze 
{
  "analyzer": "ik_max_word", // 最細(xì)粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下：

{
  "tokens" : [
    {
      "token" : "曾",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "舒琪",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "董事",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "長",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "CN_CHAR",
      "position" : 4
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "早上",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "上好",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 7
    }
  ]
}

2、ik_smart

會做最粗粒度的拆分，比如會將"曾舒琪董事長早上好"拆分成"曾、舒琪、董事長、早上好"

GET /_analyze
{
  "analyzer": "ik_smart",  // 最粗粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下：

{
  "tokens" : [
    {
      "token" : "曾",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "舒琪",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

這就是ik分詞器兩種簡單的使用模式

問題

我們使用這兩種模式，想讓ik分詞器把名詞進(jìn)行一個拆開劃分，但是有一個問題，曾舒琪這明顯就是一個人名，兩種模式都并沒有把這個詞匯拆開到一起

解決方法

其實(shí)ik分詞器給我們提供了一系列的詞典，我們只需要添加一個自己的詞典。

1、找到config目錄下的xml配置文件
本地elasticsearch中文分詞器 ik分詞器安裝及使用
2、這里我們需要添加我們自己的詞典。其實(shí)所謂詞典就是創(chuàng)建一個名稱后綴以dict結(jié)尾的文件。

3、這里我添加了一個shipley_zeng.dict的詞典

4、那這個詞典哪里來的呢？憑空出現(xiàn)嗎？我們返回上一級目錄?？梢钥匆娪泻芏嘣~典、我們隨便打開一個看看。
本地elasticsearch中文分詞器 ik分詞器安裝及使用
看看這個main.dict

可以看見這邊有特別多的詞匯、這些詞匯在實(shí)際的應(yīng)用開發(fā)過程當(dāng)中肯定是不夠用的、我們要創(chuàng)建一個屬于我們自己的詞典。

5、創(chuàng)建一個自己的詞典到config目錄下，名字跟上面提到的一樣叫做shipley_zeng.dict
本地elasticsearch中文分詞器 ik分詞器安裝及使用
內(nèi)容如下，這邊我們要注意一下編碼格式為UTF-8

6、加入這個詞典后我們在重新啟動es，可以看見已經(jīng)成功的加載了我們創(chuàng)建的詞典

7、我們在使用 ik_max_word 最細(xì)粒度查詢看看效果

GET /_analyze 
{
  "analyzer": "ik_max_word", // 最細(xì)粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下：

{
  "tokens" : [
    {
      "token" : "曾舒琪",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "舒琪",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "董事",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "長",
      "start_offset" : 5,
      "end_offset" : 6,
      "type" : "CN_CHAR",
      "position" : 4
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "早上",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "上好",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 7
    }
  ]
}

8、使用 ik_smart 最粗粒度查詢看看效果

GET /_analyze
{
  "analyzer": "ik_smart",  // 最粗粒度劃分
  "text": "曾舒琪董事長早上好"
}

執(zhí)行結(jié)果如下：

{
  "tokens" : [
    {
      "token" : "曾舒琪",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "董事長",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "早上好",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

9、我們可以看見、現(xiàn)在不管使用ik_max_word還是ik_smart，他都能將曾舒琪這個詞匯拆開組合，達(dá)到了我們所需要的訴求。
本地elasticsearch中文分詞器 ik分詞器安裝及使用

總結(jié)

以上就是本地elasticsearch中文分詞器 ik分詞器及使用，希望對剛剛接觸es的小伙伴有所幫助，謝謝，如有疑問請隨時聯(lián)系我。文章來源地址http://www.zghlxwxcb.cn/news/detail-447636.html

到了這里，關(guān)于本地elasticsearch中文分詞器 ik分詞器安裝及使用的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

ElasticSearch：centos7安裝elasticsearch7，kibana，ik中文分詞器,云服務(wù)器安裝elasticsearch
系統(tǒng)：centos7 elasticsearch: 7.17.16 安裝目錄：/usr/local 云服務(wù)器的安全組：開放 9200 和5601的端口 1、安裝 2、修改es的配置文件注意：es集群啟動后，所有節(jié)點(diǎn)的cluster.initial_master_nodes: [\\\"node-1\\\"] 都要注釋掉。 3、修改jvm.options 可能出現(xiàn)報(bào)錯 1、配置elasticsearch.yml ? 錯誤內(nèi)容： the de
2024年02月03日
瀏覽(31)
Linux下安裝ElasticSearch-analysis-ik中文分詞器插件，以及可能出現(xiàn)的異常處理
? ? ? ? 注意：安裝可以采用在線方式、離線方式，但是不建議在線安裝，速度超級慢，本文只介紹離線安裝方式 ? ? ? ? ????????下載地址：https://github.com/medcl/elasticsearch-analysis-ik ? ? ? ? ? ? ? ? 切記選擇版本需要跟ElasticSearch保持一致，否則可能會出現(xiàn)一些未知的異
2024年02月07日
瀏覽(37)
Elasticsearch7.15.2 安裝ik中文分詞器后啟動ES服務(wù)報(bào)錯的解決辦法
下載elasticsearch ik中文分詞器，在elasticsearch安裝目錄下的plugins文件夾下創(chuàng)建名為ik的文件夾，將下載的ik中文分詞器解壓縮到新建的ik文件夾下，再次運(yùn)行 ./bin/elasticsearch啟動ES服務(wù)時出現(xiàn)以下錯誤： Exception in thread \\\"main\\\" java.nio.file.NotDirectoryException: /Users/amelia/work/elasticsearch-7.1
2024年02月12日
瀏覽(34)
Elasticsearch之ik中文分詞篇
es在7.3版本已經(jīng)支持中文分詞，由于中文分詞只能支持到單個字進(jìn)行分詞，不夠靈活與適配我們平常使用習(xí)慣，所以有很多對應(yīng)中文分詞出現(xiàn)，最近使用的是ik分詞器，就說說它吧。安裝可以百度下有很多教程，需要注意的是ik分詞器的版本要跟es版本對應(yīng)上，避免出現(xiàn)不必要
2024年02月02日
瀏覽(29)
Elasticsearch下載安裝，IK分詞器、Kibana下載安裝使用，elasticsearch使用演示
首先給出自己使用版本的網(wǎng)盤鏈接：自己的版本7.17.14 鏈接：https://pan.baidu.com/s/1FSlI9jNf1KRP-OmZlCkEZw 提取碼：1234 一般情況下 Elastic Search（ES）并不單獨(dú)使用，例如主流的技術(shù)組合 ELK（Elasticsearch + Logstash + Kibana ） 1. Elasticsearch下載下載之前，先看下和 JDK 版本的對應(yīng)關(guān)系，版本
2024年02月05日
瀏覽(34)
ElasticSearch之IK分詞器安裝以及使用介紹
elasticsearch 默認(rèn)的內(nèi)置分詞器對中文的分詞效果可能并不理想，因?yàn)樗鼈冎饕轻槍τ⑽牡壤≌Z系的文本設(shè)計(jì)的。如果要在中文文本上獲得更好的分詞效果，我們可以考慮使用中文專用的分詞器。 IK 分詞器是一個開源的中文分詞器插件，特別為 Elasticsearch 設(shè)計(jì)和優(yōu)化。它在
2024年02月13日
瀏覽(30)
Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞
閑來無事，發(fā)現(xiàn)上一篇ES博客還是去年9月份寫的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用，該篇文章還挖了一個大坑沒有填，快一年了，是時候填下坑了。針對股票查詢這個特點(diǎn)場景，再結(jié)合一般使用者的搜索習(xí)慣，暫時確定如下7種期望效果。上一篇博客Elast
2023年04月09日
瀏覽(30)
es elasticsearch 十中文分詞器ik分詞器 Mysql 熱更新詞庫
目錄中文分詞器ik分詞器介紹安裝使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫介紹中文分詞器按照中文進(jìn)行分詞，中文應(yīng)用最廣泛的是ik分詞器安裝官網(wǎng)下載對應(yīng)版本zip 下載 ?放到 ?plugins 目錄新建 ik文件夾考入解析zip 重啟 es //分成小單詞使用分詞器 ik_max_word分成
2024年02月07日
瀏覽(21)
elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常（Exception in thread “main“ java.nio.file.NoSuchFileException）
錯誤截圖在命令行窗口，執(zhí)行如下命令安裝 IK 中文分詞器失敗。錯誤日志 1、自己到github下載對應(yīng)版本的ik中文分詞器上面命令中兩個插件版本號應(yīng)該和 Elasticsearch 的版本保持一致，我現(xiàn)在用的是 7.14.1 版本。首先版本和命令是對得上的。命令行窗口通過命令下載失敗的話
2024年04月11日
瀏覽(30)
Elasticsearch7.8.0版本進(jìn)階——IK中文分詞器
通過 Postman 發(fā)送 GET 請求查詢分詞效果，在消息體里，指定要分析的文本輸出結(jié)果如下：由上圖輸出結(jié)果可知，ES 的默認(rèn)分詞器無法識別中文中測試、單詞這樣的詞匯，而是簡單的將每個字拆完分為一個詞，這樣的結(jié)果顯然不符合我們的使用要求，所以我們需要下載 ES 對應(yīng)
2024年02月01日
瀏覽(50)

<del id="5h6ku"><b id="5h6ku"></b></del><optgroup id="5h6ku"></optgroup>

<tfoot id="5h6ku"></tfoot>

<kbd id="5h6ku"></kbd>