国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Elasticsearch安裝中文分詞器IK Analyzer

這篇具有很好參考價(jià)值的文章主要介紹了Elasticsearch安裝中文分詞器IK Analyzer。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

提示:文章寫(xiě)完后,目錄可以自動(dòng)生成,如何生成可參考右邊的幫助文檔


前言

本文介紹IK Analyzer分詞器的安裝配置、使用以及ES數(shù)據(jù)遷移。


一、IK分詞器的安裝配置

1.克隆elasticsearch-analysis-ik

克隆IK分詞器項(xiàng)目,根據(jù)README的描述選擇對(duì)應(yīng)版本的分支。瀏覽器訪問(wèn)ES的ip+端口就能看到版本信息,所以我需要切到master分支。
安裝分詞器,elasticsearch,中文分詞安裝分詞器,elasticsearch,中文分詞
打開(kāi)pom需要調(diào)整一些依賴的版本,與你安裝的es版本一致,否則無(wú)法使用插件。

<elasticsearch.version>7.9.2</elasticsearch.version>

修改版本后reload project,可能會(huì)編譯不通過(guò),需要修改代碼,比如我遇到的這個(gè)問(wèn)題工具類包路徑變了,重新導(dǎo)包就行;另一個(gè)是父類的構(gòu)造方法變了,填入對(duì)應(yīng)的參數(shù)等。切換不同版本的elasticsearch包需要修改的部分可能不一樣。
安裝分詞器,elasticsearch,中文分詞
安裝分詞器,elasticsearch,中文分詞

2.編譯并安裝分詞器插件

使用maven的package打包項(xiàng)目后會(huì)在target生成一個(gè)releases目錄,里面有一個(gè)zip包,elasticsearch-analysis-ik-version.zip
安裝分詞器,elasticsearch,中文分詞

進(jìn)入es安裝目錄,創(chuàng)建一個(gè)目錄,再解壓上述文件,其中config目錄中包含分詞詞典,可以自定義詞典。
安裝分詞器,elasticsearch,中文分詞
到這一步就可以啟動(dòng)es測(cè)試分詞效果了。
使用kibana訪問(wèn)

#ik_smart模式分詞
GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "中國(guó)駐洛杉磯領(lǐng)事館遭亞裔男子槍擊 嫌犯已自首"
}
#es默認(rèn)分詞
GET /_analyze
{
  "analyzer": "standard",
  "text": "中國(guó)駐洛杉磯領(lǐng)事館遭亞裔男子槍擊 嫌犯已自首"
}

3.自定義分詞詞典

自定義詞典需要?jiǎng)?chuàng)建一個(gè)文本以dic結(jié)尾,每行一個(gè)詞,且,編輯IKAnalyzer.cfg.xml,使用相對(duì)路徑,多個(gè)詞典使用英文分號(hào)分隔。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 擴(kuò)展配置</comment>
	<!--用戶可以在這里配置自己的擴(kuò)展字典 -->
	<entry key="ext_dict">mydic.dic;mydic2.dic;</entry>
	 <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典-->
	<entry key="ext_stopwords"></entry>
	<!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

4.注意事項(xiàng)

1.關(guān)于ik的兩種模式

ik_smart模式,是以最粗粒度進(jìn)行分詞。如果關(guān)鍵字本身就是分詞庫(kù)中的一個(gè)詞語(yǔ),那么將不會(huì)進(jìn)一步分詞;如果它包含多個(gè)分詞庫(kù)中的分詞,每次取最先獲取到的分詞,再對(duì)剩余的詞語(yǔ)分詞。例如有“聯(lián)想臺(tái)式”、“臺(tái)式計(jì)算機(jī)”、“計(jì)算機(jī)”三個(gè)分詞;那么"聯(lián)想臺(tái)式計(jì)算機(jī)"的ik_smart分詞結(jié)果為“聯(lián)想臺(tái)式”、“計(jì)算機(jī)”,而不會(huì)有“臺(tái)式計(jì)算機(jī)”。(適合搜索時(shí)分詞)
ik_max_word則會(huì)窮舉所有的分詞。(適合建立索引時(shí)進(jìn)行分詞)

2.詞典只支持中文,因此中英混合詞語(yǔ)會(huì)拆分,但是英文數(shù)字可以作為一個(gè)詞語(yǔ)。
3.該插件雖然支持熱更新分詞庫(kù),但是只是針對(duì)搜索時(shí)進(jìn)行的分詞,底層的倒排索引并沒(méi)有改變。

二、ES數(shù)據(jù)遷移

1.建立新的索引

因?yàn)樵瓉?lái)沒(méi)有使用中文分詞器,中文會(huì)拆分成單獨(dú)的字,所以倒排索引中全是單個(gè)字,這時(shí)候使用match搜索,搜索條件按詞典分詞了,但是詞語(yǔ)并不能匹配到文檔中的內(nèi)容。所以需要重建建立索引,讓ES按照我們的詞典去建立倒排記錄表。

2.將舊索引數(shù)據(jù)導(dǎo)入新索引

使用es的reindex操作,其中slices是分片數(shù),可理解為多線程執(zhí)行reindex操作,refresh是執(zhí)行完后刷新。舊索引的名稱是my_index_v1,新索引是my_index_v2

#重建索引
POST _reindex?slices=5&refresh
{
  "source": {
    "index": "my_index_v1"
  },
  "dest": {
    "index": "my_index_v2"
  },
  "script": {
    "source": """
    //我將索引中的myName改成了my_name,reindex時(shí)舊索引字段會(huì)默認(rèn)copy進(jìn)新索引,所以我需要?jiǎng)h除myName,并將值賦值給my_name。如果沒(méi)有這類操作,可以刪除script。
    ctx._source.my_name = ctx._source.remove("myName");
    """,
    "lang": "painless"
  }
}

數(shù)據(jù)量大的話重建請(qǐng)求會(huì)超時(shí),此時(shí)可以利用task查看它的任務(wù)

#查看reindex的任務(wù)列表需要顯示任務(wù)詳情
GET _tasks?detailed=true&actions=*reindex

任務(wù)完成后文檔數(shù)量應(yīng)與舊索引文檔數(shù)量一致

GET /_cat/count/my_index_v2?v

之后將新索引添加別名,系統(tǒng)連接es時(shí)使用索引別名。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-516948.html

#添加別名
POST /_aliases
{
  "actions": [
    {
      "add": {
        "index": "my_index_v2",
        "alias": "my_index"
      }
    }
  ]
}

到了這里,關(guān)于Elasticsearch安裝中文分詞器IK Analyzer的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Elasticsearch07:ES中文分詞插件(es-ik)安裝部署

    Elasticsearch07:ES中文分詞插件(es-ik)安裝部署

    在中文數(shù)據(jù)檢索場(chǎng)景中,為了提供更好的檢索效果,需要在ES中集成中文分詞器,因?yàn)镋S默認(rèn)是按照英文的分詞規(guī)則進(jìn)行分詞的,基本上可以認(rèn)為是單字分詞,對(duì)中文分詞效果不理想。 ES之前是沒(méi)有提供中文分詞器的,現(xiàn)在官方也提供了一些,但是在中文分詞領(lǐng)域,IK分詞器是

    2024年02月03日
    瀏覽(27)
  • elasticsearch安裝中文分詞IK啟動(dòng)異常:java.nio.file.AccessDeniedException

    啟動(dòng)錯(cuò)誤信息如下: 問(wèn)題原因:plugins中添加的ik目錄沒(méi)有權(quán)限; 解決方案:進(jìn)入elasticsearch容器對(duì)應(yīng)plugins目錄下,進(jìn)行 chmod 777 ik 授權(quán)即可。

    2024年02月03日
    瀏覽(24)
  • windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    目錄 問(wèn)題現(xiàn)象: 解決方法: 1、下載IK中文分詞器 2、部署 3、使用 前言(選看) ? ? ? 最近在重溫Elasticsearch,看來(lái)一下官網(wǎng),都出到8.4.3版本了。想當(dāng)初學(xué)的時(shí)候用的還是5.6.8,版本更新了很多意味著有大變動(dòng)。 ????????? windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安

    2024年02月13日
    瀏覽(33)
  • Linux下安裝ElasticSearch-analysis-ik中文分詞器插件,以及可能出現(xiàn)的異常處理

    Linux下安裝ElasticSearch-analysis-ik中文分詞器插件,以及可能出現(xiàn)的異常處理

    ? ? ? ? 注意:安裝可以采用在線方式、離線方式,但是不建議在線安裝,速度超級(jí)慢,本文只介紹離線安裝方式 ? ? ? ? ????????下載地址:https://github.com/medcl/elasticsearch-analysis-ik ? ? ? ? ? ? ? ? 切記選擇版本需要跟ElasticSearch保持一致,否則可能會(huì)出現(xiàn)一些未知的異

    2024年02月07日
    瀏覽(35)
  • Elasticsearch之ik中文分詞篇

    es在7.3版本已經(jīng)支持中文分詞,由于中文分詞只能支持到單個(gè)字進(jìn)行分詞,不夠靈活與適配我們平常使用習(xí)慣,所以有很多對(duì)應(yīng)中文分詞出現(xiàn),最近使用的是ik分詞器,就說(shuō)說(shuō)它吧。 安裝可以百度下有很多教程,需要注意的是ik分詞器的版本要跟es版本對(duì)應(yīng)上,避免出現(xiàn)不必要

    2024年02月02日
    瀏覽(29)
  • Elasticsearch7.15.2 安裝ik中文分詞器后啟動(dòng)ES服務(wù)報(bào)錯(cuò)的解決辦法

    Elasticsearch7.15.2 安裝ik中文分詞器后啟動(dòng)ES服務(wù)報(bào)錯(cuò)的解決辦法

    下載elasticsearch ik中文分詞器,在elasticsearch安裝目錄下的plugins文件夾下創(chuàng)建名為ik的文件夾,將下載的ik中文分詞器解壓縮到新建的ik文件夾下,再次運(yùn)行 ./bin/elasticsearch啟動(dòng)ES服務(wù)時(shí)出現(xiàn)以下錯(cuò)誤: Exception in thread \\\"main\\\" java.nio.file.NotDirectoryException: /Users/amelia/work/elasticsearch-7.1

    2024年02月12日
    瀏覽(33)
  • Elasticsearch7.8.0版本進(jìn)階——IK中文分詞器

    Elasticsearch7.8.0版本進(jìn)階——IK中文分詞器

    通過(guò) Postman 發(fā)送 GET 請(qǐng)求查詢分詞效果,在消息體里,指定要分析的文本 輸出結(jié)果如下: 由上圖輸出結(jié)果可知,ES 的默認(rèn)分詞器無(wú)法識(shí)別中文中測(cè)試、單詞這樣的詞匯,而是簡(jiǎn)單的將每個(gè)字拆完分為一個(gè)詞,這樣的結(jié)果顯然不符合我們的使用要求,所以我們需要下載 ES 對(duì)應(yīng)

    2024年02月01日
    瀏覽(50)
  • Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    閑來(lái)無(wú)事,發(fā)現(xiàn)上一篇ES博客還是 去年9月份 寫(xiě)的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用,該篇文章還挖了一個(gè) 大坑 沒(méi)有填,快一年了,是時(shí)候填下坑了。 針對(duì)股票查詢這個(gè)特點(diǎn)場(chǎng)景,再結(jié)合一般使用者的搜索習(xí)慣,暫時(shí)確定如下7種期望效果。 上一篇博客Elast

    2023年04月09日
    瀏覽(29)
  • es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫(kù)

    es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫(kù)

    目錄 中文分詞器ik分詞器 介紹 安裝 使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫(kù) 介紹 中文分詞器按照中文進(jìn)行分詞,中文應(yīng)用最廣泛的是ik分詞器 安裝 官網(wǎng)下載對(duì)應(yīng)版本zip 下載 ?放到 ?plugins 目錄 新建 ik文件夾 考入解析zip 重啟 es //分成小單詞 使用分詞器 ik_max_word分成

    2024年02月07日
    瀏覽(21)
  • elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    錯(cuò)誤截圖 在命令行窗口,執(zhí)行如下命令安裝 IK 中文分詞器 失敗。 錯(cuò)誤日志 1、自己到github下載對(duì)應(yīng)版本的ik中文分詞器 上面命令中兩個(gè)插件版本號(hào)應(yīng)該和 Elasticsearch 的版本保持一致,我現(xiàn)在用的是 7.14.1 版本。 首先版本和命令是對(duì)得上的。 命令行窗口通過(guò)命令下載失敗的話

    2024年04月11日
    瀏覽(29)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包