国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<menuitem id="d0j8h"></menuitem>

<tfoot id="d0j8h"><xmp id="d0j8h"><center id="d0j8h"></center><span id="d0j8h"><meter id="d0j8h"></meter></span>

<span id="d0j8h"></span>

<rp id="d0j8h"><u id="d0j8h"><option id="d0j8h"></option></u></rp>

<span id="d0j8h"><ul id="d0j8h"><center id="d0j8h"></center></ul></span>

<rp id="d0j8h"></rp>

<rp id="d0j8h"><u id="d0j8h"></u></rp>

Elasticsearch安裝中文分詞器IK Analyzer

2年前作者：HetFrame分類：Toy博客閱讀(32)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Elasticsearch安裝中文分詞器IK Analyzer。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

提示：文章寫(xiě)完后，目錄可以自動(dòng)生成，如何生成可參考右邊的幫助文檔

前言

本文介紹IK Analyzer分詞器的安裝配置、使用以及ES數(shù)據(jù)遷移。

一、IK分詞器的安裝配置

1.克隆elasticsearch-analysis-ik

克隆IK分詞器項(xiàng)目，根據(jù)README的描述選擇對(duì)應(yīng)版本的分支。瀏覽器訪問(wèn)ES的ip+端口就能看到版本信息，所以我需要切到master分支。
安裝分詞器,elasticsearch,中文分詞
打開(kāi)pom需要調(diào)整一些依賴的版本，與你安裝的es版本一致，否則無(wú)法使用插件。

<elasticsearch.version>7.9.2</elasticsearch.version>

修改版本后reload project，可能會(huì)編譯不通過(guò)，需要修改代碼，比如我遇到的這個(gè)問(wèn)題工具類包路徑變了，重新導(dǎo)包就行；另一個(gè)是父類的構(gòu)造方法變了，填入對(duì)應(yīng)的參數(shù)等。切換不同版本的elasticsearch包需要修改的部分可能不一樣。
安裝分詞器,elasticsearch,中文分詞

2.編譯并安裝分詞器插件

使用maven的package打包項(xiàng)目后會(huì)在target生成一個(gè)releases目錄，里面有一個(gè)zip包，elasticsearch-analysis-ik-version.zip
安裝分詞器,elasticsearch,中文分詞

進(jìn)入es安裝目錄，創(chuàng)建一個(gè)目錄，再解壓上述文件，其中config目錄中包含分詞詞典，可以自定義詞典。
安裝分詞器,elasticsearch,中文分詞
到這一步就可以啟動(dòng)es測(cè)試分詞效果了。
使用kibana訪問(wèn)

#ik_smart模式分詞
GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "中國(guó)駐洛杉磯領(lǐng)事館遭亞裔男子槍擊 嫌犯已自首"
}
#es默認(rèn)分詞
GET /_analyze
{
  "analyzer": "standard",
  "text": "中國(guó)駐洛杉磯領(lǐng)事館遭亞裔男子槍擊 嫌犯已自首"
}

3.自定義分詞詞典

自定義詞典需要?jiǎng)?chuàng)建一個(gè)文本以dic結(jié)尾，每行一個(gè)詞，且，編輯IKAnalyzer.cfg.xml，使用相對(duì)路徑，多個(gè)詞典使用英文分號(hào)分隔。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 擴(kuò)展配置</comment>
	<!--用戶可以在這里配置自己的擴(kuò)展字典 -->
	<entry key="ext_dict">mydic.dic;mydic2.dic;</entry>
	 <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典-->
	<entry key="ext_stopwords"></entry>
	<!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

4.注意事項(xiàng)

1.關(guān)于ik的兩種模式

ik_smart模式，是以最粗粒度進(jìn)行分詞。如果關(guān)鍵字本身就是分詞庫(kù)中的一個(gè)詞語(yǔ)，那么將不會(huì)進(jìn)一步分詞；如果它包含多個(gè)分詞庫(kù)中的分詞，每次取最先獲取到的分詞，再對(duì)剩余的詞語(yǔ)分詞。例如有“聯(lián)想臺(tái)式”、“臺(tái)式計(jì)算機(jī)”、“計(jì)算機(jī)”三個(gè)分詞；那么"聯(lián)想臺(tái)式計(jì)算機(jī)"的ik_smart分詞結(jié)果為“聯(lián)想臺(tái)式”、“計(jì)算機(jī)”，而不會(huì)有“臺(tái)式計(jì)算機(jī)”。(適合搜索時(shí)分詞)
ik_max_word則會(huì)窮舉所有的分詞。(適合建立索引時(shí)進(jìn)行分詞)

2.詞典只支持中文，因此中英混合詞語(yǔ)會(huì)拆分，但是英文數(shù)字可以作為一個(gè)詞語(yǔ)。
3.該插件雖然支持熱更新分詞庫(kù)，但是只是針對(duì)搜索時(shí)進(jìn)行的分詞，底層的倒排索引并沒(méi)有改變。

二、ES數(shù)據(jù)遷移

1.建立新的索引

因?yàn)樵瓉?lái)沒(méi)有使用中文分詞器，中文會(huì)拆分成單獨(dú)的字，所以倒排索引中全是單個(gè)字，這時(shí)候使用match搜索，搜索條件按詞典分詞了，但是詞語(yǔ)并不能匹配到文檔中的內(nèi)容。所以需要重建建立索引，讓ES按照我們的詞典去建立倒排記錄表。

2.將舊索引數(shù)據(jù)導(dǎo)入新索引

使用es的reindex操作，其中slices是分片數(shù)，可理解為多線程執(zhí)行reindex操作，refresh是執(zhí)行完后刷新。舊索引的名稱是my_index_v1，新索引是my_index_v2

#重建索引
POST _reindex?slices=5&refresh
{
  "source": {
    "index": "my_index_v1"
  },
  "dest": {
    "index": "my_index_v2"
  },
  "script": {
    "source": """
    //我將索引中的myName改成了my_name，reindex時(shí)舊索引字段會(huì)默認(rèn)copy進(jìn)新索引，所以我需要?jiǎng)h除myName，并將值賦值給my_name。如果沒(méi)有這類操作，可以刪除script。
    ctx._source.my_name = ctx._source.remove("myName");
    """,
    "lang": "painless"
  }
}

數(shù)據(jù)量大的話重建請(qǐng)求會(huì)超時(shí)，此時(shí)可以利用task查看它的任務(wù)

#查看reindex的任務(wù)列表需要顯示任務(wù)詳情
GET _tasks?detailed=true&actions=*reindex

任務(wù)完成后文檔數(shù)量應(yīng)與舊索引文檔數(shù)量一致

GET /_cat/count/my_index_v2?v

之后將新索引添加別名，系統(tǒng)連接es時(shí)使用索引別名。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-516948.html

#添加別名
POST /_aliases
{
  "actions": [
    {
      "add": {
        "index": "my_index_v2",
        "alias": "my_index"
      }
    }
  ]
}

到了這里，關(guān)于Elasticsearch安裝中文分詞器IK Analyzer的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Elasticsearch07：ES中文分詞插件(es-ik)安裝部署
在中文數(shù)據(jù)檢索場(chǎng)景中，為了提供更好的檢索效果，需要在ES中集成中文分詞器，因?yàn)镋S默認(rèn)是按照英文的分詞規(guī)則進(jìn)行分詞的，基本上可以認(rèn)為是單字分詞，對(duì)中文分詞效果不理想。 ES之前是沒(méi)有提供中文分詞器的，現(xiàn)在官方也提供了一些，但是在中文分詞領(lǐng)域，IK分詞器是
2024年02月03日
瀏覽(27)
elasticsearch安裝中文分詞IK啟動(dòng)異常：java.nio.file.AccessDeniedException
啟動(dòng)錯(cuò)誤信息如下：問(wèn)題原因：plugins中添加的ik目錄沒(méi)有權(quán)限；解決方案：進(jìn)入elasticsearch容器對(duì)應(yīng)plugins目錄下，進(jìn)行 chmod 777 ik 授權(quán)即可。
2024年02月03日
瀏覽(24)
windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用
目錄問(wèn)題現(xiàn)象：解決方法： 1、下載IK中文分詞器 2、部署 3、使用前言（選看） ? ? ? 最近在重溫Elasticsearch，看來(lái)一下官網(wǎng)，都出到8.4.3版本了。想當(dāng)初學(xué)的時(shí)候用的還是5.6.8，版本更新了很多意味著有大變動(dòng)。 ????????? windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安
2024年02月13日
瀏覽(33)
Linux下安裝ElasticSearch-analysis-ik中文分詞器插件，以及可能出現(xiàn)的異常處理
? ? ? ? 注意：安裝可以采用在線方式、離線方式，但是不建議在線安裝，速度超級(jí)慢，本文只介紹離線安裝方式 ? ? ? ? ????????下載地址：https://github.com/medcl/elasticsearch-analysis-ik ? ? ? ? ? ? ? ? 切記選擇版本需要跟ElasticSearch保持一致，否則可能會(huì)出現(xiàn)一些未知的異
2024年02月07日
瀏覽(35)
Elasticsearch之ik中文分詞篇
es在7.3版本已經(jīng)支持中文分詞，由于中文分詞只能支持到單個(gè)字進(jìn)行分詞，不夠靈活與適配我們平常使用習(xí)慣，所以有很多對(duì)應(yīng)中文分詞出現(xiàn)，最近使用的是ik分詞器，就說(shuō)說(shuō)它吧。安裝可以百度下有很多教程，需要注意的是ik分詞器的版本要跟es版本對(duì)應(yīng)上，避免出現(xiàn)不必要
2024年02月02日
瀏覽(29)
Elasticsearch7.15.2 安裝ik中文分詞器后啟動(dòng)ES服務(wù)報(bào)錯(cuò)的解決辦法
下載elasticsearch ik中文分詞器，在elasticsearch安裝目錄下的plugins文件夾下創(chuàng)建名為ik的文件夾，將下載的ik中文分詞器解壓縮到新建的ik文件夾下，再次運(yùn)行 ./bin/elasticsearch啟動(dòng)ES服務(wù)時(shí)出現(xiàn)以下錯(cuò)誤： Exception in thread \\\"main\\\" java.nio.file.NotDirectoryException: /Users/amelia/work/elasticsearch-7.1
2024年02月12日
瀏覽(33)
Elasticsearch7.8.0版本進(jìn)階——IK中文分詞器
通過(guò) Postman 發(fā)送 GET 請(qǐng)求查詢分詞效果，在消息體里，指定要分析的文本輸出結(jié)果如下：由上圖輸出結(jié)果可知，ES 的默認(rèn)分詞器無(wú)法識(shí)別中文中測(cè)試、單詞這樣的詞匯，而是簡(jiǎn)單的將每個(gè)字拆完分為一個(gè)詞，這樣的結(jié)果顯然不符合我們的使用要求，所以我們需要下載 ES 對(duì)應(yīng)
2024年02月01日
瀏覽(50)
Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞
閑來(lái)無(wú)事，發(fā)現(xiàn)上一篇ES博客還是去年9月份寫(xiě)的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用，該篇文章還挖了一個(gè) 大坑沒(méi)有填，快一年了，是時(shí)候填下坑了。針對(duì)股票查詢這個(gè)特點(diǎn)場(chǎng)景，再結(jié)合一般使用者的搜索習(xí)慣，暫時(shí)確定如下7種期望效果。上一篇博客Elast
2023年04月09日
瀏覽(29)
es elasticsearch 十中文分詞器ik分詞器 Mysql 熱更新詞庫(kù)
目錄中文分詞器ik分詞器介紹安裝使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫(kù) 介紹中文分詞器按照中文進(jìn)行分詞，中文應(yīng)用最廣泛的是ik分詞器安裝官網(wǎng)下載對(duì)應(yīng)版本zip 下載 ?放到 ?plugins 目錄新建 ik文件夾考入解析zip 重啟 es //分成小單詞使用分詞器 ik_max_word分成
2024年02月07日
瀏覽(21)
elasticsearch 安裝 IK 中文分詞器插件提示找不到文件的異常（Exception in thread “main“ java.nio.file.NoSuchFileException）
錯(cuò)誤截圖在命令行窗口，執(zhí)行如下命令安裝 IK 中文分詞器失敗。錯(cuò)誤日志 1、自己到github下載對(duì)應(yīng)版本的ik中文分詞器上面命令中兩個(gè)插件版本號(hào)應(yīng)該和 Elasticsearch 的版本保持一致，我現(xiàn)在用的是 7.14.1 版本。首先版本和命令是對(duì)得上的。命令行窗口通過(guò)命令下載失敗的話
2024年04月11日
瀏覽(29)

<span id="y3g3g"></span>

<input id="y3g3g"><meter id="y3g3g"></meter></input>