国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Elasticsearch 中文分詞器

2年前作者：沒事兒寫兩篇分類：Toy博客閱讀(18)違法舉報

這篇具有很好參考價值的文章主要介紹了Elasticsearch 中文分詞器。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

IK 分詞器

我們在ES中最常用的中文分詞器就是IK分詞器，其項目地址為：https://github.com/medcl/elasticsearch-analysis-ik

下載安裝

下載地址： https://github.com/medcl/elasticsearch-analysis-ik/releases
下載時注意和es的版本對應(yīng)，我們es版本為：8.6.2。所以我們下載 elasticsearch-analysis-ik-8.6.2.zip 解壓包內(nèi)容如下：
在ES home/plugins 目錄下創(chuàng)建目錄 ik，并將我們下載下zip包解壓到 es_home/plugins/ik 目錄下
重啟 ES 服務(wù)

使用

IK 分詞器有如下方式使用：
analyzer 和 tokenizer 均可配置使用 ik 分詞器，兩種配置對應(yīng)的值均為如下兩個：

ik_smart (最粗粒度的拆分，比如會將“中華人民共和國國歌”拆分為“中華人民共和國,國歌”，適合 Phrase 查詢)
ik_max_word（最細粒度的拆分，比如會將“中華人民共和國國歌”拆分為“中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌”，會窮盡各種可能的組合，適合 Term Query）

ik_max_word 示例

{
  "analyzer" : "ik_max_word",
  "text" : "我們都是中國人"
}

或

{
  "tokenizer" : "ik_max_word",
  "text" : "我們都是中國人"
}

解析結(jié)果：

{
    "tokens": [
        {
            "token": "我們",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "都是",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "中國人",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "中國",
            "start_offset": 4,
            "end_offset": 6,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "國人",
            "start_offset": 5,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}

ik_smart 示例

{
  "tokenizer" : "ik_smart",
  "text" : "我們都是中國人"
}

解析結(jié)果：

{
    "tokens": [
        {
            "token": "我們",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "都是",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "中國人",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        }
    ]
}

IK 分詞器字典擴展

在 ik 的文件的 config 目錄下有 ik 分詞的配置文件（IKAnalyzer.cfg.xml）以及相關(guān)的 dic 字典文件。

IKAnalyzer.cfg.xml 文件

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典 -->
        <entry key="ext_dict"></entry>
         <!--用戶可以在這里配置自己的擴展停止詞字典-->
        <entry key="ext_stopwords"></entry>
        <!--用戶可以在這里配置遠程擴展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用戶可以在這里配置遠程擴展停止詞字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

注釋說得很明確了，我們來總結(jié)一下就是 IK 支持兩種擴展方式：

本地 dic 文件擴展

遠程配置擴展

本地 dic 文件擴展

1. 在 ik 的 config 目錄下創(chuàng)建我們的擴展詞典文件：my_ext_dic.dic

在文件中添加我們要擴展的詞

my_ext_dic.dic

科比布萊恩特

我們就加科比的名字吧

2. 修改 IKAnalyzer.cfg.xml 配置

IKAnalyzer.cfg.xml


<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典 -->
        <entry key="ext_dict">my_ext_dic.dic</entry>
         <!--用戶可以在這里配置自己的擴展停止詞字典-->
        <entry key="ext_stopwords"></entry>
        <!--用戶可以在這里配置遠程擴展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用戶可以在這里配置遠程擴展停止詞字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

重啟 ES 服務(wù)
驗證是否成功

{
  "tokenizer" : "ik_max_word",
  "text" : "NBA籃球巨星，科比布萊恩特中國行"
}

查看結(jié)果，最終的分詞中一定會有“科比布萊恩特”這樣完整的詞語。

遠程擴展字典

IKAnalyzer.cfg.xml 配置

 <!--用戶可以在這里配置遠程擴展字典 -->
 <!-- <entry key="remote_ext_dict">words_location</entry> -->
 <!--用戶可以在這里配置遠程擴展停止詞字典-->
 <!-- <entry key="remote_ext_stopwords">words_location</entry> -->

words_location 需要替換為我們遠程的url，比如：https://aaaa.com/dics

對遠程url的要求

http 請求需要返回兩個 header，一個是 Last-Modified，一個是 ETag，這兩者都是字符串類型，只要有一個發(fā)生變化，ik 插件就會去抓取新的分詞進而更新詞庫。
http 請求返回的內(nèi)容格式是一行一個分詞，換行符用 \n 即可。

使用nginx或其他web服務(wù)器提供字典擴展服務(wù)

可以將字典放在 UTF-8 編碼的 .txt 文件中，然后將文件放在web服務(wù)器中，當這個 .txt 文件更新時，ik 會自動獲取并更新擴展詞典。

遠程擴展字典的方式無需重啟 ES 服務(wù)，只是在字典管理上來說，擴展字段文件獨立于 ES 服務(wù)了，在字典需要頻繁修改等時候，我們還可以自定義一個管理端應(yīng)用，動態(tài)的通過應(yīng)用來修改。文章來源地址http://www.zghlxwxcb.cn/news/detail-486134.html

到了這里，關(guān)于Elasticsearch 中文分詞器的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Elasticsearch安裝中文分詞器IK Analyzer
提示：文章寫完后，目錄可以自動生成，如何生成可參考右邊的幫助文檔本文介紹IK Analyzer分詞器的安裝配置、使用以及ES數(shù)據(jù)遷移。克隆IK分詞器項目，根據(jù)README的描述選擇對應(yīng)版本的分支。瀏覽器訪問ES的ip+端口就能看到版本信息，所以我需要切到master分支。打開pom需要
2024年02月12日
瀏覽(33)
es elasticsearch 十中文分詞器ik分詞器 Mysql 熱更新詞庫
目錄中文分詞器ik分詞器介紹安裝使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫介紹中文分詞器按照中文進行分詞，中文應(yīng)用最廣泛的是ik分詞器安裝官網(wǎng)下載對應(yīng)版本zip 下載 ?放到 ?plugins 目錄新建 ik文件夾考入解析zip 重啟 es //分成小單詞使用分詞器 ik_max_word分成
2024年02月07日
瀏覽(21)
Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞
閑來無事，發(fā)現(xiàn)上一篇ES博客還是去年9月份寫的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用，該篇文章還挖了一個大坑沒有填，快一年了，是時候填下坑了。針對股票查詢這個特點場景，再結(jié)合一般使用者的搜索習慣，暫時確定如下7種期望效果。上一篇博客Elast
2023年04月09日
瀏覽(30)
ElasticSearch 中的中文分詞器以及索引基本操作詳解
配置完成后，重啟 es ，即可生效。熱更新，主要是響應(yīng)頭的 Last-Modified 或者 ETag 字段發(fā)生變化，ik 就會自動重新加載遠程擴展辭典。視頻筆記，在公眾號江南一點雨后臺回復(fù) elasticsearch04 獲取下載鏈接。 2. ElasticSearch 索引管理微信公眾號江南一點雨后臺回復(fù) elasticsearch
2024年04月25日
瀏覽(19)
Elasticsearch7.8.0版本進階——IK中文分詞器
通過 Postman 發(fā)送 GET 請求查詢分詞效果，在消息體里，指定要分析的文本輸出結(jié)果如下：由上圖輸出結(jié)果可知，ES 的默認分詞器無法識別中文中測試、單詞這樣的詞匯，而是簡單的將每個字拆完分為一個詞，這樣的結(jié)果顯然不符合我們的使用要求，所以我們需要下載 ES 對應(yīng)
2024年02月01日
瀏覽(50)
Elasticsearch07：ES中文分詞插件(es-ik)安裝部署
在中文數(shù)據(jù)檢索場景中，為了提供更好的檢索效果，需要在ES中集成中文分詞器，因為ES默認是按照英文的分詞規(guī)則進行分詞的，基本上可以認為是單字分詞，對中文分詞效果不理想。 ES之前是沒有提供中文分詞器的，現(xiàn)在官方也提供了一些，但是在中文分詞領(lǐng)域，IK分詞器是
2024年02月03日
瀏覽(28)
ElasticSearch 學習9 spring-boot ，elasticsearch7.16.1實現(xiàn)中文拼音分詞搜索
一、elasticsearch官網(wǎng)下載：Elasticsearch 7.16.1 | Elastic 二、拼音、ik、繁簡體轉(zhuǎn)換插件安裝 ik分詞：GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary. 拼音分詞:GitHub - medcl/elasticsearch-analysis-pinyin: This Pinyin Analysis plugin is
2024年01月22日
瀏覽(27)
elasticsearch安裝中文分詞IK啟動異常：java.nio.file.AccessDeniedException
啟動錯誤信息如下：問題原因：plugins中添加的ik目錄沒有權(quán)限；解決方案：進入elasticsearch容器對應(yīng)plugins目錄下，進行 chmod 777 ik 授權(quán)即可。
2024年02月03日
瀏覽(24)
ElasticSearch：centos7安裝elasticsearch7，kibana，ik中文分詞器,云服務(wù)器安裝elasticsearch
系統(tǒng)：centos7 elasticsearch: 7.17.16 安裝目錄：/usr/local 云服務(wù)器的安全組：開放 9200 和5601的端口 1、安裝 2、修改es的配置文件注意：es集群啟動后，所有節(jié)點的cluster.initial_master_nodes: [\\\"node-1\\\"] 都要注釋掉。 3、修改jvm.options 可能出現(xiàn)報錯 1、配置elasticsearch.yml ? 錯誤內(nèi)容： the de
2024年02月03日
瀏覽(31)
windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用
目錄問題現(xiàn)象：解決方法： 1、下載IK中文分詞器 2、部署 3、使用前言（選看） ? ? ? 最近在重溫Elasticsearch，看來一下官網(wǎng)，都出到8.4.3版本了。想當初學的時候用的還是5.6.8，版本更新了很多意味著有大變動。 ????????? windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安
2024年02月13日
瀏覽(33)