国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Elasticsearch 中文分詞器

這篇具有很好參考價值的文章主要介紹了Elasticsearch 中文分詞器。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

IK 分詞器

我們在ES中最常用的中文分詞器就是IK分詞器,其項目地址為:https://github.com/medcl/elasticsearch-analysis-ik

下載安裝

  1. 下載地址: https://github.com/medcl/elasticsearch-analysis-ik/releases

  2. 下載時注意和es的版本對應(yīng),我們es版本為:8.6.2。所以我們下載 elasticsearch-analysis-ik-8.6.2.zip 解壓包內(nèi)容如下:
    Elasticsearch 中文分詞器

  3. 在ES home/plugins 目錄下創(chuàng)建目錄 ik,并將我們下載下zip包解壓到 es_home/plugins/ik 目錄下

  4. 重啟 ES 服務(wù)

使用

IK 分詞器有如下方式使用:
analyzer 和 tokenizer 均可配置使用 ik 分詞器,兩種配置對應(yīng)的值均為如下兩個:

  • ik_smart (最粗粒度的拆分,比如會將“中華人民共和國國歌”拆分為“中華人民共和國,國歌”,適合 Phrase 查詢)
  • ik_max_word(最細粒度的拆分,比如會將“中華人民共和國國歌”拆分為“中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌”,會窮盡各種可能的組合,適合 Term Query)

ik_max_word 示例

{
  "analyzer" : "ik_max_word",
  "text" : "我們都是中國人"
}{
  "tokenizer" : "ik_max_word",
  "text" : "我們都是中國人"
}

解析結(jié)果:

{
    "tokens": [
        {
            "token": "我們",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "都是",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "中國人",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "中國",
            "start_offset": 4,
            "end_offset": 6,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "國人",
            "start_offset": 5,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}

ik_smart 示例

{
  "tokenizer" : "ik_smart",
  "text" : "我們都是中國人"
}

解析結(jié)果:

{
    "tokens": [
        {
            "token": "我們",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "都是",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "中國人",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        }
    ]
}

IK 分詞器字典擴展

在 ik 的文件的 config 目錄下有 ik 分詞的配置文件(IKAnalyzer.cfg.xml)以及相關(guān)的 dic 字典文件。

IKAnalyzer.cfg.xml 文件

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典 -->
        <entry key="ext_dict"></entry>
         <!--用戶可以在這里配置自己的擴展停止詞字典-->
        <entry key="ext_stopwords"></entry>
        <!--用戶可以在這里配置遠程擴展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用戶可以在這里配置遠程擴展停止詞字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

注釋說得很明確了,我們來總結(jié)一下就是 IK 支持兩種擴展方式:

  1. 本地 dic 文件擴展
  2. 遠程配置擴展

本地 dic 文件擴展

1. 在 ik 的 config 目錄下創(chuàng)建我們的擴展詞典文件:my_ext_dic.dic

在文件中添加我們要擴展的詞

my_ext_dic.dic
科比布萊恩特

我們就加科比的名字吧

2. 修改 IKAnalyzer.cfg.xml 配置

IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典 -->
        <entry key="ext_dict">my_ext_dic.dic</entry>
         <!--用戶可以在這里配置自己的擴展停止詞字典-->
        <entry key="ext_stopwords"></entry>
        <!--用戶可以在這里配置遠程擴展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用戶可以在這里配置遠程擴展停止詞字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

  1. 重啟 ES 服務(wù)
  2. 驗證是否成功
{
  "tokenizer" : "ik_max_word",
  "text" : "NBA籃球巨星,科比布萊恩特中國行"
}

查看結(jié)果,最終的分詞中一定會有“科比布萊恩特”這樣完整的詞語。

遠程擴展字典

IKAnalyzer.cfg.xml 配置

 <!--用戶可以在這里配置遠程擴展字典 -->
 <!-- <entry key="remote_ext_dict">words_location</entry> -->
 <!--用戶可以在這里配置遠程擴展停止詞字典-->
 <!-- <entry key="remote_ext_stopwords">words_location</entry> -->

words_location 需要替換為我們遠程的url,比如:https://aaaa.com/dics

對遠程url的要求

  1. http 請求需要返回兩個 header,一個是 Last-Modified,一個是 ETag,這兩者都是字符串類型,只要有一個發(fā)生變化,ik 插件就會去抓取新的分詞進而更新詞庫。
  2. http 請求返回的內(nèi)容格式是一行一個分詞,換行符用 \n 即可。

使用nginx或其他web服務(wù)器提供字典擴展服務(wù)

  • 可以將字典放在 UTF-8 編碼的 .txt 文件中,然后將文件放在web服務(wù)器中,當這個 .txt 文件更新時,ik 會自動獲取并更新擴展詞典。

遠程擴展字典的方式無需重啟 ES 服務(wù),只是在字典管理上來說,擴展字段文件獨立于 ES 服務(wù)了,在字典需要頻繁修改等時候,我們還可以自定義一個管理端應(yīng)用,動態(tài)的通過應(yīng)用來修改。文章來源地址http://www.zghlxwxcb.cn/news/detail-486134.html

到了這里,關(guān)于Elasticsearch 中文分詞器的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Elasticsearch安裝中文分詞器IK Analyzer

    Elasticsearch安裝中文分詞器IK Analyzer

    提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 本文介紹IK Analyzer分詞器的安裝配置、使用以及ES數(shù)據(jù)遷移。 克隆IK分詞器項目,根據(jù)README的描述選擇對應(yīng)版本的分支。瀏覽器訪問ES的ip+端口就能看到版本信息,所以我需要切到master分支。 打開pom需要

    2024年02月12日
    瀏覽(33)
  • es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫

    es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫

    目錄 中文分詞器ik分詞器 介紹 安裝 使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫 介紹 中文分詞器按照中文進行分詞,中文應(yīng)用最廣泛的是ik分詞器 安裝 官網(wǎng)下載對應(yīng)版本zip 下載 ?放到 ?plugins 目錄 新建 ik文件夾 考入解析zip 重啟 es //分成小單詞 使用分詞器 ik_max_word分成

    2024年02月07日
    瀏覽(21)
  • Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    閑來無事,發(fā)現(xiàn)上一篇ES博客還是 去年9月份 寫的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用,該篇文章還挖了一個 大坑 沒有填,快一年了,是時候填下坑了。 針對股票查詢這個特點場景,再結(jié)合一般使用者的搜索習慣,暫時確定如下7種期望效果。 上一篇博客Elast

    2023年04月09日
    瀏覽(30)
  • ElasticSearch 中的中文分詞器以及索引基本操作詳解

    ElasticSearch 中的中文分詞器以及索引基本操作詳解

    配置完成后,重啟 es ,即可生效。 熱更新,主要是響應(yīng)頭的 Last-Modified 或者 ETag 字段發(fā)生變化,ik 就會自動重新加載遠程擴展辭典。 視頻筆記,在公眾號 江南一點雨 后臺回復(fù) elasticsearch04 獲取下載鏈接。 2. ElasticSearch 索引管理 微信公眾號 江南一點雨 后臺回復(fù) elasticsearch

    2024年04月25日
    瀏覽(19)
  • Elasticsearch7.8.0版本進階——IK中文分詞器

    Elasticsearch7.8.0版本進階——IK中文分詞器

    通過 Postman 發(fā)送 GET 請求查詢分詞效果,在消息體里,指定要分析的文本 輸出結(jié)果如下: 由上圖輸出結(jié)果可知,ES 的默認分詞器無法識別中文中測試、單詞這樣的詞匯,而是簡單的將每個字拆完分為一個詞,這樣的結(jié)果顯然不符合我們的使用要求,所以我們需要下載 ES 對應(yīng)

    2024年02月01日
    瀏覽(50)
  • Elasticsearch07:ES中文分詞插件(es-ik)安裝部署

    Elasticsearch07:ES中文分詞插件(es-ik)安裝部署

    在中文數(shù)據(jù)檢索場景中,為了提供更好的檢索效果,需要在ES中集成中文分詞器,因為ES默認是按照英文的分詞規(guī)則進行分詞的,基本上可以認為是單字分詞,對中文分詞效果不理想。 ES之前是沒有提供中文分詞器的,現(xiàn)在官方也提供了一些,但是在中文分詞領(lǐng)域,IK分詞器是

    2024年02月03日
    瀏覽(28)
  • ElasticSearch 學習9 spring-boot ,elasticsearch7.16.1實現(xiàn)中文拼音分詞搜索

    ElasticSearch 學習9 spring-boot ,elasticsearch7.16.1實現(xiàn)中文拼音分詞搜索

    一、elasticsearch官網(wǎng)下載:Elasticsearch 7.16.1 | Elastic 二、拼音、ik、繁簡體轉(zhuǎn)換插件安裝 ik分詞:GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary. 拼音分詞:GitHub - medcl/elasticsearch-analysis-pinyin: This Pinyin Analysis plugin is

    2024年01月22日
    瀏覽(27)
  • elasticsearch安裝中文分詞IK啟動異常:java.nio.file.AccessDeniedException

    啟動錯誤信息如下: 問題原因:plugins中添加的ik目錄沒有權(quán)限; 解決方案:進入elasticsearch容器對應(yīng)plugins目錄下,進行 chmod 777 ik 授權(quán)即可。

    2024年02月03日
    瀏覽(24)
  • ElasticSearch:centos7安裝elasticsearch7,kibana,ik中文分詞器,云服務(wù)器安裝elasticsearch

    ElasticSearch:centos7安裝elasticsearch7,kibana,ik中文分詞器,云服務(wù)器安裝elasticsearch

    系統(tǒng):centos7 elasticsearch: 7.17.16 安裝目錄:/usr/local 云服務(wù)器的安全組:開放 9200 和5601的端口 1、安裝 2、修改es的配置文件 注意:es集群啟動后,所有節(jié)點的cluster.initial_master_nodes: [\\\"node-1\\\"] 都要注釋掉。 3、修改jvm.options 可能出現(xiàn)報錯 1、配置elasticsearch.yml ? 錯誤內(nèi)容 : the de

    2024年02月03日
    瀏覽(31)
  • windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    目錄 問題現(xiàn)象: 解決方法: 1、下載IK中文分詞器 2、部署 3、使用 前言(選看) ? ? ? 最近在重溫Elasticsearch,看來一下官網(wǎng),都出到8.4.3版本了。想當初學的時候用的還是5.6.8,版本更新了很多意味著有大變動。 ????????? windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安

    2024年02月13日
    瀏覽(33)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包