国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ES-IK分詞器的概念和基本使用

這篇具有很好參考價(jià)值的文章主要介紹了ES-IK分詞器的概念和基本使用。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、ES-IK分詞器

1.1 初識(shí)ES-IK分詞器

??ES IK分詞器是一種基于中文文本的分詞器,它是Elasticsearch中文分詞的一種實(shí)現(xiàn)。它采用了自然語(yǔ)言處理技術(shù),可以將中文文本進(jìn)行切分,抽取出其中的詞匯,從而提高搜索引擎對(duì)中文文本的搜索和檢索效率。

??ES IK分詞器的原理是采用了一種叫做“正向最大匹配”(Forward Maximum Matching,簡(jiǎn)稱FMM)和“逆向最大匹配”(Backward Maximum Matching,簡(jiǎn)稱BMM)的分詞算法,通過(guò)對(duì)文本進(jìn)行多次切分,最終確定最優(yōu)的分詞結(jié)果。

??ES IK分詞器可以用于各種中文文本處理應(yīng)用,包括搜索引擎、文本挖掘、信息檢索等。它支持多種分詞模式,包括最細(xì)粒度切分、智能切分和最大切分等模式,可以根據(jù)具體應(yīng)用場(chǎng)景進(jìn)行靈活配置。

1.2 IK分詞器-拓展和停用

  1. 要拓展或停用ik分詞器的詞庫(kù),需要修改ik分詞器目錄中的config目錄中的IkAnalzer.cfg.xml文件:
?<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 擴(kuò)展配置</comment>
	<!--用戶可以在這里配置自己的擴(kuò)展字典 -->
	<entry key="ext_dict">ext.dic</entry>
	 <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典-->
	<entry key="ext_stopwords">stopword.dic</entry>
	<!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
  1. 進(jìn)行拓展詞匯的時(shí)候需要?jiǎng)?chuàng)建出所定義的擴(kuò)展字典文件,例如本文使用的是ext.dic,再往文件中填寫(xiě)詞匯即可,每個(gè)詞匯占一行,如下圖:
    es ik分詞,spring cloud和中間件,elasticsearch,java

  2. 進(jìn)行停用詞庫(kù)的時(shí)候打開(kāi)stopword.dic文件,再往文件中添加詞匯即可,每個(gè)詞匯占一行,如下圖(一般停用的都是語(yǔ)氣詞、嚴(yán)禁品等):

es ik分詞,spring cloud和中間件,elasticsearch,java

1.3 索引庫(kù)

1.3.1 mapping屬性

??在Elasticsearch中,mapping屬性是指用于定義索引中文檔的結(jié)構(gòu)和屬性的方式。它描述了索引中文檔的字段名稱、類型、分詞器等元信息,這些元信息可以用于搜索、過(guò)濾和排序。

具體來(lái)說(shuō),mapping屬性定義了索引中每個(gè)字段的以下信息:

  1. 字段類型(type):指定字段的數(shù)據(jù)類型,例如文本、數(shù)值、日期等。
  2. 分詞器(analyzer):指定字段的分詞器,用于對(duì)文本進(jìn)行分詞處理。
  3. 是否索引(index):指定字段是否需要被索引,如果需要,Elasticsearch將對(duì)該字段建立反向索引以支持全文檢索,默認(rèn)為true。
  4. 子字段(properties):該字段的子字段;

??除此之外,mapping屬性還可以指定文檔中的嵌套對(duì)象、數(shù)組(數(shù)組不是類型,只是可以傳多個(gè)數(shù)據(jù))等復(fù)雜類型,并對(duì)其進(jìn)行相應(yīng)的定義和配置。

1.3.2 索引庫(kù)的CRUD

  1. 創(chuàng)建索引庫(kù)和映射
基本語(yǔ)法:
  • 請(qǐng)求方式:PUT
  • 請(qǐng)求路徑:/索引庫(kù)名,可以自定義
  • 請(qǐng)求參數(shù):mapping映射

格式:

PUT /索引庫(kù)名稱
{
  "mappings": {
    "properties": {
      "字段名":{
        "type": "text",
        "analyzer": "ik_smart"
      },
      "字段名2":{
        "type": "keyword",
        "index": "false"
      },
      "字段名3":{
        "properties": {
          "子字段": {
            "type": "keyword"
          }
        }
      },
      // ...略
    }
  }
}
  1. 查看索引庫(kù)

基本語(yǔ)法

  • 請(qǐng)求方式:GET

  • 請(qǐng)求路徑:/索引庫(kù)名

  • 請(qǐng)求參數(shù):無(wú)

格式

GET /索引庫(kù)名
  1. 修改索引庫(kù)

??倒排索引結(jié)構(gòu)一旦數(shù)據(jù)結(jié)構(gòu)改變(比如改變了分詞器),就需要重新創(chuàng)建倒排索引。因此索引庫(kù)一旦創(chuàng)建,無(wú)法修改mapping,但是可以添加新的字段到mapping中,也不會(huì)對(duì)倒排索引產(chǎn)生影響。

語(yǔ)法說(shuō)明

PUT /索引庫(kù)名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}
  1. 刪除索引庫(kù)

語(yǔ)法:

  • 請(qǐng)求方式:DELETE

  • 請(qǐng)求路徑:/索引庫(kù)名

  • 請(qǐng)求參數(shù):無(wú)

格式:

DELETE /索引庫(kù)名

1.3.3 文檔的DSL

  1. 增加文檔

語(yǔ)法:

POST /索引庫(kù)名/_doc/文檔id
{
    "字段1": "值1",
    "字段2": "值2",
    "字段3": {
        "子屬性1": "值3",
        "子屬性2": "值4"
    },
    // ...
}
  1. 刪除文檔

語(yǔ)法:

DELETE /{索引庫(kù)名}/_doc/id值
  1. 修改文檔

a. 全量修改:

全量修改是覆蓋原來(lái)的文檔,其本質(zhì)是:

  • 根據(jù)指定的id刪除文檔
  • 新增一個(gè)相同id的文檔

注意:如果根據(jù)id刪除時(shí),id不存在,第二步的新增也會(huì)執(zhí)行,也就從修改變成了新增操作了。

語(yǔ)法:

PUT /{索引庫(kù)名}/_doc/文檔id
{
    "字段1": "值1",
    "字段2": "值2",
    // ... 略
}

b. 增量修改:

增量修改是只修改指定id匹配的文檔中的部分字段。

語(yǔ)法:

POST /{索引庫(kù)名}/_update/文檔id
{
    "doc": {
         "字段名": "新的值",
    }
}
  1. 查詢文檔

語(yǔ)法:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-601467.html

GET /{索引庫(kù)名稱}/_doc/{id}

``

b. 增量修改:

增量修改是只修改指定id匹配的文檔中的部分字段。

語(yǔ)法:

POST /{索引庫(kù)名}/_update/文檔id
{
    "doc": {
         "字段名": "新的值",
    }
}
  1. 查詢文檔

語(yǔ)法:

GET /{索引庫(kù)名稱}/_doc/{id}

到了這里,關(guān)于ES-IK分詞器的概念和基本使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【ELK04】ES 分詞計(jì)算、IK分詞器安裝使用手冊(cè)和熱詞動(dòng)態(tài)更新

    本小結(jié)主要了解的內(nèi)容是: 了解分詞器的概念 掌握IK分詞器和熱詞配置 ES中為了方便查詢,提供多維度的查詢功能,對(duì)存儲(chǔ)在索引中的文檔進(jìn)行分詞計(jì)算,但是文本內(nèi)容不同,類型不同,語(yǔ)言不同分詞計(jì)算邏輯就不會(huì)一樣. 文本分析使Elasticsearch能夠執(zhí)行全文搜索,其中搜索返回所有

    2024年02月04日
    瀏覽(23)
  • es安裝ik分詞器

    es安裝ik分詞器

    IK分詞器下載地址: https://github.com/medcl/elasticsearch-analysis-ik/releases 下載ES版本對(duì)應(yīng)的分詞器即可 安裝ik分詞器 將下載好的zip包解壓,生成一個(gè)ik文件夾 將ik文件夾移動(dòng)到ES安裝目錄下的 plugins 文件夾下(每臺(tái)ES節(jié)點(diǎn)都要執(zhí)行相同的操作) 重啟ES集群 自定義分詞庫(kù) 用 vim 在ik中的

    2023年04月10日
    瀏覽(19)
  • es安裝中文分詞器 IK

    es安裝中文分詞器 IK

    1.下載 https://github.com/medcl/elasticsearch-analysis-ik 這個(gè)是官方的下載地址,下載跟自己es版本對(duì)應(yīng)的即可 那么需要下載 7.12.0版本的分詞器 2.安裝 1.在es的 plugins 的文件夾下先創(chuàng)建一個(gè)ik目錄 bash cd /home/apps/elasticsearch/plugins/ mkdir ik 2.然后將下載解壓后的文件放入到ik文件夾下 3.重啟

    2024年02月21日
    瀏覽(21)
  • [ES]mac安裝es、kibana、ik分詞器

    [ES]mac安裝es、kibana、ik分詞器

    1、創(chuàng)建一個(gè)網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)的框架(es+kibana)互聯(lián) 2、下載es和kibana 3、運(yùn)行docker命令部署單點(diǎn)es+kibana(用來(lái)操作es) 說(shuō)明 4、訪問(wèn) 5、查看日志 訪問(wèn)http://localhost:5601/ 點(diǎn)擊這個(gè),在里面寫(xiě)就行了 ? 可選的有standard、english、chinese但是他們的中文都是一個(gè)字分一個(gè)詞 下載這個(gè) https:

    2024年02月11日
    瀏覽(15)
  • ES搜索框架--設(shè)置IK分詞器

    ES搜索框架--設(shè)置IK分詞器

    ES的默認(rèn)中文分詞效果太差了,稍微長(zhǎng)一點(diǎn)的詞句就完全匹配不到,于是選擇使用安裝IK中文分詞器來(lái)實(shí)現(xiàn)索引的分詞。 參考: https://blog.csdn.net/w1014074794/article/details/119762827 https://www.bbsmax.com/A/6pdDqDaXzw/ 一、安裝 官網(wǎng)教程: https://github.com/medcl/elasticsearch-analysis-ik,注意版本對(duì)

    2024年02月08日
    瀏覽(17)
  • SpringBoot整合ES,ik分詞器

    SpringBoot整合ES,ik分詞器

    \\\"reason\\\":?\\\"Failed?to?parse?mapping:?analyzer?[ik_max_word]?has?not?been?configured?in?mappings\\\" ?這是因?yàn)闆](méi)有安裝ES的IK分詞器 下載地址?Release v8.7.0 · medcl/elasticsearch-analysis-ik · GitHub ElasticSearch 內(nèi)置了分詞器,如標(biāo)準(zhǔn)分詞器、簡(jiǎn)單分詞器、空白詞器等。但這些分詞器對(duì)我們最常使用的 中

    2024年02月08日
    瀏覽(16)
  • ES(二)| 安裝ES、Kibana、IK分詞器、拼音分詞器(自動(dòng)補(bǔ)全)

    ES(二)| 安裝ES、Kibana、IK分詞器、拼音分詞器(自動(dòng)補(bǔ)全)

    上一篇:ES(一)| ES簡(jiǎn)介、倒排索引、索引庫(kù)操作語(yǔ)法、文檔操作語(yǔ)法、Java使用RestClient進(jìn)行ES操作 安裝包下載: 鏈接:https://pan.baidu.com/s/1Y1O0B8aG7qzRLFFVYo9nHw 提取碼:hdyc 因?yàn)槲覀冞€需要部署 kibana 容器,因此需要讓 es 和 kibana 容器互聯(lián)。這里先創(chuàng)建一個(gè)網(wǎng)絡(luò): 這里我采用

    2023年04月08日
    瀏覽(24)
  • Docker安裝es以及ik分詞器

    Docker安裝es以及ik分詞器

    https://github.com/medcl/elasticsearch-analysis-ik/releases 若出現(xiàn)下圖則成功 分詞的作用和關(guān)系型數(shù)據(jù)庫(kù)中的模糊查詢相似,不同的是es可以為字段中的每個(gè)分詞創(chuàng)建索引,通過(guò)空間換時(shí)間的方式大大提高了模糊查詢的效率。而關(guān)系型數(shù)據(jù)庫(kù)用like模糊查詢時(shí)只有l(wèi)ike xxx%的情況下會(huì)利用索引

    2024年02月14日
    瀏覽(27)
  • ES分布式搜索-IK分詞器

    ES分布式搜索-IK分詞器

    es在創(chuàng)建倒排索引時(shí)需要對(duì)文檔分詞;在搜索時(shí),需要對(duì)用戶輸入內(nèi)容分詞。但默認(rèn)的分詞規(guī)則對(duì)中文處理并不友好。 我們?cè)趉ibana的DevTools中測(cè)試: 語(yǔ)法說(shuō)明: POST:請(qǐng)求方式 /_analyze:請(qǐng)求路徑,這里省略了http://192.168.12.131:9200,有kibana幫我們補(bǔ)充 請(qǐng)求參數(shù),json風(fēng)格: anal

    2024年03月14日
    瀏覽(22)
  • ElasticSearch的使用,安裝ik分詞器,自定義詞庫(kù),SpringBoot整合ES(增、刪、改、查)

    ElasticSearch的使用,安裝ik分詞器,自定義詞庫(kù),SpringBoot整合ES(增、刪、改、查)

    保存一個(gè)數(shù)據(jù),保存在哪個(gè)索引的哪個(gè)類型下,指定用哪個(gè)唯一標(biāo)識(shí)(相當(dāng)于,保存一個(gè)數(shù)據(jù),保存在那個(gè)數(shù)據(jù)庫(kù)中的哪個(gè)表中,指定主鍵ID) 例:PUT customer/external/1;在customer索引下的external類型下保存1號(hào)數(shù)據(jù)name為John Doe的數(shù)據(jù) POST和PUT都可以新增數(shù)據(jù) 注意: POST 新增。如果

    2023年04月25日
    瀏覽(59)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包