国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【ElasticSearch】中文分詞器

這篇具有很好參考價(jià)值的文章主要介紹了【ElasticSearch】中文分詞器。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ES默認(rèn)的analyzer(分詞器),對(duì)英文單詞比較友好,對(duì)中文分詞效果不好。不過(guò)ES支持安裝分詞插件,增加新的分詞器。

1、如何指定analyzer?
默認(rèn)的分詞器不滿足需要,可以在定義索引映射的時(shí)候,指定text字段的分詞器

例子:

PUT /article
{
  "mappings": {
    "properties": {
      "title":   { 
          "type": "text",
          "analyzer": "smartcn"
      }
    }
  }
}

只要在定義text字段的時(shí)候,增加一個(gè)analyzer配置,指定分詞器即可,這里指定的分詞器是smartcn,后面會(huì)介紹怎么安裝smartcn插件。

分詞器種類

目前中文分詞器比較常用的有:smartcn和ik兩種, 下面分別介紹這兩種分詞器。

smartcn分詞器

smartcn是目前ES官方推薦的中文分詞插件,不過(guò)目前不支持自定義詞庫(kù)。

插件安裝方式:

{ES安裝目錄}/bin/elasticsearch-plugin install analysis-smartcn

【ElasticSearch】中文分詞器
【ElasticSearch】中文分詞器

安裝完成后,重啟ES即可 一定要重啟不然找不到分詞器?。?!。
smartcn的分詞器名字就叫做:smartcn

smartcn中文分詞效果

GET /_analyze
{
  "text": "紅燒牛肉面",
  "analyzer": "smartcn"
}
{
  "tokens" : [
    {
      "token" : "紅燒",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "牛肉面",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "word",
      "position" : 1
    }
  ]
}

【ElasticSearch】中文分詞器

ik分詞器

ik支持自定義擴(kuò)展詞庫(kù),有時(shí)候分詞的結(jié)果不滿足我們業(yè)務(wù)需要,需要根據(jù)業(yè)務(wù)設(shè)置專門(mén)的詞庫(kù),詞庫(kù)的作用就是自定義一批關(guān)鍵詞,分詞的時(shí)候優(yōu)先根據(jù)詞庫(kù)設(shè)置的關(guān)鍵詞分割內(nèi)容,例如:詞庫(kù)中包含 “上海大學(xué)” 關(guān)鍵詞,如果對(duì)“上海大學(xué)在哪里?”進(jìn)行分詞,“上海大學(xué)” 會(huì)做為一個(gè)整體被切割出來(lái)。(需要重啟es)

安裝ik插件:

// 到這里找跟自己ES版本一致的插件地址
https://github.com/medcl/elasticsearch-analysis-ik/releases

我本地使用的ES版本是7.8.0,所以選擇的Ik插件版本地址是:

https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.8.0/elasticsearch-analysis-ik-7.8.0.zip

安裝命令

{ES安裝目錄}/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.8.0/elasticsearch-analysis-ik-7.8.0.zip

【ElasticSearch】中文分詞器

ik中文分詞效果

ik分詞插件支持 ik_smart 和 ik_max_word 兩種分詞器

ik_smart - 粗粒度的分詞
ik_max_word - 會(huì)盡可能的枚舉可能的關(guān)鍵詞,就是分詞比較細(xì)致一些,會(huì)分解出更多的關(guān)鍵詞

例1:

GET /_analyze
{
  "text": "上海人民廣場(chǎng)麻辣燙",
  "analyzer": "ik_max_word"
}

輸出:

{
  "tokens" : [
    {
      "token" : "上海人",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "上海",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "廣場(chǎng)",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "麻辣燙",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "麻辣",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "燙",
      "start_offset" : 8,
      "end_offset" : 9,
      "type" : "CN_CHAR",
      "position" : 6
    }
  ]
}

例2:

GET /_analyze
{
  "text": "上海人民廣場(chǎng)麻辣燙",
  "analyzer": "ik_smart"
}

輸出:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-500323.html

{
  "tokens" : [
    {
      "token" : "上海",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "廣場(chǎng)",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "麻辣燙",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

到了這里,關(guān)于【ElasticSearch】中文分詞器的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Elasticsearch實(shí)戰(zhàn)(四)---中英文分詞及拼音搜索

    Elasticsearch實(shí)戰(zhàn)(四)---中英文分詞及拼音搜索

    Elasticsearch實(shí)戰(zhàn)-中英文分詞及拼音搜素 1.ElasticSearch 中英文分詞插件 基于文章 Elasticsearch實(shí)戰(zhàn)(一)—安裝及基本語(yǔ)法使用 前面的文章,我們已經(jīng)基本使用了ES,而且也講了 match 和 match_phrase的區(qū)別,今天講一下如何分詞 1.1 分詞插件 在官網(wǎng)上都可以下載 IK分詞地址 如果GitHu

    2024年02月14日
    瀏覽(31)
  • Elasticsearch對(duì)數(shù)字,英文字母等的分詞N-gram tokenizer

    Elasticsearch中提供了一個(gè)叫N-gram tokenizer的分詞器,官方介紹如下 The? ngram ?tokenizer first breaks text down into words whenever it encounters one of a list of specified characters, then it emits?N-grams?of each word of the specified length. N-grams are like a sliding window that moves across the word - a continuous sequence of charac

    2023年04月16日
    瀏覽(29)
  • 銀河麒麟服務(wù)器操作系統(tǒng)修改系統(tǒng)默認(rèn)語(yǔ)言(如從英文改為中文)

    在安裝操作系統(tǒng)的時(shí)候選擇了英文,使用的時(shí)候感覺(jué)不太方便,想要把語(yǔ)言環(huán)境改成中文; 銀河麒麟高級(jí)服務(wù)器操作系統(tǒng)V10 SP3 1、查看系統(tǒng)默認(rèn)語(yǔ)言 2、使用localectl命令設(shè)定系統(tǒng)語(yǔ)言為中文 3、重啟系統(tǒng)

    2024年02月04日
    瀏覽(101)
  • Elasticsearch 中文分詞器

    Elasticsearch 中文分詞器

    我們?cè)贓S中最常用的中文分詞器就是IK分詞器,其項(xiàng)目地址為:https://github.com/medcl/elasticsearch-analysis-ik 下載地址: https://github.com/medcl/elasticsearch-analysis-ik/releases 下載時(shí)注意和es的版本對(duì)應(yīng),我們es版本為:8.6.2。所以我們下載 elasticsearch-analysis-ik-8.6.2.zip 解壓包內(nèi)容如下: 在ES

    2024年02月09日
    瀏覽(17)
  • 【ElasticSearch】中文分詞器

    【ElasticSearch】中文分詞器

    ES默認(rèn)的analyzer(分詞器),對(duì)英文單詞比較友好,對(duì)中文分詞效果不好。不過(guò)ES支持安裝分詞插件,增加新的分詞器。 1、如何指定analyzer? 默認(rèn)的分詞器不滿足需要,可以在定義索引映射的時(shí)候,指定text字段的分詞器 例子: 只要在定義text字段的時(shí)候,增加一個(gè)analyzer配置

    2024年02月11日
    瀏覽(18)
  • ElasticSearch中文分詞和模糊查詢

    ElasticSearch中文分詞和模糊查詢

    ? ? ? ? ElasticSearch是一個(gè)一個(gè)分布式的實(shí)時(shí)文檔存儲(chǔ),每一個(gè)字段都可以被索引與搜索,并且能支持PB級(jí)別的結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)。早期我們應(yīng)用的全局搜索是簡(jiǎn)單的SQL模糊查詢,為了分擔(dān)數(shù)據(jù)庫(kù)壓力所以用了ES,選擇他的原因除了以上幾點(diǎn)外,還有其提供的API方式簡(jiǎn)單

    2024年02月03日
    瀏覽(25)
  • 本地elasticsearch中文分詞器 ik分詞器安裝及使用

    本地elasticsearch中文分詞器 ik分詞器安裝及使用

    ElasticSearch 內(nèi)置了分詞器,如標(biāo)準(zhǔn)分詞器、簡(jiǎn)單分詞器、空白詞器等。但這些分詞器對(duì)我們最常使用的中文并不友好,不能按我們的語(yǔ)言習(xí)慣進(jìn)行分詞。 ik分詞器就是一個(gè)標(biāo)準(zhǔn)的中文分詞器。它可以根據(jù)定義的字典對(duì)域進(jìn)行分詞,并且支持用戶配置自己的字典,所以它除了可

    2024年02月05日
    瀏覽(34)
  • Elasticsearch之ik中文分詞篇

    es在7.3版本已經(jīng)支持中文分詞,由于中文分詞只能支持到單個(gè)字進(jìn)行分詞,不夠靈活與適配我們平常使用習(xí)慣,所以有很多對(duì)應(yīng)中文分詞出現(xiàn),最近使用的是ik分詞器,就說(shuō)說(shuō)它吧。 安裝可以百度下有很多教程,需要注意的是ik分詞器的版本要跟es版本對(duì)應(yīng)上,避免出現(xiàn)不必要

    2024年02月02日
    瀏覽(25)
  • Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞

    閑來(lái)無(wú)事,發(fā)現(xiàn)上一篇ES博客還是 去年9月份 寫(xiě)的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用,該篇文章還挖了一個(gè) 大坑 沒(méi)有填,快一年了,是時(shí)候填下坑了。 針對(duì)股票查詢這個(gè)特點(diǎn)場(chǎng)景,再結(jié)合一般使用者的搜索習(xí)慣,暫時(shí)確定如下7種期望效果。 上一篇博客Elast

    2023年04月09日
    瀏覽(28)
  • es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫(kù)

    es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫(kù)

    目錄 中文分詞器ik分詞器 介紹 安裝 使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫(kù) 介紹 中文分詞器按照中文進(jìn)行分詞,中文應(yīng)用最廣泛的是ik分詞器 安裝 官網(wǎng)下載對(duì)應(yīng)版本zip 下載 ?放到 ?plugins 目錄 新建 ik文件夾 考入解析zip 重啟 es //分成小單詞 使用分詞器 ik_max_word分成

    2024年02月07日
    瀏覽(21)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包