国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【ElasticSearch】中文分詞器

2年前作者：迪迪迦分類：Toy博客閱讀(19)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【ElasticSearch】中文分詞器。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ES默認(rèn)的analyzer（分詞器），對(duì)英文單詞比較友好，對(duì)中文分詞效果不好。不過(guò)ES支持安裝分詞插件，增加新的分詞器。

1、如何指定analyzer？
默認(rèn)的分詞器不滿足需要，可以在定義索引映射的時(shí)候，指定text字段的分詞器

例子：

PUT /article
{
  "mappings": {
    "properties": {
      "title":   { 
          "type": "text",
          "analyzer": "smartcn"
      }
    }
  }
}

只要在定義text字段的時(shí)候，增加一個(gè)analyzer配置，指定分詞器即可，這里指定的分詞器是smartcn，后面會(huì)介紹怎么安裝smartcn插件。

分詞器種類

目前中文分詞器比較常用的有：smartcn和ik兩種，下面分別介紹這兩種分詞器。

smartcn分詞器

smartcn是目前ES官方推薦的中文分詞插件，不過(guò)目前不支持自定義詞庫(kù)。

插件安裝方式：

{ES安裝目錄}/bin/elasticsearch-plugin install analysis-smartcn

【ElasticSearch】中文分詞器

安裝完成后，重啟ES即可 一定要重啟不然找不到分詞器?。?！。
smartcn的分詞器名字就叫做：smartcn

smartcn中文分詞效果

GET /_analyze
{
  "text": "紅燒牛肉面",
  "analyzer": "smartcn"
}

{
  "tokens" : [
    {
      "token" : "紅燒",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "牛肉面",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "word",
      "position" : 1
    }
  ]
}

【ElasticSearch】中文分詞器

ik分詞器

ik支持自定義擴(kuò)展詞庫(kù)，有時(shí)候分詞的結(jié)果不滿足我們業(yè)務(wù)需要，需要根據(jù)業(yè)務(wù)設(shè)置專門(mén)的詞庫(kù)，詞庫(kù)的作用就是自定義一批關(guān)鍵詞，分詞的時(shí)候優(yōu)先根據(jù)詞庫(kù)設(shè)置的關(guān)鍵詞分割內(nèi)容，例如：詞庫(kù)中包含 “上海大學(xué)” 關(guān)鍵詞，如果對(duì)“上海大學(xué)在哪里？”進(jìn)行分詞，“上海大學(xué)” 會(huì)做為一個(gè)整體被切割出來(lái)。（需要重啟es）

安裝ik插件：

// 到這里找跟自己ES版本一致的插件地址
https://github.com/medcl/elasticsearch-analysis-ik/releases

我本地使用的ES版本是7.8.0，所以選擇的Ik插件版本地址是：

https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.8.0/elasticsearch-analysis-ik-7.8.0.zip

安裝命令

{ES安裝目錄}/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.8.0/elasticsearch-analysis-ik-7.8.0.zip

【ElasticSearch】中文分詞器

ik中文分詞效果

ik分詞插件支持 ik_smart 和 ik_max_word 兩種分詞器

ik_smart - 粗粒度的分詞
ik_max_word - 會(huì)盡可能的枚舉可能的關(guān)鍵詞，就是分詞比較細(xì)致一些，會(huì)分解出更多的關(guān)鍵詞

例1:

GET /_analyze
{
  "text": "上海人民廣場(chǎng)麻辣燙",
  "analyzer": "ik_max_word"
}

輸出：

{
  "tokens" : [
    {
      "token" : "上海人",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "上海",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "廣場(chǎng)",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "麻辣燙",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "麻辣",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "燙",
      "start_offset" : 8,
      "end_offset" : 9,
      "type" : "CN_CHAR",
      "position" : 6
    }
  ]
}

例2:

GET /_analyze
{
  "text": "上海人民廣場(chǎng)麻辣燙",
  "analyzer": "ik_smart"
}

輸出：文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-500323.html

{
  "tokens" : [
    {
      "token" : "上海",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "廣場(chǎng)",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "麻辣燙",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

到了這里，關(guān)于【ElasticSearch】中文分詞器的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Elasticsearch實(shí)戰(zhàn)（四）---中英文分詞及拼音搜索
Elasticsearch實(shí)戰(zhàn)-中英文分詞及拼音搜素 1.ElasticSearch 中英文分詞插件基于文章 Elasticsearch實(shí)戰(zhàn)（一）—安裝及基本語(yǔ)法使用前面的文章，我們已經(jīng)基本使用了ES，而且也講了 match 和 match_phrase的區(qū)別，今天講一下如何分詞 1.1 分詞插件在官網(wǎng)上都可以下載 IK分詞地址如果GitHu
2024年02月14日
瀏覽(31)
Elasticsearch對(duì)數(shù)字，英文字母等的分詞N-gram tokenizer
Elasticsearch中提供了一個(gè)叫N-gram tokenizer的分詞器，官方介紹如下 The? ngram ?tokenizer first breaks text down into words whenever it encounters one of a list of specified characters, then it emits?N-grams?of each word of the specified length. N-grams are like a sliding window that moves across the word - a continuous sequence of charac
2023年04月16日
瀏覽(29)
銀河麒麟服務(wù)器操作系統(tǒng)修改系統(tǒng)默認(rèn)語(yǔ)言（如從英文改為中文）
在安裝操作系統(tǒng)的時(shí)候選擇了英文，使用的時(shí)候感覺(jué)不太方便，想要把語(yǔ)言環(huán)境改成中文；銀河麒麟高級(jí)服務(wù)器操作系統(tǒng)V10 SP3 1、查看系統(tǒng)默認(rèn)語(yǔ)言 2、使用localectl命令設(shè)定系統(tǒng)語(yǔ)言為中文 3、重啟系統(tǒng)
2024年02月04日
瀏覽(101)
Elasticsearch 中文分詞器
我們?cè)贓S中最常用的中文分詞器就是IK分詞器，其項(xiàng)目地址為：https://github.com/medcl/elasticsearch-analysis-ik 下載地址： https://github.com/medcl/elasticsearch-analysis-ik/releases 下載時(shí)注意和es的版本對(duì)應(yīng)，我們es版本為：8.6.2。所以我們下載 elasticsearch-analysis-ik-8.6.2.zip 解壓包內(nèi)容如下：在ES
2024年02月09日
瀏覽(17)
【ElasticSearch】中文分詞器
ES默認(rèn)的analyzer（分詞器），對(duì)英文單詞比較友好，對(duì)中文分詞效果不好。不過(guò)ES支持安裝分詞插件，增加新的分詞器。 1、如何指定analyzer？默認(rèn)的分詞器不滿足需要，可以在定義索引映射的時(shí)候，指定text字段的分詞器例子：只要在定義text字段的時(shí)候，增加一個(gè)analyzer配置
2024年02月11日
瀏覽(18)
ElasticSearch中文分詞和模糊查詢
? ? ? ? ElasticSearch是一個(gè)一個(gè)分布式的實(shí)時(shí)文檔存儲(chǔ)，每一個(gè)字段都可以被索引與搜索，并且能支持PB級(jí)別的結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)。早期我們應(yīng)用的全局搜索是簡(jiǎn)單的SQL模糊查詢，為了分擔(dān)數(shù)據(jù)庫(kù)壓力所以用了ES，選擇他的原因除了以上幾點(diǎn)外，還有其提供的API方式簡(jiǎn)單
2024年02月03日
瀏覽(25)
本地elasticsearch中文分詞器 ik分詞器安裝及使用
ElasticSearch 內(nèi)置了分詞器，如標(biāo)準(zhǔn)分詞器、簡(jiǎn)單分詞器、空白詞器等。但這些分詞器對(duì)我們最常使用的中文并不友好，不能按我們的語(yǔ)言習(xí)慣進(jìn)行分詞。 ik分詞器就是一個(gè)標(biāo)準(zhǔn)的中文分詞器。它可以根據(jù)定義的字典對(duì)域進(jìn)行分詞，并且支持用戶配置自己的字典，所以它除了可
2024年02月05日
瀏覽(34)
Elasticsearch之ik中文分詞篇
es在7.3版本已經(jīng)支持中文分詞，由于中文分詞只能支持到單個(gè)字進(jìn)行分詞，不夠靈活與適配我們平常使用習(xí)慣，所以有很多對(duì)應(yīng)中文分詞出現(xiàn)，最近使用的是ik分詞器，就說(shuō)說(shuō)它吧。安裝可以百度下有很多教程，需要注意的是ik分詞器的版本要跟es版本對(duì)應(yīng)上，避免出現(xiàn)不必要
2024年02月02日
瀏覽(25)
Elasticsearch教程(35) ik中文分詞器+pinyin拼音分詞器+同義詞
閑來(lái)無(wú)事，發(fā)現(xiàn)上一篇ES博客還是去年9月份寫(xiě)的中文ik分詞器 pinyin 首字母 search_as_you_type 組合使用，該篇文章還挖了一個(gè) 大坑沒(méi)有填，快一年了，是時(shí)候填下坑了。針對(duì)股票查詢這個(gè)特點(diǎn)場(chǎng)景，再結(jié)合一般使用者的搜索習(xí)慣，暫時(shí)確定如下7種期望效果。上一篇博客Elast
2023年04月09日
瀏覽(28)
es elasticsearch 十中文分詞器ik分詞器 Mysql 熱更新詞庫(kù)
目錄中文分詞器ik分詞器介紹安裝使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫(kù) 介紹中文分詞器按照中文進(jìn)行分詞，中文應(yīng)用最廣泛的是ik分詞器安裝官網(wǎng)下載對(duì)應(yīng)版本zip 下載 ?放到 ?plugins 目錄新建 ik文件夾考入解析zip 重啟 es //分成小單詞使用分詞器 ik_max_word分成
2024年02月07日
瀏覽(21)