国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ruby id="lizgg"><optgroup id="lizgg"></optgroup></ruby>

【HBZ分享】ES分詞器的拆分規(guī)則及算法

2年前作者：hbz-分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價值的文章主要介紹了【HBZ分享】ES分詞器的拆分規(guī)則及算法。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

ES分詞器種類

常見的分詞器，如Standard分詞器、Simple分詞器、Whitespace分詞器、IK分詞等，還支持自定義分詞器(比如一些小國家的語言需要自定義分詞器)
ES默認(rèn)就是Standard分詞器

分詞器在分詞時的過程

標(biāo)記化：分詞器第一步是將文本拆分成單個標(biāo)記(tokens), 就是單個的單詞或中文詞組，這個標(biāo)記可以是單詞，數(shù)組，特殊字符，中文詞語等。此時會包含一些分隔符，標(biāo)點(diǎn)，停用詞等，并非最終形態(tài)的分詞。
過濾：對第一步分出來的所有標(biāo)記進(jìn)行過濾操作，比如大小寫轉(zhuǎn)換，去除停用詞，去掉分隔符標(biāo)點(diǎn)等操作，形成最終形態(tài)的分詞集
倒排索引：分詞完成后，ES會創(chuàng)建倒排索引來存儲這些分詞，倒排索引是一種數(shù)據(jù)結(jié)構(gòu)，通過倒排索引，把分詞和文檔document(即原始文本)建立起映射關(guān)系，當(dāng)搜索某個分詞的時候，就會將映射到的文檔進(jìn)行返回。
查詢匹配：查詢時我們輸入的文本內(nèi)容，也會在ES進(jìn)行分詞處理，將搜索內(nèi)容分詞后，拿著分詞去倒排索引中進(jìn)行查詢，把匹配到的分詞對應(yīng)的映射document進(jìn)行返回。

Standard分詞器的規(guī)則

標(biāo)點(diǎn)符號切分：如果文本中含有標(biāo)點(diǎn)符號，那么會根據(jù)標(biāo)點(diǎn)符號進(jìn)行拆分，比如apple,peach,food。那么拆分結(jié)果就是[apple 和 peach 和 food]這3個，會根據(jù)逗號拆分
詞分割：即按照空格進(jìn)行拆分，比如: my name is hbz, 拆分結(jié)果就是[my 和 name 和 is 和 hbz]這4個詞拆成獨(dú)立的分詞
小寫轉(zhuǎn)換：即會將文本中的大小寫全部轉(zhuǎn)成小寫，比如Hellow World, 則拆分結(jié)果就是[hellow 和 world], 首字母的H，W都會轉(zhuǎn)成小寫的h, w
停用詞過濾：過濾掉無效的單詞，比如a, an, the這種連接詞，這些詞本身沒啥意義，做分詞的時候Standard分詞器會將這些排除
詞干提取：將單詞還原成原始形態(tài)，比如 running–>run， swimming–>swid, going–>go, jumped–>jump
==注意：以上這5個特點(diǎn)是同時生效的，即一段文本會按照這5中規(guī)則進(jìn)行分詞，最終結(jié)果一定是符合這5中規(guī)則的。 ==

如何查看ES分詞存儲效果？

GET /索引名稱/_analyze
GET /_index/_analyze
{
  "analyzer": "分詞器名稱",
  "field": "字段名稱"
  "text": "待分析的文本"
}

案例：文章來源地址http://www.zghlxwxcb.cn/news/detail-735824.html

#字段是text類型
POST /my_index/_analyze
{
  "field": "title",
  "text": "This is some text to analyze"
}

#字段是text類型
POST /my_index/_analyze
{
  "field": "title",
  "text": "今天學(xué)習(xí)了編程知識"
}


#字段是keyword類型（keyword是精確匹配，所以不會進(jìn)行分詞，This is some text to analyze作為一個完整體）
POST /my_index/_analyze
{
  "field": "tags",
  "text": "This is some text to analyze"
}


#字段是keyword類型(這是數(shù)組的keyword，會將數(shù)組的每個元素進(jìn)行分離出來，但每個元素不會再進(jìn)行分詞了，即結(jié)果就是This is, java, Spring Boot。大小寫也不會轉(zhuǎn)換，因?yàn)楦緵]走分詞器) 
POST /my_index/_analyze
{
  "field": "tags",
  "text": ["This is","java","Spring Boot" ]
}

到了這里，關(guān)于【HBZ分享】ES分詞器的拆分規(guī)則及算法的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

ElasticSearch 學(xué)習(xí)8 ：ik分詞器的擴(kuò)展，及java調(diào)用ik分詞器的analyzer
1.前言：上篇已經(jīng)說過ik的集成，這篇說下ik的實(shí)際使用 2.2、IK分詞器測試 IK提供了兩個分詞算法 ik_smart 和 ik_max_word ik_smart ：為最少切分 ik_max_word ：為最細(xì)粒度劃分。 2.2.1、最小切分示例 #分詞器測試ik_smart POST _analyze { \\\"analyzer\\\":\\\"ik_smart\\\", \\\"text\\\":\\\"我是中國人\\\" } ?結(jié)果： 2.2.2、最
2024年02月04日
瀏覽(20)
elasticsearch 基于ik分詞器的分詞查詢和模糊匹配
前言:elasticsearch 查詢有很多，查詢的條件有固定格式，返回結(jié)果提示不明確，讓ES使用起來有點(diǎn)不方便的感覺，ES查詢方式很多，簡單介紹幾種使用點(diǎn)的，實(shí)用的此處簡單梳理一下最常用的查詢模糊匹配查詢類似 mysql 語法中的 like ‘%value%’ 類似于百度的分詞查詢將
2024年02月16日
瀏覽(17)
ES-IK分詞器的概念和基本使用
??ES IK分詞器是一種基于中文文本的分詞器，它是Elasticsearch中文分詞的一種實(shí)現(xiàn)。它采用了自然語言處理技術(shù)，可以將中文文本進(jìn)行切分，抽取出其中的詞匯，從而提高搜索引擎對中文文本的搜索和檢索效率。 ??ES IK分詞器的原理是采用了一種叫做“正向最大匹配”（
2024年02月16日
瀏覽(27)
windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用
目錄問題現(xiàn)象：解決方法： 1、下載IK中文分詞器 2、部署 3、使用前言（選看） ? ? ? 最近在重溫Elasticsearch，看來一下官網(wǎng)，都出到8.4.3版本了。想當(dāng)初學(xué)的時候用的還是5.6.8，版本更新了很多意味著有大變動。 ????????? windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安
2024年02月13日
瀏覽(33)
Elasticsearch專欄-5.es基本用法-分詞查詢
所謂分詞，就是把一段語句，分割成一個個單詞的過程。比如\\\"717 Hendrickson Place\\\"短語，分詞后就是三個單詞，即717、hendrickson、place。注意，分詞后的單詞默認(rèn)都是小寫。分詞查詢，指的就是查詢時，把要查詢的語句（字符串）先進(jìn)行分詞，然后拿分詞后的單詞去文檔集合中比
2024年01月16日
瀏覽(55)
es elasticsearch 十中文分詞器ik分詞器 Mysql 熱更新詞庫
目錄中文分詞器ik分詞器介紹安裝使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫介紹中文分詞器按照中文進(jìn)行分詞，中文應(yīng)用最廣泛的是ik分詞器安裝官網(wǎng)下載對應(yīng)版本zip 下載 ?放到 ?plugins 目錄新建 ik文件夾考入解析zip 重啟 es //分成小單詞使用分詞器 ik_max_word分成
2024年02月07日
瀏覽(21)
Elasticsearch安裝分詞插件[ES系列] - 第499篇
歷史文章（文章累計(jì)490+）《國內(nèi)最全的Spring?Boot系列之一》《國內(nèi)最全的Spring?Boot系列之二》《國內(nèi)最全的Spring?Boot系列之三》《國內(nèi)最全的Spring?Boot系列之四》《國內(nèi)最全的Spring?Boot系列之五》《國內(nèi)最全的Spring?Boot系列之六》 ElasticSearch應(yīng)用場景以及技術(shù)
2024年02月02日
瀏覽(22)
Elasticsearch07：ES中文分詞插件(es-ik)安裝部署
在中文數(shù)據(jù)檢索場景中，為了提供更好的檢索效果，需要在ES中集成中文分詞器，因?yàn)镋S默認(rèn)是按照英文的分詞規(guī)則進(jìn)行分詞的，基本上可以認(rèn)為是單字分詞，對中文分詞效果不理想。 ES之前是沒有提供中文分詞器的，現(xiàn)在官方也提供了一些，但是在中文分詞領(lǐng)域，IK分詞器是
2024年02月03日
瀏覽(28)
elasticsearch[七]：ES評分規(guī)則詳解[查詢評分規(guī)則、自定義評分規(guī)則]
因?yàn)樾枰獙λ阉鹘Y(jié)果進(jìn)行一個統(tǒng)一化的評分，因此需要仔細(xì)研究 ES 本身的評分規(guī)則從而想辦法把評分統(tǒng)一。省流：無法確切統(tǒng)一化之前有說過 ES 的查詢評分原理，那么仔細(xì)思考之后就會發(fā)現(xiàn)，長文本搜索對應(yīng)的 score 會比短文本搜索的 score 高很多：score = 單個分詞評分之和
2024年01月20日
瀏覽(26)
Elasticsearch使用系列-ES增刪查改基本操作+ik分詞
ES是一個NoSql數(shù)據(jù)庫應(yīng)用。和其他數(shù)據(jù)庫一樣，我們?yōu)榱朔奖悴僮鞑榭此?，需要安裝一個可視化工具 Kibana。官網(wǎng)： https://www.elastic.co/cn/downloads/kibana 和前面安裝ES一樣，選中對應(yīng)的環(huán)境下載，這里選擇windows環(huán)境，注意安裝的版本一定要和ES的版本一致，不然可能會啟動不起來。
2024年02月01日
瀏覽(36)

<dfn id="bmitz"><font id="bmitz"></font></dfn>