国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【HBZ分享】ES分詞器的拆分規(guī)則 及 算法

這篇具有很好參考價值的文章主要介紹了【HBZ分享】ES分詞器的拆分規(guī)則 及 算法。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

ES分詞器種類

  1. 常見的分詞器,如Standard分詞器、Simple分詞器、Whitespace分詞器、IK分詞等,還支持自定義分詞器(比如一些小國家的語言需要自定義分詞器)
  2. ES默認(rèn)就是Standard分詞器

分詞器在分詞時的過程

  1. 標(biāo)記化:分詞器第一步是將文本拆分成單個標(biāo)記(tokens), 就是單個的單詞或中文詞組,這個標(biāo)記可以是單詞,數(shù)組,特殊字符,中文詞語等。 此時會包含一些分隔符,標(biāo)點(diǎn),停用詞等,并非最終形態(tài)的分詞。
  2. 過濾:對第一步分出來的所有標(biāo)記進(jìn)行過濾操作,比如大小寫轉(zhuǎn)換,去除停用詞,去掉分隔符標(biāo)點(diǎn)等操作,形成最終形態(tài)的分詞集
  3. 倒排索引:分詞完成后,ES會創(chuàng)建倒排索引來存儲這些分詞, 倒排索引是一種數(shù)據(jù)結(jié)構(gòu),通過倒排索引,把分詞和文檔document(即原始文本)建立起映射關(guān)系,當(dāng)搜索某個分詞的時候,就會將映射到的文檔進(jìn)行返回。
  4. 查詢匹配:查詢時我們輸入的文本內(nèi)容,也會在ES進(jìn)行分詞處理,將搜索內(nèi)容分詞后,拿著分詞去倒排索引中進(jìn)行查詢,把匹配到的分詞對應(yīng)的映射document進(jìn)行返回。

Standard分詞器的規(guī)則

  1. 標(biāo)點(diǎn)符號切分:如果文本中含有標(biāo)點(diǎn)符號,那么會根據(jù)標(biāo)點(diǎn)符號進(jìn)行拆分,比如apple,peach,food。那么拆分結(jié)果就是[apple 和 peach 和 food]這3個,會根據(jù)逗號拆分
  2. 詞分割: 即按照空格進(jìn)行拆分, 比如: my name is hbz, 拆分結(jié)果就是[my 和 name 和 is 和 hbz]這4個詞拆成獨(dú)立的分詞
  3. 小寫轉(zhuǎn)換:即會將文本中的大小寫全部轉(zhuǎn)成小寫, 比如Hellow World, 則拆分結(jié)果就是[hellow 和 world], 首字母的H,W都會轉(zhuǎn)成小寫的h, w
  4. 停用詞過濾: 過濾掉無效的單詞,比如a, an, the這種連接詞,這些詞本身沒啥意義,做分詞的時候Standard分詞器會將這些排除
  5. 詞干提取:將單詞還原成原始形態(tài), 比如 running–>run, swimming–>swid, going–>go, jumped–>jump
  6. ==注意:以上這5個特點(diǎn)是同時生效的,即一段文本會按照這5中規(guī)則進(jìn)行分詞,最終結(jié)果一定是符合這5中規(guī)則的。 ==

如何查看ES分詞存儲效果?

GET /索引名稱/_analyze
GET /_index/_analyze
{
  "analyzer": "分詞器名稱",
  "field": "字段名稱"
  "text": "待分析的文本"
}

案例:文章來源地址http://www.zghlxwxcb.cn/news/detail-735824.html

#字段是text類型
POST /my_index/_analyze
{
  "field": "title",
  "text": "This is some text to analyze"
}

#字段是text類型
POST /my_index/_analyze
{
  "field": "title",
  "text": "今天學(xué)習(xí)了編程知識"
}


#字段是keyword類型(keyword是精確匹配,所以不會進(jìn)行分詞,This is some text to analyze作為一個完整體)
POST /my_index/_analyze
{
  "field": "tags",
  "text": "This is some text to analyze"
}


#字段是keyword類型(這是數(shù)組的keyword,會將數(shù)組的每個元素進(jìn)行分離出來,但每個元素不會再進(jìn)行分詞了,即結(jié)果就是This is, java, Spring Boot。大小寫也不會轉(zhuǎn)換,因?yàn)楦緵]走分詞器) 
POST /my_index/_analyze
{
  "field": "tags",
  "text": ["This is","java","Spring Boot" ]
}

到了這里,關(guān)于【HBZ分享】ES分詞器的拆分規(guī)則 及 算法的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • ElasticSearch 學(xué)習(xí)8 :ik分詞器的擴(kuò)展,及java調(diào)用ik分詞器的analyzer

    ElasticSearch 學(xué)習(xí)8 :ik分詞器的擴(kuò)展,及java調(diào)用ik分詞器的analyzer

    1.前言: 上篇已經(jīng)說過ik的集成,這篇說下ik的實(shí)際使用 2.2、IK分詞器測試 IK提供了兩個分詞算法 ik_smart 和 ik_max_word ik_smart :為最少切分 ik_max_word :為最細(xì)粒度劃分。 2.2.1、最小切分示例 #分詞器測試ik_smart POST _analyze { \\\"analyzer\\\":\\\"ik_smart\\\", \\\"text\\\":\\\"我是中國人\\\" } ?結(jié)果: 2.2.2、最

    2024年02月04日
    瀏覽(20)
  • elasticsearch 基于ik分詞器的分詞查詢和模糊匹配

    elasticsearch 基于ik分詞器的分詞查詢和模糊匹配

    前言:elasticsearch 查詢有很多,查詢的條件有固定格式,返回結(jié)果提示不明確,讓ES使用起來有點(diǎn)不方便的感覺,ES查詢方式很多,簡單介紹幾種使用點(diǎn)的,實(shí)用的 此處簡單梳理一下最常用的查詢 模糊匹配查詢 類似 mysql 語法中的 like ‘%value%’ 類似于百度的分詞查詢 將

    2024年02月16日
    瀏覽(17)
  • ES-IK分詞器的概念和基本使用

    ES-IK分詞器的概念和基本使用

    ??ES IK分詞器是一種基于中文文本的分詞器,它是Elasticsearch中文分詞的一種實(shí)現(xiàn)。它采用了自然語言處理技術(shù),可以將中文文本進(jìn)行切分,抽取出其中的詞匯,從而提高搜索引擎對中文文本的搜索和檢索效率。 ??ES IK分詞器的原理是采用了一種叫做“正向最大匹配”(

    2024年02月16日
    瀏覽(27)
  • windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安裝、部署、使用

    目錄 問題現(xiàn)象: 解決方法: 1、下載IK中文分詞器 2、部署 3、使用 前言(選看) ? ? ? 最近在重溫Elasticsearch,看來一下官網(wǎng),都出到8.4.3版本了。想當(dāng)初學(xué)的時候用的還是5.6.8,版本更新了很多意味著有大變動。 ????????? windows環(huán)境基于Elasticsearch8.4.0的IK中文分詞器的安

    2024年02月13日
    瀏覽(33)
  • Elasticsearch專欄-5.es基本用法-分詞查詢

    Elasticsearch專欄-5.es基本用法-分詞查詢

    所謂分詞,就是把一段語句,分割成一個個單詞的過程。比如\\\"717 Hendrickson Place\\\"短語,分詞后就是三個單詞,即717、hendrickson、place。注意,分詞后的單詞默認(rèn)都是小寫。 分詞查詢,指的就是查詢時,把要查詢的語句(字符串)先進(jìn)行分詞,然后拿分詞后的單詞去文檔集合中比

    2024年01月16日
    瀏覽(55)
  • es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫

    es elasticsearch 十 中文分詞器ik分詞器 Mysql 熱更新詞庫

    目錄 中文分詞器ik分詞器 介紹 安裝 使用分詞器 Ik分詞器配置文件 Mysql 熱更新詞庫 介紹 中文分詞器按照中文進(jìn)行分詞,中文應(yīng)用最廣泛的是ik分詞器 安裝 官網(wǎng)下載對應(yīng)版本zip 下載 ?放到 ?plugins 目錄 新建 ik文件夾 考入解析zip 重啟 es //分成小單詞 使用分詞器 ik_max_word分成

    2024年02月07日
    瀏覽(21)
  • Elasticsearch安裝分詞插件[ES系列] - 第499篇

    Elasticsearch安裝分詞插件[ES系列] - 第499篇

    歷史文章( 文章 累計(jì)490+) 《 國內(nèi)最全的Spring?Boot系列之一 》 《 國內(nèi)最全的Spring?Boot系列之二 》 《 國內(nèi)最全的Spring?Boot系列之三 》 《 國內(nèi)最全的Spring?Boot系列之四 》 《 國內(nèi)最全的Spring?Boot系列之 五 》 《 國內(nèi)最全的Spring?Boot系列之六 》 ElasticSearch應(yīng)用場景以及技術(shù)

    2024年02月02日
    瀏覽(22)
  • Elasticsearch07:ES中文分詞插件(es-ik)安裝部署

    Elasticsearch07:ES中文分詞插件(es-ik)安裝部署

    在中文數(shù)據(jù)檢索場景中,為了提供更好的檢索效果,需要在ES中集成中文分詞器,因?yàn)镋S默認(rèn)是按照英文的分詞規(guī)則進(jìn)行分詞的,基本上可以認(rèn)為是單字分詞,對中文分詞效果不理想。 ES之前是沒有提供中文分詞器的,現(xiàn)在官方也提供了一些,但是在中文分詞領(lǐng)域,IK分詞器是

    2024年02月03日
    瀏覽(28)
  • elasticsearch[七]:ES評分規(guī)則詳解[查詢評分規(guī)則、自定義評分規(guī)則]

    elasticsearch[七]:ES評分規(guī)則詳解[查詢評分規(guī)則、自定義評分規(guī)則]

    因?yàn)樾枰獙λ阉鹘Y(jié)果進(jìn)行一個統(tǒng)一化的評分,因此需要仔細(xì)研究 ES 本身的評分規(guī)則從而想辦法把評分統(tǒng)一。 省流:無法確切統(tǒng)一化 之前有說過 ES 的查詢評分原理,那么仔細(xì)思考之后就會發(fā)現(xiàn),長文本搜索對應(yīng)的 score 會比短文本搜索的 score 高很多:score = 單個分詞評分之和

    2024年01月20日
    瀏覽(26)
  • Elasticsearch使用系列-ES增刪查改基本操作+ik分詞

    Elasticsearch使用系列-ES增刪查改基本操作+ik分詞

    ES是一個NoSql數(shù)據(jù)庫應(yīng)用。和其他數(shù)據(jù)庫一樣,我們?yōu)榱朔奖悴僮鞑榭此?,需要安裝一個可視化工具 Kibana。 官網(wǎng): https://www.elastic.co/cn/downloads/kibana 和前面安裝ES一樣,選中對應(yīng)的環(huán)境下載,這里選擇windows環(huán)境,注意安裝的版本一定要和ES的版本一致,不然可能會啟動不起來。

    2024年02月01日
    瀏覽(36)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包