国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tr id="wncew"></tr>

<th id="wncew"><strong id="wncew"><font id="wncew"></font></strong></th>

elasticsearch IK分詞器

2年前作者：何中應(yīng)分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了elasticsearch IK分詞器。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

說明：es默認的分詞器對中文的識別不是特別好，一段話的分詞是一個一個漢字，這顯然沒有達到想要的結(jié)果。

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

可以安裝IK分詞器，兼容中文的分詞；

IK分詞器

安裝

安裝IK分詞器，例如elasticsearch的容器名為es；

（命令方式，安裝速度慢，網(wǎng)絡(luò)狀況不好非常容易失敗，而且會丟失文件，不推薦使用）

# 進入容器內(nèi)部
docker exec -it es /bin/bash

# 在線下載并安裝
./bin/elasticsearch-plugin  install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit

#重啟容器
docker restart es

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

（手動拖入）

可以選擇在對應(yīng)網(wǎng)站下載（注意ik版本需要和es版本一致），然后將文件拖入到es容器掛載的數(shù)據(jù)卷目錄下；

# 查看es容器掛載的數(shù)據(jù)卷路徑
docker volume inspect es-plugins

將下載下來的IK分詞器文件，解壓，復(fù)制到此目錄下；

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

使用

IK分詞器有以下兩種模式：

ik_smart：最少切分，最少分詞數(shù)量；
ik_max_word：最細切分，最多可分詞數(shù)；

使用“ik_smart”模式，可以看右側(cè)，分詞是符合中文語境的；

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

“ik_max_word”模式

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

擴展詞匯&敏感詞匯排除

有一些人名、名牌、熱詞等詞匯，在分詞時可能會被拆分開，如“王麻子菜刀”，可能被拆分成了“王麻子”、“菜刀”，拆分之后就沒有意義了。這些詞匯可以添加到IK分詞器的擴展字典文件中，使分詞時這些詞匯被作為一個完整的詞劃分。

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

另外，也有一些詞匯是敏感詞匯（政治、宗教、辱罵等等），我們希望在搜索時，這些分詞不參與分詞和搜索。同樣這類詞匯也可以添加到IK分詞器的停用詞典中，使這類敏感詞匯不參與分詞和搜索。

第一步：修改配置文件

在IK分詞器目錄下，切換到config目錄，打開文件IKAnalyzer.cfg.xml，設(shè)置擴展詞匯和排除詞匯文件名；

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

IKAnalyzer.cfg.xml文件內(nèi)容

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

第二步：添加詞匯

分別在擴展詞匯詞典、停用詞典添加對應(yīng)的詞匯

（擴展詞匯文件，ext.dic，該文件不存在，需手動創(chuàng)建）

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

（停用詞典文件，stopword.dic，新增一個詞匯月亮）

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

第三步：重啟es

重啟es，測試，可以看到分詞把“毛源昌眼鏡”當(dāng)做一個詞來劃分了，達到了想要的結(jié)果；

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

同樣，月亮被作停用詞典中的詞匯，未參與分詞；

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

注意

需要注意的是，如果一個詞匯是一個較為特別的詞匯，如“獨釣寒江雪”；

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

在分詞排除時不會排除掉，因為在分詞時，這句詞匯不太可能被分為一個完整的詞匯，而在停用詞典中，是根據(jù)完整的詞匯來排除的；
elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

所以，做到萬無一失，應(yīng)該把需要排除分詞的詞匯，先在擴展詞典里添加，然后再在停用詞典里添加，這樣就絕對會被排除掉了；

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

重啟es，測試，“獨釣寒江雪”被完全排除

elasticsearch IK分詞器,elasticsearch,大數(shù)據(jù),搜索引擎

總結(jié)

es分詞對中文兼容不太好，可以選擇IK分詞器來使用，IK分詞器有兩種模式，分別是“ik_smart”、“ik_max_word”。

另外，IK分詞器支持對詞匯進行擴展，可以把一些需要綁定在一起的詞匯，不希望被分開的詞匯寫入到擴展詞典中，這些詞匯會被當(dāng)做一個整體參與分詞；同樣如果需要排除一些詞匯，不希望這些詞匯參與分詞，也可以將這些詞匯寫入到停用詞典中。文章來源地址http://www.zghlxwxcb.cn/news/detail-603520.html

到了這里，關(guān)于elasticsearch IK分詞器的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

基于Elasticsearch與Hbase組合框架的大數(shù)據(jù)搜索引擎
本項目為學(xué)校大數(shù)據(jù)工程實訓(xùn)項目，共開發(fā)4周，答辯成績不錯。代碼倉庫放文章尾，寫的不好，代碼僅供參考。對于結(jié)構(gòu)化數(shù)據(jù) ，因為它們具有特定的結(jié)構(gòu)，所以我們一般都是可以通過關(guān)系型數(shù)據(jù)庫（MySQL，Oracle 等）的二維表（Table）的方式存儲和搜索，也可以建立索引。
2024年02月09日
瀏覽(22)
Elasticsearch (ES) 搜索引擎: 數(shù)據(jù)類型、動態(tài)映射、多類型（子字段）
原文鏈接：https://xiets.blog.csdn.net/article/details/132348634 版權(quán)聲明：原創(chuàng)文章禁止轉(zhuǎn)載專欄目錄：Elasticsearch 專欄（總目錄） ES 映射字段的數(shù)據(jù)類型，官網(wǎng)文檔參考：Field data types。下面是 ES 常用的一些基本數(shù)據(jù)類型。字符串類型： keyword ：類型。 text ：文本類型。
2024年03月23日
瀏覽(38)
laravel如何使用scout+elasticsearch搜索，并支持IK分詞
本擴展包支持IK分詞設(shè)置。在按下文操作前請先閱讀 laravel scout 全文搜索文檔安裝您可以通過composer安裝軟件包 wannanbigpig/laravel-scout-elastic: Laravel 會自動注冊驅(qū)動服務(wù)提供者。 Elasticsearch 配置安裝完成后，您應(yīng)該使用vendor:publish Artisan命令發(fā)布Scout配置文件。該命令將把scou
2024年02月06日
瀏覽(55)
elasticsearch(ES)分布式搜索引擎04——（數(shù)據(jù)聚合，自動補全，數(shù)據(jù)同步，ES集群）
**聚合（aggregations）**可以讓我們極其方便的實現(xiàn)對數(shù)據(jù)的統(tǒng)計、分析、運算。例如：什么品牌的手機最受歡迎？這些手機的平均價格、最高價格、最低價格？這些手機每月的銷售情況如何？實現(xiàn)這些統(tǒng)計功能的比數(shù)據(jù)庫的sql要方便的多，而且查詢速度非常快，可以實現(xiàn)近
2024年02月08日
瀏覽(36)
ElasticSearch - 基于拼音分詞器和 IK分詞器模擬實現(xiàn)“百度”搜索框自動補全功能
目錄一、自動補全 1.1、效果說明 1.2、安裝拼音分詞器 1.3、自定義分詞器 1.3.1、為什么要自定義分詞器 1.3.2、分詞器的構(gòu)成 1.3.3、自定義分詞器 1.3.4、面臨的問題和解決辦法問題解決方案 1.4、completion suggester 查詢 1.4.1、基本概念和語法 1.4.2、示例 1.4.3、示例（黑馬旅游）
2024年02月07日
瀏覽(30)
微服務(wù)04 分布式搜索引擎 elasticsearch DSL數(shù)據(jù)聚合自動補全數(shù)據(jù)同步集群 Sentinel
聚合（aggregations）可以讓我們極其方便的實現(xiàn)對數(shù)據(jù)的統(tǒng)計、分析、運算。例如：什么品牌的手機最受歡迎？這些手機的平均價格、最高價格、最低價格？這些手機每月的銷售情況如何？實現(xiàn)這些統(tǒng)計功能的比數(shù)據(jù)庫的sql要方便的多，而且查詢速度非常快，可以實現(xiàn)近
2024年02月11日
瀏覽(28)
《Spring Boot 實戰(zhàn)派》--13.集成NoSQL數(shù)據(jù)庫，實現(xiàn)Elasticsearch和Solr搜索引擎
?????????關(guān)于搜索引擎我們很難實現(xiàn) Elasticseach 和 Solr兩大搜索框架的效果；所以本章針對兩大搜索框架，非常詳細地講解它們的原理和具體使用方法，首先介紹什么是搜索引擎、如何用 MySQL實現(xiàn)簡單的搜索引擎，以及Elasticseach 的概念和接口類；然后介紹Elasticseach
2023年04月09日
瀏覽(25)
ES搜索引擎入門+最佳實踐(九):項目實戰(zhàn)(二)--elasticsearch java api 進行數(shù)據(jù)增刪改查
? ? ? ? 本篇是這個系列的最后一篇了,在這之前可以先看看前面的內(nèi)容: ES搜索引擎入門+最佳實踐(一)_flame.liu的博客-CSDN博客 ES搜索引擎入門+最佳實踐(二)_flame.liu的博客-CSDN博客 ES搜索引擎入門+最佳實踐(三)_flame.liu的博客-CSDN博客 ES搜索引擎入門+最佳實踐(四)_flame.liu的博客
2024年02月12日
瀏覽(28)
微服務(wù)04 分布式搜索引擎 elasticsearch DSL數(shù)據(jù)聚合自動補全數(shù)據(jù)同步集群微服務(wù)保護 Sentinel
聚合（aggregations）可以讓我們極其方便的實現(xiàn)對數(shù)據(jù)的統(tǒng)計、分析、運算。例如：什么品牌的手機最受歡迎？這些手機的平均價格、最高價格、最低價格？這些手機每月的銷售情況如何？實現(xiàn)這些統(tǒng)計功能的比數(shù)據(jù)庫的sql要方便的多，而且查詢速度非?？?，可以實現(xiàn)近
2024年02月15日
瀏覽(30)
Java SpringBoot API 實現(xiàn)ES(Elasticsearch)搜索引擎的一系列操作(超詳細)(模擬數(shù)據(jù)庫操作)
小編使用的是elasticsearch-7.3.2 基礎(chǔ)說明：啟動：進入elasticsearch-7.3.2/bin目錄，雙擊elasticsearch.bat進行啟動，當(dāng)出現(xiàn)一下界面說明，啟動成功。也可以訪問http://localhost:9200/ 啟動ES管理：進入elasticsearch-head-master文件夾，然后進入cmd命令界面，輸入npm?run?start?即可啟動。訪問http
2024年02月04日
瀏覽(34)