国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Springcloud】分布式搜索elasticsearch

這篇具有很好參考價值的文章主要介紹了【Springcloud】分布式搜索elasticsearch。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


先看下翻譯:

【Springcloud】分布式搜索elasticsearch

一、初識ElasticSearch

1、用途與發(fā)展歷史

elasticsearch是一款非常強大的開源搜索引擎,可以幫助我們從海量數(shù)據(jù)中快速找到需要的內(nèi)容

以下是生活中ES的使用場景:

【Springcloud】分布式搜索elasticsearch

【Springcloud】分布式搜索elasticsearch

項目在運行的時候會產(chǎn)生海量的日志信息,而elasticsearch結合kibana、Logstash、Beats,也就是elastic stack(ELK),即ELK技術棧。被廣泛應用在日志數(shù)據(jù)分析、實時監(jiān)控等領域。

【Springcloud】分布式搜索elasticsearch

而ES是ELK技術棧的核心,負責存儲、搜索、分析數(shù)據(jù)。

【Springcloud】分布式搜索elasticsearch

在ES的底層的實現(xiàn),是Lucene,Lucene是一個Java語言的搜索引擎類庫(jar包),是Apache公司的頂級項目,官網(wǎng)地址:https://lucene.apache.org/

Lucene的優(yōu)勢:

  • 易擴展,可二開
  • 高性能(基于倒排索引)

Lucene的缺點:

  • 只限于Java語言開發(fā)
  • 學習曲線陡峭
  • 不支持水平擴展

ES就是基于Lucence開發(fā)的,官網(wǎng)地址: https://www.elastic.co/cn/。相比與lucene,elasticsearch具備下列優(yōu)勢:

  • 支持分布式,可水平擴展
  • 提供Restful接口,可被任何語言調(diào)用
小總結:

什么是elasticsearch?
一個開源的分布式搜索引擎,可以用來實現(xiàn)搜索、日志統(tǒng)計、分析、系統(tǒng)監(jiān)控等功能

什么是elastic stack(ELK)?
是以elasticsearch為核心的技術棧,包括beats、Logstash、kibana、elasticsearch

什么是Lucene?
是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API

2、倒排索引

傳統(tǒng)數(shù)據(jù)庫如MySQL采用的是正向索引,如給下表中的id創(chuàng)建索引:

【Springcloud】分布式搜索elasticsearch
給id創(chuàng)建索引,生成一個B+樹,根據(jù)id檢索的數(shù)據(jù)就會非???。但當檢索的是標題字段(標題較長,一般不加索引,即便加了,以后模糊匹配也就不生效了),如下:

【Springcloud】分布式搜索elasticsearch

這樣逐行掃描,最終也能拿到完整的數(shù)據(jù)集,但大數(shù)據(jù)量下,這個耗時太長!接下來看倒排索引:(倒字是為了凸顯和之前的大不一樣,不是剛好相反的意思)

【Springcloud】分布式搜索elasticsearch

elasticsearch采用倒排索引:

  • 文檔(document):每條數(shù)據(jù)就是一個文檔
  • 詞條(term):文檔按照語義分成的詞語

給title建立倒排索引的時候,先按照詞條分開,再和文檔id一起存入。重復的詞條不再重復插入,只在文檔id后面加上新id即可。如此,詞條不重復,建立索引的時候可哈希,也可B+樹

【Springcloud】分布式搜索elasticsearch
以上:雖然要先查詢倒排索引,再查詢正向索引(id),但是無論是詞條、還是文檔id都建立了索引,查詢速度非??欤o需全表掃描。到這兒,應該加深了對倒排索引的"倒"字的理解了,倒即相對正,之前是根據(jù)id查數(shù)據(jù),現(xiàn)在是根據(jù)關鍵字查id,再由id查數(shù)據(jù)。

posting list

倒排索引中包含兩部分內(nèi)容:

1)詞條詞典(Term Dictionary):記錄所有詞條,以及詞條與倒排列表(Posting List)之間的關系,會給詞條創(chuàng)建索引,提高查詢和插入效率

2)倒排列表(Posting List):記錄詞條所在的文檔id、詞條出現(xiàn)頻率 、詞條在文檔中的位置等信息

  • 文檔id:用于快速獲取文檔
  • 詞條頻率(TF):文檔在詞條出現(xiàn)的次數(shù),用于評分

【Springcloud】分布式搜索elasticsearch

什么是文檔和詞條?
- 每一條數(shù)據(jù)就是一個文檔
- 對文檔中的內(nèi)容分詞,得到的詞語就是詞條

什么是正向索引?
基于文檔id創(chuàng)建索引。查詢詞條時必須先找到文檔,而后判斷是否包含詞條。是**根據(jù)文檔找詞條的過程**。

什么是倒排索引?
對文檔內(nèi)容分詞,對詞條創(chuàng)建索引,并記錄詞條所在文檔的信息。查詢時先根據(jù)詞條查詢到文檔id,而后獲取到文檔。是**根據(jù)詞條找文檔的過程**。

正向索引

  • 優(yōu)點:
    • 可以給多個字段創(chuàng)建索引
    • 根據(jù)索引字段搜索、排序速度非???/li>
  • 缺點:
    • 根據(jù)非索引字段,或者索引字段中的部分詞條查找時,只能全表掃描。

倒排索引

  • 優(yōu)點:
    • 根據(jù)詞條搜索、模糊搜索時,速度非???/li>
  • 缺點:
    • 只能給詞條創(chuàng)建索引,而不是字段
    • 無法根據(jù)字段做排序

3、ES核心概念

文檔和字段

elasticsearch是面向文檔存儲的,文檔可以是數(shù)據(jù)庫中的一條商品數(shù)據(jù),一個訂單信息。文檔數(shù)據(jù)會被序列化為json格式后存儲在elasticsearch中。

【Springcloud】分布式搜索elasticsearch
而Json文檔中往往包含很多的字段(Field),類似于數(shù)據(jù)庫中的列。

索引(index)

索引(Index),就是相同類型的文檔的集合。

【Springcloud】分布式搜索elasticsearch
例如:

  • 所有用戶文檔,就可以組織在一起,稱為用戶的索引;
  • 所有商品的文檔,可以組織在一起,稱為商品的索引;
  • 所有訂單的文檔,可以組織在一起,稱為訂單的索引;

【Springcloud】分布式搜索elasticsearch

因此,可以把索引當做是數(shù)據(jù)庫中的表。 一個索引下的文檔字段結構相同,一個MySQL表下的數(shù)據(jù)字段結構相同。

映射(mapping)

數(shù)據(jù)庫的表會有約束信息,用來定義表的結構、字段的名稱、類型等信息。因此,索引庫中就有映射(mapping),是索引中文檔的字段約束信息,類似表的結構約束。

小總結:

- 文檔:一條數(shù)據(jù)就是一個文檔,es中是Json格式
- 字段:Json文檔中的字段
- 索引:同類型文檔的集合
- 映射:索引中文檔的約束,比如字段名稱、類型

4、ES與MySQL的概念點對比

ES和MySQL的整體概念對比如下:

【Springcloud】分布式搜索elasticsearch
二者并不是替代關系,而是一種互補:

  • Mysql:擅長事務類型操作,可以確保數(shù)據(jù)的安全和一致性
  • Elasticsearch:擅長海量數(shù)據(jù)的搜索、分析、計算

【Springcloud】分布式搜索elasticsearch

二、安裝部署

1、單節(jié)點部署ES

后面要部署ES可視化工具kibana的容器,因此需要讓es和kibana容器互聯(lián)。這里先創(chuàng)建一個網(wǎng)絡:

docker network create es-net

拉取鏡像

docker pull elasticsearch:7.12.1
# 有鏡像包的話也可直接導入
docker load -i es.tar

啟動ES容器

docker run -d \
	--name es \
    -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
    -e "discovery.type=single-node" \
    -v es-data:/usr/share/elasticsearch/data \
    -v es-plugins:/usr/share/elasticsearch/plugins \
    --privileged \
    --network es-net \
    -p 9200:9200 \
    -p 9300:9300 \
elasticsearch:7.12.1
  • -e "cluster.name=es-docker-cluster":設置集群名稱
  • -e "http.host=0.0.0.0":監(jiān)聽的地址,可以外網(wǎng)訪問
  • -e "ES_JAVA_OPTS=-Xms512m -Xmx512m":ES運行時的內(nèi)存大小,默認1G
  • -e "discovery.type=single-node":非集群模式
  • -v es-data:/usr/share/elasticsearch/data:掛載邏輯卷,綁定es的數(shù)據(jù)目錄
  • -v es-logs:/usr/share/elasticsearch/logs:掛載邏輯卷,綁定es的日志目錄
  • -v es-plugins:/usr/share/elasticsearch/plugins:掛載邏輯卷,綁定es的插件目錄
  • --privileged:授予邏輯卷訪問權
  • --network es-net :加入一個名為es-net的網(wǎng)絡中
  • -p 9200:9200:端口映射配置,暴露端口,9200是供用戶訪問的
  • -p 9300:9300:ES各個節(jié)點容器之間互聯(lián)的端口,單機模式下不暴露也行

http://IP:9200 即可看到elasticsearch的響應結果即為安裝成功:

【Springcloud】分布式搜索elasticsearch

2、安裝kibana

部署ES可視化工具kibana,先下載鏡像,注意和ES版本保持一致

docker pull kibana:7.12.1
# 或者
docker load -i yourPath/kibana.tar

運行docker命令,部署kibana

docker run -d \
	--name kibana \
	-e ELASTICSEARCH_HOSTS=http://es:9200 \
	--network=es-net \
	-p 5601:5601  \
kibana:7.12.1
  • --network es-net :加入一個名為es-net的網(wǎng)絡中,與elasticsearch在同一個網(wǎng)絡中
  • -e ELASTICSEARCH_HOSTS=http://es:9200":設置elasticsearch的地址,因為kibana已經(jīng)與elasticsearch在一個網(wǎng)絡,因此可以用容器名直接訪問elasticsearch
  • -p 5601:5601:端口映射配置

kibana啟動一般比較慢,需要多等待一會,可以通過命令:

docker logs -f kibana

看到這個日志即為安裝成功:

【Springcloud】分布式搜索elasticsearch

訪問5601端口:

【Springcloud】分布式搜索elasticsearch

試試Dev Tools這個工具,來發(fā)送DSL語句:

【Springcloud】分布式搜索elasticsearch

運行DSL語句測試:

【Springcloud】分布式搜索elasticsearch

3、安裝IK分詞器

es在創(chuàng)建倒排索引時需要對文檔分詞;在搜索時,需要對用戶輸入內(nèi)容分詞,而默認的分詞規(guī)則對中文處理并不友好。

在kibana的DevTools中測試:

POST /_analyze
{
  "analyzer": "standard",
  "text": "測試中文分詞效果!"
}


/_analyze:請求路徑,省略了http://IP:9200,有kibana補充

請求參數(shù):(json)
- analyzer:分詞器類型,這里是默認的standard分詞器
- text:要分詞的內(nèi)容

分詞效果如下:

【Springcloud】分布式搜索elasticsearch

可以看到分詞效果為0,不識字。想處理中文分詞,可以使用IK分詞器。https://github.com/medcl/elasticsearch-analysis-ik

在線安裝:(較慢)

# 進入容器內(nèi)部
docker exec -it elasticsearch /bin/bash

# 在線下載并安裝
./bin/elasticsearch-plugin  install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit
#重啟容器
docker restart elasticsearch

離線安裝:(推薦)

  • 查看數(shù)據(jù)卷目錄
# 安裝插件需要知道elasticsearch的plugins目錄位置
# 而上面安裝ES時,用了數(shù)據(jù)卷掛載,因此先查看下這個數(shù)據(jù)卷的目錄
docker volume inspect es-plugins

返回:
[
    {
        "CreatedAt": "2023-05-06T10:06:34+08:00",
        "Driver": "local",
        "Labels": null,
        "Mountpoint": "/var/lib/docker/volumes/es-plugins/_data",
        "Name": "es-plugins",
        "Options": null,
        "Scope": "local"
    }
]

# 說明plugins目錄被掛載到了:`/var/lib/docker/volumes/es-plugins/_data `這個目錄中。

  • 解壓縮分詞器安裝包,重命名為ik
    【Springcloud】分布式搜索elasticsearch

  • 上傳到es容器的插件數(shù)據(jù)卷中(有掛載關系,上傳到宿主機目錄es容器中也就有了)
    【Springcloud】分布式搜索elasticsearch

  • 重啟es

docker restart es
  • 查看es的日志
docker logs -f es

測試效果:

注意版本保持一致,版本不一致會報錯:

【Springcloud】分布式搜索elasticsearch

效果:

【Springcloud】分布式搜索elasticsearch

ik分詞器包含兩種模式:

  • ik_smart:最少切分,粗粒度
  • ik_max_word:最細切分,細粒度

最少切分的效果:(粗粒度,這四個字能組成一個詞,就不看這四個字內(nèi)部能不能再組成了)

【Springcloud】分布式搜索elasticsearch

最細切分的效果:

【Springcloud】分布式搜索elasticsearch


詞條的拓展與停用:

思考分詞器底層的實現(xiàn):應該是一個類似字典的東西,它里面包含的詞匯肯定不全,最先想到的就是新詞,如白嫖:

【Springcloud】分布式搜索elasticsearch

要拓展ik分詞器的詞庫,只需要修改一個ik分詞器目錄中的config目錄中的IkAnalyzer.cfg.xml文件

【Springcloud】分布式搜索elasticsearch

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典 *** 添加擴展詞典-->
        <entry key="ext_dict">ext.dic</entry>
</properties>

然后在這個目錄下再新建個名為ext.dic的文件中,添加想要拓展的詞語即可。同樣的,禁用敏感詞匯,還是IkAnalyzer.cfg.xml文件:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用戶可以在這里配置自己的擴展停止詞字典  *** 添加停用詞詞典-->
        <entry key="ext_stopwords">stopword.dic</entry>
</properties>

【Springcloud】分布式搜索elasticsearch

然后在名為stopword.dic的文件中,添加想要禁用的詞語即可:

【Springcloud】分布式搜索elasticsearch文章來源地址http://www.zghlxwxcb.cn/news/detail-476475.html

# 重啟生效
docker restart es

到了這里,關于【Springcloud】分布式搜索elasticsearch的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Springcloud中間件-----分布式搜索引擎 Elasticsearch

    Springcloud中間件-----分布式搜索引擎 Elasticsearch

    該筆記是根據(jù)黑馬程序員的課來自己寫了一遍的,b站有對應教程和資料 第一部分 第二部分 第三部分 預計看完跟著練習5小時足夠 1.1.1.elasticsearch的作用 elasticsearch是一款非常強大的開源搜索引擎,具備非常多強大功能,可以幫助我們從海量數(shù)據(jù)中快速找到需要的內(nèi)容 例如:

    2024年02月08日
    瀏覽(136)
  • 微服務學習:SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

    微服務學習:SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

    目錄 一、高級篇 二、面試篇 ==============實用篇============== day05-Elasticsearch01 1.初識elasticsearch 1.4.安裝es、kibana 1.4.1.部署單點es 1.4.2.部署kibana 1.4.3.安裝IK分詞器 1.4.4.總結 2.索引庫操作 2.1.mapping映射屬性 2.2.索引庫的CRUD 2.2.1.創(chuàng)建索引庫和映射 2.2.2.查詢索引庫 2.2.3.修改索引庫 2.

    2024年02月02日
    瀏覽(25)
  • SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系統(tǒng)詳解springcloud微服務技術棧

    SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系統(tǒng)詳解springcloud微服務技術棧

    我們發(fā)現(xiàn)在微服務中有一個令人頭疼的問題——部署,用Docker去解決這個部署難題 1、項目部署的問題 2、Docker 扔到一臺機器上,它們的依賴難道沒有干擾嗎?不會,docker將打包好的程序放到一個隔離容器去運行,使用沙箱機制,避免互相干擾,之間不可見,這樣就解決了混

    2023年04月24日
    瀏覽(18)
  • (黑馬出品_07)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

    (黑馬出品_07)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

    [此文檔是在心向陽光的天域的博客加了一些有助于自己的知識體系,也歡迎大家關注這個大佬的博客](https://blog.csdn.net/sinat_38316216/category_12263516.html) [是這個視頻](https://www.bilibili.com/video/BV1LQ4y127n4/?p=5spm_id_from=pageDrivervd_source=9beb0a2f0cec6f01c2433a881b54152c) 聚合 可以讓我們極其方便

    2024年03月12日
    瀏覽(15)
  • SpringCloud學習路線(12)——分布式搜索ElasticSeach數(shù)據(jù)聚合、自動補全、數(shù)據(jù)同步

    SpringCloud學習路線(12)——分布式搜索ElasticSeach數(shù)據(jù)聚合、自動補全、數(shù)據(jù)同步

    一、數(shù)據(jù)聚合 聚合(aggregations): 實現(xiàn)對文檔數(shù)據(jù)的統(tǒng)計、分析、運算。 (一)聚合的常見種類 桶(Bucket)聚合: 用來做文檔分組。 TermAggregation: 按照文檔字段值分組 Date Histogram: 按照日期階梯分組,例如一周一組,一月一組 度量(Metric)聚合: 用以計算一些值,比如

    2024年02月15日
    瀏覽(28)
  • (黑馬出品_高級篇_04)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

    (黑馬出品_高級篇_04)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

    [此文檔是在心向陽光的天域的博客加了一些有助于自己的知識體系,也歡迎大家關注這個大佬的博客](https://blog.csdn.net/sinat_38316216/category_12263516.html) [是這個視頻](https://www.bilibili.com/video/BV1LQ4y127n4/?p=5spm_id_from=pageDrivervd_source=9beb0a2f0cec6f01c2433a881b54152c) 消息隊列在使用過程中,面

    2024年03月19日
    瀏覽(26)
  • SpringCloud分布式搜索引擎、數(shù)據(jù)聚合、ES和MQ的結合使用、ES集群的問題

    SpringCloud分布式搜索引擎、數(shù)據(jù)聚合、ES和MQ的結合使用、ES集群的問題

    目錄 數(shù)據(jù)聚合 聚合的分類 ?編輯?DSL實現(xiàn)Bucket聚合 ?編輯 ?DSL實現(xiàn)Metrics聚合?編輯 RestAPI實現(xiàn)聚合 ?對接前端接口?編輯 ?自定義分詞器?編輯 Completion suggester查詢 Completion suggester查詢 酒店數(shù)據(jù)自動補全 實現(xiàn)酒店搜索框界面輸入框的自動補全 ?數(shù)據(jù)同步問題分析?編輯 同

    2024年02月16日
    瀏覽(50)
  • SpringCloud系列(十六)[分布式搜索引擎篇] - DSL 查詢及相關性算分的學習 (部分)

    SpringCloud系列(十六)[分布式搜索引擎篇] - DSL 查詢及相關性算分的學習 (部分)

    在SpringCloud系列(十五)[分布式搜索引擎篇] - 結合實際應用場景學習并使用 RestClient 客戶端 API這篇文章中我們已經(jīng)對 RestClient 有了初步的了解, 并且已經(jīng)將一些數(shù)據(jù)進行了存儲, 但是這并不是我們學習 ElasticSearch 的目的, ElasticSearch 最擅長的還是對數(shù)據(jù)的搜索及分析, 因此本篇

    2024年02月17日
    瀏覽(32)
  • 分布式springcloud

    分布式springcloud

    微服務之間相互調(diào)用,因為調(diào)用鏈中的一個服務故障,引起整個鏈路都無法訪問的情況。 微服務中,服務間調(diào)用關系錯綜復雜,一個微服務往往依賴于多個其它微服務。服務器支持的線程和并發(fā)數(shù)有限,到來的請求一直阻塞,會導致服務器資源耗盡, 從而導致所有其它服務

    2024年02月06日
    瀏覽(18)
  • 【Springcloud】elk分布式日志

    【Springcloud】elk分布式日志

    (1)什么是分布式日志 在分布式應用中,日志被分散在儲存不同的設備上。如果你管理數(shù)十上百臺服務器,你還在使用依次登錄每臺機器的傳統(tǒng)方法查閱日志。這樣是不是感覺很繁瑣和效率低下。所以我們使用集中化的日志管理,分布式日志就是對大規(guī)模日志數(shù)據(jù)進行采集

    2024年02月09日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包