先看下翻譯:
一、初識ElasticSearch
1、用途與發(fā)展歷史
elasticsearch是一款非常強大的
開源搜索引擎
,可以幫助我們從海量數(shù)據(jù)中快速找到需要的內(nèi)容
以下是生活中ES的使用場景:
項目在運行的時候會產(chǎn)生海量的日志信息,而elasticsearch結合kibana、Logstash、Beats,也就是elastic stack(ELK
),即ELK技術棧。被廣泛應用在日志數(shù)據(jù)分析、實時監(jiān)控等領域。
而ES是ELK技術棧的核心,負責存儲、搜索、分析數(shù)據(jù)。
在ES的底層的實現(xiàn),是Lucene,Lucene是一個Java語言的搜索引擎類庫(jar包),是Apache公司的頂級項目,官網(wǎng)地址:https://lucene.apache.org/
Lucene的優(yōu)勢:
- 易擴展,可二開
- 高性能(基于倒排索引)
Lucene的缺點:
- 只限于Java語言開發(fā)
- 學習曲線陡峭
- 不支持水平擴展
ES就是基于Lucence開發(fā)的,官網(wǎng)地址: https://www.elastic.co/cn/。相比與lucene,elasticsearch具備下列優(yōu)勢:
- 支持分布式,可水平擴展
- 提供Restful接口,可被任何語言調(diào)用
小總結:
什么是elasticsearch?
一個開源的分布式搜索引擎,可以用來實現(xiàn)搜索、日志統(tǒng)計、分析、系統(tǒng)監(jiān)控等功能
什么是elastic stack(ELK)?
是以elasticsearch為核心的技術棧,包括beats、Logstash、kibana、elasticsearch
什么是Lucene?
是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API
2、倒排索引
傳統(tǒng)數(shù)據(jù)庫如MySQL采用的是正向索引,如給下表中的id創(chuàng)建索引:
給id創(chuàng)建索引,生成一個B+樹,根據(jù)id檢索的數(shù)據(jù)就會非???。但當檢索的是標題字段(標題較長,一般不加索引,即便加了,以后模糊匹配也就不生效了),如下:
這樣逐行掃描,最終也能拿到完整的數(shù)據(jù)集,但大數(shù)據(jù)量下,這個耗時太長!接下來看倒排索引:(倒字是為了凸顯和之前的大不一樣,不是剛好相反的意思)
elasticsearch采用倒排索引:
文檔(document):每條數(shù)據(jù)就是一個文檔
詞條(term):文檔按照語義分成的詞語
給title建立倒排索引的時候,先按照詞條分開,再和文檔id一起存入。重復的詞條不再重復插入,只在文檔id后面加上新id即可。如此,詞條不重復,建立索引的時候可哈希,也可B+樹
以上:雖然要先查詢倒排索引,再查詢正向索引(id),但是無論是詞條、還是文檔id都建立了索引,查詢速度非??欤o需全表掃描。到這兒,應該加深了對倒排索引的"倒"字的理解了,倒即相對正,之前是根據(jù)id查數(shù)據(jù),現(xiàn)在是根據(jù)關鍵字查id,再由id查數(shù)據(jù)。
posting list
倒排索引中包含兩部分內(nèi)容:
1)詞條詞典(Term Dictionary):記錄所有詞條,以及詞條與倒排列表(Posting List)之間的關系,會給詞條創(chuàng)建索引,提高查詢和插入效率
2)倒排列表(Posting List):記錄詞條所在的文檔id、詞條出現(xiàn)頻率 、詞條在文檔中的位置等信息
- 文檔id:用于快速獲取文檔
- 詞條頻率(TF):文檔在詞條出現(xiàn)的次數(shù),用于評分
什么是文檔和詞條?
- 每一條數(shù)據(jù)就是一個文檔
- 對文檔中的內(nèi)容分詞,得到的詞語就是詞條
什么是正向索引?
基于文檔id創(chuàng)建索引。查詢詞條時必須先找到文檔,而后判斷是否包含詞條。是**根據(jù)文檔找詞條的過程**。
什么是倒排索引?
對文檔內(nèi)容分詞,對詞條創(chuàng)建索引,并記錄詞條所在文檔的信息。查詢時先根據(jù)詞條查詢到文檔id,而后獲取到文檔。是**根據(jù)詞條找文檔的過程**。
正向索引:
- 優(yōu)點:
- 可以給多個字段創(chuàng)建索引
- 根據(jù)索引字段搜索、排序速度非???/li>
- 缺點:
- 根據(jù)非索引字段,或者索引字段中的部分詞條查找時,只能全表掃描。
倒排索引:
- 優(yōu)點:
- 根據(jù)詞條搜索、模糊搜索時,速度非???/li>
- 缺點:
- 只能給詞條創(chuàng)建索引,而不是字段
- 無法根據(jù)字段做排序
3、ES核心概念
文檔和字段
elasticsearch是面向文檔存儲的
,文檔可以是數(shù)據(jù)庫中的一條商品數(shù)據(jù),一個訂單信息。文檔數(shù)據(jù)會被序列化為json格式后存儲在elasticsearch中。
而Json文檔中往往包含很多的字段(Field),類似于數(shù)據(jù)庫中的列。
索引(index)
索引(Index),就是相同類型的文檔的集合。
例如:
- 所有用戶文檔,就可以組織在一起,稱為用戶的索引;
- 所有商品的文檔,可以組織在一起,稱為商品的索引;
- 所有訂單的文檔,可以組織在一起,稱為訂單的索引;
因此,可以把索引當做是數(shù)據(jù)庫中的表。 一個索引下的文檔字段結構相同,一個MySQL表下的數(shù)據(jù)字段結構相同。
映射(mapping)
數(shù)據(jù)庫的表會有約束信息,用來定義表的結構、字段的名稱、類型等信息。因此,索引庫中就有映射(mapping),是索引中文檔的字段約束信息,類似表的結構約束。
小總結:
- 文檔:一條數(shù)據(jù)就是一個文檔,es中是Json格式
- 字段:Json文檔中的字段
- 索引:同類型文檔的集合
- 映射:索引中文檔的約束,比如字段名稱、類型
4、ES與MySQL的概念點對比
ES和MySQL的整體概念對比如下:
二者并不是替代關系,而是一種互補:
- Mysql:擅長事務類型操作,可以確保數(shù)據(jù)的安全和一致性
- Elasticsearch:擅長海量數(shù)據(jù)的搜索、分析、計算
二、安裝部署
1、單節(jié)點部署ES
后面要部署ES可視化工具kibana的容器,因此需要讓es和kibana容器互聯(lián)。這里先創(chuàng)建一個網(wǎng)絡:
docker network create es-net
拉取鏡像
docker pull elasticsearch:7.12.1
# 有鏡像包的話也可直接導入
docker load -i es.tar
啟動ES容器
docker run -d \
--name es \
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
-e "discovery.type=single-node" \
-v es-data:/usr/share/elasticsearch/data \
-v es-plugins:/usr/share/elasticsearch/plugins \
--privileged \
--network es-net \
-p 9200:9200 \
-p 9300:9300 \
elasticsearch:7.12.1
-
-e "cluster.name=es-docker-cluster"
:設置集群名稱 -
-e "http.host=0.0.0.0"
:監(jiān)聽的地址,可以外網(wǎng)訪問 -
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m"
:ES運行時的內(nèi)存大小,默認1G -
-e "discovery.type=single-node"
:非集群模式 -
-v es-data:/usr/share/elasticsearch/data
:掛載邏輯卷,綁定es的數(shù)據(jù)目錄 -
-v es-logs:/usr/share/elasticsearch/logs
:掛載邏輯卷,綁定es的日志目錄 -
-v es-plugins:/usr/share/elasticsearch/plugins
:掛載邏輯卷,綁定es的插件目錄 -
--privileged
:授予邏輯卷訪問權 -
--network es-net
:加入一個名為es-net的網(wǎng)絡中 -
-p 9200:9200
:端口映射配置,暴露端口,9200是供用戶訪問的 -
-p 9300:9300
:ES各個節(jié)點容器之間互聯(lián)的端口,單機模式下不暴露也行
http://IP:9200 即可看到elasticsearch的響應結果即為安裝成功:
2、安裝kibana
部署ES可視化工具kibana,先下載鏡像,注意和ES版本保持一致
docker pull kibana:7.12.1
# 或者
docker load -i yourPath/kibana.tar
運行docker命令,部署kibana
docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=es-net \
-p 5601:5601 \
kibana:7.12.1
-
--network es-net
:加入一個名為es-net的網(wǎng)絡中,與elasticsearch在同一個網(wǎng)絡中 -
-e ELASTICSEARCH_HOSTS=http://es:9200"
:設置elasticsearch的地址,因為kibana已經(jīng)與elasticsearch在一個網(wǎng)絡,因此可以用容器名直接訪問elasticsearch -
-p 5601:5601
:端口映射配置
kibana啟動一般比較慢,需要多等待一會,可以通過命令:
docker logs -f kibana
看到這個日志即為安裝成功:
訪問5601端口:
試試Dev Tools這個工具,來發(fā)送DSL語句:
運行DSL語句測試:
3、安裝IK分詞器
es在創(chuàng)建倒排索引時需要對文檔分詞;在搜索時,需要對用戶輸入內(nèi)容分詞,而默認的分詞規(guī)則對中文處理并不友好。
在kibana的DevTools中測試:
POST /_analyze
{
"analyzer": "standard",
"text": "測試中文分詞效果!"
}
/_analyze:請求路徑,省略了http://IP:9200,有kibana補充
請求參數(shù):(json)
- analyzer:分詞器類型,這里是默認的standard分詞器
- text:要分詞的內(nèi)容
分詞效果如下:
可以看到分詞效果為0,不識字。想處理中文分詞,可以使用IK分詞器。https://github.com/medcl/elasticsearch-analysis-ik
在線安裝:(較慢)
# 進入容器內(nèi)部
docker exec -it elasticsearch /bin/bash
# 在線下載并安裝
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip
#退出
exit
#重啟容器
docker restart elasticsearch
離線安裝:(推薦)
- 查看數(shù)據(jù)卷目錄
# 安裝插件需要知道elasticsearch的plugins目錄位置
# 而上面安裝ES時,用了數(shù)據(jù)卷掛載,因此先查看下這個數(shù)據(jù)卷的目錄
docker volume inspect es-plugins
返回:
[
{
"CreatedAt": "2023-05-06T10:06:34+08:00",
"Driver": "local",
"Labels": null,
"Mountpoint": "/var/lib/docker/volumes/es-plugins/_data",
"Name": "es-plugins",
"Options": null,
"Scope": "local"
}
]
# 說明plugins目錄被掛載到了:`/var/lib/docker/volumes/es-plugins/_data `這個目錄中。
-
解壓縮分詞器安裝包,重命名為ik
-
上傳到es容器的插件數(shù)據(jù)卷中(有掛載關系,上傳到宿主機目錄es容器中也就有了)
-
重啟es
docker restart es
- 查看es的日志
docker logs -f es
測試效果:
注意版本保持一致,版本不一致會報錯:
效果:
ik分詞器包含兩種模式:
- ik_smart:最少切分,粗粒度
- ik_max_word:最細切分,細粒度
最少切分的效果:(粗粒度,這四個字能組成一個詞,就不看這四個字內(nèi)部能不能再組成了)
最細切分的效果:
詞條的拓展與停用:
思考分詞器底層的實現(xiàn):應該是一個類似字典的東西,它里面包含的詞匯肯定不全,最先想到的就是新詞,如白嫖:
要拓展ik分詞器的詞庫,只需要修改一個ik分詞器目錄中的config目錄中的
IkAnalyzer.cfg.xml
文件
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 擴展配置</comment>
<!--用戶可以在這里配置自己的擴展字典 *** 添加擴展詞典-->
<entry key="ext_dict">ext.dic</entry>
</properties>
然后在這個目錄下再新建個名為ext.dic的文件中,添加想要拓展的詞語即可。同樣的,禁用敏感詞匯,還是IkAnalyzer.cfg.xml文件:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 擴展配置</comment>
<!--用戶可以在這里配置自己的擴展字典-->
<entry key="ext_dict">ext.dic</entry>
<!--用戶可以在這里配置自己的擴展停止詞字典 *** 添加停用詞詞典-->
<entry key="ext_stopwords">stopword.dic</entry>
</properties>
然后在名為stopword.dic的文件中,添加想要禁用的詞語即可:文章來源:http://www.zghlxwxcb.cn/news/detail-476475.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-476475.html
# 重啟生效
docker restart es
到了這里,關于【Springcloud】分布式搜索elasticsearch的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!