国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<rp id="jceqv"><u id="jceqv"></u></rp>

Elasticsearch 如何做到快速檢索 - 倒排索引的秘密

2年前作者：前端羅歡分類：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Elasticsearch 如何做到快速檢索 - 倒排索引的秘密。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

這里我們就引出了一個(gè)概念，也是我們今天的要剖析的重點(diǎn) -?倒排索引。也是 ES 的核心知識(shí)點(diǎn)。

如果你了解 ES 應(yīng)該知道，ES 可以說是對(duì) Lucene 的一個(gè)封裝，里面關(guān)于倒排索引的實(shí)現(xiàn)就是通過 lucene 這個(gè) jar 包提供的 API 實(shí)現(xiàn)的，所以下面講的關(guān)于倒排索引的內(nèi)容實(shí)際上都是 lucene 里面的內(nèi)容。

三、倒排索引

首先我們還不能忘了我們之前提的搜索需求，先看下建立倒排索引之后，我們上述的查詢需求會(huì)變成什么樣子，

Elasticsearch 如何做到快速檢索 - 倒排索引的秘密

這樣我們一輸入“前”，借助倒排索引就可以直接定位到符合查詢條件的古詩(shī)。

當(dāng)然這只是一個(gè)很大白話的形式來(lái)描述倒排索引的簡(jiǎn)要工作原理。在 ES 中，這個(gè)[倒排索引是具體是個(gè)什么樣的](()

1. 幾個(gè)概念

在進(jìn)入下文之前，先描述幾個(gè)前置概念。

term

關(guān)鍵詞這個(gè)東西是我自己的講法，在 ES 中，關(guān)鍵詞被稱為 term。

postings list

還是用上面的例子，{靜夜思, 望廬山瀑布}是 “前” 這個(gè) term 所對(duì)應(yīng)列表。在 ES 中，這些被描述為所有包含特定 term 文檔的 id 的集合。由于整型數(shù)字 integer 可以被高效壓縮的特質(zhì)，integer 是最適合放在 postings list 作為文檔的唯一標(biāo)識(shí)的，ES 會(huì)對(duì)這些存入的文檔進(jìn)行處理，轉(zhuǎn)化成一個(gè)唯一的整型 id。

再說下這個(gè) id 的范圍，在存儲(chǔ)數(shù)據(jù)的時(shí)候，在每一個(gè) shard 里面，ES 會(huì)將數(shù)據(jù)存入不同的 segment，這是一個(gè)比 shard 更小的分片單位，這些 segment 會(huì)定期合并。在每一個(gè) segment 里面都會(huì)保存最多 2^31 個(gè)文檔，每個(gè)文檔被分配一個(gè)唯一的 id，從0到(2^31)-1。

Elasticsearch 如何做到快速檢索 - 倒排索引的秘密

相關(guān)的名詞都是 ES 官方文檔給的描述，后面參考材料中都可以找到出處。

2. 索引內(nèi)部結(jié)構(gòu)

上面所描述的倒排索引，僅僅是一個(gè)很粗糙的模型。真的要在實(shí)際生產(chǎn)中使用，當(dāng)然還差的很遠(yuǎn)。

在實(shí)際生產(chǎn)場(chǎng)景中，比如 ES 最常用的日志分析，日志內(nèi)容進(jìn)行分詞之后，可以得到多少的 term？

那么如何快速的在海量 term 中查詢到對(duì)應(yīng)的 term 呢？遍歷一遍顯然文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-404667.html

到了這里，關(guān)于Elasticsearch 如何做到快速檢索 - 倒排索引的秘密的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

探索視頻文本特征加速檢索解決方案——倒排索引
前言隨著視頻內(nèi)容的不斷增加，如何快速準(zhǔn)確地檢索到所需的視頻成為了一個(gè)重要的問題。而視頻文本特征加速檢索解決方案——倒排索引，成為了解決這一問題的有效手段。該技術(shù)可以加速文本和視頻片段特征匹配、相似度排序過程！定義——何為“倒排索引” 倒排索引
2024年02月10日
瀏覽(22)
【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索～倒排索引&pageRank
通過前兩篇的文章介紹，B+樹主要針對(duì)的是讀多寫少的場(chǎng)景，而LSM針對(duì)的是寫多讀少的場(chǎng)景，其實(shí)在日常開發(fā)中，我們會(huì)將數(shù)據(jù)存儲(chǔ)到搜索引擎中，然后進(jìn)行數(shù)據(jù)的搜索，這種場(chǎng)景其實(shí)針對(duì)的是快速根據(jù)查詢。對(duì)于MySQL這種B+樹結(jié)構(gòu)來(lái)說，其實(shí)沒有辦法保證快速查詢。要
2024年02月12日
瀏覽(18)
信息檢索（基礎(chǔ)知識(shí)一）——詞項(xiàng)-文檔關(guān)聯(lián)矩陣及倒排索引構(gòu)建
? （本文中用到的文件名為：hyatt-k）利用文件讀取方法對(duì)給定郵件數(shù)據(jù)集中的文本文件進(jìn)行預(yù)處理，并按照?qǐng)D1中的詞項(xiàng)詞典構(gòu)造流程生成詞項(xiàng)詞典。 ?針對(duì)給定的郵件數(shù)據(jù)集和生成的詞項(xiàng)詞典，建立詞項(xiàng)文檔關(guān)聯(lián)矩陣（如圖1-1所示） ?針對(duì)給定的郵件數(shù)據(jù)集和生成的詞項(xiàng)詞
2024年02月08日
瀏覽(27)
搜索引擎：常用信息檢索方式介紹與倒排索引實(shí)現(xiàn)(Python)
(1)線性掃描計(jì)算機(jī)對(duì)于文檔內(nèi)容檢索有多種可能的方式，如直接從頭遍歷至尾端，根據(jù)我們輸入的提取內(nèi)容。這類檢索方式與我們?nèi)祟愰喿x的習(xí)慣相同，因此實(shí)現(xiàn)簡(jiǎn)單且很容易被接受。若問你《三國(guó)演義》中是否存在’舌戰(zhàn)群儒’這一詞語(yǔ)，我們常常會(huì)選擇瀏覽全文
2024年02月08日
瀏覽(18)
Elasticsearch 查詢命令執(zhí)行時(shí)，如何通過詞項(xiàng)索引、詞項(xiàng)字典、倒排表定位文檔邏輯介紹
這里不涉及到源碼，只是根據(jù)網(wǎng)上的一些文章總結(jié)一下，目前不需要細(xì)究，只需要知道大概就好，除非你的工作是二次開發(fā)ES 這張圖你可以認(rèn)為粗糙的描述倒排索引對(duì)應(yīng)關(guān)系，下面的文章也是主要講解這張圖各個(gè)部分含義看這個(gè) ?Term Index 是不是特別想樹的數(shù)據(jù)結(jié)構(gòu)？比如二
2024年02月03日
瀏覽(22)
Python實(shí)戰(zhàn)：在搜索引擎開發(fā)中的倒排索引與檢索算法
在信息檢索領(lǐng)域，搜索引擎是一個(gè)至關(guān)重要的工具，它可以幫助用戶在大量的數(shù)據(jù)中找到所需的信息。而倒排索引是搜索引擎的核心技術(shù)之一，它能夠提高檢索的效率。倒排索引是一種數(shù)據(jù)結(jié)構(gòu)，它將文檔的內(nèi)容和文檔的ID關(guān)聯(lián)起來(lái)。在倒排索引中，每個(gè)詞項(xiàng)都有一個(gè)列表，
2024年04月26日
瀏覽(20)
【ElasticSearch】ElasticSearch的倒排索引
什么是ElasticSearch ElasticSearch是一個(gè)基于Apache Lucene構(gòu)建的開源搜索引擎，它提供了強(qiáng)大的全文搜索和分析功能。它不僅可以快速搜索和檢索大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，還具備水平擴(kuò)展和高可用性的特性。 1. 彈性搜索和分布式特性 ElasticSearch被設(shè)計(jì)為分布式的，可以在多個(gè)節(jié)
2024年02月10日
瀏覽(29)
Elasticsearch的倒排索引簡(jiǎn)介
Elasticsearch的倒排索引（Inverted Index）是其能夠快速執(zhí)行全文搜索查詢的關(guān)鍵技術(shù)。為了理解倒排索引的工作原理，我們可以將其與傳統(tǒng)的正向索引進(jìn)行比較。正向索引（Forward Index）在正向索引中，索引是以文檔為中心構(gòu)建的。每個(gè)文檔ID映射到它包含的一系列詞匯上。例如
2024年03月16日
瀏覽(49)
ElasticSearch簡(jiǎn)介之倒排索引
第二點(diǎn)必須準(zhǔn)確吧，假如我搜索電腦，結(jié)果搜索出來(lái)的結(jié)果是一些奇奇怪怪的東西，要是在這時(shí)候投屏怕不是會(huì)陷入社死的尷尬吧。第三點(diǎn)對(duì)于我這種比較粗心的人還是需要有一點(diǎn)的容忍度，哪怕輸錯(cuò)其中一個(gè)字，也可以給出相關(guān)的搜索結(jié)果。第四點(diǎn)對(duì)于大部分人而
2024年04月15日
瀏覽(44)
Elasticsearch的倒排索引是什么？
Elasticsearch是基于 Apache Lucene【lusen】的搜索引擎，支持Restful API風(fēng)格【可以使用常見的HTTP請(qǐng)求來(lái)訪問】，并且搜索速度很快，可以提供實(shí)時(shí)的搜索服務(wù)。其實(shí)Elasticsearch的功能有很多，比如分布式存儲(chǔ)、實(shí)時(shí)數(shù)據(jù)分析等很多方面。使用ES的好處有幾點(diǎn)：系統(tǒng)解耦。使用ES之后，
2024年04月10日
瀏覽(31)

<tfoot id="kmuwt"></tfoot>

<rp id="kmuwt"><optgroup id="kmuwt"></optgroup></rp>

<rp id="kmuwt"><u id="kmuwt"></u></rp>