国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Elasticsearch 如何做到快速檢索 - 倒排索引的秘密

這篇具有很好參考價(jià)值的文章主要介紹了Elasticsearch 如何做到快速檢索 - 倒排索引的秘密。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

這里我們就引出了一個(gè)概念,也是我們今天的要剖析的重點(diǎn) -?倒排索引。也是 ES 的核心知識(shí)點(diǎn)。

如果你了解 ES 應(yīng)該知道,ES 可以說是對(duì) Lucene 的一個(gè)封裝,里面關(guān)于倒排索引的實(shí)現(xiàn)就是通過 lucene 這個(gè) jar 包提供的 API 實(shí)現(xiàn)的,所以下面講的關(guān)于倒排索引的內(nèi)容實(shí)際上都是 lucene 里面的內(nèi)容。

三、倒排索引


首先我們還不能忘了我們之前提的搜索需求,先看下建立倒排索引之后,我們上述的查詢需求會(huì)變成什么樣子,

Elasticsearch 如何做到快速檢索 - 倒排索引的秘密

這樣我們一輸入“前”,借助倒排索引就可以直接定位到符合查詢條件的古詩(shī)。

當(dāng)然這只是一個(gè)很大白話的形式來(lái)描述倒排索引的簡(jiǎn)要工作原理。在 ES 中,這個(gè)[倒排索引是具體是個(gè)什么樣的](()

1. 幾個(gè)概念

在進(jìn)入下文之前,先描述幾個(gè)前置概念。

term

關(guān)鍵詞這個(gè)東西是我自己的講法,在 ES 中,關(guān)鍵詞被稱為 term。

postings list

還是用上面的例子,{靜夜思, 望廬山瀑布}是 “前” 這個(gè) term 所對(duì)應(yīng)列表。在 ES 中,這些被描述為所有包含特定 term 文檔的 id 的集合。由于整型數(shù)字 integer 可以被高效壓縮的特質(zhì),integer 是最適合放在 postings list 作為文檔的唯一標(biāo)識(shí)的,ES 會(huì)對(duì)這些存入的文檔進(jìn)行處理,轉(zhuǎn)化成一個(gè)唯一的整型 id。

再說下這個(gè) id 的范圍,在存儲(chǔ)數(shù)據(jù)的時(shí)候,在每一個(gè) shard 里面,ES 會(huì)將數(shù)據(jù)存入不同的 segment,這是一個(gè)比 shard 更小的分片單位,這些 segment 會(huì)定期合并。在每一個(gè) segment 里面都會(huì)保存最多 2^31 個(gè)文檔,每個(gè)文檔被分配一個(gè)唯一的 id,從0(2^31)-1。

Elasticsearch 如何做到快速檢索 - 倒排索引的秘密

相關(guān)的名詞都是 ES 官方文檔給的描述,后面參考材料中都可以找到出處。

2. 索引內(nèi)部結(jié)構(gòu)

上面所描述的倒排索引,僅僅是一個(gè)很粗糙的模型。真的要在實(shí)際生產(chǎn)中使用,當(dāng)然還差的很遠(yuǎn)。

在實(shí)際生產(chǎn)場(chǎng)景中,比如 ES 最常用的日志分析,日志內(nèi)容進(jìn)行分詞之后,可以得到多少的 term?

那么如何快速的在海量 term 中查詢到對(duì)應(yīng)的 term 呢?遍歷一遍顯然文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-404667.html

到了這里,關(guān)于Elasticsearch 如何做到快速檢索 - 倒排索引的秘密的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 探索視頻文本特征加速檢索解決方案——倒排索引

    探索視頻文本特征加速檢索解決方案——倒排索引

    前言 隨著視頻內(nèi)容的不斷增加,如何快速準(zhǔn)確地檢索到所需的視頻成為了一個(gè)重要的問題。而視頻文本特征加速檢索解決方案——倒排索引,成為了解決這一問題的有效手段。該技術(shù)可以加速文本和視頻片段特征匹配、相似度排序過程! 定義——何為“倒排索引” 倒排索引

    2024年02月10日
    瀏覽(22)
  • 【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank

    【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank

    通過前兩篇的文章介紹,B+樹主要針對(duì)的是讀多寫少的場(chǎng)景,而LSM針對(duì)的是寫多讀少的場(chǎng)景,其實(shí)在日常開發(fā)中,我們會(huì)將數(shù)據(jù)存儲(chǔ)到搜索引擎中,然后進(jìn)行數(shù)據(jù)的搜索,這種場(chǎng)景其實(shí)針對(duì)的是快速根據(jù)查詢。對(duì)于MySQL這種B+樹結(jié)構(gòu)來(lái)說,其實(shí)沒有辦法保證快速查詢。要

    2024年02月12日
    瀏覽(18)
  • 信息檢索(基礎(chǔ)知識(shí)一)——詞項(xiàng)-文檔關(guān)聯(lián)矩陣及倒排索引構(gòu)建

    信息檢索(基礎(chǔ)知識(shí)一)——詞項(xiàng)-文檔關(guān)聯(lián)矩陣及倒排索引構(gòu)建

    ? (本文中用到的文件名為:hyatt-k) 利用文件讀取方法對(duì)給定郵件數(shù)據(jù)集中的文本文件進(jìn)行預(yù)處理,并按照?qǐng)D1中的詞項(xiàng)詞典構(gòu)造流程生成詞項(xiàng)詞典。 ?針對(duì)給定的郵件數(shù)據(jù)集和生成的詞項(xiàng)詞典,建立詞項(xiàng)文檔關(guān)聯(lián)矩陣(如圖1-1所示) ?針對(duì)給定的郵件數(shù)據(jù)集和生成的詞項(xiàng)詞

    2024年02月08日
    瀏覽(27)
  • 搜索引擎:常用信息檢索方式介紹與倒排索引實(shí)現(xiàn)(Python)

    (1)線性掃描 計(jì)算機(jī)對(duì)于文檔內(nèi)容檢索有多種可能的方式,如直接從頭遍歷至尾端,根據(jù)我們輸入的提取內(nèi)容。 這類檢索方式與我們?nèi)祟愰喿x的習(xí)慣相同,因此實(shí)現(xiàn)簡(jiǎn)單且很容易被接受。 若問你《三國(guó)演義》中是否存在’舌戰(zhàn)群儒’這一詞語(yǔ),我們常常會(huì)選擇瀏覽全文

    2024年02月08日
    瀏覽(18)
  • Elasticsearch 查詢命令執(zhí)行時(shí),如何通過詞項(xiàng)索引、詞項(xiàng)字典、倒排表定位文檔邏輯介紹

    Elasticsearch 查詢命令執(zhí)行時(shí),如何通過詞項(xiàng)索引、詞項(xiàng)字典、倒排表定位文檔邏輯介紹

    這里不涉及到源碼,只是根據(jù)網(wǎng)上的一些文章總結(jié)一下,目前不需要細(xì)究,只需要知道大概就好,除非你的工作是二次開發(fā)ES 這張圖你可以認(rèn)為粗糙的描述倒排索引對(duì)應(yīng)關(guān)系,下面的文章也是主要講解這張圖各個(gè)部分含義 看這個(gè) ?Term Index 是不是特別想樹的數(shù)據(jù)結(jié)構(gòu)?比如二

    2024年02月03日
    瀏覽(22)
  • Python實(shí)戰(zhàn):在搜索引擎開發(fā)中的倒排索引與檢索算法

    在信息檢索領(lǐng)域,搜索引擎是一個(gè)至關(guān)重要的工具,它可以幫助用戶在大量的數(shù)據(jù)中找到所需的信息。而倒排索引是搜索引擎的核心技術(shù)之一,它能夠提高檢索的效率。 倒排索引是一種數(shù)據(jù)結(jié)構(gòu),它將文檔的內(nèi)容和文檔的ID關(guān)聯(lián)起來(lái)。在倒排索引中,每個(gè)詞項(xiàng)都有一個(gè)列表,

    2024年04月26日
    瀏覽(20)
  • 【ElasticSearch】ElasticSearch的倒排索引

    什么是ElasticSearch ElasticSearch是一個(gè)基于Apache Lucene構(gòu)建的開源搜索引擎,它提供了強(qiáng)大的全文搜索和分析功能。它不僅可以快速搜索和檢索大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),還具備水平擴(kuò)展和高可用性的特性。 1. 彈性搜索和分布式特性 ElasticSearch被設(shè)計(jì)為分布式的,可以在多個(gè)節(jié)

    2024年02月10日
    瀏覽(29)
  • Elasticsearch的倒排索引簡(jiǎn)介

    Elasticsearch的倒排索引(Inverted Index)是其能夠快速執(zhí)行全文搜索查詢的關(guān)鍵技術(shù)。為了理解倒排索引的工作原理,我們可以將其與傳統(tǒng)的正向索引進(jìn)行比較。 正向索引(Forward Index) 在正向索引中,索引是以文檔為中心構(gòu)建的。每個(gè)文檔ID映射到它包含的一系列詞匯上。例如

    2024年03月16日
    瀏覽(49)
  • ElasticSearch簡(jiǎn)介之倒排索引

    ElasticSearch簡(jiǎn)介之倒排索引

    第二點(diǎn)必須準(zhǔn)確吧,假如我搜索電腦,結(jié)果搜索出來(lái)的結(jié)果是一些奇奇怪怪的東西,要是在這時(shí)候投屏怕不是會(huì)陷入社死的尷尬吧。 第三點(diǎn)對(duì)于我這種比較粗心的人還是需要有一點(diǎn)的容忍度,哪怕輸錯(cuò)其中一個(gè)字,也可以給出相關(guān)的搜索結(jié)果。 第四點(diǎn)對(duì)于大部分人而

    2024年04月15日
    瀏覽(44)
  • Elasticsearch的倒排索引是什么?

    Elasticsearch的倒排索引是什么?

    Elasticsearch是基于 Apache Lucene【lusen】的搜索引擎,支持Restful API風(fēng)格【可以使用常見的HTTP請(qǐng)求來(lái)訪問】,并且搜索速度很快,可以提供實(shí)時(shí)的搜索服務(wù)。 其實(shí)Elasticsearch的功能有很多,比如分布式存儲(chǔ)、實(shí)時(shí)數(shù)據(jù)分析等很多方面。使用ES的好處有幾點(diǎn): 系統(tǒng)解耦。使用ES之后,

    2024年04月10日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包