国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank

這篇具有很好參考價(jià)值的文章主要介紹了【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

為什么需要倒排索引

通過前兩篇的文章介紹,B+樹主要針對(duì)的是讀多寫少的場景,而LSM針對(duì)的是寫多讀少的場景,其實(shí)在日常開發(fā)中,我們會(huì)將數(shù)據(jù)存儲(chǔ)到搜索引擎中,然后進(jìn)行數(shù)據(jù)的搜索,這種場景其實(shí)針對(duì)的是快速根據(jù)關(guān)鍵字查詢。對(duì)于MySQL這種B+樹結(jié)構(gòu)來說,其實(shí)沒有辦法保證快速查詢。要不然都是select * from x where xx like ‘%xxxx%’,這樣的查詢,而這種方式是不支持索引快速查詢的。

倒排索引

正排索引:頁數(shù)到內(nèi)容的關(guān)聯(lián)。而通過關(guān)鍵字查找對(duì)應(yīng)id的關(guān)聯(lián)就是倒排索引。
【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank,# 全文搜索,# 分布式存儲(chǔ),# 高性能架構(gòu),分布式
而這種方式也是利用空間換時(shí)間,將關(guān)鍵字進(jìn)行數(shù)據(jù)的映射,通過關(guān)鍵字就可以快速搜索到。
【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank,# 全文搜索,# 分布式存儲(chǔ),# 高性能架構(gòu),分布式
【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank,# 全文搜索,# 分布式存儲(chǔ),# 高性能架構(gòu),分布式
Elasticsearch就是利用倒排索引進(jìn)行數(shù)據(jù)的查詢,但是對(duì)于像Google這樣的搜索引擎是如何做的呢,雖然ES可以搜索一定的數(shù)據(jù),但是當(dāng)達(dá)到一定的數(shù)量級(jí) 其實(shí)沒有辦法進(jìn)行快速搜索。

PageRank算法

Google的搜索其實(shí)利用PageRank,因?yàn)橄胍诳焖俚臄?shù)據(jù)檢索到對(duì)應(yīng)的內(nèi)容,并且排在TOP10中的數(shù)據(jù),是我們想看的數(shù)據(jù)。
PageRank的核心就是按照頁權(quán)重進(jìn)行分發(fā),權(quán)重越大排名越靠前。

默認(rèn)權(quán)重是1,比如如下B網(wǎng)頁包含A、D網(wǎng)頁,B將自己的權(quán)重分發(fā)為2分 1/2給A 1/2給B。
D網(wǎng)頁包含A網(wǎng)頁,C網(wǎng)頁包含A、B、C 分別是1/3.所以A的權(quán)重就是 1/2+1/3+1 。當(dāng)遞歸計(jì)算所有的網(wǎng)頁之后,就可以得出全部網(wǎng)頁的權(quán)重。

另一種方式是根據(jù)用戶點(diǎn)贊數(shù),比如知乎?;蛘咄ㄟ^文章內(nèi)容包含的詞頻
【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank,# 全文搜索,# 分布式存儲(chǔ),# 高性能架構(gòu),分布式

【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank,# 全文搜索,# 分布式存儲(chǔ),# 高性能架構(gòu),分布式

小結(jié)

本篇主要介紹搜索引擎中倒排索引的機(jī)制,以及Google搜索中的PageRank算法。文章來源地址http://www.zghlxwxcb.cn/news/detail-650641.html

到了這里,關(guān)于【分布式存儲(chǔ)】數(shù)據(jù)存儲(chǔ)和檢索~倒排索引&pageRank的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 分布式系統(tǒng)架構(gòu)設(shè)計(jì)之分布式數(shù)據(jù)存儲(chǔ)的安全隱私和性能優(yōu)化

    分布式系統(tǒng)架構(gòu)設(shè)計(jì)之分布式數(shù)據(jù)存儲(chǔ)的安全隱私和性能優(yōu)化

    在前面分布式系統(tǒng)部分,有對(duì)安全性做過介紹,如前面所述,在分布式系統(tǒng)中,確保系統(tǒng)的安全性和隱私是至關(guān)重要的。安全性關(guān)注系統(tǒng)的防護(hù)措施,而隱私是關(guān)注用戶的個(gè)人信息保護(hù)。 身份認(rèn)證:確保用戶和系統(tǒng)組件的身份是合法的,通過通過密碼、令牌或證書實(shí)現(xiàn) 授權(quán)

    2024年02月02日
    瀏覽(98)
  • 分布式文件存儲(chǔ)與數(shù)據(jù)緩存 FastDFS

    分布式文件存儲(chǔ)與數(shù)據(jù)緩存 FastDFS

    單機(jī)時(shí)代 初創(chuàng)時(shí)期由于時(shí)間緊迫,在各種資源有限的情況下,通常就直接在項(xiàng)目目錄下建立靜態(tài)文件夾,用于用戶存放項(xiàng)目中的文件資源。如果按不同類型再細(xì)分,可以在項(xiàng)目目錄下再建立不同的子目錄來區(qū)分。例如: resourcesstaticfile 、 resourcesstaticimg 等。 優(yōu)點(diǎn) :便利,

    2024年02月16日
    瀏覽(26)
  • 初識(shí) Redis - 分布式,內(nèi)存數(shù)據(jù)存儲(chǔ),緩存

    初識(shí) Redis - 分布式,內(nèi)存數(shù)據(jù)存儲(chǔ),緩存

    目錄 1. 什么是 Redis 1.1 Redis 內(nèi)存數(shù)據(jù)存儲(chǔ) 1.2 Redis 用作數(shù)據(jù)庫 1.3 Redis 用作緩存 (cache) 1.4 用作消息中間件 The open source , in-memory data store used by millions of developers as a database, cache, streaming engine, and message?broker. 開源的 內(nèi)存數(shù)據(jù)存儲(chǔ) ,被數(shù)百萬開發(fā)人員用作 數(shù)據(jù)庫、緩存、流引擎

    2024年02月15日
    瀏覽(92)
  • Flink與GoogleCloudBigtable:將數(shù)據(jù)存儲(chǔ)在分布式列存儲(chǔ)中

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的普及,海量的數(shù)據(jù)需要實(shí)時(shí)地被處理分析,而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足需求。為了能夠快速高效地對(duì)海量數(shù)據(jù)進(jìn)行查詢分析、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理等操作,分布式數(shù)據(jù)庫應(yīng)運(yùn)而生。其中一種分布式數(shù)據(jù)庫

    2024年02月12日
    瀏覽(47)
  • tim實(shí)踐系列——分布式數(shù)據(jù)存儲(chǔ)與動(dòng)態(tài)數(shù)據(jù)庫擴(kuò)容

    tim實(shí)踐系列——分布式數(shù)據(jù)存儲(chǔ)與動(dòng)態(tài)數(shù)據(jù)庫擴(kuò)容

    前言: tim是去中心化分布式即時(shí)通訊引擎。不依賴于任何中心服務(wù)器,采用去中心化分布式架構(gòu),解決傳統(tǒng)中心化通訊方式的問題,去中心化分布式架構(gòu)的通訊引擎的各個(gè)節(jié)點(diǎn)之間相互連接,形成一個(gè)龐大的分布式網(wǎng)絡(luò)。可以輕松地?cái)U(kuò)展服務(wù)規(guī)模,支持更多的用戶和業(yè)務(wù)需求

    2024年02月02日
    瀏覽(21)
  • 分布式圖數(shù)據(jù)庫 NebulaGraph v3.6.0 正式發(fā)布,強(qiáng)化全文索引能力

    分布式圖數(shù)據(jù)庫 NebulaGraph v3.6.0 正式發(fā)布,強(qiáng)化全文索引能力

    本次 v3.6.0 版本,主要強(qiáng)化全文索引能力,以及優(yōu)化部分場景下的 MATCH 性能。 強(qiáng)化增強(qiáng)全文索引功能,具體 pr 參見:#5567、#5575、#5577、#5580、#5584、#5587 支持使用 MATCH 子句檢索 VID 或?qū)傩运饕龝r(shí)使用變量,具體 pr 參見:#5468、#5553 支持并行啟動(dòng) RocksDB 實(shí)例以加快 Storage 服務(wù)的

    2024年02月12日
    瀏覽(59)
  • 數(shù)據(jù)流處理中的分布式存儲(chǔ):保護(hù)數(shù)據(jù)隱私和安全

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著數(shù)據(jù)量的爆炸式增長,如何高效地處理和存儲(chǔ)數(shù)據(jù)成為了當(dāng)前熱門的研究方向。數(shù)據(jù)流處理作為一種處理數(shù)據(jù)的方法,能夠在實(shí)時(shí)性、流式性和可擴(kuò)展性等方面提供優(yōu)勢。在數(shù)據(jù)流處理中,分布式存儲(chǔ)是保障數(shù)據(jù)隱私和安全的重要手段。本

    2024年02月16日
    瀏覽(28)
  • “深入解析Redis:高性能緩存與分布式數(shù)據(jù)存儲(chǔ)“

    標(biāo)題:深入解析Redis:高性能緩存與分布式數(shù)據(jù)存儲(chǔ) 摘要:本文將深入解析Redis,介紹其作為高性能緩存和分布式數(shù)據(jù)存儲(chǔ)的特點(diǎn)和功能,并提供示例代碼展示其使用方法。 正文: 一、引言 Redis是一個(gè)開源的內(nèi)存數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)系統(tǒng),它以其高性能、靈活的數(shù)據(jù)結(jié)構(gòu)以及豐富的

    2024年02月17日
    瀏覽(25)
  • 【GaussDB(DWS)】數(shù)據(jù)分布式存儲(chǔ)-三種類型的表

    【GaussDB(DWS)】數(shù)據(jù)分布式存儲(chǔ)-三種類型的表

    @toc 華為數(shù)據(jù)倉庫服務(wù)DWS,集群版本8.1.3.320 集群拓?fù)浣Y(jié)構(gòu): DWS采用水平分表的方式,將業(yè)務(wù)數(shù)據(jù)表的元組打散存儲(chǔ)到各個(gè)節(jié)點(diǎn)內(nèi)。這樣帶來的好處在于,查詢中通過查詢條件過濾不必要的數(shù)據(jù),快速定位到數(shù)據(jù)存儲(chǔ)位置,可極大提升數(shù)據(jù)庫性能。 水平分表方式將一個(gè)數(shù)據(jù)表

    2024年02月13日
    瀏覽(23)
  • AI時(shí)代的數(shù)據(jù)革命,分布式融合存儲(chǔ)為何堪當(dāng)大任?

    AI時(shí)代的數(shù)據(jù)革命,分布式融合存儲(chǔ)為何堪當(dāng)大任?

    有人說,以ChatGPT為代表的人工智能應(yīng)用的興起標(biāo)志著AI時(shí)代奇點(diǎn)來臨。 誠然如斯。這一波AIGC浪潮來襲,讓人們真正意識(shí)到AI給生產(chǎn)力帶來的巨大飛躍。從今年起,AI大模型成為行業(yè)用戶重點(diǎn)關(guān)注的對(duì)象,甚至金融、媒體、廣告營銷等用戶紛紛試水AI大模型。 但OpenAI ChatGPT的成

    2024年02月06日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包