国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【搜索引擎Solr】Apache Solr 神經(jīng)搜索

這篇具有很好參考價(jià)值的文章主要介紹了【搜索引擎Solr】Apache Solr 神經(jīng)搜索。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Sease[1] 與 Alessandro Benedetti(Apache Lucene/Solr PMC 成員和提交者)和 Elia Porciani(Sease 研發(fā)軟件工程師)共同為開(kāi)源社區(qū)貢獻(xiàn)了 Apache Solr 中神經(jīng)搜索的第一個(gè)里程碑。

它依賴于 Apache Lucene 實(shí)現(xiàn) [2] 進(jìn)行 K-最近鄰搜索。
特別感謝 Christine Poerschke、Cassandra Targett、Michael Gibney 和所有其他在貢獻(xiàn)的最后階段提供了很大幫助的審稿人。即使是一條評(píng)論也受到了高度贊賞,如果我們?nèi)〉眠M(jìn)展,總是要感謝社區(qū)。

讓我們從簡(jiǎn)短的介紹開(kāi)始,介紹神經(jīng)方法如何改進(jìn)搜索。

我們可以將搜索概括為四個(gè)主要領(lǐng)域:

  • 生成指定信息需求的查詢表示

  • 生成捕獲包含的信息的文檔的表示

  • 匹配來(lái)自信息語(yǔ)料庫(kù)的查詢和文檔表示

  • 為每個(gè)匹配的文檔分配一個(gè)分?jǐn)?shù),以便根據(jù)結(jié)果中的相關(guān)性建立一個(gè)有意義的文檔排名

神經(jīng)搜索是神經(jīng)信息檢索[3] 學(xué)術(shù)領(lǐng)域的行業(yè)衍生產(chǎn)品,它專注于使用基于神經(jīng)網(wǎng)絡(luò)的技術(shù)改進(jìn)這些領(lǐng)域中的任何一個(gè)。

人工智能、深度學(xué)習(xí)和向量表示


我們?cè)絹?lái)越頻繁地聽(tīng)到人工智能(從現(xiàn)在開(kāi)始是人工智能)如何滲透到我們生活的許多方面。

當(dāng)我們談?wù)撊斯ぶ悄軙r(shí),我們指的是一組使機(jī)器能夠?qū)W習(xí)和顯示與人類相似的智能的技術(shù)。

隨著最近計(jì)算機(jī)能力的強(qiáng)勁和穩(wěn)定發(fā)展,人工智能已經(jīng)復(fù)蘇,現(xiàn)在它被用于許多領(lǐng)域,包括軟件工程和信息檢索(管理搜索引擎和類似系統(tǒng)的科學(xué))。

特別是,深度學(xué)習(xí) [4] 的出現(xiàn)引入了使用深度神經(jīng)網(wǎng)絡(luò)來(lái)解決對(duì)經(jīng)典算法非常具有挑戰(zhàn)性的復(fù)雜問(wèn)題。

就這篇博文而言,只要知道深度學(xué)習(xí)可用于在信息語(yǔ)料庫(kù)中生成查詢和文檔的向量表示就足夠了。

密集向量表示


可以認(rèn)為傳統(tǒng)的倒排索引將文本建模為“稀疏”向量,其中語(yǔ)料庫(kù)中的每個(gè)詞項(xiàng)對(duì)應(yīng)一個(gè)向量維度。在這樣的模型中(另見(jiàn)詞袋方法),維數(shù)對(duì)應(yīng)于術(shù)語(yǔ)字典基數(shù),并且任何給定文檔的向量大部分包含零(因此它被稱為稀疏,因?yàn)橹挥猩贁?shù)術(shù)語(yǔ)存在于整個(gè)字典中將出現(xiàn)在任何給定的文檔中)。

密集向量表示與基于術(shù)語(yǔ)的稀疏向量表示形成對(duì)比,因?yàn)樗鼘⒔普Z(yǔ)義意義提取為固定(和有限)數(shù)量的維度。

這種方法的維數(shù)通常遠(yuǎn)低于稀疏情況,并且任何給定文檔的向量都是密集的,因?yàn)樗拇蟛糠志S數(shù)都由非零值填充。

與稀疏方法(標(biāo)記器用于直接從文本輸入生成稀疏向量)相比,生成向量的任務(wù)必須在 Apache Solr 外部的應(yīng)用程序邏輯中處理。

BERT[5] 等各種深度學(xué)習(xí)模型能夠?qū)⑽谋拘畔⒕幋a為密集向量,用于密集檢索策略。

有關(guān)更多信息,您可以參考我們的這篇博文。

近似最近鄰


給定一個(gè)對(duì)信息需求進(jìn)行建模的密集向量 v,提供密集向量檢索的最簡(jiǎn)單方法是計(jì)算 v 與代表信息語(yǔ)料庫(kù)中文檔的每個(gè)向量 d 之間的距離(歐幾里得、點(diǎn)積等)。

這種方法非常昂貴,因此目前正在積極研究許多近似策略。

近似最近鄰搜索算法返回結(jié)果,其與查詢向量的距離最多為從查詢向量到其最近向量的距離的 c 倍。
這種方法的好處是,在大多數(shù)情況下,近似最近鄰幾乎與精確最近鄰一樣好。
特別是,如果距離測(cè)量準(zhǔn)確地捕捉到用戶質(zhì)量的概念,那么距離的微小差異應(yīng)該無(wú)關(guān)緊要[6]

分層導(dǎo)航小圖


在 Apache Lucene 中實(shí)現(xiàn)并由 Apache Solr 使用的策略基于 Navigable Small-world 圖。

它為高維向量提供了一種有效的近似最近鄰搜索[7][8][9][10]。

Hierarchical Navigable Small World Graph (HNSW) 是一種基于鄰近鄰域圖概念的方法:
與信息語(yǔ)料庫(kù)相關(guān)聯(lián)的向量空間中的每個(gè)向量都唯一地與一個(gè)

vertex?

【搜索引擎Solr】Apache Solr 神經(jīng)搜索,搜索引擎,solr,apache,lucene

?in the graph?

【搜索引擎Solr】Apache Solr 神經(jīng)搜索,搜索引擎,solr,apache,lucene

.?

頂點(diǎn)基于它們的接近度通過(guò)邊緣連接,更近的(根據(jù)距離函數(shù))連接。

構(gòu)建圖受超參數(shù)的影響,這些超參數(shù)調(diào)節(jié)每層要構(gòu)建多少個(gè)連接以及要構(gòu)建多少層。

在查詢時(shí),鄰居結(jié)構(gòu)被導(dǎo)航以找到離目標(biāo)最近的向量,從種子節(jié)點(diǎn)開(kāi)始,隨著我們?cè)絹?lái)越接近目標(biāo)而迭代。

我發(fā)現(xiàn)這個(gè)博客對(duì)于深入研究該主題非常有用。

Apache Lucene 實(shí)現(xiàn)


首先要注意的是當(dāng)前的 Lucene 實(shí)現(xiàn)不是分層的。
所以圖中只有一層,請(qǐng)參閱原始 Jira 問(wèn)題中的最新評(píng)論,跟蹤開(kāi)發(fā)進(jìn)度[11]。
主要原因是為了在 Apache Lucene 生態(tài)系統(tǒng)中為這種簡(jiǎn)化的實(shí)現(xiàn)找到更容易的設(shè)計(jì)、開(kāi)發(fā)和集成過(guò)程。
一致認(rèn)為,引入分層分層結(jié)構(gòu)將在低維向量管理和查詢時(shí)間(減少候選節(jié)點(diǎn)遍歷)方面帶來(lái)好處。
該實(shí)施正在進(jìn)行中[12]。

那么,與 Navigable Small World Graph 和 K-Nearest Neighbors 功能相關(guān)的 Apache Lucene 組件有哪些?
讓我們探索代碼:

注:如果您對(duì) Lucene 內(nèi)部結(jié)構(gòu)和編解碼器不感興趣,可以跳過(guò)這一段

org.apache.lucene.document.KnnVectorField 是入口點(diǎn):
它在索引時(shí)需要向量維度和相似度函數(shù)(構(gòu)建 NSW 圖時(shí)使用的向量距離函數(shù))。
這些是通過(guò) #setVectorDimensionsAndSimilarityFunction 方法在 org.apache.lucene.document.FieldType 中設(shè)置的。

更新文檔字段架構(gòu) org.apache.lucene.index.IndexingChain#updateDocFieldSchema 時(shí),信息從 FieldType 中提取并保存在 org.apache.lucene.index.IndexingChain.FieldSchema 中。

并且從 FieldSchema KnnVectorField 配置最終到達(dá) org.apache.lucene.index.IndexingChain#initializeFieldInfo 中的 org.apache.lucene.index.FieldInfo。

現(xiàn)在,Lucene 編解碼器具有構(gòu)建 NSW 圖形所需的所有特定于字段的配置。
讓我們看看如何:

首先,從 org.apache.lucene.codecs.lucene90.Lucene90Codec#Lucene90Codec 你可以看到 KNN 向量的默認(rèn)格式是 org.apache.lucene.codecs.lucene90.Lucene90HnswVectorsFormat。

關(guān)聯(lián)的索引編寫器是 org.apache.lucene.codecs.lucene90.Lucene90HnswVectorsWriter。
該組件可以訪問(wèn)之前在將字段寫入 org.apache.lucene.codecs.lucene90.Lucene90HnswVectorsWriter#writeField 中的索引時(shí)初始化的 FieldInfo。
在編寫 KnnVectorField 時(shí),涉及到 org.apache.lucene.util.hnsw.HnswGraphBuilder,最后是
org.apache.lucene.util.hnsw.HnswGraph 已構(gòu)建。

Apache Solr 實(shí)現(xiàn)


可從 Apache Solr 9.0 獲得

預(yù)計(jì) 2022 年第一季度

這第一個(gè)貢獻(xiàn)允許索引單值密集向量場(chǎng)并使用近似距離函數(shù)搜索 K-最近鄰。

當(dāng)前特點(diǎn):

  • DenseVectorField 類型

  • Knn 查詢解析器

密集向量場(chǎng)(DenseVectorField)


密集向量字段提供了索引和搜索浮點(diǎn)元素的密集向量的可能性。

例如

[1.0, 2.5, 3.7, 4.1]

以下是 DenseVectorField 應(yīng)如何在模式中配置:

<fieldType name="knn_vector" class="solr.DenseVectorField" 
vectorDimension="4" similarityFunction="cosine"/>
<field name="vector" type="knn_vector" indexed="true" stored="true"/>

-----------------------------------------------------------------------------------------------------

|Parameter Name? |? Required |? ?Default |? ?Description? ? |Accepted values|

-----------------------------------------------------------------------------------------------------
|vectorDimension? ?| True? ? ?|? ? ? ? ? ? ? ?|The dimension of the dense

vector to pass in.? ? |Integer < = 1024|

—————————————————————————————————————————
|similarityFunction |? ?False? ?| euclidean? ? |Vector similarity function;

used in search to return top K most similar vectors to a target vector.? ?

| euclidean, dot_product or cosine.

———————————————————————————————————————
  • 歐幾里得:歐幾里得距離

  • dot_product:點(diǎn)積。注意:這種相似性旨在作為執(zhí)行余弦相似性的優(yōu)化方式。為了使用它,所有向量必須是單位長(zhǎng)度的,包括文檔向量和查詢向量。對(duì)非單位長(zhǎng)度的向量使用點(diǎn)積可能會(huì)導(dǎo)致錯(cuò)誤或搜索結(jié)果不佳。

  • 余弦:余弦相似度。注意:執(zhí)行余弦相似度的首選方法是將所有向量歸一化為單位長(zhǎng)度,而不是使用 DOT_PRODUCT。只有在需要保留原始向量且無(wú)法提前對(duì)其進(jìn)行歸一化時(shí),才應(yīng)使用此函數(shù)。

DenseVectorField 支持屬性:索引、存儲(chǔ)。

注:目前不支持多值

自定義索引編解碼器


要使用以下自定義編解碼器格式的高級(jí)參數(shù)和 HNSW 算法的超參數(shù),請(qǐng)確保在 solrconfig.xml 中設(shè)置此配置:

<codecFactory class="solr.SchemaCodecFactory"/>
...
以下是如何使用高級(jí)編解碼器超參數(shù)配置 DenseVectorField:

<fieldType name="knn_vector" class="solr.DenseVectorField" 
vectorDimension="4"similarityFunction="cosine" 
codecFormat="Lucene90HnswVectorsFormat" hnswMaxConnections="10" hnswBeamWidth="40"/>
<field name="vector" type="knn_vector" indexed="true" stored="true"/>
Parameter Name Required Default Description Accepted values
codecFormat False

Lucene90Hnsw

VectorsFormat

Specifies the knn codec implementation to use

Lucene90

HnswVectorsFormat

hnswMaxConnections False 16 Lucene90HnswVectorsFormat?only:
Controls how many of the nearest neighbor candidates are connected to the new node.
It has the same meaning as?M?from the paper[8].
Integer
hnswBeamWidth False 100 Lucene90HnswVectorsFormat?only:?It is the number of nearest neighbor candidates to track while searching the graph for each newly inserted node.
It has the same meaning as?efConstruction?from the paper[8].
Integer


請(qǐng)注意,codecFormat 接受的值可能會(huì)在未來(lái)版本中更改。

注意 Lucene 索引向后兼容僅支持默認(rèn)編解碼器。如果您選擇在架構(gòu)中自定義 codecFormat,升級(jí)到 Solr 的未來(lái)版本可能需要您切換回默認(rèn)編解碼器并優(yōu)化索引以在升級(jí)之前將其重寫為默認(rèn)編解碼器,或者重新構(gòu)建整個(gè)索引升級(jí)后從頭開(kāi)始。
對(duì)于 HNSW 實(shí)現(xiàn)的超參數(shù),詳見(jiàn)[8]。

如何索引向量


下面是 DenseVectorField 應(yīng)該如何被索引:

JSON

[{ "id": "1",
"vector": [1.0, 2.5, 3.7, 4.1]
},
{ "id": "2",
"vector": [1.5, 5.5, 6.7, 65.1]
}
]

XML

<field name="id">1
<field name="vector">1.0
<field name="vector">2.5
<field name="vector">3.7
<field name="vector">4.1

<field name="id">2
<field name="vector">1.5
<field name="vector">5.5
<field name="vector">6.7
<field name="vector">65.1

Java –?SolrJ

final SolrClient client = getSolrClient();

final SolrInputDocument d1 = new SolrInputDocument();
d1.setField("id", "1");
d1.setField("vector", Arrays.asList(1.0f, 2.5f, 3.7f, 4.1f));

final SolrInputDocument d2 = new SolrInputDocument();
d2.setField("id", "2");
d2.setField("vector", Arrays.asList(1.5f, 5.5f, 6.7f, 65.1f));

client.add(Arrays.asList(d1, d2));

knn 查詢解析器


knn K-Nearest Neighbors 查詢解析器允許根據(jù)給定字段中的索引密集向量查找與目標(biāo)向量最近的 k 文檔。

它采用以下參數(shù):

Parameter?Name Required Default Description
f True The DenseVectorField to search in.
topK False 10 How many k-nearest results to return.

以下是運(yùn)行 KNN 搜索的方法:

&q={!knn f=vector topK=10}[1.0, 2.0, 3.0, 4.0]


檢索到的搜索結(jié)果是輸入 [1.0, 2.0, 3.0, 4.0] 中與向量最近的 K-nearest,由在索引時(shí)配置的similarityFunction 排序。

與過(guò)濾查詢一起使用


knn 查詢解析器可用于過(guò)濾查詢:

&q=id:(1 2 3)&fq={!knn f=vector topK=10}[1.0, 2.0, 3.0, 4.0]


knn 查詢解析器可以與過(guò)濾查詢一起使用:

&q={!knn f=vector topK=10}[1.0, 2.0, 3.0, 4.0]&fq=id:(1 2 3)


重要:

在這些場(chǎng)景中使用 knn 時(shí),請(qǐng)確保您清楚地了解過(guò)濾器查詢?cè)?Apache Solr 中的工作方式:
由主查詢 q 產(chǎn)生的文檔 ID 排名列表與從每個(gè)過(guò)濾器查詢派生的文檔 ID 集合相交 fq.egRanked List from q=[ID1, ID4, ID2, ID10] Set from fq={ID3, ID2 , ID9, ID4} = [ID4,ID2]

用作重新排序查詢


knn 查詢解析器可用于重新排列第一遍查詢結(jié)果:

&q=id:(3 4 9 2)&rq={!rerank reRankQuery=$rqq reRankDocs=4 reRankWeight=1}
&rqq={!knn f=vector topK=10}[1.0, 2.0, 3.0, 4.0]


重要:

在重新排序中使用 knn 時(shí),請(qǐng)注意 topK 參數(shù)。
僅當(dāng)來(lái)自第一遍的文檔 d 在要搜索的目標(biāo)向量的 K 最近鄰(在整個(gè)索引中)內(nèi)時(shí),才計(jì)算第二遍分?jǐn)?shù)(從 knn 派生)。


這意味著無(wú)論如何都會(huì)在整個(gè)索引上執(zhí)行第二遍 knn,這是當(dāng)前的限制。
最終排序的結(jié)果列表將第一次通過(guò)分?jǐn)?shù)(主查詢 q)加上第二次通過(guò)分?jǐn)?shù)(到要搜索的目標(biāo)向量的近似相似度函數(shù)距離)乘以乘法因子(reRankWeight)。


因此,如果文檔 d 不存在于 knn 結(jié)果中,即使與目標(biāo)查詢向量的距離向量計(jì)算不為零,您對(duì)原始分?jǐn)?shù)的貢獻(xiàn)也為零。


有關(guān)使用 ReRank 查詢解析器的詳細(xì)信息,請(qǐng)參閱 Apache Solr Wiki[13] 部分。

本文 :https://architect.pub/apache-solr-neural-search
討論:知識(shí)星球【首席架構(gòu)師圈】或者加微信小號(hào)【ca_cto】或者加QQ群【792862318】
公眾號(hào)
?
【jiagoushipro】
【超級(jí)架構(gòu)師】
精彩圖文詳解架構(gòu)方法論,架構(gòu)實(shí)踐,技術(shù)原理,技術(shù)趨勢(shì)。
我們?cè)诘饶悖s快掃描關(guān)注吧。
微信小號(hào)
?
【ca_cea】
50000人社區(qū),討論:企業(yè)架構(gòu),云計(jì)算,大數(shù)據(jù),數(shù)據(jù)科學(xué),物聯(lián)網(wǎng),人工智能,安全,全棧開(kāi)發(fā),DevOps,數(shù)字化.
?
QQ群
?
【285069459】深度交流企業(yè)架構(gòu),業(yè)務(wù)架構(gòu),應(yīng)用架構(gòu),數(shù)據(jù)架構(gòu),技術(shù)架構(gòu),集成架構(gòu),安全架構(gòu)。以及大數(shù)據(jù),云計(jì)算,物聯(lián)網(wǎng),人工智能等各種新興技術(shù)。
加QQ群,有珍貴的報(bào)告和干貨資料分享。
視頻號(hào) 【超級(jí)架構(gòu)師】
1分鐘快速了解架構(gòu)相關(guān)的基本概念,模型,方法,經(jīng)驗(yàn)。
每天1分鐘,架構(gòu)心中熟。
知識(shí)星球 【首席架構(gòu)師圈】向大咖提問(wèn),近距離接觸,或者獲得私密資料分享。 ?
喜馬拉雅 【超級(jí)架構(gòu)師】路上或者車上了解最新黑科技資訊,架構(gòu)心得。 【智能時(shí)刻,架構(gòu)君和你聊黑科技】
知識(shí)星球 認(rèn)識(shí)更多朋友,職場(chǎng)和技術(shù)閑聊。 知識(shí)星球【職場(chǎng)和技術(shù)】
領(lǐng)英 Harry https://www.linkedin.com/in/architect-harry/
領(lǐng)英群組 領(lǐng)英架構(gòu)群組 https://www.linkedin.com/groups/14209750/
微博?? 【超級(jí)架構(gòu)師】 智能時(shí)刻?
嗶哩嗶哩 【超級(jí)架構(gòu)師】
抖音 【cea_cio】超級(jí)架構(gòu)師
快手 【cea_cio_cto】超級(jí)架構(gòu)師
小紅書(shū) 【cea_csa_cto】超級(jí)架構(gòu)師 ?
網(wǎng)站 CIO(首席信息官) https://cio.ceo
網(wǎng)站 CIO,CTO和CDO https://cioctocdo.com
網(wǎng)站 架構(gòu)師實(shí)戰(zhàn)分享 https://architect.pub? ?
網(wǎng)站 程序員云開(kāi)發(fā)分享 https://pgmr.cloud
網(wǎng)站 首席架構(gòu)師社區(qū) https://jiagoushi.pro
網(wǎng)站 應(yīng)用開(kāi)發(fā)和開(kāi)發(fā)平臺(tái) https://apaas.dev
網(wǎng)站 開(kāi)發(fā)信息網(wǎng) https://xinxi.dev
網(wǎng)站 超級(jí)架構(gòu)師 https://jiagou.dev
網(wǎng)站 企業(yè)技術(shù)培訓(xùn) https://peixun.dev
網(wǎng)站 程序員寶典 https://pgmr.pub? ??
網(wǎng)站 開(kāi)發(fā)者閑談 https://blog.developer.chat
網(wǎng)站 CPO寶典 https://cpo.work
網(wǎng)站 首席安全官 https://cso.pub?????
網(wǎng)站 CIO酷 https://cio.cool
網(wǎng)站 CDO信息 https://cdo.fyi
網(wǎng)站 CXO信息 https://cxo.pub

謝謝大家關(guān)注,轉(zhuǎn)發(fā),點(diǎn)贊和點(diǎn)在看。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-605460.html

到了這里,關(guān)于【搜索引擎Solr】Apache Solr 神經(jīng)搜索的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Lucene和Solr和Elasticsearch區(qū)別,全文檢索引擎工具包Lucene索引流程和搜索流程實(shí)操

    Lucene和Solr和Elasticsearch區(qū)別,全文檢索引擎工具包Lucene索引流程和搜索流程實(shí)操

    我們生活中的數(shù)據(jù)總體分為兩種: 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 。 結(jié)構(gòu)化數(shù)據(jù) :指具有固定格式或有限長(zhǎng)度的數(shù)據(jù),如數(shù)據(jù)庫(kù),元數(shù)據(jù)等。 非結(jié)構(gòu)化數(shù)據(jù) :指不定長(zhǎng)或無(wú)固定格式的數(shù)據(jù),如 互聯(lián)網(wǎng)數(shù)據(jù)、郵件,word文檔等。 非結(jié)構(gòu)化數(shù)據(jù)又有一種叫法叫全文數(shù)據(jù) 按照數(shù)據(jù)的

    2024年02月03日
    瀏覽(28)
  • 【Solr】Solr搜索引擎使用

    【Solr】Solr搜索引擎使用

    其實(shí)我們大多數(shù)人都使用過(guò)Solr,也許你不會(huì)相信我說(shuō)的這句話,但是事實(shí)卻是如此啊 ! 每當(dāng)你想買自己喜歡的東東時(shí),你可能會(huì)打開(kāi)某寶或者某東,像這樣一搜,就能搜到很多東西,你知道你看到的這些數(shù)據(jù)都來(lái)自哪兒?jiǎn)?百度一下你就知道!這些數(shù)據(jù)來(lái)自哪兒?jiǎn)?等你了解完Solr后你就

    2024年02月15日
    瀏覽(22)
  • 【搜索引擎Solr】Solr:提高批量索引的性能

    【搜索引擎Solr】Solr:提高批量索引的性能

    幾個(gè)月前,我致力于提高“完整”索引器的性能。我覺(jué)得這種改進(jìn)足以分享這個(gè)故事。完整索引器是 Box 從頭開(kāi)始創(chuàng)建搜索索引的過(guò)程,從 hbase 表中讀取我們所有的文檔并將文檔插入到 Solr 索引中。 我們根據(jù) id 對(duì)索引文檔進(jìn)行分片,同樣的文檔 id 也被用作 hbase 表中的 key。

    2024年02月15日
    瀏覽(24)
  • 【搜索引擎Solr】配置 Solr 以獲得最佳性能

    【搜索引擎Solr】配置 Solr 以獲得最佳性能

    Apache Solr 是廣泛使用的搜索引擎。有幾個(gè)著名的平臺(tái)使用 Solr;Netflix 和 Instagram 是其中的一些名稱。我們?cè)?tajawal 的應(yīng)用程序中一直使用 Solr 和 ElasticSearch。在這篇文章中,我將為您提供一些關(guān)于如何編寫優(yōu)化的 Schema 文件的技巧。我們不會(huì)討論 Solr 的基礎(chǔ)知識(shí),我希望您了解

    2024年02月16日
    瀏覽(27)
  • 搜索引擎 ElasticSearch, Solr 簡(jiǎn)介

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 搜索引擎的功能就是幫助用戶快速檢索到需要的信息。搜索引擎通常由兩個(gè)主要組成部分:查詢解析器和索引器。查詢解析器負(fù)責(zé)將用戶輸入的查詢文本轉(zhuǎn)換成可以搜索的形式;而索引器則是對(duì)網(wǎng)頁(yè)、文檔或者其他信息進(jìn)行索引并存儲(chǔ)在數(shù)據(jù)庫(kù)

    2024年01月19日
    瀏覽(25)
  • 優(yōu)化記錄 -- 記一次搜索引擎(SOLR)優(yōu)化

    優(yōu)化記錄 -- 記一次搜索引擎(SOLR)優(yōu)化

    某服務(wù)根據(jù)用戶相關(guān)信息,使用搜索引擎進(jìn)行數(shù)據(jù)檢索 solr 1臺(tái):32c 64g 數(shù)據(jù)10gb左右,版本 7.5.5 應(yīng)用服務(wù)器1臺(tái):16c 64g 應(yīng)用程序 3節(jié)點(diǎn) 1、因業(yè)務(wù)系統(tǒng)因處理能不足,對(duì)業(yè)務(wù)系統(tǒng)硬件平臺(tái)進(jìn)行升級(jí),升級(jí)變更為 16c64g — 32c64g 增加 16c 2、業(yè)務(wù)系統(tǒng)升級(jí),處理能力增加,對(duì)原搜索引

    2024年02月05日
    瀏覽(25)
  • Solr在搜索引擎中的用戶體驗(yàn)優(yōu)化

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 引言 1.1. 背景介紹 搜索引擎是互聯(lián)網(wǎng)時(shí)代最為基礎(chǔ)的應(yīng)用之一,對(duì)于用戶體驗(yàn)的要求也越來(lái)越高。搜索引擎的性能與穩(wěn)定性、搜索結(jié)果的準(zhǔn)確性和多樣性、搜索結(jié)果的相關(guān)性等方面都會(huì)影響著用戶的體驗(yàn)。而Solr是一款高性能、可擴(kuò)展、易于使

    2024年02月13日
    瀏覽(24)
  • 高可用的搜索引擎:Elasticsearch與Solr對(duì)比

    搜索引擎是現(xiàn)代互聯(lián)網(wǎng)的基石,它使得我們可以在海量數(shù)據(jù)中快速找到所需的信息。高可用性是搜索引擎的核心需求,因?yàn)橛脩魧?duì)于搜索結(jié)果的實(shí)時(shí)性和準(zhǔn)確性有很高的要求。Elasticsearch和Solr是兩個(gè)流行的搜索引擎,它們各自具有獨(dú)特的優(yōu)勢(shì)和特點(diǎn)。在本文中,我們將對(duì)比這

    2024年02月20日
    瀏覽(22)
  • 《Spring Boot 實(shí)戰(zhàn)派》--13.集成NoSQL數(shù)據(jù)庫(kù),實(shí)現(xiàn)Elasticsearch和Solr搜索引擎

    《Spring Boot 實(shí)戰(zhàn)派》--13.集成NoSQL數(shù)據(jù)庫(kù),實(shí)現(xiàn)Elasticsearch和Solr搜索引擎

    ?????????關(guān)于搜索引擎 我們很難實(shí)現(xiàn) Elasticseach 和 Solr兩大搜索框架的效果;所以本章針對(duì)兩大搜索框架,非常詳細(xì)地講解 它們的原理和具體使用方法, 首先 介紹什么是搜索引擎 、如何用 MySQL實(shí)現(xiàn)簡(jiǎn)單的搜索引擎,以及Elasticseach 的 概念和接口類; 然后介紹Elasticseach

    2023年04月09日
    瀏覽(25)
  • 框架漏洞-CVE復(fù)現(xiàn)-Apache Shiro+Apache Solr

    框架漏洞-CVE復(fù)現(xiàn)-Apache Shiro+Apache Solr

    什么是框架? ?????? 就是別人寫好包裝起來(lái)的一套工具,把你原先必須要寫的,必須要做的一些復(fù)雜的東西都寫好了放在那里,你只要調(diào)用他的方法,就可以實(shí)現(xiàn)一些本來(lái)要費(fèi)好大勁的功能。 ???????? 如果網(wǎng)站的功能是采用框架開(kāi)發(fā)的,那么挖掘功能的漏洞就相當(dāng)于

    2024年02月16日
    瀏覽(19)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包