国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ul id="pkfz4"><kbd id="pkfz4"></kbd></ul>

Elasticsearch：語義搜索、知識圖和向量數(shù)據(jù)庫概述

2年前作者：Elastic 中國社區(qū)官方博客分類：Toy博客閱讀(29)違法舉報

這篇具有很好參考價值的文章主要介紹了Elasticsearch：語義搜索、知識圖和向量數(shù)據(jù)庫概述。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Elasticsearch：語義搜索、知識圖和向量數(shù)據(jù)庫概述,Elasticsearch,Elastic,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,數(shù)據(jù)庫,人工智能 — 結(jié)合對你自己的私有數(shù)據(jù)執(zhí)行語義搜索的概述

什么是語義搜索？

語義搜索是一種使用自然語言處理算法來理解單詞和短語的含義和上下文以提供更準(zhǔn)確的搜索結(jié)果的搜索技術(shù)。這種方法基于這樣的想法：搜索引擎不僅應(yīng)該匹配查詢中的關(guān)鍵字，還應(yīng)該嘗試?yán)斫庥脩羲阉鞯囊鈭D以及所使用的單詞之間的關(guān)系。

語義搜索旨在超越傳統(tǒng)的基于關(guān)鍵字的搜索算法，通過使用實體識別、概念匹配和語義分析等技術(shù)來識別單詞、短語和概念之間的關(guān)系。它還考慮同義詞、相關(guān)術(shù)語和上下文，以提供更相關(guān)的搜索結(jié)果。

總體而言，語義搜索旨在提供更精確、更有意義的搜索結(jié)果，更好地反映用戶的意圖，而不僅僅是匹配關(guān)鍵字。這使得它對于復(fù)雜的查詢特別有用，例如與科學(xué)研究、醫(yī)療信息或法律文檔相關(guān)的查詢。

語義搜索的歷史

語義搜索的概念可以追溯到計算機(jī)科學(xué)的早期，在 20 世紀(jì) 50 年代和 1960 年代就有人嘗試開發(fā)自然語言處理系統(tǒng)。然而，直到 20 世紀(jì) 90 年代和 2000 年代，語義搜索領(lǐng)域才取得了重大進(jìn)展，這在一定程度上要歸功于機(jī)器學(xué)習(xí)和人工智能的進(jìn)步。

語義搜索最早的例子之一是 Douglas Lenat 在 1984 年創(chuàng)建的 Cyc 項目。該項目旨在建立一個全面的常識知識本體或知識庫，可用于理解自然語言查詢。雖然Cyc項目面臨諸多挑戰(zhàn)，最終沒有實現(xiàn)其目標(biāo)，但它為未來語義搜索的研究奠定了基礎(chǔ)。

20 世紀(jì) 90 年代末，Ask Jeeves（現(xiàn)稱為 Ask.com）等搜索引擎開始嘗試自然語言查詢和語義搜索技術(shù)。這些早期的努力受到當(dāng)時技術(shù)的限制，但它們展示了更復(fù)雜的搜索算法的潛力。

2000 年代初 Web 本體語言 (OWL) 的發(fā)展提供了一種以機(jī)器可讀格式表示知識和關(guān)系的標(biāo)準(zhǔn)化方法，使得開發(fā)語義搜索算法變得更加容易。 2008 年被微軟收購的 Powerset 和 2007 年推出的 Hakia 等公司開始使用語義搜索技術(shù)來提供更相關(guān)的搜索結(jié)果。

如今，許多搜索引擎和公司正在使用語義搜索來提高搜索結(jié)果的準(zhǔn)確性和相關(guān)性。其中包括于 2012 年推出知識圖譜的谷歌，以及使用語義搜索為其 Alexa 虛擬助手提供支持的亞馬遜。隨著人工智能領(lǐng)域的不斷發(fā)展，語義搜索可能會變得更加復(fù)雜且適用于廣泛的應(yīng)用。

語義搜索的最新改進(jìn)

語義搜索最近出現(xiàn)了一些改進(jìn)，有助于進(jìn)一步推動該領(lǐng)域的發(fā)展。一些最值得注意的包括：

基于 Transformer 的模型：基于 Transformer 的模型，例如 BERT（來自 Transformers 的雙向編碼器表示），徹底改變了自然語言處理和語義搜索。這些模型能夠更好地理解單詞和短語的上下文，從而更容易提供更相關(guān)的搜索結(jié)果。
多模態(tài)搜索：多模態(tài)搜索是指跨文本、圖像、視頻等多種模式搜索信息的能力。機(jī)器學(xué)習(xí)的最新進(jìn)展使得開發(fā)更準(zhǔn)確、更復(fù)雜的多模態(tài)搜索算法成為可能。
對話式搜索：對話式搜索涉及使用自然語言處理和機(jī)器學(xué)習(xí)來為用戶查詢提供更準(zhǔn)確、更人性化的響應(yīng)。這項技術(shù)已經(jīng)被用于虛擬助手，例如亞馬遜的 Alexa 和蘋果的 Siri。
個性化：個性化是指根據(jù)用戶的偏好和之前的搜索歷史來定制搜索結(jié)果的能力。隨著在線可用數(shù)據(jù)量的不斷增長，這一點變得越來越重要。
特定領(lǐng)域搜索：特定領(lǐng)域搜索涉及使用語義搜索技術(shù)在特定領(lǐng)域或行業(yè)（例如醫(yī)療保健或金融）內(nèi)進(jìn)行搜索。這有助于為這些行業(yè)的用戶提供更準(zhǔn)確、更相關(guān)的搜索結(jié)果。

總體而言，語義搜索的最新進(jìn)展使得在線查找信息變得更加容易，并為未來更復(fù)雜的搜索算法鋪平了道路。

語義搜索和知識圖譜有什么關(guān)系？

語義搜索和知識圖（knowledge graph）密切相關(guān)，因為兩者都涉及使用語義技術(shù)來改進(jìn)搜索結(jié)果。

知識圖是一種結(jié)構(gòu)化的信息數(shù)據(jù)庫，它使用語義技術(shù)以機(jī)器可讀的格式表示知識。它通常由實體（例如人、地點和事物）以及它們之間的關(guān)系組成。例如，知識圖可能包含有關(guān)特定公司的信息，包括其位置、產(chǎn)品和員工以及這些實體之間的關(guān)系。

另一方面，語義搜索是一種使用自然語言處理和機(jī)器學(xué)習(xí)來更好地理解搜索查詢中單詞和短語的含義的搜索技術(shù)。語義搜索算法使用知識圖和其他語義技術(shù)來分析實體和概念之間的關(guān)系，并基于此分析提供更相關(guān)的搜索結(jié)果。

換句話說，知識圖為語義搜索算法提供了底層結(jié)構(gòu)和數(shù)據(jù)。通過利用知識圖提供的關(guān)系和上下文，語義搜索算法能夠提供更準(zhǔn)確、更有意義的搜索結(jié)果，更好地匹配用戶的意圖。

例如，谷歌的知識圖使用龐大的結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫來支持其搜索結(jié)果，并提供有關(guān)搜索結(jié)果中出現(xiàn)的實體（例如人物、地點和事物）的附加信息。這使得用戶更容易找到他們正在尋找的信息并探索相關(guān)的概念和實體。

向量數(shù)據(jù)庫、知識圖譜和語義搜索

向量數(shù)據(jù)庫是另一種可以與語義搜索和知識圖結(jié)合使用以改進(jìn)搜索結(jié)果的技術(shù)。

向量數(shù)據(jù)庫使用機(jī)器學(xué)習(xí)算法將數(shù)據(jù)表示為向量，向量是數(shù)據(jù)的數(shù)學(xué)表示，可用于各種計算任務(wù)，例如相似性搜索、聚類和分類。這些向量可用于以允許更準(zhǔn)確和高效處理的方式表示實體、概念和其他類型的數(shù)據(jù)。

在語義搜索和知識圖的背景下，向量數(shù)據(jù)庫可以通過更好地理解實體和概念之間的關(guān)系來提高搜索結(jié)果的準(zhǔn)確性。例如，向量可用于表示人、地點和事物等實體以及它們之間的關(guān)系。通過比較這些向量，搜索算法可以識別數(shù)據(jù)本身可能無法立即顯現(xiàn)的關(guān)系和模式。

例如，當(dāng)用戶搜索 “Paris” 時，語義搜索算法可以使用知識圖和向量數(shù)據(jù)庫來了解用戶可能指的是法國巴黎市，而不是其他同名實體。通過使用向量數(shù)據(jù)庫來表示和比較實體和概念，搜索算法可以提供更相關(guān)和更準(zhǔn)確的搜索結(jié)果。

總體而言，向量數(shù)據(jù)庫、語義搜索和知識圖譜都是共同提高搜索算法的準(zhǔn)確性和效率的技術(shù)。通過利用這些技術(shù)，搜索引擎和其他應(yīng)用程序可以更好地理解實體和概念之間的關(guān)系，從而更輕松地找到用戶正在尋找的信息。

如何對自己的私有數(shù)據(jù)進(jìn)行語義搜索

在我之前的文章 “ChatGPT 和 Elasticsearch：OpenAI 遇見私有數(shù)據(jù)（一）”，我詳細(xì)描述了目前我們的 LLMs （Large Language Models）雖然能夠?qū)崿F(xiàn)語義搜索，但是由于它的局限性，不能針對私有數(shù)據(jù)進(jìn)行語義搜索，因為私有數(shù)據(jù)對 LLMs 不可見。此外，由于 LLMs 的每次訓(xùn)練需要非常多的費(fèi)用，它不能及時地針對新的數(shù)據(jù)進(jìn)行訓(xùn)練，這也使得它的使用具有一定的局限性。正如我之前的文章中介紹的那樣，我們可以使用 Elasticsearch 結(jié)合 LLMs 來共同完成語義搜索：

Elasticsearch：語義搜索、知識圖和向量數(shù)據(jù)庫概述,Elasticsearch,Elastic,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,數(shù)據(jù)庫,人工智能

有關(guān)這個展示的詳細(xì)步驟，請參閱文章 “ChatGPT 和 Elasticsearch：OpenAI 遇見私有數(shù)據(jù)（二）”。

針對語義搜索，除了上面的方案之外，Elastic 也提供一個叫做?Elasticsearch Relevance Engine? 的發(fā)布。我們可以使用 Elastic 的開箱即用的?Learned Sparse Encoder 模型實現(xiàn)基于 ML 的搜索，無需訓(xùn)練或維護(hù)模型，可在各種領(lǐng)域提供高度相關(guān)、語義化的搜索。詳細(xì)閱讀，請參考:

Elasticsearch：部署 ELSER - Elastic Learned Sparse EncoderR
Elasticsearch：使用 ELSER 進(jìn)行語義搜索

如果你想了解更多關(guān)于 NLP，語義搜索方面的知識，請參閱 “Elastic：開發(fā)者上手指南” 中的 “NLP - 自然語言處理及向量搜索” 章節(jié)。文章來源地址http://www.zghlxwxcb.cn/news/detail-595022.html

到了這里，關(guān)于Elasticsearch：語義搜索、知識圖和向量數(shù)據(jù)庫概述的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【大模型向量庫】從向量搜索到向量數(shù)據(jù)庫
? 向量伴隨著 AI 模型的發(fā)展而發(fā)展。向量：AI 理解世界的通用數(shù)據(jù)形式，是多模態(tài)數(shù)據(jù)的壓縮。比如大模型輸入輸出都是文字文本，但模型實際接觸和學(xué)習(xí)數(shù)據(jù)是向量化文本。這個步驟叫 Embedding（嵌入），將文字文本轉(zhuǎn)化為保留語義關(guān)系的向量文本。 embedding 模型對自然語
2024年02月20日
瀏覽(17)
ES 如何實現(xiàn)向量搜索【以圖搜圖/語義搜索】
在 ES 的使用過程中，通過設(shè)置分詞器可以靈活地按照文本字面實現(xiàn)搜索和查詢。但是在某些場景下，向量搜索非常有必要，比如 CV 方面的以圖搜圖和 NLP 領(lǐng)域的語義搜索。較新的 ES 版本支持稠密向量搜索，詳情如下。相關(guān)片段設(shè)置重在強(qiáng)調(diào)特定的關(guān)鍵點，需要根據(jù)自己具體
2024年02月11日
瀏覽(22)
基于向量數(shù)據(jù)庫搭建自己的搜索引擎
前言【基于chatbot】厭倦了商業(yè)搜索引擎搜索引擎沒完沒了的廣告，很多時候，只是需要精準(zhǔn)高效地檢索信息，而不是和商業(yè)廣告“斗智斗勇”。以前主要是借助爬蟲工具，而隨著技術(shù)的進(jìn)步，現(xiàn)在有了更多更方便的解決方案，向量數(shù)據(jù)庫就是其中之一【chatGPT也需要它的支撐
2024年04月11日
瀏覽(21)
Elasticsearch：向量數(shù)據(jù)庫的真相
通過工作示例了解什么是向量數(shù)據(jù)庫、它們?nèi)绾螌崿F(xiàn) “相似性” 搜索以及它們可以在明顯的 LLM 空間之外的哪些地方使用。除非你一直生活在巖石下，否則你可能聽說過諸如生成式人工智能和大型語言模型（LLM）之類的術(shù)語。除此之外，你很有可能聽說過向量數(shù)據(jù)庫，它為
2024年02月04日
瀏覽(23)
Elasticsearch：什么是向量數(shù)據(jù)庫？
向量數(shù)據(jù)庫是將信息存儲為向量的數(shù)據(jù)庫，向量是數(shù)據(jù)對象的數(shù)值表示，也稱為向量嵌入。它利用這些向量嵌入的強(qiáng)大功能來對非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)（例如圖像、文本或傳感器數(shù)據(jù)）的海量數(shù)據(jù)集進(jìn)行索引和搜索。向量數(shù)據(jù)庫是為了管理向量嵌入而構(gòu)建的，因此為
2024年01月21日
瀏覽(32)
如何使用 Elasticsearch 作為向量數(shù)據(jù)庫
在今天的文章中，我們將很快地通過 Docker 來快速地設(shè)置 Elasticsearch 及 Kibana，并設(shè)置 Elasticsearch 為向量搜索。在上面，我們指定了 elasic 超級用戶的密碼為 password。這在下面將要使用到。驗證容器是否已啟動并正在運(yùn)行：從上面我們可以看到 Elasticsarch 及 Kibana 已經(jīng)完全運(yùn)行
2024年04月17日
瀏覽(95)
構(gòu)建搜索引擎，而非向量數(shù)據(jù)庫（Vector DB） [譯]
作者： Panda Smith 在過去 12 個月中，我們見證了向量數(shù)據(jù)庫（Vector DB）創(chuàng)業(yè)公司的迅猛增長。我此刻并不打算深入探討它們各自的設(shè)計取舍。相反，我更想探討和解釋一些關(guān)于向量數(shù)據(jù)庫的常見理解——它是什么、它的功能用途，以及在解決問題時，我們應(yīng)如何恰當(dāng)?shù)乩孟?/p>
2024年02月04日
瀏覽(25)
Elasticsearch：什么是向量和向量存儲數(shù)據(jù)庫，我們?yōu)槭裁搓P(guān)心？
Elasticsearch 從 7.3 版本開始支持向量搜索。從 8.0 開始支持帶有 HNSW 的 ANN 向量搜索。目前 Elasticsearch 已經(jīng)是全球下載量最多的向量數(shù)據(jù)庫。它允許使用密集向量和向量比較來搜索文檔。向量搜索在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域有許多重要的應(yīng)用。有效存儲和檢索向量的數(shù)據(jù)庫對于
2024年02月08日
瀏覽(31)
從零開始構(gòu)建基于milvus向量數(shù)據(jù)庫的文本搜索引擎
在這篇文章中，我們將手動構(gòu)建一個語義相似性搜索引擎，該引擎將單個論文作為“查詢”輸入，并查找Top-K的最類似論文。主要包括以下內(nèi)容： 1.搭建milvus矢量數(shù)據(jù)庫 2.使用MILVUS矢量數(shù)據(jù)庫搭建語義相似性搜索引擎 3.從Kaggle下載ARXIV數(shù)據(jù)，使用dask將數(shù)據(jù)加載到Python中，并構(gòu)
2024年02月09日
瀏覽(23)
Elasticsearch：使用 Elasticsearch 進(jìn)行語義搜索
在數(shù)字時代，搜索引擎在通過瀏覽互聯(lián)網(wǎng)上的大量可用信息來檢索數(shù)據(jù)方面發(fā)揮著重要作用。此方法涉及用戶在搜索欄中輸入特定術(shù)語或短語，期望搜索引擎返回與這些確切匹配的結(jié)果。雖然搜索對于簡化信息檢索非常有價值，但它也有其局限性。主要缺點之
2024年02月08日
瀏覽(26)

<ul id="cgakr"><code id="cgakr"></code></ul>

<ul id="cgakr"><tt id="cgakr"><table id="cgakr"></table></tt></ul>

<dfn id="cgakr"><button id="cgakr"></button></dfn><thead id="cgakr"><label id="cgakr"></label></thead>