国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Elasticsearch:什么是向量數(shù)據(jù)庫?

這篇具有很好參考價值的文章主要介紹了Elasticsearch:什么是向量數(shù)據(jù)庫?。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

向量數(shù)據(jù)庫定義

向量數(shù)據(jù)庫是將信息存儲為向量的數(shù)據(jù)庫,向量是數(shù)據(jù)對象的數(shù)值表示,也稱為向量嵌入。 它利用這些向量嵌入的強大功能來對非結構化數(shù)據(jù)和半結構化數(shù)據(jù)(例如圖像、文本或傳感器數(shù)據(jù))的海量數(shù)據(jù)集進行索引和搜索。 向量數(shù)據(jù)庫是為了管理向量嵌入而構建的,因此為非結構化和半結構化數(shù)據(jù)的管理提供了完整的解決方案。

向量數(shù)據(jù)庫與向量搜索庫或向量索引不同:它是一種數(shù)據(jù)管理解決方案,支持元數(shù)據(jù)存儲和過濾、可擴展、允許動態(tài)數(shù)據(jù)更改、執(zhí)行備份并提供安全功能。

向量數(shù)據(jù)庫通過高維向量來組織數(shù)據(jù)。 高維向量包含數(shù)百個維度,每個維度對應于它所表示的數(shù)據(jù)對象的特定特征或屬性。

什么是向量嵌入?

向量嵌入是主題、單詞、圖像或任何其他數(shù)據(jù)的數(shù)字表示。 向量嵌入(也稱為嵌入)由大型語言模型和其他人工智能模型生成。

每個向量嵌入之間的距離使向量數(shù)據(jù)庫或向量搜索引擎能夠確定向量之間的相似性。 距離可以代表數(shù)據(jù)對象的多個維度,從而使機器學習和人工智能能夠理解模式、關系和底層結構。

了解如何部署文本嵌入

更多關于向量嵌入的知識,請閱讀文章 “Elasticsearch:什么是向量嵌入?”。

向量數(shù)據(jù)庫如何工作?

向量數(shù)據(jù)庫通過使用算法來索引和查詢向量嵌入來工作。 該算法通過哈希、量化或基于圖的搜索來實現(xiàn)近似最近鄰 (ANN) 搜索。

為了檢索信息,人工神經(jīng)網(wǎng)絡搜索會找到查詢的最近向量鄰居。 與 kNN 搜索(已知最近鄰,或真正的 k 最近鄰算法)相比,計算強度較小,近似最近鄰搜索的準確度也較低。 然而,它對于高維向量的大型數(shù)據(jù)集可以高效且大規(guī)模地工作。

向量數(shù)據(jù)庫管道如下所示:

Elasticsearch:什么是向量數(shù)據(jù)庫?,Elasticsearch,Elastic,AI,elasticsearch,數(shù)據(jù)庫,大數(shù)據(jù),人工智能,全文檢索,搜索引擎

1)索引:通過哈希、量化或基于圖的技術,向量數(shù)據(jù)庫通過將向量映射到給定的數(shù)據(jù)結構來對向量進行索引。這使得搜索速度更快。

  • 哈希:哈希算法,比如局部敏感哈希(LSH)算法,最適合進行近似最近鄰搜索,因為它能夠提供快速而近似的結果。LSH 使用哈希表(類似數(shù)獨謎題)來映射最近鄰。查詢將被哈希到一個表中,然后與同一表中的一組向量進行比較,以確定相似性。
  • 量化:量化技術,比如產(chǎn)品量化(PQ),將向量分解為較小的部分,并用代碼表示這些部分,然后將部分重新組合。結果是向量及其組件的代碼表示。這些代碼的集合被稱為碼書(codebook)。在查詢時,使用量化的向量數(shù)據(jù)庫將查詢分解為代碼,然后與碼書進行匹配,以找到最相似的代碼生成結果。
  • 基于圖:圖算法,比如分層可導航小世界(HNSW)算法,使用節(jié)點表示向量。它對節(jié)點進行聚類,并在相似節(jié)點之間繪制線條或邊緣,創(chuàng)建層次圖。當發(fā)起查詢時,算法將導航圖層次結構,以找到包含與查詢向量最相似的向量的節(jié)點。

向量數(shù)據(jù)庫還將索引數(shù)據(jù)對象的元數(shù)據(jù)。 因此,向量數(shù)據(jù)庫將包含兩個索引:向量索引和元數(shù)據(jù)索引。

2)查詢:當向量數(shù)據(jù)庫收到查詢時,它將索引向量與查詢向量進行比較,以確定最近的向量鄰居。 為了建立最近鄰,向量數(shù)據(jù)庫依賴于稱為相似性度量的數(shù)學方法。 存在不同類型的相似性方法:

  • 余弦相似度在 -1 到 1 的范圍內(nèi)建立相似度。通過測量向量空間中兩個向量之間的角度的余弦,它可以確定向量是完全相反的(用 -1 表示)、正交的(用 0 表示)或 相同(用 1 表示)。
  • 歐氏距離通過測量向量之間的直線距離來確定 0 到無窮大范圍內(nèi)的相似度。 相同的向量用0表示,而較大的值表示向量之間的差異較大。
  • 點積相似性方法確定負無窮大到無窮大范圍內(nèi)的向量相似性。 通過測量兩個向量的大小和它們之間角度的余弦的乘積,點積將負值分配給彼此遠離的向量,將 0 分配給正交向量,將正值分配給指向相同方向的向量。


3)后處理:向量數(shù)據(jù)庫管道中的最后一步有時是后處理或后過濾,在此期間向量數(shù)據(jù)庫將使用不同的相似性度量來重新排列最近的鄰居。 在此階段,數(shù)據(jù)庫將根據(jù)元數(shù)據(jù)過濾搜索中識別的查詢最近鄰居。

某些向量數(shù)據(jù)庫可能會在運行向量搜索之前應用過濾器。 在這種情況下,它被稱為預處理或預過濾。

為什么向量數(shù)據(jù)庫很重要?

向量數(shù)據(jù)庫很重要,因為它們保存向量嵌入并支持一系列功能,包括索引、距離度量和相似性搜索。 換句話說,向量數(shù)據(jù)庫專門用于非結構化數(shù)據(jù)和半結構化數(shù)據(jù)的管理。 因此,向量數(shù)據(jù)庫是機器學習和人工智能數(shù)字領域的重要工具。

向量數(shù)據(jù)庫核心組件

向量數(shù)據(jù)庫可能具有以下核心組件:

  • 性能和容錯:分片和復制過程確保向量數(shù)據(jù)庫的高性能和容錯性。 分片涉及跨多個節(jié)點對數(shù)據(jù)進行分區(qū),而復制涉及跨不同節(jié)點制作數(shù)據(jù)的多個副本。 如果節(jié)點發(fā)生故障,這可以實現(xiàn)容錯和持續(xù)的性能。
  • 監(jiān)控能力:為了確保性能和容錯能力,向量數(shù)據(jù)庫需要監(jiān)控資源使用情況、查詢性能和整體系統(tǒng)運行狀況。
  • 訪問控制能力:向量數(shù)據(jù)庫也需要數(shù)據(jù)安全管理。 訪問控制監(jiān)管可確保合規(guī)性、責任性以及審核數(shù)據(jù)庫使用情況的能力。 這也意味著數(shù)據(jù)受到保護:擁有權限的人可以訪問數(shù)據(jù),并且保留用戶活動的記錄。
  • 可擴展性和可調(diào)性:良好的訪問控制功能會影響向量數(shù)據(jù)庫的可擴展性和可調(diào)性。 隨著存儲數(shù)據(jù)量的增加,水平擴展的能力變得必不可少。 不同的插入和查詢速率以及底層硬件的差異都會影響應用程序的需求。
  • 多用戶和數(shù)據(jù)隔離:在具備可擴展性和訪問控制功能的同時,向量數(shù)據(jù)庫應該能夠容納多用戶或多租戶。 與此相一致,向量數(shù)據(jù)庫應該啟用數(shù)據(jù)隔離,以便任何用戶活動(例如插入、刪除或查詢)對其他用戶保持私有 —— 除非另有要求。
  • 備份:向量數(shù)據(jù)庫創(chuàng)建定期數(shù)據(jù)備份。 這是向量數(shù)據(jù)庫在系統(tǒng)發(fā)生故障時的關鍵組件 —— 在數(shù)據(jù)丟失或數(shù)據(jù)損壞的情況下,備份可以幫助將數(shù)據(jù)庫恢復到以前的狀態(tài)。 這可以最大限度地減少停機時間。
  • API 和 SDK:向量數(shù)據(jù)庫使用 API 來實現(xiàn)用戶友好的界面。 API 是一種應用程序編程接口或一種軟件,它使應用程序能夠通過請求和響應相互 “對話”。 API 層簡化了向量搜索體驗。 SDK(即軟件開發(fā)工具包)通常包含 API。 它們是數(shù)據(jù)庫用于通信和管理的編程語言。 SDK 有助于開發(fā)人員友好地使用向量數(shù)據(jù)庫,因為它們在開發(fā)特定用例(語義搜索、推薦系統(tǒng)等)時不必擔心底層結構。

向量數(shù)據(jù)庫和傳統(tǒng)數(shù)據(jù)庫有什么區(qū)別?

傳統(tǒng)數(shù)據(jù)庫以表格形式存儲信息,并通過為數(shù)據(jù)點分配值來索引數(shù)據(jù)。 當查詢時,傳統(tǒng)數(shù)據(jù)庫將返回與查詢完全匹配的結果。

向量數(shù)據(jù)庫以嵌入的形式存儲向量并啟用向量搜索,向量搜索根據(jù)相似性指標(而不是精確匹配)返回查詢結果。 向量數(shù)據(jù)庫在傳統(tǒng)數(shù)據(jù)庫無法做到的地方“提升”了:它被有意設計為與向量嵌入一起操作。

向量數(shù)據(jù)庫也比傳統(tǒng)數(shù)據(jù)庫更適合某些應用,例如相似性搜索、人工智能和機器學習應用,因為它支持高維搜索和定制索引,并且具有可擴展性、靈活且高效。

向量數(shù)據(jù)庫的應用

向量數(shù)據(jù)庫用于人工智能、機器學習 (ML)、自然語言處理 (NLP) 和圖像識別應用。

  • AI/ML應用:向量數(shù)據(jù)庫可以通過語義信息檢索和長期記憶來提高 AI 能力。
  • NLP 應用:向量相似性搜索是向量數(shù)據(jù)庫的關鍵組成部分,對于自然語言處理應用非常有用。 向量數(shù)據(jù)庫可以處理文本嵌入,這使計算機能夠 “理解” 人類或自然語言。
  • 圖像識別和檢索應用:向量數(shù)據(jù)庫將圖像轉換為圖像嵌入。 通過相似性搜索,他們能夠檢索相似的圖像或識別匹配的圖像。

向量數(shù)據(jù)庫還可以服務于異常檢測和人臉檢測應用。

向量數(shù)據(jù)庫的未來趨勢

向量數(shù)據(jù)庫的未來與人工智能和機器學習的發(fā)展以及與使用深度學習為結構化和非結構化數(shù)據(jù)生成更強大的嵌入相關的研究密切相關。

隨著創(chuàng)建更好嵌入的能力的提高,向量數(shù)據(jù)庫更好地處理和管理這些嵌入的能力需要新的技術和算法。 事實上,此類新方法一直在開發(fā)中。

其他研究致力于混合數(shù)據(jù)庫的開發(fā)。 這些旨在結合傳統(tǒng)關系數(shù)據(jù)庫和矢量數(shù)據(jù)庫的強大功能,以滿足對高效和可擴展數(shù)據(jù)庫日益增長的需求。

Elasticsearch 的向量數(shù)據(jù)庫

Elasticsearch 包含一個用于向量搜索的向量數(shù)據(jù)庫。 Elastic 使開發(fā)人員能夠使用 Elasticsearch 相關性引擎 (ESRE) 構建自己的向量搜索引擎。

借助 Elasticsearch 工具,你可以構建一個向量搜索引擎,該引擎可以搜索非結構化和結構化數(shù)據(jù)、應用過濾器和分面、對文本和矢量數(shù)據(jù)應用混合搜索,并利用文檔和字段級安全性,同時在本地運行 云或混合環(huán)境中。

探索 Elasticsearch 向量數(shù)據(jù)庫文章來源地址http://www.zghlxwxcb.cn/news/detail-812008.html

向量數(shù)據(jù)庫資源

  • Elasticsearch 向量數(shù)據(jù)庫
  • Elastic 的向量搜索原理
  • 閱讀有關 ANN 算法的更多信息
  • 了解如何實現(xiàn)圖像相似度搜索

到了這里,關于Elasticsearch:什么是向量數(shù)據(jù)庫?的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Elasticsearch:向量數(shù)據(jù)庫的真相

    Elasticsearch:向量數(shù)據(jù)庫的真相

    通過工作示例了解什么是向量數(shù)據(jù)庫、它們?nèi)绾螌崿F(xiàn) “相似性” 搜索以及它們可以在明顯的 LLM 空間之外的哪些地方使用。除非你一直生活在巖石下,否則你可能聽說過諸如生成式人工智能和大型語言模型(LLM)之類的術語。 除此之外,你很有可能聽說過向量數(shù)據(jù)庫,它為

    2024年02月04日
    瀏覽(23)
  • 如何使用 Elasticsearch 作為向量數(shù)據(jù)庫

    如何使用 Elasticsearch 作為向量數(shù)據(jù)庫

    在今天的文章中,我們將很快地通過 Docker 來快速地設置 Elasticsearch 及 Kibana,并設置 Elasticsearch 為向量搜索。 在上面,我們指定了 elasic 超級用戶的密碼為 password。這在下面將要使用到。 驗證容器是否已啟動并正在運行: 從上面我們可以看到 Elasticsarch 及 Kibana 已經(jīng)完全運行

    2024年04月17日
    瀏覽(95)
  • 《向量數(shù)據(jù)庫指南》——AI原生向量數(shù)據(jù)庫Milvus Cloud 2.3新功能

    《向量數(shù)據(jù)庫指南》——AI原生向量數(shù)據(jù)庫Milvus Cloud 2.3新功能

    支持用戶通過 upsert 接口更新或插入數(shù)據(jù)。已知限制,自增 id 不支持 upsert;upsert 是內(nèi)部實現(xiàn)是 delete + insert所以性能上會有一定損耗,如果明確知道是寫入數(shù)據(jù)的場景請繼續(xù)使用 insert。 支持用戶通過輸入?yún)?shù)指定 search 的 distance 進行查詢,返回所有與目標向量距離位于某一

    2024年02月09日
    瀏覽(24)
  • Elasticsearch:語義搜索、知識圖和向量數(shù)據(jù)庫概述

    Elasticsearch:語義搜索、知識圖和向量數(shù)據(jù)庫概述

    結合對你自己的私有數(shù)據(jù)執(zhí)行語義搜索的概述 語義搜索是一種使用自然語言處理算法來理解單詞和短語的含義和上下文以提供更準確的搜索結果的搜索技術。 這種方法基于這樣的想法:搜索引擎不僅應該匹配查詢中的,還應該嘗試理解用戶搜索的意圖以及所使用的單

    2024年02月16日
    瀏覽(29)
  • 向量數(shù)據(jù)庫——AI時代的基座

    向量數(shù)據(jù)庫——AI時代的基座

    向量數(shù)據(jù)庫 在構建基于大語言模型的行業(yè) 智能應用 中扮演著重要角色。大模型雖然能回答一般性問題,但在垂直領域服務中,其知識深度、準確度和時效性有限。為了解決這一問題,企業(yè)可以利用向量數(shù)據(jù)庫結合大模型和自有知識資產(chǎn),構建垂直領域的智能服務。 向量數(shù)據(jù)

    2024年02月05日
    瀏覽(28)
  • 向量數(shù)據(jù)庫,能讓AI再次起飛嗎?

    向量數(shù)據(jù)庫,能讓AI再次起飛嗎?

    9月7-8日,深圳國際會展中心18號館 來了,來了,騰訊面向產(chǎn)業(yè)互聯(lián)網(wǎng)領域規(guī)格最高、規(guī)模最大、覆蓋最廣的年度科技盛會 -——- 騰訊全球數(shù)字生態(tài)大會 。 9 月 7 日,我們將 聚焦產(chǎn)業(yè)未來發(fā)展新趨勢 ,針對云計算、大數(shù)據(jù)、人工智能、安全、 SaaS 等核心數(shù)字化工具做關鍵進

    2024年02月09日
    瀏覽(16)
  • AI大模型崛起,向量數(shù)據(jù)庫登場

    引言 AI大模型的興起 2.1 深度學習與大模型 2.2 大模型的挑戰(zhàn) 向量數(shù)據(jù)庫的概念與應用 3.1 向量表示與相似度計算 3.2 向量數(shù)據(jù)庫的優(yōu)勢與應用場景 大模型與向量數(shù)據(jù)庫的結合 4.1 向量數(shù)據(jù)庫在大模型中的作用 4.2 大模型與向量數(shù)據(jù)庫的相互促進 技術進展與未來展望 5.1 近期技

    2024年02月15日
    瀏覽(41)
  • centos 安裝AI 向量數(shù)據(jù)庫 chroma

    1 官網(wǎng)地址:https://docs.trychroma.com/getting-started 有兩種方式:1,通過pip install ; 2 運行docker。 本教程通過pip install 方式: 通過以下方式解決: 寫一個python測試程序 chromatest.py pip3 chromatest.py 運行報錯: ImportError: zstd C API versions mismatch; Python bindings were not compiled/linked against expect

    2024年02月09日
    瀏覽(23)
  • 10個最流行的向量數(shù)據(jù)庫【AI】

    10個最流行的向量數(shù)據(jù)庫【AI】

    矢量數(shù)據(jù)庫是一種將數(shù)據(jù)存儲為高維向量的數(shù)據(jù)庫,高維向量是特征或屬性的數(shù)學表示。 每個向量都有一定數(shù)量的維度,范圍從幾十到幾千不等,具體取決于數(shù)據(jù)的復雜性和粒度。 推薦:用 NSDT場景設計器 快速搭建3D場景。 矢量數(shù)據(jù)庫(Vector Database)和矢量開發(fā)庫(Vector

    2024年02月03日
    瀏覽(16)
  • Spring AI - 使用向量數(shù)據(jù)庫實現(xiàn)檢索式AI對話

    Spring AI - 使用向量數(shù)據(jù)庫實現(xiàn)檢索式AI對話

    ?Spring AI 并不僅限于針對大語言模型對話API進行了統(tǒng)一封裝,它還可以通過簡單的方式實現(xiàn)LangChain的一些功能。本篇將帶領讀者實現(xiàn)一個簡單的檢索式AI對話接口。 ?在一些場景下,我們想讓AI根據(jù)我們提供的數(shù)據(jù)進行回復。因為對話有最大Token的限制,因此很多場景下我們

    2024年04月14日
    瀏覽(93)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包