国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相

這篇具有很好參考價(jià)值的文章主要介紹了Elasticsearch:向量數(shù)據(jù)庫(kù)的真相。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索

通過(guò)工作示例了解什么是向量數(shù)據(jù)庫(kù)、它們?nèi)绾螌?shí)現(xiàn) “相似性” 搜索以及它們可以在明顯的 LLM 空間之外的哪些地方使用。除非你一直生活在巖石下,否則你可能聽(tīng)說(shuō)過(guò)諸如生成式人工智能和大型語(yǔ)言模型(LLM)之類的術(shù)語(yǔ)。 除此之外,你很有可能聽(tīng)說(shuō)過(guò)向量數(shù)據(jù)庫(kù),它為 LLMs 的查詢提供上下文。 有沒(méi)有想過(guò)它們是什么以及它們?cè)诿黠@的 LLM 領(lǐng)域之外有何用處? 好吧,請(qǐng)繼續(xù)閱讀以了解這項(xiàng)令人興奮的新技術(shù),構(gòu)建您自己的向量數(shù)據(jù)庫(kù)并思考如何在你的項(xiàng)目中利用它,包括但不限于 LLMs。

以值匹配為中心的搜索的局限性

首先,讓我們看看到底缺少什么而引發(fā)了對(duì)不同類型數(shù)據(jù)庫(kù)技術(shù)的需求。 這是與搜索數(shù)據(jù)有關(guān)。 當(dāng)你在數(shù)據(jù)庫(kù)中聽(tīng)到 “搜索” 這個(gè)詞時(shí),你可能會(huì)立即想到正常的以數(shù)值或關(guān)鍵字為中心的搜索,例如:

  • 相等:其中 customer_id = 123
  • 比較:年齡大于 25 歲
  • 通配符:客戶名稱以 “Mc” 開(kāi)頭,例如 “McDonald”

有時(shí),這些以價(jià)值為中心的搜索也相互依存,例如

其中年齡 (age)?> 25 且郵政編碼 (zipcode) = ‘12345’

現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)在過(guò)去幾十年中不斷發(fā)展,提高了此類搜索的效率,我將其稱為 “以值為中心的搜索”,其中評(píng)估特定值以在查詢中進(jìn)行過(guò)濾。 雖然它們?cè)谠S多情況下都可以工作,可以說(shuō)在幾乎所有與業(yè)務(wù)相關(guān)的應(yīng)用程序中,但請(qǐng)考慮如下:

給我找一個(gè)像麗莎 (Lisa) 一樣的客戶

請(qǐng)注意所使用的過(guò)濾器:它并沒(méi)有詢問(wèn)姓名為 “Lisa” 的客戶; 只是像她這樣的人,即與 Lisa 相似的人。 相似是什么意思? 這是一個(gè)很難回答的問(wèn)題。 這不是名字,因?yàn)轭愃频目蛻艨赡鼙幻麨?Alice、Bob 或 Charlie。 難道是他們的年齡? 可能吧。 假設(shè)麗莎的年齡是 40 歲。40 歲的顧客最相似。 25 歲的客戶相似度會(huì)降低,55 歲的客戶也同樣不相似。

讓我們思考一下。 考慮這三位顧客各自的年齡。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索
顧客及其年齡

如果我們畫一個(gè)圖表,將 Lisa 的余額放在中間,然后繪制其他的圖表,它將如下圖所示。 他們的年齡與 40 歲(麗莎的年齡)的距離顯示了他們距離該目標(biāo)有多遠(yuǎn)。 在本例中,我們表明 Bob 最相似,Charlie 最不相似,而 Alice 更相似一些。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索

年齡只是客戶的一方面。 在尋找 “像麗莎” 這樣的人時(shí),我們可能會(huì)想到更多的屬性; 不只是一個(gè)。 其中一個(gè)屬性可以是客戶的凈資產(chǎn),如下所示,添加到原始表中:

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索
具有兩個(gè)屬性的客戶:年齡和凈資產(chǎn)

如果 Lisa 的凈資產(chǎn)是10萬(wàn),這些客戶之間會(huì)有什么新的相似之處? 我們可以創(chuàng)建一個(gè)以年齡和凈資產(chǎn)為兩個(gè)軸的二維圖表,如下圖所示。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索
二維客戶年齡和凈資產(chǎn) (注意上面 Y 軸的單位是 “千”)

然而,由于后者以千為單位,而前者以兩位數(shù)為單位,因此圖表將不成比例。 為了獲得相同的比例,我們需要將這些絕對(duì)值轉(zhuǎn)換為一些相對(duì)值以進(jìn)行比較。 年齡從 20 歲到 80 歲不等,即相差 60 歲。因此,Alice 與 Lisa 的年齡距離為 (40–20)/60 = 0.33。 同樣,凈資產(chǎn)的分布范圍為 50 到 200,即 150。同樣,Bob 的凈資產(chǎn)距離為 (200–100)/150 = 0.67。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索
顧客與 Lisa 的相對(duì)距離

我們發(fā)現(xiàn) Bob?的檔案不再與麗莎 “相似”。 為了找到復(fù)合距離,我們可以在二維圖上計(jì)算它們之間的距離,例如:

Composite Distance = Square Root of (Square of (Age Distance) + Square of (Net Worth Distance))

使用該公式,我們計(jì)算與 Lisa 的復(fù)合距離。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索
客戶與 Lisa 的復(fù)合距離

我們可能會(huì)發(fā)現(xiàn) Alice?距離 Lisa 的距離可能比 Bob 要近,而且和 Charlie 距離是最遠(yuǎn)。 只需添加一個(gè)維度即可顯著改變相似性。 考慮添加另一個(gè)維度,例如 “孩子的數(shù)量”,使其成為 3 維圖,這可能會(huì)進(jìn)一步改變物體與麗莎的距離。 實(shí)際上,對(duì)象有數(shù)百個(gè)屬性可供比較。 將所有這些都寫在紙上是不可能的。 但希望你能了解多維空間中兩點(diǎn)之間的距離。 距離越小,點(diǎn)越相似,0 表示在所有維度上完全相同。

點(diǎn)的屬性被捕獲為向量。 在上面的例子中,向量的維度將是 [Age,Net Worth]; 所以我們將按如下方式表示這些值。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索

代表 Lisa 的向量是 [40,100000]。 點(diǎn)之間的距離通常表示為歐幾里德距離,如下面二維空間的函數(shù) d() 所示。 資料來(lái)源:維基百科。

Elasticsearch:向量數(shù)據(jù)庫(kù)的真相,Elasticsearch,AI,Elastic,數(shù)據(jù)庫(kù),搜索引擎,serverless,elasticsearch,大數(shù)據(jù),全文檢索

運(yùn)用 Elasticsearch 作為向量數(shù)據(jù)并計(jì)算距離

在上面,我們通過(guò)一個(gè)詳細(xì)的例子描述了如何把數(shù)據(jù)轉(zhuǎn)換為向量,并計(jì)算向量直接的距離。事實(shí)上,如果我們通過(guò)手動(dòng)的方式來(lái)計(jì)算,就顯得非常麻煩。Elasticsearch 作為全球下載量最多的向量數(shù)據(jù)庫(kù),我們可以很方便地利用它來(lái)幫我們進(jìn)行計(jì)算向量之間的相似性。下面,我們來(lái)通過(guò) Elasticsearch 來(lái)實(shí)現(xiàn)向量之間的相似性。

首先,我們?yōu)橄蛄康乃饕x一個(gè) mapping:

PUT my-index
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 2,
        "similarity": "l2_norm"
      },
      "name" : {
        "type" : "keyword"
      }
    }
  }
}

請(qǐng)注意,在上面,我們定義了一個(gè)叫做 dense_vector 的數(shù)據(jù)類型。這個(gè)就是我們的向量數(shù)據(jù)類型。它的維度為 2。我們可以詳細(xì)參考 Elastic 官方文檔來(lái)了解這個(gè)數(shù)據(jù)類型。my_vector 的相似性,我們使用 l2_norm 來(lái)定義 similarity,它表明是歐幾里得距離。請(qǐng)?jiān)敿?xì)參閱文檔。

我們通過(guò)如下的命令來(lái)寫入數(shù)據(jù)到 Elasticsearch:

POST my-index/_bulk?refresh=true
{ "index" : { "_id" : "1" } }
{ "name" : "Alice", "my_vector": [20,100000] }
{ "index" : { "_id" : "2" } }
{ "name" : "Bob", "my_vector": [40,200000] }
{ "index" : {"_id" : "3" } }
{ "name" : "Charlie", "my_vector": [80,50000] }

我們可以通過(guò)如下的命令來(lái)查看寫入的數(shù)據(jù):

GET my_index/_search?filter_path=**.hits

上面的命令返回的響應(yīng)為:

  "hits": {
    "hits": [
      {
        "_index": "my_index",
        "_id": "1",
        "_score": 1,
        "_source": {
          "name": "Alice",
          "my_vector": [
            20,
            100000
          ]
        }
      },
      {
        "_index": "my_index",
        "_id": "2",
        "_score": 1,
        "_source": {
          "name": "Bob",
          "my_vector": [
            40,
            200000
          ]
        }
      },
      {
        "_index": "my_index",
        "_id": "3",
        "_score": 1,
        "_source": {
          "name": "Charlie",
          "my_vector": [
            80,
            50000
          ]
        }
      }
    ]
  }
}

我們可以通過(guò) Elasticsearch 來(lái)計(jì)算我們搜索對(duì)象 Lisa 的距離。搜索的結(jié)果將返回在我們的向量數(shù)據(jù)庫(kù)中最近的向量。它們是按照距離的大小進(jìn)行排序的。在上面的向量中,我們想找到一個(gè)最相近的 Lisa,而它的向量為 [40, 100000]。我們可以通過(guò)如下的方法來(lái)搜索我們的向量:

接下來(lái),我們使用 Elasticsearch 的 knn search 端點(diǎn)來(lái)進(jìn)行搜索:

POST my-index/_search?filter_path=**.hits
{
  "knn": {
    "field": "my_vector",
    "query_vector": [40, 100000],
    "k": 10,
    "num_candidates": 100
  }
}

上面的搜索結(jié)果是:

{
  "hits": {
    "hits": [
      {
        "_index": "my-index",
        "_id": "1",
        "_score": 0.0024937657,
        "_source": {
          "name": "Alice",
          "my_vector": [
            20,
            100000
          ]
        }
      },
      {
        "_index": "my-index",
        "_id": "3",
        "_score": 3.9999976e-10,
        "_source": {
          "name": "Charlie",
          "my_vector": [
            80,
            50000
          ]
        }
      },
      {
        "_index": "my-index",
        "_id": "2",
        "_score": 1e-10,
        "_source": {
          "name": "Bob",
          "my_vector": [
            40,
            200000
          ]
        }
      }
    ]
  }

如上所示,我們看到的結(jié)果是 Alice 排名是第一的,而緊隨其后的是 Charlie。而我們之前認(rèn)為的 Bob 是排在最后的一個(gè)。Bob 的距離是最遠(yuǎn)的,這個(gè)和之前的推送方法有一定的誤差,比如相對(duì)計(jì)算的方法不同。

更多有關(guān) Elasticsearch 向量搜索的內(nèi)容,請(qǐng)?jiān)敿?xì)閱讀文章 “AI”。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-759531.html

到了這里,關(guān)于Elasticsearch:向量數(shù)據(jù)庫(kù)的真相的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 《向量數(shù)據(jù)庫(kù)指南》——AI原生向量數(shù)據(jù)庫(kù)Milvus Cloud 2.3新功能

    《向量數(shù)據(jù)庫(kù)指南》——AI原生向量數(shù)據(jù)庫(kù)Milvus Cloud 2.3新功能

    支持用戶通過(guò) upsert 接口更新或插入數(shù)據(jù)。已知限制,自增 id 不支持 upsert;upsert 是內(nèi)部實(shí)現(xiàn)是 delete + insert所以性能上會(huì)有一定損耗,如果明確知道是寫入數(shù)據(jù)的場(chǎng)景請(qǐng)繼續(xù)使用 insert。 支持用戶通過(guò)輸入?yún)?shù)指定 search 的 distance 進(jìn)行查詢,返回所有與目標(biāo)向量距離位于某一

    2024年02月09日
    瀏覽(25)
  • Elasticsearch:語(yǔ)義搜索、知識(shí)圖和向量數(shù)據(jù)庫(kù)概述

    Elasticsearch:語(yǔ)義搜索、知識(shí)圖和向量數(shù)據(jù)庫(kù)概述

    結(jié)合對(duì)你自己的私有數(shù)據(jù)執(zhí)行語(yǔ)義搜索的概述 語(yǔ)義搜索是一種使用自然語(yǔ)言處理算法來(lái)理解單詞和短語(yǔ)的含義和上下文以提供更準(zhǔn)確的搜索結(jié)果的搜索技術(shù)。 這種方法基于這樣的想法:搜索引擎不僅應(yīng)該匹配查詢中的,還應(yīng)該嘗試?yán)斫庥脩羲阉鞯囊鈭D以及所使用的單

    2024年02月16日
    瀏覽(30)
  • 向量數(shù)據(jù)庫(kù)——AI時(shí)代的基座

    向量數(shù)據(jù)庫(kù)——AI時(shí)代的基座

    向量數(shù)據(jù)庫(kù) 在構(gòu)建基于大語(yǔ)言模型的行業(yè) 智能應(yīng)用 中扮演著重要角色。大模型雖然能回答一般性問(wèn)題,但在垂直領(lǐng)域服務(wù)中,其知識(shí)深度、準(zhǔn)確度和時(shí)效性有限。為了解決這一問(wèn)題,企業(yè)可以利用向量數(shù)據(jù)庫(kù)結(jié)合大模型和自有知識(shí)資產(chǎn),構(gòu)建垂直領(lǐng)域的智能服務(wù)。 向量數(shù)據(jù)

    2024年02月05日
    瀏覽(28)
  • AI大模型崛起,向量數(shù)據(jù)庫(kù)登場(chǎng)

    引言 AI大模型的興起 2.1 深度學(xué)習(xí)與大模型 2.2 大模型的挑戰(zhàn) 向量數(shù)據(jù)庫(kù)的概念與應(yīng)用 3.1 向量表示與相似度計(jì)算 3.2 向量數(shù)據(jù)庫(kù)的優(yōu)勢(shì)與應(yīng)用場(chǎng)景 大模型與向量數(shù)據(jù)庫(kù)的結(jié)合 4.1 向量數(shù)據(jù)庫(kù)在大模型中的作用 4.2 大模型與向量數(shù)據(jù)庫(kù)的相互促進(jìn) 技術(shù)進(jìn)展與未來(lái)展望 5.1 近期技

    2024年02月15日
    瀏覽(42)
  • 向量數(shù)據(jù)庫(kù),能讓AI再次起飛嗎?

    向量數(shù)據(jù)庫(kù),能讓AI再次起飛嗎?

    9月7-8日,深圳國(guó)際會(huì)展中心18號(hào)館 來(lái)了,來(lái)了,騰訊面向產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域規(guī)格最高、規(guī)模最大、覆蓋最廣的年度科技盛會(huì) -——- 騰訊全球數(shù)字生態(tài)大會(huì) 。 9 月 7 日,我們將 聚焦產(chǎn)業(yè)未來(lái)發(fā)展新趨勢(shì) ,針對(duì)云計(jì)算、大數(shù)據(jù)、人工智能、安全、 SaaS 等核心數(shù)字化工具做關(guān)鍵進(jìn)

    2024年02月09日
    瀏覽(16)
  • centos 安裝AI 向量數(shù)據(jù)庫(kù) chroma

    1 官網(wǎng)地址:https://docs.trychroma.com/getting-started 有兩種方式:1,通過(guò)pip install ; 2 運(yùn)行docker。 本教程通過(guò)pip install 方式: 通過(guò)以下方式解決: 寫一個(gè)python測(cè)試程序 chromatest.py pip3 chromatest.py 運(yùn)行報(bào)錯(cuò): ImportError: zstd C API versions mismatch; Python bindings were not compiled/linked against expect

    2024年02月09日
    瀏覽(23)
  • 10個(gè)最流行的向量數(shù)據(jù)庫(kù)【AI】

    10個(gè)最流行的向量數(shù)據(jù)庫(kù)【AI】

    矢量數(shù)據(jù)庫(kù)是一種將數(shù)據(jù)存儲(chǔ)為高維向量的數(shù)據(jù)庫(kù),高維向量是特征或?qū)傩缘臄?shù)學(xué)表示。 每個(gè)向量都有一定數(shù)量的維度,范圍從幾十到幾千不等,具體取決于數(shù)據(jù)的復(fù)雜性和粒度。 推薦:用 NSDT場(chǎng)景設(shè)計(jì)器 快速搭建3D場(chǎng)景。 矢量數(shù)據(jù)庫(kù)(Vector Database)和矢量開(kāi)發(fā)庫(kù)(Vector

    2024年02月03日
    瀏覽(17)
  • Spring AI - 使用向量數(shù)據(jù)庫(kù)實(shí)現(xiàn)檢索式AI對(duì)話

    Spring AI - 使用向量數(shù)據(jù)庫(kù)實(shí)現(xiàn)檢索式AI對(duì)話

    ?Spring AI 并不僅限于針對(duì)大語(yǔ)言模型對(duì)話API進(jìn)行了統(tǒng)一封裝,它還可以通過(guò)簡(jiǎn)單的方式實(shí)現(xiàn)LangChain的一些功能。本篇將帶領(lǐng)讀者實(shí)現(xiàn)一個(gè)簡(jiǎn)單的檢索式AI對(duì)話接口。 ?在一些場(chǎng)景下,我們想讓AI根據(jù)我們提供的數(shù)據(jù)進(jìn)行回復(fù)。因?yàn)閷?duì)話有最大Token的限制,因此很多場(chǎng)景下我們

    2024年04月14日
    瀏覽(94)
  • AI大模型低成本快速定制秘訣:RAG和向量數(shù)據(jù)庫(kù)

    AI大模型低成本快速定制秘訣:RAG和向量數(shù)據(jù)庫(kù)

    ??當(dāng)今人工智能領(lǐng)域,最受關(guān)注的毋庸置疑是大模型。然而,高昂的訓(xùn)練成本、漫長(zhǎng)的訓(xùn)練時(shí)間等都成為了制約大多數(shù)企業(yè)入局大模型的關(guān)鍵瓶頸。 ??這種背景下,向量數(shù)據(jù)庫(kù)憑借其獨(dú)特的優(yōu)勢(shì),成為解決低成本快速定制大模型問(wèn)題的關(guān)鍵所在。 ??向量數(shù)據(jù)庫(kù)是一種

    2024年02月05日
    瀏覽(23)
  • ModaHub魔搭社區(qū):騰訊云定義AI Native向量數(shù)據(jù)庫(kù)

    ModaHub魔搭社區(qū):騰訊云定義AI Native向量數(shù)據(jù)庫(kù)

    大模型時(shí)代的到來(lái),擁抱大模型成為企業(yè)的剛需。 向量數(shù)據(jù)庫(kù)通過(guò)把數(shù)據(jù)向量化然后進(jìn)行存儲(chǔ)和查詢,可以極大地提升效率和降低成本。它能解決大模型預(yù)訓(xùn)練成本高、沒(méi)有“長(zhǎng)期記憶”、知識(shí)更新不足、提示詞工程復(fù)雜等問(wèn)題,突破大模型在時(shí)間和空間上的限制,加速大模

    2024年02月12日
    瀏覽(35)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包