国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<th id="3gpaq"></th>

向量數(shù)據(jù)庫：使用Elasticsearch實現(xiàn)向量數(shù)據(jù)存儲與搜索

2年前作者：馬超的博客分類：Toy博客閱讀(97)違法舉報

這篇具有很好參考價值的文章主要介紹了向量數(shù)據(jù)庫：使用Elasticsearch實現(xiàn)向量數(shù)據(jù)存儲與搜索。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Here’s the table of contents:

向量數(shù)據(jù)庫：使用Elasticsearch實現(xiàn)向量數(shù)據(jù)存儲與搜索

一、簡介

??Elasticsearch在7.x的版本中支持向量檢索。在向量函數(shù)的計算過程中，會對所有匹配的文檔進行線性掃描。因此，查詢預計時間會隨著匹配文檔的數(shù)量線性增長。出于這個原因，建議使用查詢參數(shù)來限制匹配文檔的數(shù)量（類似二次查找的邏輯，先使用match query檢索到相關文檔，然后使用向量函數(shù)計算文檔相關度）。

??訪問dense_vector的推薦方法是通過cosinessimilarity, dotProduct, 1norm或l2norm函數(shù)。但是需要注意，每個DSL腳本只能調用這些函數(shù)一次。例如，不要在循環(huán)中使用這些函數(shù)來計算文檔向量和多個其他向量之間的相似性。如果需要該功能，可以通過直接訪問向量值來重新實現(xiàn)這些函數(shù)。

二、實驗前準備

2.1 創(chuàng)建索引設置向量字段

??創(chuàng)建一個支持向量檢索的mapping，字段類型為dense_vector。

// 7.x 支持的 dims 最大為 1024。
PUT index3
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 3
      },
      "my_text" : {
        "type" : "keyword"
      }
    }
  }
}

2.2 寫入數(shù)據(jù)

PUT index3/_doc/1
{
  "my_text" : "text1",
  "my_vector" : [0.5, 10, 6]
}

PUT index3/_doc/2
{
  "my_text" : "text2",
  "my_vector" : [-0.5, 10, 10]
}

三、向量計算函數(shù)

3.1 余弦相似度：cosineSimilarity

??cosinessimilarity函數(shù)計算給定查詢向量和文檔向量之間的余弦相似性度量。

POST index3/_search
{
  "query": {
    "script_score": {
      "query": {
        "match_all": {}
      },
      "script": {
        "source": "cosineSimilarity(params.queryVector, doc['my_vector'])+1.0",
        "params": {
          "queryVector": [-0.5, 10, 6]
        }
      }
    }
  }
}

要限制script_score計算的文檔數(shù)量，需要提供一個過濾器 (query)。
script腳本在cosineSimilarity上增加了1.0，以防止得分為負。
為了更好的利用DSL優(yōu)化器，可以使用參數(shù)的方式提供一個查詢向量。
檢查缺失值：如果文檔中沒有用于執(zhí)行向量函數(shù)的向量字段的值，會拋出錯誤。可以使用doc['my_vector'].size() == 0來檢查文檔是否有my_vector字段的值。腳本樣例:

"source": 
"
doc['my_vector'].size() == 0 ? 0 : 
cosineSimilarity(params.queryVector, 'my_vector')
"

??如果文檔的dense_vector字段與查詢的向量維度不同，就會拋出異常。

3.2 計算點積：dotProduct

??dotProduct函數(shù)計算給定查詢向量和文檔向量之間的點積度量。

POST index3/_search
{
  "query": {
    "script_score": {
      "query": {
        "match_all": {}
      },
      "script": {
        "source": """
        double value = dotProduct(params.queryVector,doc['my_vector']);
        return sigmoid(1, Math.E, -value);
        """,
        "params": {
          "queryVector": [
            -0.5,
            10,
            6
          ]
        }
      }
    }
  }
}

使用標準的sigmoid函數(shù)可以防止分數(shù)為負。

3.3 曼哈頓距離：l1norm

??l1norm函數(shù)計算給定查詢向量和文檔向量之間的L1距離(曼哈頓距離)。

POST index3/_search
{
  "query": {
    "script_score": {
      "query": {
        "match_all": {}
      },
      "script": {
        "source":"1 / (1 + l1norm(params.queryVector, doc['my_vector']))",
        "params": {
          "queryVector": [-0.5, 10, 6]
        }
      }
    }
  }
}

與表示相似性的余弦相似度不同，1norm和l2norm表示距離或差異。這意味著，向量越相似，由1norm和l2norm函數(shù)產生的分數(shù)就越低。因此，當我們需要相似的向量來獲得更高的分數(shù)時，我們將1norm和l2norm的輸出反過來。另外，為了避免在文檔向量與查詢完全匹配時被除0，在分母中加了1。

3.4 歐幾里得距離：l2norm

??l2norm函數(shù)計算給定查詢向量和文檔向量之間的L2距離(歐幾里德距離)。

POST index3/_search
{
  "query": {
    "script_score": {
      "query": {
        "match_all": {}
      },
      "script": {
        "source": "1 / (1 + l2norm(params.queryVector, doc['my_vector']))",
        "params": {
          "queryVector": [
            -0.5,
            10,
            6
          ]
        }
      }
    }
  }
}

3.5 自定義計算函數(shù)

??使用函數(shù)訪問向量的值，自定義實現(xiàn)向量余弦相似度計算。ES 中向量檢索 doc[].vectorValue 函數(shù)是在 Elasticsearch 7.8.0 版本開始支持的，在ES 7.5.1 或 7.8.0 以下版本會運行失敗。

??可以通過以下函數(shù)直接訪問向量值:

doc[<field>].vectorValue – 以浮點數(shù)數(shù)組的形式返回向量的值。
doc[<field>].magnitude – 將向量的大小作為浮點數(shù)返回（對于7.5版本之前創(chuàng)建的向量，其向量的大小不會被存儲）。所以這個函數(shù)每次被調用時都會進行重新計算。文章來源地址http://www.zghlxwxcb.cn/news/detail-468010.html

POST index3/_search
{
  "query": {
    "script_score": {
      "query": {
        "match_all": {}
      },
      "script": {
        "source": """
          float[] v = doc['my_vector'].vectorValue;
          float vm = doc['my_vector'].magnitude;
          float dotProduct = 0;
          for (int i = 0; i < v.length; i++) {
            dotProduct += v[i] * params.queryVector[i];
          }
          return dotProduct / (vm * (float) params.queryVectorMag);
        """,
        "params": {
          "queryVector": [
            -0.5,
            10,
            6
          ],
          "queryVectorMag": 5.25357
        }
      }
    }
  }
}

到了這里，關于向量數(shù)據(jù)庫：使用Elasticsearch實現(xiàn)向量數(shù)據(jù)存儲與搜索的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

Elasticsearch：什么是向量數(shù)據(jù)庫？
向量數(shù)據(jù)庫是將信息存儲為向量的數(shù)據(jù)庫，向量是數(shù)據(jù)對象的數(shù)值表示，也稱為向量嵌入。它利用這些向量嵌入的強大功能來對非結構化數(shù)據(jù)和半結構化數(shù)據(jù)（例如圖像、文本或傳感器數(shù)據(jù)）的海量數(shù)據(jù)集進行索引和搜索。向量數(shù)據(jù)庫是為了管理向量嵌入而構建的，因此為
2024年01月21日
瀏覽(32)
向量數(shù)據(jù)庫的崛起：如何改變數(shù)據(jù)存儲與機器學習的未來
??每周跟蹤AI熱點新聞動向和震撼發(fā)展想要探索生成式人工智能的前沿進展嗎？訂閱我們的簡報，深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數(shù)同行一同，從行業(yè)內部的深度分析和實用指南中受益。不要錯過這個機會，成為AI領域的領跑者。點擊訂閱，與
2024年04月28日
瀏覽(21)
向量數(shù)據(jù)庫:usearch的簡單使用+實現(xiàn)圖片檢索應用
usearch是快速開源搜索和聚類引擎×，用于C++、C、Python、JavaScript、Rust、Java、Objective-C、Swift、C#、GoLang和Wolfram ??中的向量和??字符串× 一個簡單的例子（注：本例子在運行時向index中不斷添加項目，并將最后的index持久化為一個文件，在運行時由于添加項目內存占用會不斷增
2024年02月02日
瀏覽(97)
Spring AI - 使用向量數(shù)據(jù)庫實現(xiàn)檢索式AI對話
?Spring AI 并不僅限于針對大語言模型對話API進行了統(tǒng)一封裝，它還可以通過簡單的方式實現(xiàn)LangChain的一些功能。本篇將帶領讀者實現(xiàn)一個簡單的檢索式AI對話接口。 ?在一些場景下，我們想讓AI根據(jù)我們提供的數(shù)據(jù)進行回復。因為對話有最大Token的限制，因此很多場景下我們
2024年04月14日
瀏覽(93)
向量數(shù)據(jù)庫入坑：傳統(tǒng)文本檢索方式的降維打擊，使用 Faiss 實現(xiàn)向量語義檢索
在上一篇文章《聊聊來自元宇宙大廠 Meta 的相似度檢索技術 Faiss》中，我們有聊到如何快速入門向量檢索技術，借助 Meta AI（Facebook Research）出品的 faiss 實現(xiàn)“最基礎的文本內容相似度檢索工具”，初步接觸到了“語義檢索”這種對于傳統(tǒng)文本檢索方式具備“降維打擊”的新
2024年02月16日
瀏覽(96)
Elasticsearch：語義搜索、知識圖和向量數(shù)據(jù)庫概述
結合對你自己的私有數(shù)據(jù)執(zhí)行語義搜索的概述語義搜索是一種使用自然語言處理算法來理解單詞和短語的含義和上下文以提供更準確的搜索結果的搜索技術。這種方法基于這樣的想法：搜索引擎不僅應該匹配查詢中的，還應該嘗試理解用戶搜索的意圖以及所使用的單
2024年02月16日
瀏覽(30)
C#使用詞嵌入向量與向量數(shù)據(jù)庫為大語言模型(LLM)賦能長期記憶實現(xiàn)私域問答機器人落地
? 本文將探討如何使用c#開發(fā)基于大語言模型的私域聊天機器人落地。大語言模型（Large Language Model，LLM 這里主要以chatgpt為代表的的文本生成式人工智能）是一種利用深度學習方法訓練的能夠生成人類語言的模型。這種模型可以處理大量的文本數(shù)據(jù)，并學習從中獲得的模式，
2024年02月03日
瀏覽(100)
LangChain 4用向量數(shù)據(jù)庫Faiss存儲，讀取YouTube的視頻文本搜索Indexes for information retrieve
接著前面的Langchain，繼續(xù)實現(xiàn)讀取YouTube的視頻腳本來問答Indexes for information retrieve LangChain 實現(xiàn)給動物取名字， LangChain 2模塊化prompt template并用streamlit生成網(wǎng)站實現(xiàn)給動物取名字 LangChain 3使用Agent訪問Wikipedia和llm-math計算狗的平均年齡引用向量數(shù)據(jù)庫Faiss 查看OpenAI model main.p
2024年02月05日
瀏覽(30)
C#使用詞嵌入向量與向量數(shù)據(jù)庫為大語言模型(LLM)賦能長期記憶實現(xiàn)私域問答機器人落地之openai接口平替
------------恢復內容開始------------ 在上一篇文章中我們大致講述了一下如何通過詞嵌入向量的方式為大語言模型增加長期記憶，用于落地在私域場景的問題。其中涉及到使用openai的接口進行詞嵌入向量的生成以及chat模型的調用由于眾所周知的原因，國內調用openai接口并不友好
2024年02月06日
瀏覽(101)
【ElasticSearch】深入探索 ElasticSearch 對數(shù)據(jù)的聚合、查詢自動補全、與數(shù)據(jù)庫間的同步問題以及使用 RabbitMQ 實現(xiàn)與數(shù)據(jù)庫間的同步
在本文中，我們將深入探討 ElasticSearch 在數(shù)據(jù)處理中的關鍵功能，包括數(shù)據(jù)聚合、查詢自動補全以及與數(shù)據(jù)庫的同步問題。首先，我們將聚焦于 ElasticSearch 強大的聚合功能，解釋什么是聚合以及如何通過 DSL 語句和 RestClient 實現(xiàn)各種聚合操作。這一功能能夠讓我們更深入地了
2024年02月08日
瀏覽(28)

<option id="3e6o5"><pre id="3e6o5"><center id="3e6o5"></center></pre></option>