国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?

這篇具有很好參考價(jià)值的文章主要介紹了有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

“除了向量數(shù)據(jù)庫(kù)外,我是否還需要一個(gè)普通的 SQL 數(shù)據(jù)庫(kù)?”

這是我們經(jīng)常被問到的一個(gè)問題。如果除了向量數(shù)據(jù)以外,用戶還有其他標(biāo)量數(shù)據(jù)信息,那么其業(yè)務(wù)可能需要在進(jìn)行語(yǔ)義相似性搜索前先根據(jù)某種條件過濾數(shù)據(jù),例如:

  • 在法律領(lǐng)域,可能只需要從某個(gè)特定數(shù)據(jù)庫(kù)中搜索相關(guān)的法律條款;

  • 在零售業(yè),可能需要搜索某個(gè)尺碼的男鞋;

  • 在圖像搜索時(shí),可能希望搜索 2010-2016 年上映且 IMDB 電影評(píng)分高于 7.0 的電影的海報(bào)。

對(duì)此,我們的答案是——不需要。用向量數(shù)據(jù)庫(kù) Milvus 或全托管的 Milvus 服務(wù)——Zilliz Cloud,就無需額外再維護(hù)一個(gè) SQL 數(shù)據(jù)庫(kù)存儲(chǔ)標(biāo)量了。只要一個(gè)系統(tǒng),用戶便可起送實(shí)現(xiàn)“向量搜索+標(biāo)量過濾”的混合查詢,從而獲取更精準(zhǔn)的搜索結(jié)果。

其中,Milvus 允許用戶在進(jìn)行向量搜索時(shí)依據(jù)標(biāo)量數(shù)據(jù)進(jìn)行條件過濾,數(shù)據(jù)屬性可以是除向量以外的任何字段。Milvus 會(huì)對(duì)向量字段創(chuàng)建向量索引并進(jìn)行向量相似性搜索,與此同時(shí),還可以通過表達(dá)式對(duì)搜索結(jié)果進(jìn)行元數(shù)據(jù)過濾。只需在搜索時(shí)輸入過濾表達(dá)式,Milvus 就會(huì)幫你自動(dòng)進(jìn)行這兩種操作。

本教程使用 Zilliz Cloud Pipelines—— Zilliz Cloud 內(nèi)置的功能,用于將非結(jié)構(gòu)化數(shù)據(jù)編碼為 Embedding 向量,同時(shí)支持用文本和過濾表達(dá)式直接搜索向量。我們將演示如何利用標(biāo)量過濾來召回只符合某些特定條件的文檔片段,例如特定的來源網(wǎng)址,或者特定的文件名稱。大家也可以利用類似的思路實(shí)現(xiàn)召回帶有特定標(biāo)簽的文檔,例如發(fā)表年份、版本號(hào)等。

01. 創(chuàng)建 Collection 和 Pipelines

本教程需要用到 Zilliz Cloud 免費(fèi)版(海外版)。Zilliz Cloud 是全托管的 Milvus 服務(wù),將用戶的數(shù)據(jù)庫(kù)部署在 Serverless 云服務(wù)器上,但我們?nèi)耘f可以通過調(diào)用 PyMiluvs API 接口在本地使用 Zilliz Cloud 向量數(shù)據(jù)庫(kù)。以下用來測(cè)試的文本內(nèi)容來自于 PyMilvus 文檔

  1. 打開 https://cloud.zilliz.com/ 并創(chuàng)建 “Starter” 版本集群。
有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生
  1. 添加 Collection 名稱,點(diǎn)擊“創(chuàng)建 Collection 和 集群”。
有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

默認(rèn)情況下,創(chuàng)建 Zilliz Cloud 集群時(shí)會(huì)同時(shí)創(chuàng)建 1 個(gè) Collection,本教程中不會(huì)使用它。后面我們創(chuàng)建 Zilliz Cloud Pipelines 時(shí),會(huì)自動(dòng)創(chuàng)建另一個(gè) Collection。請(qǐng)注意,這兩個(gè) Collection 不相同。

  1. 在左側(cè)導(dǎo)航欄中點(diǎn)擊 Piplines,跟隨界面提示創(chuàng)建 Pipelines 并上傳數(shù)據(jù):

a. 請(qǐng)先選擇創(chuàng)建“Ingestion Pipeline”。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

b. 選擇剛剛創(chuàng)建的 Serverless 集群,分別輸入 Collection 和 Pipeline 名稱,點(diǎn)擊“添加 function”。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

c. 選擇INDEX_DOC function,輸入function名稱,其他參數(shù)值保留默認(rèn)即可,點(diǎn)擊“添加”。這個(gè)function會(huì)將文檔切片生成向量。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

d. (可選)再次點(diǎn)擊“添加 function”。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

e. (可選)選擇 PRESERVE function,并為其命名,點(diǎn)擊“添加”。這個(gè) function 用來保存文檔的標(biāo)簽信息。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生
  1. 點(diǎn)擊“創(chuàng)建 Ingestion Pipeline”?,F(xiàn)在,我們已經(jīng)完成創(chuàng)建 Ingestion Pipeline 和 Collection。
有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生
  1. 點(diǎn)擊“創(chuàng)建 Deletion 和 Search Pipeline”。

  2. 進(jìn)入 Pipelines 列表頁(yè)面,點(diǎn)擊按鈕“??”運(yùn)行 Ingestion Pipeline。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生
  1. Ingestion Pipeline支持上傳您在對(duì)象存儲(chǔ)上的文件(例如AWS S3 和 Google Cloud Storage)。本例中我們將數(shù)據(jù)上傳至 AWS S3。上傳完成后,點(diǎn)擊“通過 Pre-signed-URL 分享”。復(fù)制分享鏈接(Pre-signed URL)。如果沒有對(duì)象存儲(chǔ),可以使用我們提供的測(cè)試文件鏈接 https://publicdataset.zillizcloud.com/milvus_doc.md 當(dāng)作Pre-signed URL。
有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生
  1. 在代碼中粘貼Pre-signed URL 并點(diǎn)擊運(yùn)行。這步會(huì)將文件進(jìn)行分片提取向量并導(dǎo)入到向量數(shù)據(jù)庫(kù) Collection 中。
有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生
  1. 進(jìn)入collection頁(yè)面,檢查 Collection 和 Schema 是否正確。此時(shí)文檔片段的向量應(yīng)該已經(jīng)顯示在Data Preview中了。
有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

之后,可以在 Playground 界面上或者通過調(diào)用 API 來查詢數(shù)據(jù)。

02. 用標(biāo)量過濾召回符合特定標(biāo)簽的向量

  1. 在 Pipeline 列表中找到 “Search Pipeline”并點(diǎn)擊右側(cè)的按鈕“??”運(yùn)行 Search Pipeline。

  2. 在請(qǐng)求中,輸入一個(gè)問題并點(diǎn)擊“運(yùn)行”。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生
  1. 編輯“過濾條件”。請(qǐng)使用布爾表達(dá)式。點(diǎn)擊運(yùn)行后,可以看到 Zilliz Cloud 已經(jīng)根據(jù)您輸入的條件過濾了搜索結(jié)果。
有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

用 Zilliz Cloud Pipelines 進(jìn)行元數(shù)據(jù)過濾就是這么簡(jiǎn)單!你可以通過布爾表達(dá)式針對(duì)除向量字段以外的所有標(biāo)量字段進(jìn)行條件過濾。

03. 通過 API 接口進(jìn)行搜索

同樣,我們也可以通過調(diào)用 API 接口來進(jìn)行搜索,使用 API 過程中,用戶需要提供以下兩點(diǎn):

  • Zilliz API Token

  • Pipeline ID

我們可以通過集群詳情頁(yè)獲取 API Token。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

如需獲取 Pipeline ID,請(qǐng)先在 Pipelines 列表頁(yè)找到 Search Pipeline,隨后在 Pipeline ID 一欄中復(fù)制該 Pipelines 的ID。在調(diào)用 API 接口時(shí)將 Pipeline ID 粘貼到 URL 中。

有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?,程序人生

import requests, json
url = "https://controller.api.gcp-us-west1.zillizcloud.com/v1/pipelines/pipe-xxxx/run"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {TOKEN}",
}
data = {
    "data": {
        "query_text": SAMPLE_QUESTION
    },
    "params": {
        "limit": TOP_K,
        "offset": 0,
        # Any of these fields can be used in filter expression.
        "outputFields": ["chunk_text", "chunk_id", "doc_name", "source"],
        "filter": "doc_name == 'param.html'"
    }
}

# Send the POST request
response = requests.post(url, headers=headers, json=data)

用 API 進(jìn)行元數(shù)據(jù)過濾搜索就是這么簡(jiǎn)單!如果大家有興趣了解更多 Zilliz Cloud Pipelines 的使用方法,可以參考 Notebook用 Pipelines 搭建一個(gè)有標(biāo)簽過濾功能的 RAG 問答機(jī)器人,歡迎上手嘗試。

本文由 mdnice 多平臺(tái)發(fā)布文章來源地址http://www.zghlxwxcb.cn/news/detail-772056.html

到了這里,關(guān)于有了向量數(shù)據(jù)庫(kù),我們還需 SQL 數(shù)據(jù)庫(kù)嗎?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 《向量數(shù)據(jù)庫(kù)指南》:向量數(shù)據(jù)庫(kù)Pinecone如何集成LangChain (一)

    《向量數(shù)據(jù)庫(kù)指南》:向量數(shù)據(jù)庫(kù)Pinecone如何集成LangChain (一)

    目錄 LangChain中的檢索增強(qiáng) 建立知識(shí)庫(kù) 歡迎使用Pinecone和LangChain的集成指南。本文檔涵蓋了將高性能向量數(shù)據(jù)庫(kù)Pinecone與基于大型語(yǔ)言模型(LLMs)構(gòu)建應(yīng)用程序的框架LangChain集成的步驟。 ? Pinecone使開發(fā)人員能夠基于向量相似性搜索構(gòu)建可擴(kuò)展的實(shí)時(shí)推薦和搜索系統(tǒng)。另一方

    2024年02月15日
    瀏覽(18)
  • 《向量數(shù)據(jù)庫(kù)》——向量數(shù)據(jù)庫(kù)Milvus Cloud 和Dify比較

    《向量數(shù)據(jù)庫(kù)》——向量數(shù)據(jù)庫(kù)Milvus Cloud 和Dify比較

    Zilliz Cloud v.s. Dify Dify 作為開源的 LLMs App 技術(shù)棧,在此前已支持豐富多元的大型語(yǔ)言模型的接入,除了 OpenAI、Anthropic、Azure OpenAI、Hugging face、Replicate 等全球頂尖模型及模型托管平臺(tái),也完成了國(guó)內(nèi)主流的各大模型支持(如文心一言、智譜 AI 等)。 而 Zilliz Cloud ?和 Milvus 則是

    2024年02月08日
    瀏覽(41)
  • 《向量數(shù)據(jù)庫(kù)指南》——開源框架NVIDIA Merlin & 向量數(shù)據(jù)庫(kù)Milvus

    《向量數(shù)據(jù)庫(kù)指南》——開源框架NVIDIA Merlin & 向量數(shù)據(jù)庫(kù)Milvus

    推薦系統(tǒng) pipeline 中至關(guān)重要的一環(huán)便是為用戶檢索并找到最相關(guān)的商品。為了實(shí)現(xiàn)這一目標(biāo),通常會(huì)使用低維向量(embedding)表示商品,使用數(shù)據(jù)庫(kù)存儲(chǔ)及索引數(shù)據(jù),最終對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行近似最近鄰(ANN)搜索。這些向量表示是通過深度學(xué)習(xí)模型獲取的,而這些深度學(xué)習(xí)

    2024年02月05日
    瀏覽(22)
  • 《向量數(shù)據(jù)庫(kù)指南》——AI原生向量數(shù)據(jù)庫(kù)Milvus Cloud 2.3新功能

    《向量數(shù)據(jù)庫(kù)指南》——AI原生向量數(shù)據(jù)庫(kù)Milvus Cloud 2.3新功能

    支持用戶通過 upsert 接口更新或插入數(shù)據(jù)。已知限制,自增 id 不支持 upsert;upsert 是內(nèi)部實(shí)現(xiàn)是 delete + insert所以性能上會(huì)有一定損耗,如果明確知道是寫入數(shù)據(jù)的場(chǎng)景請(qǐng)繼續(xù)使用 insert。 支持用戶通過輸入?yún)?shù)指定 search 的 distance 進(jìn)行查詢,返回所有與目標(biāo)向量距離位于某一

    2024年02月09日
    瀏覽(24)
  • 《向量數(shù)據(jù)庫(kù)指南》——騰訊云向量數(shù)據(jù)庫(kù)(Tencent Cloud VectorDB) SDK 正式開源

    《向量數(shù)據(jù)庫(kù)指南》——騰訊云向量數(shù)據(jù)庫(kù)(Tencent Cloud VectorDB) SDK 正式開源

    騰訊云向量數(shù)據(jù)庫(kù) SDK 宣布正式開源。根據(jù)介紹,騰訊云向量數(shù)據(jù)庫(kù)(Tencent Cloud VectorDB)的 Python SDK 與 Java SDK 是基于數(shù)據(jù)庫(kù)設(shè)計(jì)模型,遵循 HTTP 協(xié)議,將 API 封裝成易于使用的 Python 與 Java 函數(shù)或類,為開發(fā)者提供了更加友好、更加便捷的數(shù)據(jù)庫(kù)使用和管理方式。 騰訊云向量

    2024年02月10日
    瀏覽(17)
  • 【向量數(shù)據(jù)庫(kù)】相似向量檢索Faiss數(shù)據(jù)庫(kù)的安裝及余弦相似度計(jì)算(C++)

    Faiss 是一個(gè)強(qiáng)大的向量相似度搜索庫(kù),具有以下優(yōu)點(diǎn): 高效的搜索性能:Faiss 在處理大規(guī)模向量數(shù)據(jù)時(shí)表現(xiàn)出色。它利用了高度優(yōu)化的索引結(jié)構(gòu)和近似搜索算法,可以快速地執(zhí)行最近鄰搜索和相似度匹配,具有很低的查詢延遲。 高度可擴(kuò)展:Faiss 提供了多種索引結(jié)構(gòu)和算法

    2024年02月07日
    瀏覽(23)
  • 向量數(shù)據(jù)庫(kù):使用Elasticsearch實(shí)現(xiàn)向量數(shù)據(jù)存儲(chǔ)與搜索

    Here’s the table of contents: ??Elasticsearch在7.x的版本中支持 向量檢索 。在向量函數(shù)的計(jì)算過程中,會(huì)對(duì)所有匹配的文檔進(jìn)行線性掃描。因此,查詢預(yù)計(jì)時(shí)間會(huì)隨著匹配文檔的數(shù)量線性增長(zhǎng)。出于這個(gè)原因,建議使用查詢參數(shù)來限制匹配文檔的數(shù)量(類似二次查找的邏輯,先使

    2024年02月07日
    瀏覽(97)
  • 物聯(lián)網(wǎng)行業(yè)中,我們?nèi)绾芜x擇數(shù)據(jù)庫(kù)?

    物聯(lián)網(wǎng)行業(yè)中,我們?nèi)绾芜x擇數(shù)據(jù)庫(kù)?

    在當(dāng)今數(shù)字化潮流中,我們面對(duì)的不僅是海量數(shù)據(jù),更是時(shí)間的漣漪。從生產(chǎn)線的傳感器到金融市場(chǎng)的交易記錄,時(shí)間序列數(shù)據(jù)成為了理解事物演變和趨勢(shì)的關(guān)鍵。在面對(duì)這樣龐大而動(dòng)態(tài)的數(shù)據(jù)流時(shí),我們需要深入了解一種強(qiáng)大的工具——時(shí)序數(shù)據(jù)庫(kù)。時(shí)序數(shù)據(jù)庫(kù)的崛起不僅

    2024年04月15日
    瀏覽(24)
  • 【大模型 向量庫(kù)】從向量搜索到向量數(shù)據(jù)庫(kù)

    【大模型 向量庫(kù)】從向量搜索到向量數(shù)據(jù)庫(kù)

    ? 向量伴隨著 AI 模型的發(fā)展而發(fā)展。 向量:AI 理解世界的通用數(shù)據(jù)形式,是多模態(tài)數(shù)據(jù)的壓縮。 比如大模型輸入輸出都是文字文本,但模型實(shí)際接觸和學(xué)習(xí)數(shù)據(jù)是向量化文本。 這個(gè)步驟叫 Embedding(嵌入),將文字文本轉(zhuǎn)化為保留語(yǔ)義關(guān)系的向量文本。 embedding 模型對(duì)自然語(yǔ)

    2024年02月20日
    瀏覽(17)
  • 《向量數(shù)據(jù)庫(kù)指南》——騰訊云向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB產(chǎn)品特性,架構(gòu)和應(yīng)用場(chǎng)景

    《向量數(shù)據(jù)庫(kù)指南》——騰訊云向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB產(chǎn)品特性,架構(gòu)和應(yīng)用場(chǎng)景

    騰訊云向量數(shù)據(jù)庫(kù)(Tencent Cloud VectorDB)是一款全托管的自研企業(yè)級(jí)分布式數(shù)據(jù)庫(kù)服務(wù),專用于存儲(chǔ)、檢索、分析多維向量數(shù)據(jù)。該數(shù)據(jù)庫(kù)支持多種索引類型和相似度計(jì)算方法,單索引支持 10 億級(jí)向量規(guī)模,可支持百萬(wàn)級(jí) QPS 及毫秒級(jí)查詢延遲。騰訊云向量數(shù)據(jù)庫(kù)不僅能為大模

    2024年02月14日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包