国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?

這篇具有很好參考價(jià)值的文章主要介紹了Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

Elasticsearch 從 7.3 版本開始支持向量搜索。從 8.0 開始支持帶有 HNSW 的 ANN 向量搜索。目前 Elasticsearch 已經(jīng)是全球下載量最多的向量數(shù)據(jù)庫。它允許使用密集向量和向量比較來搜索文檔。 向量搜索在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域有許多重要的應(yīng)用。 有效存儲和檢索向量的數(shù)據(jù)庫對于構(gòu)建生產(chǎn)就緒的 AI/ML 服務(wù)至關(guān)重要。更多關(guān)于 Elastic 向量搜索的信息,可以在地址?What is vector search? Better search with ML | Elastic?找到更多的信息。

向量到底是什么?

簡而言之,向量是數(shù)據(jù)的數(shù)值表示。 所有數(shù)據(jù)(表格、文本、圖像、視頻、聲音等)都可以表示為多維數(shù)字?jǐn)?shù)組。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

向量搜索的具體工作方式存在不同的技術(shù)變化,但基本思想集中在向量空間中的 ANN 算法搜索概念上。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

如上圖所示,我們可以看到在向量(嵌入)空間里,cat 和 kitten 這兩個(gè)單詞靠的比較近,而 dog 稍遠(yuǎn)一點(diǎn)。king 和 queen 這兩個(gè)詞靠的比較近一點(diǎn),而和 dog 及 cat,kitten 相隔的比較遠(yuǎn)。這個(gè)我們可以通過閱讀文章 “Elasticsearch:語義搜索 - Semantic Search in python” 也可以看出來。 那是一篇非常有趣的文章。值得閱讀。

作為向量的表格數(shù)據(jù)

將數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法易于使用的形式是在 ML 管道的數(shù)據(jù)預(yù)處理階段完成的。 這是管道的早期階段之一。

表格數(shù)據(jù)(例如 SQL 數(shù)據(jù)庫中的表)每行包含一個(gè)觀察值。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能
表示為向量的表格數(shù)據(jù)

每列中的數(shù)據(jù)可大致分為四種類型之一。

  • Nominal:名義數(shù)據(jù)是指沒有任何順序或定量值的值。 性別就是此類數(shù)據(jù)的一個(gè)例子。
  • Ordinal:序數(shù)數(shù)據(jù)具有自然排序,其中數(shù)字按其在刻度上的位置按某種順序出現(xiàn),但我們無法對它們執(zhí)行任何算術(shù)任務(wù)。 日期字段是序數(shù)數(shù)據(jù)的示例。
  • Discrete:離散數(shù)據(jù)包含屬于整數(shù)或整數(shù)的值。 班級中的學(xué)生總數(shù)是離散數(shù)據(jù)的一個(gè)示例。 這些數(shù)據(jù)不能分解為小數(shù)或分?jǐn)?shù)。
  • Continuous:連續(xù)數(shù)據(jù)采用小數(shù)形式。 例如,班級學(xué)生的身高就是連續(xù)數(shù)據(jù)的一個(gè)例子。

機(jī)器學(xué)習(xí)算法不擅長處理名義數(shù)據(jù)或有序數(shù)據(jù)。 因此,在將表格數(shù)據(jù)輸入機(jī)器學(xué)習(xí)算法之前,我們通常需要將這些字段轉(zhuǎn)換為數(shù)字。 編碼是機(jī)器學(xué)習(xí)中將非數(shù)字字段轉(zhuǎn)換為數(shù)字字段的過程。 對名義字段和序數(shù)字段進(jìn)行編碼后,你獲得向量數(shù)據(jù)集。

圖像作為向量

圖像可以表示為 3 維數(shù)字矩陣(技術(shù)上是 Rank-3 Tensor,但現(xiàn)在讓我們忽略細(xì)節(jié))。 兩個(gè)維度代表像素的坐標(biāo),第三個(gè)維度包含三個(gè)顏色通道。 矩陣中的數(shù)字范圍為 0 到 255,代表像素的三基色(紅、綠、藍(lán))的值。 因此,4 x 4 像素的彩色圖像可以表示為如下所示的矩陣。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

有關(guān)如何把圖像轉(zhuǎn)換為向量,請參考文章:

  • Elasticsearch:如何在 Elastic 中實(shí)現(xiàn)圖片相似度搜索

  • Elasticsearch:使用向量搜索來搜索圖片及文字

文本作為向量

文本信息可以轉(zhuǎn)換為一個(gè)長的數(shù)字向量,其中向量中的位置代表單詞,值代表該單詞在文本中出現(xiàn)的次數(shù)。 這稱為文本數(shù)據(jù)的詞袋(bag of words)表示。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

These are not the droid you are looking for. No, I am your father.

these:1, are: 2, not: 1, the: 1, droid: 1, you: 1, look: 1, for: 1

no: 1, i: 1, am:1, you: 1, father: 1

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

文本信息可以轉(zhuǎn)換為一個(gè)長的數(shù)字向量,其中向量中的位置代表單詞,值代表該單詞在文本中出現(xiàn)的次數(shù)。 這稱為文本數(shù)據(jù)的詞袋(bag of words)表示。這種早期形式的向量化文本會產(chǎn)生稀疏向量(帶有太多零的向量)?,F(xiàn)在存在更復(fù)雜的方法(詞嵌入)將文本轉(zhuǎn)換為向量。 這些方法可以生成緊湊、密集的向量,這些向量具有更小的存儲大小,并且還以這樣的方式對文本的含義進(jìn)行編碼:向量空間中更接近的文本預(yù)計(jì)在含義上相似。

為什么我們將數(shù)據(jù)表示為向量?

數(shù)據(jù)點(diǎn)(data points)在機(jī)器學(xué)習(xí)中被表示為向量,因?yàn)樗鼈兛梢杂行У鼐幋a和操作信息。 向量提供了一種簡潔且結(jié)構(gòu)化的格式來組織數(shù)據(jù)點(diǎn),其中每個(gè)向量元素對應(yīng)于特定的特征或?qū)傩浴?當(dāng)數(shù)據(jù)點(diǎn)表示為向量時(shí),機(jī)器學(xué)習(xí)算法可以輕松執(zhí)行加法、減法和點(diǎn)積等數(shù)學(xué)運(yùn)算。 這有利于訓(xùn)練和推理過程中涉及的各種計(jì)算,例如計(jì)算數(shù)據(jù)點(diǎn)之間的相似性、估計(jì)距離和優(yōu)化模型。 此外,向量可以使用線性代數(shù)和矩陣運(yùn)算,這構(gòu)成了許多機(jī)器學(xué)習(xí)技術(shù)的基礎(chǔ)。 通過利用向量的力量,機(jī)器學(xué)習(xí)算法可以有效地分析復(fù)雜的數(shù)據(jù)集并從中學(xué)習(xí),最終獲得準(zhǔn)確的預(yù)測和有價(jià)值的見解。

向量是數(shù)學(xué)的東西

向量搜索是一種已經(jīng)發(fā)展了數(shù)十年的機(jī)器學(xué)習(xí)技術(shù)。 它將單詞轉(zhuǎn)換為數(shù)字并使用相似性度量,或測量這些單詞彼此之間的相似程度。 它有點(diǎn)復(fù)雜,但我們可以通過依賴高中數(shù)學(xué)中的一些概念使它更具體。

兩點(diǎn)之間的線是一個(gè)向量,一端在原點(diǎn),另一端在一點(diǎn)。 我們將其表示為線段的終點(diǎn)。

用幾何術(shù)語來思考這一點(diǎn)使它更加具體。 你有一條帶有起點(diǎn)(稱為原點(diǎn))的線,它向左延伸六個(gè)點(diǎn),向右延伸六個(gè)點(diǎn)。 從同一原點(diǎn)開始,直線向上延伸六點(diǎn),向下延伸六點(diǎn)。 (你可以將線條延伸至無窮大,但為了具體起見,我們使用了一小部分?jǐn)?shù)字。)

如果我們把這些線變成圖表,那么左右的線就是 x 軸,上下的線就是 y 軸。 你可以用數(shù)字表示軸上的任何點(diǎn),一側(cè)為正數(shù),另一側(cè)為負(fù)數(shù)。 我們一直看到這種二維圖形,即平面。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能
圖 1 展示了帶有負(fù)數(shù)和正數(shù)的 x 和 y 圖

在圖 2 中,我們的向量(或線端點(diǎn))有兩個(gè)數(shù)字 — 一個(gè)代表 x 軸,另一個(gè)代表 y 軸。 二維意味著你需要兩個(gè)數(shù)字來描述向量空間中的一個(gè)位置。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能
圖 2 說明了一個(gè)二維向量,其中兩個(gè)點(diǎn)均已標(biāo)記。

要想象三個(gè)維度,我們需要從圖表中走出來,就像我們從一頁紙上走出來一樣。 三維點(diǎn)得到三個(gè)數(shù)字。

對于添加到向量的每個(gè)維度(這很難想象),都會得到一個(gè)附加數(shù)字(有時(shí)稱為稠密向量)。

在機(jī)器學(xué)習(xí)應(yīng)用中,計(jì)算機(jī)科學(xué)家將在數(shù)百或數(shù)千維的空間中處理向量。 這無疑使我們可視化它們的能力以及我們對幾何的一些直覺變得復(fù)雜,但二維和三維的相同原理也適用。

測量向量相似度

因此,向量允許我們將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為數(shù)字表示,這些數(shù)據(jù)包括單詞、圖像、查詢,甚至產(chǎn)品。 數(shù)據(jù)及其向量通過相似性進(jìn)行同步,并顯示與搜索者的問題和意圖相匹配的結(jié)果。

我們使用相似性指標(biāo)將數(shù)據(jù)與查詢進(jìn)行匹配。 這就是上面關(guān)于線、圖和向量空間的段落的用武之地。

當(dāng)我們談?wù)搩蓚€(gè)非結(jié)構(gòu)化數(shù)據(jù)的相關(guān)程度時(shí),我們需要某種方法來測量它們在向量空間中的距離。 向量用角度來衡量相似性。 這意味著向量的方向而不是向量的長度很重要。 線條的方向決定了角度的寬度,這就是我們衡量相似性的方式。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能
圖 3 顯示了三個(gè)二維向量來說明它們之間的角度

再次查看我們的圖表,我們看到三個(gè)向量。

  • 向量 A 是 (2,1)
  • 向量 B 是 (3,2)
  • 向量 C 為 (-1,? 2)

向量 A 和向量 B 之間的角度比向量 A 和向量 C 之間的角度小得多。

窄角度告訴我們,事物是密切相關(guān)的,即使一條線段比另一條線段長得多。 同樣,我們感興趣的是向量的方向,而不是長度。

如果兩個(gè)向量之間存在 180 度角,則表明它們是反相關(guān)的,這可能是有價(jià)值的信息。 如果角度為 90 度,則這兩個(gè)向量無法告訴你彼此的信息。

測量兩個(gè)向量之間的相似度或距離稱為余弦距離,因?yàn)榫嚯x(數(shù)字)的實(shí)際計(jì)算使用余弦函數(shù)。

查看曼哈頓地圖,您會發(fā)現(xiàn)大多數(shù)街道都是從上到下(北/南)和從左到右(東/西)延伸的。 當(dāng)我們需要查看最好的百吉餅店距離我們酒店有多遠(yuǎn)時(shí),有人會告訴我們向上三個(gè)街區(qū),向下一個(gè)街區(qū)。

這是測量距離的一種方法 —— 百吉餅店距離我所在的地方(原點(diǎn))有多遠(yuǎn),稱為曼哈頓距離。 但也有直線距離,這是一種不同的測量方法,稱為歐幾里德距離。 測量距離的方法有很多種,但這兩個(gè)例子給了我們這個(gè)想法。

在向量搜索中,更接近意味著 “更相關(guān)”,更遠(yuǎn)意味著 “更不相關(guān)”。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能

現(xiàn)在我們已經(jīng)將數(shù)據(jù)表示為向量,接下來會發(fā)生什么?

一旦數(shù)據(jù)以向量形式表示,通常會被輸入到預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)模型中,該模型將這些向量映射到新的向量空間,以便相似對象(文本、圖像或數(shù)據(jù)點(diǎn))的向量在向量中顯得彼此接近。新的向量空間。 這個(gè)過程稱為嵌入,你猜對了,生成的一組新向量也稱為嵌入。

Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?,Elasticsearch,AI,Elastic,數(shù)據(jù)庫,elasticsearch,大數(shù)據(jù),搜索引擎,全文檢索,人工智能
生成向量嵌入的 ML 管道

一旦我們有了一組新的向量(每個(gè)向量代表我們的一個(gè)數(shù)據(jù)點(diǎn)),其中與相似數(shù)據(jù)對應(yīng)的向量彼此接近,就會發(fā)生令人驚奇的事情。

當(dāng)數(shù)據(jù)被表示為基于某種相似性概念彼此靠近排列的向量時(shí),查找與給定項(xiàng)目相似的項(xiàng)目就簡化為查找與原始項(xiàng)目向量接近的所有項(xiàng)目向量。

那么有什么大不了的呢?

隨著向量搜索的發(fā)布,你現(xiàn)在可以使用簡單的運(yùn)算符 HNSW?對存儲在 Elasticsearch 中的向量執(zhí)行相似性搜索,而無需設(shè)置完全不同的并行基礎(chǔ)設(shè)施來執(zhí)行向量搜索。

應(yīng)用團(tuán)隊(duì)立即開始看到以下好處:

  • 簡化的應(yīng)用程序架構(gòu)和設(shè)計(jì)
  • 更快的應(yīng)用程序發(fā)布周期
  • 降低基礎(chǔ)設(shè)施成本
  • 降低維護(hù)費(fèi)用
  • 更快實(shí)現(xiàn)價(jià)值

能夠使用最新的人工智能技術(shù)(例如 LLMs 和生成式人工智能)快速增強(qiáng)用戶體驗(yàn)的應(yīng)用程序團(tuán)隊(duì)更有可能在競爭中領(lǐng)先。

更多關(guān)于如何使用 Elasticsearch 進(jìn)行向量搜索的知識,請閱讀 AI文章專欄。文章來源地址http://www.zghlxwxcb.cn/news/detail-716609.html

向量搜索用例

  1. 語義搜索:根據(jù)搜索查詢的含義和文檔內(nèi)容的含義來搜索文檔。 與傳統(tǒng)的文本搜索方法相比,語義搜索是一種從數(shù)據(jù)庫或搜索引擎檢索信息的更先進(jìn)的方法。 傳統(tǒng)文本搜索依賴于關(guān)鍵字匹配和精確單詞匹配,而語義搜索旨在理解用戶查詢和搜索內(nèi)容背后的上下文、意圖和含義。請參閱文章 “Elasticsearch:如何部署 NLP:文本嵌入和向量搜索”。
  2. 反向圖像搜索:查找 “看起來像” 給定圖像的圖像 - 例如 谷歌圖片搜索。請參閱文章 “Elasticsearch:如何在 Elastic 中實(shí)現(xiàn)圖片相似度搜索”。
  3. 推薦引擎:根據(jù)以前的視圖推薦社交媒體帖子(Instagram 中的 Think Image 推薦、Twitter 上的推文推薦、Facebook Feed 或 Youtube 中推薦的故事等)
  4. 抄襲檢測:根據(jù)文檔與數(shù)據(jù)庫中文檔的匹配程度來檢測抄襲。

到了這里,關(guān)于Elasticsearch:什么是向量和向量存儲數(shù)據(jù)庫,我們?yōu)槭裁搓P(guān)心?的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Elasticsearch:向量數(shù)據(jù)庫的真相

    Elasticsearch:向量數(shù)據(jù)庫的真相

    通過工作示例了解什么是向量數(shù)據(jù)庫、它們?nèi)绾螌?shí)現(xiàn) “相似性” 搜索以及它們可以在明顯的 LLM 空間之外的哪些地方使用。除非你一直生活在巖石下,否則你可能聽說過諸如生成式人工智能和大型語言模型(LLM)之類的術(shù)語。 除此之外,你很有可能聽說過向量數(shù)據(jù)庫,它為

    2024年02月04日
    瀏覽(22)
  • 如何使用 Elasticsearch 作為向量數(shù)據(jù)庫

    如何使用 Elasticsearch 作為向量數(shù)據(jù)庫

    在今天的文章中,我們將很快地通過 Docker 來快速地設(shè)置 Elasticsearch 及 Kibana,并設(shè)置 Elasticsearch 為向量搜索。 在上面,我們指定了 elasic 超級用戶的密碼為 password。這在下面將要使用到。 驗(yàn)證容器是否已啟動并正在運(yùn)行: 從上面我們可以看到 Elasticsarch 及 Kibana 已經(jīng)完全運(yùn)行

    2024年04月17日
    瀏覽(93)
  • 向量數(shù)據(jù)庫的崛起:如何改變數(shù)據(jù)存儲與機(jī)器學(xué)習(xí)的未來

    向量數(shù)據(jù)庫的崛起:如何改變數(shù)據(jù)存儲與機(jī)器學(xué)習(xí)的未來

    ??每周跟蹤AI熱點(diǎn)新聞動向和震撼發(fā)展 想要探索生成式人工智能的前沿進(jìn)展嗎?訂閱我們的簡報(bào),深入解析最新的技術(shù)突破、實(shí)際應(yīng)用案例和未來的趨勢。與全球數(shù)同行一同,從行業(yè)內(nèi)部的深度分析和實(shí)用指南中受益。不要錯(cuò)過這個(gè)機(jī)會,成為AI領(lǐng)域的領(lǐng)跑者。點(diǎn)擊訂閱,與

    2024年04月28日
    瀏覽(20)
  • Elasticsearch:語義搜索、知識圖和向量數(shù)據(jù)庫概述

    Elasticsearch:語義搜索、知識圖和向量數(shù)據(jù)庫概述

    結(jié)合對你自己的私有數(shù)據(jù)執(zhí)行語義搜索的概述 語義搜索是一種使用自然語言處理算法來理解單詞和短語的含義和上下文以提供更準(zhǔn)確的搜索結(jié)果的搜索技術(shù)。 這種方法基于這樣的想法:搜索引擎不僅應(yīng)該匹配查詢中的,還應(yīng)該嘗試?yán)斫庥脩羲阉鞯囊鈭D以及所使用的單

    2024年02月16日
    瀏覽(27)
  • 什么是向量數(shù)據(jù)庫 ?| What is a Vector Database?

    目錄 What’s the difference between a vector index and a vector database?矢量索引和矢量數(shù)據(jù)庫有什么區(qū)別? How does a vector database work?矢量數(shù)據(jù)庫如何工作? Algorithms Random Projection Product Quantization?產(chǎn)品量化

    2024年02月07日
    瀏覽(22)
  • AI大模型的制作:RAG和向量數(shù)據(jù)庫,分別是什么?

    AI大模型的制作:RAG和向量數(shù)據(jù)庫,分別是什么?

    目錄 一、什么是 AI 大模型 二、RAG 三、向量數(shù)據(jù)庫 四、如何制作一個(gè)好的?AI 大模型 AI大模型是指具有大規(guī)模參數(shù)和復(fù)雜結(jié)構(gòu)的人工智能模型。傳統(tǒng)的機(jī)器學(xué)習(xí)模型通常有限的參數(shù)量,而AI大模型則通過增加參數(shù)量和層數(shù)來提升模型的表達(dá)能力和性能。這種模型通常使用深度

    2024年02月05日
    瀏覽(25)
  • AIGC基礎(chǔ):大型語言模型 (LLM) 為什么使用向量數(shù)據(jù)庫,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是將數(shù)據(jù)(例如文本、圖像或代碼)轉(zhuǎn)換為高維向量的數(shù)值表示。這些向量捕捉了數(shù)據(jù)點(diǎn)之間的語義含義和關(guān)系??梢詫⑵淅斫鉃閷?fù)雜數(shù)據(jù)翻譯成 LLM 可以理解的語言。 為什么有用?原始數(shù)據(jù)之間的相似性反映在高維空間中對應(yīng)向量之間的距離上。

    2024年02月21日
    瀏覽(98)
  • LangChain 4用向量數(shù)據(jù)庫Faiss存儲,讀取YouTube的視頻文本搜索Indexes for information retrieve

    LangChain 4用向量數(shù)據(jù)庫Faiss存儲,讀取YouTube的視頻文本搜索Indexes for information retrieve

    接著前面的Langchain,繼續(xù)實(shí)現(xiàn)讀取YouTube的視頻腳本來問答Indexes for information retrieve LangChain 實(shí)現(xiàn)給動物取名字, LangChain 2模塊化prompt template并用streamlit生成網(wǎng)站 實(shí)現(xiàn)給動物取名字 LangChain 3使用Agent訪問Wikipedia和llm-math計(jì)算狗的平均年齡 引用向量數(shù)據(jù)庫Faiss 查看OpenAI model main.p

    2024年02月05日
    瀏覽(28)
  • 使用 Elasticsearch 作為向量數(shù)據(jù)庫:深入研究 dense_vector 和 script_score

    使用 Elasticsearch 作為向量數(shù)據(jù)庫:深入研究 dense_vector 和 script_score

    Elasticsearch 是一個(gè)非常強(qiáng)大且靈活的搜索和分析引擎。 雖然其主要用例圍繞全文搜索,但它的用途廣泛,足以用于各種其他功能。 其中一項(xiàng)引起許多開發(fā)人員和數(shù)據(jù)科學(xué)家關(guān)注的功能是使用 Elasticsearch 作為向量數(shù)據(jù)庫。 隨著 dense_vector 數(shù)據(jù)類型的出現(xiàn)以及利用 script_score 函數(shù)

    2024年02月07日
    瀏覽(24)
  • ModaHub魔搭社區(qū):騰訊云發(fā)布的向量數(shù)據(jù)庫有什么特點(diǎn)?技術(shù)架構(gòu)是什么樣的?

    ModaHub魔搭社區(qū):騰訊云發(fā)布的向量數(shù)據(jù)庫有什么特點(diǎn)?技術(shù)架構(gòu)是什么樣的?

    騰訊云發(fā)布的向量數(shù)據(jù)庫有什么特點(diǎn)?技術(shù)架構(gòu)是什么樣的? Tencent Cloud VectorDB從性能上看,具備高性能、高可用、低成本等優(yōu)勢,比如單索引支持10億級向量規(guī)模,最快支持毫秒級數(shù)據(jù)實(shí)時(shí)更新,適用于AI運(yùn)算、檢索,數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍。 同時(shí),提供多副

    2024年02月12日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包