国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<bdo id="er22y"></bdo>

神經(jīng)數(shù)據(jù)庫：用于使用 ChatGPT 構(gòu)建專用 AI 代理的下一代上下文檢索系統(tǒng) — （第 2/3 部分）

2年前作者：阿爾法旺旺分類：Toy博客閱讀(15)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了神經(jīng)數(shù)據(jù)庫：用于使用 ChatGPT 構(gòu)建專用 AI 代理的下一代上下文檢索系統(tǒng) — （第 2/3 部分）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

書接上回理解構(gòu)建LLM驅(qū)動(dòng)的聊天機(jī)器人時(shí)的向量數(shù)據(jù)庫檢索的局限性 - （第1/3部分）_阿爾法旺旺的博客-CSDN博客

其中我們強(qiáng)調(diào)了（1）嵌入生成，然后（2）使用近似近鄰（ANN）搜索進(jìn)行矢量搜索的解耦架構(gòu)的缺點(diǎn)。我們討論了生成式 AI 模型生成的向量嵌入之間的余弦相似性可能不是獲取相關(guān)內(nèi)容以進(jìn)行提示的正確指標(biāo)。我們還強(qiáng)調(diào)，在生產(chǎn)環(huán)境中，通過向量數(shù)據(jù)庫存儲(chǔ)、更新和維護(hù)嵌入非常昂貴。

在這篇文章中，我們將討論使用學(xué)習(xí)索引的現(xiàn)代神經(jīng)數(shù)據(jù)庫學(xué)習(xí)如何緩解在嵌入和搜索相關(guān)的大多數(shù)問題方面提供對(duì)矢量數(shù)據(jù)庫的重大升級(jí)。最后，我們將簡(jiǎn)要介紹我們正在構(gòu)建的用于解決ThirdAI這些問題的神經(jīng)數(shù)據(jù)庫技術(shù)，我們將在下一篇文章中深入探討。

維護(hù)、存儲(chǔ)和搜索嵌入的痛點(diǎn)

為了說明工程挑戰(zhàn)，讓我們考慮使用 Pubmed 35M 數(shù)據(jù)集構(gòu)建 AI 代理的示例，這是一個(gè)符合行業(yè)標(biāo)準(zhǔn)的小型存儲(chǔ)庫。該數(shù)據(jù)集由大約 35 萬個(gè)摘要組成，轉(zhuǎn)化為大約 100 萬個(gè)塊，需要 100 萬個(gè)嵌入。假設(shè)每個(gè)區(qū)塊平均有 250 個(gè)代幣，我們做出以下觀察：

嵌入是非常重的對(duì)象：像 Ada-02 這樣更簡(jiǎn)單的 OpenAI 模型為每個(gè)文本塊生成大約 1500 維的嵌入。文本塊約為 250 個(gè)標(biāo)記（每個(gè)標(biāo)記平均 4 個(gè)字符）。存儲(chǔ) 100 萬個(gè) Pubmed 塊大約需要 600GB 來存儲(chǔ)嵌入。相比之下，未壓縮的原始文本的完整數(shù)據(jù)只有200GB。更精確的LLM模型的嵌入維度超過12000，這將需要大約5.5 TB的存儲(chǔ)空間，僅用于處理嵌入向量。
具有高維嵌入的近似近鄰搜索（ANN）要么慢要么不準(zhǔn)確：三十多年來，人們已經(jīng)認(rèn)識(shí)到，高維近鄰搜索，即使是近似形式，從根本上也是困難的。大多數(shù)ANN算法，包括流行的基于圖形的HNSW，都需要重量級(jí)的數(shù)據(jù)結(jié)構(gòu)管理，以確?？煽康母咚偎阉?。任何ANN專家都知道，搜索的相關(guān)性和性能在很大程度上取決于向量嵌入的分布，這使得它非常不可預(yù)測(cè)。此外，隨著嵌入維度的增加，維護(hù)ANN、其搜索相關(guān)性和延遲可能會(huì)面臨重大挑戰(zhàn)。
ANN索引的更新和刪除存在問題：大多數(shù)現(xiàn)代向量數(shù)據(jù)庫和ANN系統(tǒng)都是基于HNSW或其他圖遍歷算法構(gòu)建的，其中嵌入向量是節(jié)點(diǎn)。由于這些圖形索引的構(gòu)造方式的性質(zhì)，基于文檔內(nèi)容中的更改更新節(jié)點(diǎn)可能是一個(gè)非常緩慢的操作，因?yàn)樗枰聢D形的邊緣。出于同樣的原因，刪除文檔也可能很慢。嵌入更新的動(dòng)態(tài)性質(zhì)甚至?xí)绊憴z索的整體準(zhǔn)確性。因此，對(duì)數(shù)據(jù)庫的增量更新非常脆弱。從頭開始重建通常成本太高。
檢索失敗很難評(píng)估和修復(fù)：當(dāng)給定的文本查詢無法檢索相關(guān)的基礎(chǔ)上下文，而是提供不相關(guān)或垃圾文本時(shí)，此失敗可能有三個(gè)原因：a）數(shù)據(jù)庫中不存在相關(guān)的文本塊，b）嵌入質(zhì)量很差，因此無法使用余弦相似性匹配兩個(gè)相關(guān)文本，c）嵌入很好，但由于嵌入的分布，近似近鄰算法無法檢索到正確的嵌入。雖然原因（a）是可以接受的，因?yàn)閱栴}似乎與數(shù)據(jù)集無關(guān)，但區(qū)分原因（b）和（c）可能是一個(gè)乏味的調(diào)試過程。此外，我們無法控制ANN搜索，并且優(yōu)化嵌入可能無法解決問題。因此，即使在確定問題后，我們也可能無法修復(fù)它。

臭名昭著的維度詛咒：大量高維向量的ANN從根本上來說是困難和不可預(yù)測(cè)的。如果可以的話，避免整個(gè)過程。

持續(xù)自適應(yīng)領(lǐng)域特定檢索系統(tǒng)：無嵌入神經(jīng)數(shù)據(jù)庫

事實(shí)證明，有一個(gè)簡(jiǎn)單的AI系統(tǒng)可以進(jìn)行端到端的訓(xùn)練，而無需昂貴，繁重和復(fù)雜的高維嵌入。關(guān)鍵概念是完全繞過嵌入過程，將檢索問題作為可以端到端學(xué)習(xí)的神經(jīng)預(yù)測(cè)系統(tǒng)來處理。在這種方法中，神經(jīng)網(wǎng)絡(luò)用于將給定的查詢文本直接映射到相關(guān)文本。此過程需要數(shù)據(jù)結(jié)構(gòu)以提高效率。每年都會(huì)在ICML，NeurIPS和ICLR等會(huì)議上發(fā)表大量論文，探討這些想法。我們的設(shè)計(jì)是NeurIPS論文的簡(jiǎn)化版本，隨后的研究在ICLR和KDD上發(fā)表。

神經(jīng)數(shù)據(jù)庫同樣也涉及兩個(gè)階段，如下所述。

訓(xùn)練和插入（或索引）階段：系統(tǒng)的前向工作流程如下圖所示。

神經(jīng)數(shù)據(jù)庫：用于使用 ChatGPT 構(gòu)建專用 AI 代理的下一代上下文檢索系統(tǒng) — （第 2/3 部分）,人工智能

該系統(tǒng)利用強(qiáng)大的大型神經(jīng)網(wǎng)絡(luò)生成將文本映射到離散鍵的內(nèi)存位置。這些預(yù)測(cè)鍵充當(dāng)存儲(chǔ)桶，用于插入和稍后檢索相關(guān)文本塊。從本質(zhì)上講，這是一個(gè)很好的舊哈希圖，其中哈希函數(shù)是一個(gè)大型神經(jīng)網(wǎng)絡(luò)，經(jīng)過訓(xùn)練來預(yù)測(cè)指針。為了訓(xùn)練網(wǎng)絡(luò)，我們需要“語義相關(guān)”的文本對(duì)和標(biāo)準(zhǔn)的交叉熵?fù)p失。有關(guān)更多詳細(xì)信息，請(qǐng)參閱?2019 年 NeurIPS?論文和隨后的?KDD 2022 論文中提供的理論和實(shí)驗(yàn)比較。從數(shù)學(xué)上講，可以證明模型的大小隨文本塊的數(shù)量以對(duì)數(shù)方式縮放，從而導(dǎo)致運(yùn)行時(shí)間和內(nèi)存的指數(shù)級(jí)改進(jìn)。此方法不需要嵌入管理。

查詢或檢索階段：?查詢或檢索階段同樣簡(jiǎn)單，如下圖所示。

神經(jīng)數(shù)據(jù)庫：用于使用 ChatGPT 構(gòu)建專用 AI 代理的下一代上下文檢索系統(tǒng) — （第 2/3 部分）,人工智能

給定一個(gè)問題，我們使用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分類器來計(jì)算排名前幾個(gè)桶的概率。然后，我們累積與這些頂級(jí)存儲(chǔ)桶關(guān)聯(lián)的所有 ChunkID。然后，對(duì)與問題相關(guān)的頂級(jí)存儲(chǔ)桶及其相關(guān)相關(guān)性分?jǐn)?shù)進(jìn)行聚合和排序，以返回候選文本塊的小型排名列表。然后，這些文本塊被用作生成 AI 的提示，以生成最終的接地響應(yīng)。

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)庫相對(duì)于嵌入和ANN的主要優(yōu)勢(shì)

我們通過相同的Pubmed 35M AI-Agents應(yīng)用程序來說明神經(jīng)數(shù)據(jù)庫的優(yōu)勢(shì)。

沒有嵌入導(dǎo)致指數(shù)壓縮：我們的方法所需的額外內(nèi)存僅在于存儲(chǔ)神經(jīng)網(wǎng)絡(luò)的參數(shù)。我們發(fā)現(xiàn)，一個(gè) 25?億參數(shù)的神經(jīng)網(wǎng)絡(luò)足以訓(xùn)練和索引完整的 Pubmed 35M 數(shù)據(jù)集。訓(xùn)練純粹是自我監(jiān)督的，因?yàn)槲覀儾恍枰魏螛?biāo)記的樣本。即使有所有的開銷，我們只有不到 20GB 的存儲(chǔ)空間用于完整索引。相比之下，使用矢量數(shù)據(jù)庫存儲(chǔ) 1500?維嵌入模型的數(shù)量至少為 600GB。這并不奇怪，因?yàn)槭褂们度肽Ｐ?，?jì)算和內(nèi)存隨塊數(shù)線性擴(kuò)展。相比之下，我們的神經(jīng)數(shù)據(jù)庫僅隨塊的數(shù)量進(jìn)行對(duì)數(shù)縮放，正如我們的NeurIPS論文所證明的那樣。
像管理傳統(tǒng)數(shù)據(jù)庫一樣管理插入和刪除：?與基于圖的近鄰索引不同，神經(jīng)數(shù)據(jù)庫具有簡(jiǎn)單的 KEY、VALUE 類型哈希表，其中插入、刪除、并行化、分片等都很簡(jiǎn)單，而且很容易理解。
超快速推理和顯著降低成本：?推理延遲僅包括運(yùn)行神經(jīng)網(wǎng)絡(luò)推理，然后是哈希表查找。最后，只有選定的區(qū)塊只需要對(duì)少數(shù)候選者進(jìn)行簡(jiǎn)單的加權(quán)聚合和排序。與嵌入和矢量數(shù)據(jù)庫相比，您可能會(huì)看到檢索速度快 10-100 倍。此外，借助ThirdAI突破性的稀疏神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法，我們可以在普通CPU上訓(xùn)練和部署這些模型。
使用持續(xù)學(xué)習(xí)進(jìn)行增量式的學(xué)習(xí)索引：可以使用語義含義相似的任何文本對(duì)來訓(xùn)練神經(jīng)索引。這意味著，對(duì)專門針對(duì)任何理想的任務(wù)或領(lǐng)域，檢索系統(tǒng)可以不斷訓(xùn)練。獲取用于訓(xùn)練的文本對(duì)并不難。首先，它們可以很容易地以自我監(jiān)督的方式生成。此外，它們自然可用于任何具有用戶交互的生產(chǎn)系統(tǒng)。

ThirdAI的亮點(diǎn)

在本系列的下一篇也是最后一篇博客文章（第 3/3 部分）中，我們將討論?ThirdAI 的神經(jīng)數(shù)據(jù)庫生態(tài)系統(tǒng)，以及如何通過“動(dòng)態(tài)稀疏性”來馴服像LLM這樣的龐然大物，以便在任何數(shù)據(jù)處理系統(tǒng)中運(yùn)行，無論是在云上還是在本地。我們還將介紹一組簡(jiǎn)單的自動(dòng)調(diào)優(yōu) Python API。這些 API 使你能夠在設(shè)備上利用下一代學(xué)習(xí)索引的強(qiáng)大功能。此外，我們將解釋如何使用簡(jiǎn)單的CPU和幾行Python代碼創(chuàng)建一個(gè)接地氣的Pubmed Q&A AI-Agent，同時(shí)通過本地環(huán)境（不需要互聯(lián)網(wǎng)）保持隱私。如上一篇文章所示，使用標(biāo)準(zhǔn)的OpenAI嵌入和矢量數(shù)據(jù)庫生態(tài)系統(tǒng)構(gòu)建這樣的AI代理通常需要花費(fèi)數(shù)十萬美元。您可以使用ThirdAI在您的個(gè)人設(shè)備上基本上免費(fèi)獲得所有這些。文章來源地址http://www.zghlxwxcb.cn/news/detail-615749.html

到了這里，關(guān)于神經(jīng)數(shù)據(jù)庫：用于使用 ChatGPT 構(gòu)建專用 AI 代理的下一代上下文檢索系統(tǒng) — （第 2/3 部分）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

中東 Shopify 如何使用 Bytebase 構(gòu)建一站式數(shù)據(jù)庫開發(fā)工作流
Salla 是一家 2016 年成立，位于沙特麥加的自建站電商平臺(tái)。作為中東 Shopify，其最大的特點(diǎn)是支持阿拉伯語建站，并且提供更多適應(yīng)中東地區(qū)特點(diǎn)的本地化服務(wù)。截止目前，已有 47,000 家店鋪入駐 Salla，商品銷售總額達(dá)到了 43 億美元，近三年保持了接近 100% 的增速。與 Sall
2024年02月09日
瀏覽(20)
kafka的安裝，用于數(shù)據(jù)庫同步數(shù)據(jù)
因業(yè)務(wù)需求，需要查詢其他部門的數(shù)據(jù)庫數(shù)據(jù)，不方便直連數(shù)據(jù)庫，所以要定時(shí)將他們的數(shù)據(jù)同步到我們的環(huán)境中，技術(shù)選型選中了kafka+CDC Kafka是Apache旗下的一款分布式流媒體平臺(tái)，Kafka是一種高吞吐量、持久性、分布式的發(fā)布訂閱的消息隊(duì)列系統(tǒng)。它最初由LinkedIn(領(lǐng)英)公司
2024年02月20日
瀏覽(20)
使用Docker構(gòu)建的MySQL主從架構(gòu)：高可用性數(shù)據(jù)庫解決方案
MySQL主從架構(gòu)，我們已經(jīng)在vmware虛擬機(jī)上實(shí)踐過了，接下來我們一起探討在docker中如何使用MySQL主從架構(gòu)。 ??個(gè)人主頁：我是沐風(fēng)曉月 ??個(gè)人簡(jiǎn)介：大家好，我是沐風(fēng)曉月，阿里云社區(qū)博客專家???? ?? 座右銘：先努力成長(zhǎng)自己，再幫助更多的人，一起加油進(jìn)步??????
2024年02月08日
瀏覽(16)
用于將Grafana默認(rèn)數(shù)據(jù)庫sqlite3遷移到MySQL數(shù)據(jù)庫
以下是一個(gè)方案，用于將Grafana數(shù)據(jù)遷移到MySQL數(shù)據(jù)庫。背景: grafana 默認(rèn)采用的是sqlite3，當(dāng)我們要以集群形式部署的時(shí)使用mysql較為方便，試了很多sqlite轉(zhuǎn)mysql的方法要么收費(fèi),最后放棄。選擇自己動(dòng)手風(fēng)衣足食。目標(biāo): 遷移sqlite3切換數(shù)據(jù)庫到mysql 前提條件: 確保你已經(jīng)安裝了
2024年02月20日
瀏覽(25)
第44章 SQL 用于各種數(shù)據(jù)庫的數(shù)據(jù)類型教程
Microsoft Access、MySQL 和 SQL Server 所使用的數(shù)據(jù)類型和范圍。數(shù)據(jù)類型描述存儲(chǔ) Text 用于文本或文本與數(shù)字的組合。最多 255 個(gè)字符。 Memo Memo 用于更大數(shù)量的文本。最多存儲(chǔ) 65,536 個(gè)字符。注釋：無法對(duì) memo 字段進(jìn)行排序。不過它們是可搜索的。 Byte 允許 0 到 255 的數(shù)字。
2024年02月06日
瀏覽(26)
數(shù)據(jù)庫ChatGPT插件來了，SQL使用體驗(yàn)進(jìn)一步起飛
基于 ChatGPT API 和 OpenMLDB 數(shù)據(jù)庫實(shí)現(xiàn)的 openmldb-chatgpt-plugin 項(xiàng)目開源了，作為人類迄今為止最強(qiáng)AI模型之一（GPT4未開放API），集成了 ChatGPT 模型的數(shù)據(jù)庫有多好用，下面將帶大家體驗(yàn)一下。實(shí)現(xiàn)原理是在ChatGPT API基礎(chǔ)上做了一定的 Prompt engineering ，沒有用 fine tune ，在標(biāo)準(zhǔn)SQL場(chǎng)景
2023年04月16日
瀏覽(21)
用于農(nóng)業(yè)格局分析的新型大型航空影像數(shù)據(jù)庫
第一次農(nóng)業(yè)革命發(fā)生在大約12，000年前，當(dāng)時(shí)人類定居并開始種植農(nóng)作物。從那以后，我們極大地改善了農(nóng)業(yè)的藝術(shù)和科學(xué)，擴(kuò)大了規(guī)模和產(chǎn)量，并在此過程中塑造了人類文明。一場(chǎng)新的、人工智能驅(qū)動(dòng)的農(nóng)業(yè)革命現(xiàn)在開始了嗎？人工智能系統(tǒng)已經(jīng)在幫助農(nóng)民進(jìn)行土壤分析、
2024年02月13日
瀏覽(21)
圖數(shù)據(jù)庫_Neo4j學(xué)習(xí)cypher語言_使用CQL_構(gòu)建明星關(guān)系圖譜_導(dǎo)入明星數(shù)據(jù)_導(dǎo)入明星關(guān)系數(shù)據(jù)_創(chuàng)建明星關(guān)系---Neo4j圖數(shù)據(jù)庫工作筆記0009
首先找到明星數(shù)據(jù) ? 可以看到有一個(gè)sheet1,是,記錄了所有的關(guān)系的數(shù)據(jù) ? 然后比如我們搜索一個(gè)撒貝寧,可以看到撒貝寧的數(shù)據(jù) ? 然后這個(gè)是構(gòu)建的CQL語句 ? 首先我們先去啟動(dòng)服務(wù) neo4j console ? ? 然后我們?cè)賮砜匆幌乱郧皩?dǎo)入的,可以看到導(dǎo)入很簡(jiǎn)單, 就是上面有CQL 看一下節(jié)
2024年02月12日
瀏覽(28)
Java一般用于postgis空間數(shù)據(jù)庫通用的增刪查改sql命令
目錄 1 增加 2 刪除 3 查詢 4 更新 \\\"public\\\".\\\"JGSQGW_Geo\\\"為某模式下得表? 一般postgrel有這樣的設(shè)計(jì)模式
2024年02月13日
瀏覽(24)
Docker的使用教程、學(xué)習(xí)筆記，附實(shí)戰(zhàn)：部署chatgpt網(wǎng)頁版ui，部署mysql8數(shù)據(jù)庫
作者：ChenZhen 博客地址：https://www.chenzhen.space/ 版權(quán)：來自b站視頻【SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式，系統(tǒng)詳解springcloud微服務(wù)技術(shù)棧課程|黑馬程序員Java微服務(wù)】因?yàn)楹隈R的課件ppt做的實(shí)在是太好了，基本就是原樣copy過來整理一下。如果對(duì)你有幫助，請(qǐng)給一個(gè)小小的
2024年02月04日
瀏覽(38)

<ruby id="2dpsv"></ruby>

<bdo id="2dpsv"><tbody id="2dpsv"></tbody></bdo>