在基于索引器的索引編制中,Azure AI _集成矢量化_將數(shù)據(jù)分塊和文本到矢量嵌入添加到技能中,它還為查詢添加文本到矢量的轉(zhuǎn)換。
關注TechLead,分享AI全維度知識。作者擁有10+年互聯(lián)網(wǎng)服務架構、AI產(chǎn)品研發(fā)經(jīng)驗、團隊管理經(jīng)驗,同濟本復旦碩,復旦機器人智能實驗室成員,阿里云認證的資深架構師,項目管理專業(yè)人士,上億營收AI產(chǎn)品研發(fā)負責人。文章來源地址http://www.zghlxwxcb.cn/news/detail-752662.html
一、組件圖
下圖顯示了集成矢量化的組件。
下面是負責集成矢量化的組件清單:
- 基于索引器的索引編制支持的數(shù)據(jù)源。
- 一個用于指定矢量字段的索引,以及一個分配到矢量字段的矢量化器定義。
- 一個用于為數(shù)據(jù)分塊提供文本拆分技能的技能組,以及一個矢量化技能(AzureOpenAiEmbedding 技能,或指向外部嵌入模型的自定義技能)。
- (可選)用于將分塊數(shù)據(jù)推送到次要索引的索引投影(也在技能組中定義)
- 一個嵌入模型,部署在 Azure OpenAI 上或通過 HTTP 終結點提供。
- 一個用于端到端驅(qū)動流程的索引器。 索引器還指定用于進行更改檢測的計劃、字段映射和屬性。
此清單主要與集成矢量化有關,但你的解決方案并不局限于此列表。 可以添加其他 AI 擴充技能、創(chuàng)建知識存儲、添加語義排名、添加相關性優(yōu)化和其他查詢功能。
二、可用性和定價
集成矢量化可用性基于嵌入模型。 如果使用的是 Azure OpenAI,請查看區(qū)域可用性。
如果使用的是自定義技能和 Azure 托管機制(例如 Azure 函數(shù)應用、Azure Web 應用和 Azure Kubernetes),請查看各區(qū)域上市的產(chǎn)品頁以了解功能可用性。
數(shù)據(jù)分塊(文本拆分技能)是免費的,已在所有區(qū)域的所有 Azure AI 服務中提供。
三、集成矢量化支持哪些方案?
-
將大型文檔劃分為塊,這對于矢量和非矢量方案很有用。 對于矢量方案,塊可幫助你滿足嵌入模型的輸入約束。 對于非矢量方案,你可能會使用一個聊天式搜索應用,其中的 GPT 從編制了索引的塊中組合響應。 可以使用矢量化塊或非矢量化塊進行聊天式搜索。
-
生成一個矢量存儲,其中的所有字段都是矢量字段,只有文檔 ID(搜索索引所需)是字符串字段。 查詢矢量索引以檢索文檔 ID,然后將文檔的矢量字段發(fā)送到另一個模型。
-
組合矢量和文本字段來執(zhí)行提供或不提供語義排名的混合搜索。 集成矢量化簡化了[矢量搜索支持的所有方案]
四、何時使用集成矢量化
我們建議使用 Azure AI Studio 的內(nèi)置矢量化支持。 如果此方法不能滿足你的需求,你可以創(chuàng)建索引器和技能組,以便使用 Azure AI 搜索的編程接口調(diào)用集成矢量化。
五、如何使用集成矢量化
對于僅限查詢的矢量化:
- 將一個[矢量化器添加]到索引。 它應該與用于在索引中生成矢量的嵌入模型相同。
- 將[矢量化器分配]到矢量字段。
- [構建矢量查詢],用于指定要矢量化的文本字符串。
更常見的方案 - 在索引編制期間進行數(shù)據(jù)分塊和矢量化:
- 與支持的數(shù)據(jù)源[建立數(shù)據(jù)源連接],以進行基于索引器的索引編制。
- [創(chuàng)建一個技能組],用于調(diào)用[文本拆分技能]進行分塊,并調(diào)用 [AzureOpenAIEmbeddingModel]或自定義技能來將塊矢量化。
- [創(chuàng)建一個索引]用于指定查詢時間的[矢量化器],并將其分配到矢量字段。
- [創(chuàng)建一個索引器]以驅(qū)動從數(shù)據(jù)檢索到技能組執(zhí)行,再到索引編制的整個流程。
六、限制
確保了解[嵌入模型的 Azure OpenAI 配額和限制]。 Azure AI 搜索具有重試策略,但如果配額耗盡,重試會失敗。
Azure OpenAI 每分鐘令牌數(shù)限制是按模型、按訂閱計算的。 如果對查詢和索引編制工作負載使用嵌入模型,請記住這一點。 在可能的情況下[遵循最佳做法]。 為每個工作負載提供一個嵌入模型,并嘗試將其部署在不同的訂閱中。
請記住,在 Azure AI 搜索中,存在按層和按工作負載規(guī)定的[服務限制]。
最后,目前不支持以下功能:
- [客戶托管的加密密鑰]
- 與矢量化器的[共享專用鏈接連接]
- 目前,不提供對集成數(shù)據(jù)分塊和矢量化進行批處理的功能
七、集成矢量化的優(yōu)勢
下面是集成矢量化的一些重要優(yōu)勢:
-
沒有單獨的數(shù)據(jù)分塊和矢量化管道。 代碼更易于編寫和維護。
-
自動進行端到端索引編制。 當源(例如 Azure 存儲、Azure SQL 或 Cosmos DB)中的數(shù)據(jù)發(fā)生更改時,索引器可以在整個管道中傳遞這些更新(從檢索到文檔破解,再到可選的 AI 擴充、數(shù)據(jù)分塊、矢量化和索引編制)。
-
將分塊的內(nèi)容投影到次要索引。 次要索引的創(chuàng)建方式與創(chuàng)建任何搜索索引(包含字段和其他構造的架構)一樣,但索引器會將它們與主要索引一起填充。 在同一索引編制運行期間,每個源文檔的內(nèi)容都會流向主要和次要索引中的字段。
次要索引適用于數(shù)據(jù)分塊和檢索增強生成 (RAG) 應用。 假設將一個大型 PDF 文件用作源文檔,主要索引可能包含基本信息(標題、日期、作者、描述),而次要索引則包含內(nèi)容塊。 借助數(shù)據(jù)塊級別的矢量化,可以更輕松地查找相關信息(每個塊均可搜索)并返回相關響應,尤其是在聊天式搜索應用中。
八、分塊索引
分塊是將內(nèi)容劃分為可獨立處理的較小可管理部分(塊)的過程。 如果源文檔太大,以至超過了嵌入或大型語言模型的最大輸入大小,那么就需要進行分塊,但你可能發(fā)現(xiàn),分塊能夠為 [RAG 模式]和聊天式搜索提供更好的索引結構。
下圖顯示了分塊索引編制的組件。
文章來源:http://www.zghlxwxcb.cn/news/detail-752662.html
關注TechLead,分享AI全維度知識。作者擁有10+年互聯(lián)網(wǎng)服務架構、AI產(chǎn)品研發(fā)經(jīng)驗、團隊管理經(jīng)驗,同濟本復旦碩,復旦機器人智能實驗室成員,阿里云認證的資深架構師,項目管理專業(yè)人士,上億營收AI產(chǎn)品研發(fā)負責人。
到了這里,關于Azure Machine Learning - Azure AI 搜索中的集成數(shù)據(jù)分塊和嵌入的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!