国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<bdo id="e2xce"><acronym id="e2xce"></acronym></bdo>

【AI大模型應(yīng)用開發(fā)】【RAG評估】1. 通俗易懂：深度理解RAGAS評估方法的原理與應(yīng)用

1年前作者：同學(xué)小張分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了【AI大模型應(yīng)用開發(fā)】【RAG評估】1. 通俗易懂：深度理解RAGAS評估方法的原理與應(yīng)用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

大家好，我是同學(xué)小張，日常分享AI知識和實戰(zhàn)案例

歡迎 點贊 + 關(guān)注 ??，持續(xù)學(xué)習(xí)，持續(xù)干貨輸出。

+v: jasper_8017 一起交流??，一起進步??。

微信公眾號也可搜【同學(xué)小張】 ??

本站文章一覽：

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記

上篇文章【AI大模型應(yīng)用開發(fā)】【RAG評估】0. 綜述：一文了解RAG評估方法、工具與指標，我們盤點了當前RAG系統(tǒng)評估的一些主流方法、工具和評估指標。本文我們針對其中的RAGAS評估方法進行詳細介紹。我們將深入其原理，理解其評估指標背后是怎么實現(xiàn)的。都是我根據(jù)自己的理解用大白話解釋，保證大家能看懂。

RAGAS論文地址：https://arxiv.org/pdf/2309.15217.pdf

0. 簡介及評估指標

RAGAS是一個對檢索增強生成（RAG）pipeline進行無參考評估的框架。

考慮標準的RAG設(shè)置，即給定一個問題q，系統(tǒng)首先檢索一些上下文c(q)，然后使用檢索到的上下文生成答案as(q)。在構(gòu)建RAG系統(tǒng)時，通常無法訪問人工標注的數(shù)據(jù)集或參考答案，因此該工作將重點放在 完全獨立且無參考的度量指標上。

該方法有四個評估指標：

評估檢索質(zhì)量：
- context_relevancy（上下文相關(guān)性，也叫 context_precision）
- context_recall（召回性，越高表示檢索出來的內(nèi)容與正確答案越相關(guān)）
評估生成質(zhì)量：
- faithfulness（忠實性，越高表示答案的生成使用了越多的參考文檔（檢索出來的內(nèi)容））
- answer_relevancy（答案的相關(guān)性）

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記

1. 在LangChain中使用

1.1 首先構(gòu)建你的RAG程序

retriever的構(gòu)建步驟就不展開了，需要的同學(xué)可以去看下我之前的文章：【AI大模型應(yīng)用開發(fā)】【LangChain系列】4. 從Chain到LCEL：探索和實戰(zhàn)LangChain的巧妙設(shè)計

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記

構(gòu)建完的代碼示例如下：

from langchain.chains import RetrievalQA
......
# ?。。。?！主要應(yīng)用點：RetrievalQA構(gòu)建的qa_chain的返回結(jié)果
qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=retriever,
    return_source_documents=True,
)
question = "How did New York City get its name?"
result = qa_chain({"query": question})

關(guān)鍵點：使用RetrievalQA去獲取結(jié)果，因為使用RetrievalQA去獲取的結(jié)果中包含key：query, result, source_documents，這是LangChain集成的Ragas直接需要的，不用自己再組裝數(shù)據(jù)結(jié)構(gòu)了：

上述result中包含query, result, source_documents字段，這三個字段可以直接用來評估出 context_relevancy， faithfulness， answer_relevancy 三個指標，context_recall無法評估
要想評估 context_recall 指標，需要人工添加預(yù)期的答案，并添加到 result 的key=“ground_truths” 的字段，例如下面的代碼

result_with_truth = result
result_with_truth["ground_truths"] = "XXXXXXXXXXXX"

1.2 評估

引入Ragas封裝：RagasEvaluatorChain
引入Ragas評估指標
構(gòu)造評估的chain，需傳入構(gòu)造的chain的評估指標類型
將上面RAG的結(jié)果傳入這個評估chain，獲得評估結(jié)果

from ragas.langchain.evalchain import RagasEvaluatorChain
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall,
)

# create evaluation chains
faithfulness_chain = RagasEvaluatorChain(metric=faithfulness)
answer_rel_chain = RagasEvaluatorChain(metric=answer_relevancy)
context_rel_chain = RagasEvaluatorChain(metric=context_precision)
context_recall_chain = RagasEvaluatorChain(metric=context_recall)

# 獲取結(jié)果
eval_result = faithfulness_chain(result)
eval_result = answer_rel_chain(result)
eval_result = context_rel_chain(result)
eval_result = context_recall_chain(result_with_truth)

1.3 結(jié)果示例

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記

2. 原理

2.1 faithfulness

This measures the factual consistency of the generated answer against the given context. It is calculated from answer and retrieved context. The answer is scaled to (0,1) range. Higher the better.

這衡量了生成的答案在給定上下文中的事實一致性。它是根據(jù)答案和檢索到的上下文來計算的。答案按比例縮放到（0,1）范圍。越高越好。

2.1.1 測量步驟

（1）首先使用LLM來根據(jù)問題和答案提取一組語句S。這一步驟的目的是將較長的句子分解為更短、更集中的斷言。

該步驟的Prompt如下：

Given a question and answer, create one or more statements from each sentence in the given answer.
question: [question]
answer: [answer]

（2）針對生成的每個語句s，再次使用大模型或驗證函數(shù)來判斷這個語句是否能用上下文中的信息來支撐。

該步驟的Prompt如下（最后輸出Yes或No）：

Consider the given context and following statements, then determine whether they are supported by the information present in the context. Provide a brief explanation for each statement before arriving at the verdict (Yes/No). Provide a final verdict for each statement in order at the end in the given format. Do not deviate from the specified format.
statement: [statement 1]
...
statement: [statement n]

（3）最后分數(shù)的計算，計算公式

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記
其中V為可以被支撐的s的數(shù)量，S為生成的statement數(shù)量。

2.2 answer_relevancy

答案與問題的相關(guān)程度。不考慮答案的正確性，但是對答案不完整或包含冗余信息的情況進行懲罰。

2.2.1 測量步驟

（1）根據(jù)最終答案，利用大模型生成針對該問題的多個潛在的問題。

Prompt如下：

Generate a question for the given answer.
answer: [answer]

（2）針對生成的每個潛在問題，利用OpenAI的嵌入模型 text-embedding-ada-002 來計算與原始問題的向量相似度（余弦距離）。

不懂向量相似度或余弦距離是什么的，可以參考下我之前的文章：【AI大模型應(yīng)用開發(fā)】【補充知識】文本向量化與向量相似度（含Python代碼）

（3）最后分數(shù)的計算，計算公式

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記
即最終對所有的向量相似度取個平均數(shù)。

2.3 context_relevancy

檢索回的上下文與原始問題之間的相關(guān)性，對其中的冗余信息進行懲罰

2.3.1 測量步驟

（1）利用大模型，從給定的context上下文信息中，提取出所有對最終答案直接相關(guān)或重要的句子，不改變句子內(nèi)容。

Prompt如下：

Please extract relevant sentences from the provided context that can potentially help answer the following question. If no relevant sentences are found, or if you believe the question cannot be answered from the given context, return the phrase "Insufficient Information". While extracting candidate sentences you’re not allowed to make any changes to sentences from given context.

（2）最后分數(shù)計算，計算公式

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記
即：對答案有用的句子數(shù)量 / 上下文中全部句子的數(shù)量

2.4 context_recall

論文中沒提到這個指標，待查。這個需要認為給定參考答案，在RAGAS評估中比較少用。

3. 其它接口

langchain中的ragas還提供了其它的評估接口，簡單看一個。

3.1 批量評估 evaluate()

給定一系列需要測試的輸出結(jié)果，批量生成評估結(jié)果。

# run the queries as a batch for efficiency
predictions = qa_chain.batch(examples)

# evaluate
print("evaluating...")
r = faithfulness_chain.evaluate(examples, predictions)

# output
[{'faithfulness_score': 1.0},
 {'faithfulness_score': 0.5},
 {'faithfulness_score': 1.0},
 {'faithfulness_score': 1.0},
 {'faithfulness_score': 0.8}]

4. 總結(jié)

本文詳細介紹了RAGAS的原理及在LangChain中的使用方式。對于RAGAS的原理更是用通俗易懂的語言進行了深入講解，相信大家都能看懂！

從上面的評測步驟可以看到，RAGAS各個指標的評測都依賴了大模型的能力。所以也會有一定的不穩(wěn)定性。

如果覺得本文對你有幫助，麻煩點個贊和關(guān)注唄 ~~~

大家好，我是同學(xué)小張，日常分享AI知識和實戰(zhàn)案例

歡迎 點贊 + 關(guān)注 ??，持續(xù)學(xué)習(xí)，持續(xù)干貨輸出。

+v: jasper_8017 一起交流??，一起進步??。

微信公眾號也可搜【同學(xué)小張】 ??

本站文章一覽：

ragas需要調(diào)用大模型嗎,大模型,人工智能,gpt,langchain,RAG,經(jīng)驗分享,學(xué)習(xí),筆記文章來源地址http://www.zghlxwxcb.cn/news/detail-850348.html

到了這里，關(guān)于【AI大模型應(yīng)用開發(fā)】【RAG評估】1. 通俗易懂：深度理解RAGAS評估方法的原理與應(yīng)用的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

大模型時代，如何快速開發(fā)AI應(yīng)用
本文分享自華為云社區(qū)?《【云享問答】第3期：大模型時代，如何快速開發(fā)AI應(yīng)用》，作者：華為云社區(qū)精選。大模型快速普及應(yīng)用的當下，AI浪潮洶涌而至，對于開發(fā)者來說，開發(fā)一款屬于自己的AI應(yīng)用并不是遙不可及。華為云AI生態(tài)技術(shù)專家、中科院計算所博士坐陣，從數(shù)
2024年02月08日
瀏覽(26)
RAG應(yīng)用開發(fā)實戰(zhàn)02-相似性檢索的關(guān)鍵 - Embedding
將整個文本轉(zhuǎn)化為實數(shù)向量的技術(shù)。 Embedding優(yōu)點是可將離散的詞語或句子轉(zhuǎn)化為連續(xù)的向量，就可用數(shù)學(xué)方法來處理詞語或句子，捕捉到文本的語義信息，文本和文本的關(guān)系信息。 ? 優(yōu)質(zhì)的Embedding通常會讓語義相似的文本在空間中彼此接* ? 優(yōu)質(zhì)的Embedding相似的語義關(guān)系可
2024年04月14日
瀏覽(26)
AI大模型開發(fā)架構(gòu)設(shè)計（10）——AI大模型架構(gòu)體系與典型應(yīng)用場景
1 AI大模型架構(gòu)體系你了解多少? GPT 助手訓(xùn)練流程橫向來看，分為四步：預(yù)訓(xùn)練（無監(jiān)督、99%算力+時間）、有監(jiān)督微調(diào)、獎勵模型、強化學(xué)習(xí) 縱向來看，每一部分需要：數(shù)據(jù)集（Dataset）、算法（Algorithm）、模型（Model）、花銷 GPT 助手訓(xùn)練數(shù)據(jù)預(yù)處理 2個訓(xùn)練案例分析 2 AI 大
2024年02月20日
瀏覽(33)
全域Serverless+AI，華為云加速大模型應(yīng)用開發(fā)
日前，華為全聯(lián)接大會2023在上海召開。華為云CTO張宇昕在大會上發(fā)布了基于Serverless技術(shù)的大模型應(yīng)用開發(fā)框架，框架以面向AI領(lǐng)域全新升級的FunctionGraph 3.0為核心，將BaaS for AI 后端和開放平臺快速無縫集成，助力企業(yè)輕松商用AI應(yīng)用。在“全域Serverless + AI 加速應(yīng)用創(chuàng)新”專題
2024年02月08日
瀏覽(18)
AI大模型開發(fā)架構(gòu)設(shè)計（2）——AI繪畫技術(shù)架構(gòu)&應(yīng)用實踐
1 AI繪畫整體流程第一步：輸入 Prompt 提示詞： /mj 提示詞第二步：文生圖(Text-to-Image)構(gòu)圖第三步：圖片渲染第四步：圖片展示 2 AI繪畫技術(shù)架構(gòu) 文生圖核心算法原理把人類創(chuàng)造的內(nèi)容用一個高維的數(shù)學(xué)向量進行表示如果內(nèi)容到向量的“翻譯” 足夠合理且能代表內(nèi)容的特
2024年01月25日
瀏覽(71)
【基礎(chǔ)篇001】?模型理論基礎(chǔ)——初探大模型：起源與發(fā)展《AI 大模型應(yīng)用開發(fā)實戰(zhàn)指南》
? 目錄基礎(chǔ)篇：?模型理論基礎(chǔ) 初探大模型：起源與發(fā)展什么是大模型？
2024年02月09日
瀏覽(89)
Spring AI 來了，打造Java生態(tài)大模型應(yīng)用開發(fā)新框架！
盡管 Python 長期主導(dǎo) AI 大模型應(yīng)用開發(fā)領(lǐng)域，但 Java 并未熄火！Spring AI 來了，正式告別實驗期，邁向廣泛應(yīng)用新階段！這意味著 Spring 生態(tài)體系的廣大開發(fā)者，迎來 AI 大模型應(yīng)用開發(fā)的新里程。 Spring AI 是一個 AI 工程師的應(yīng)用框架，它提供了一個友好的 API 和開發(fā) AI 應(yīng)用的抽
2024年04月12日
瀏覽(26)
OpenAI開發(fā)系列（十五）：AI敏捷開發(fā)的新范式：利用大模型優(yōu)化和自動化應(yīng)用開發(fā)流程(上)
授權(quán)聲明：本文基于九天Hector的原創(chuàng)課程資料創(chuàng)作，已獲得其正式授權(quán)。原課程出處：九天Hector的B站主頁，感謝九天Hector為學(xué)習(xí)者帶來的寶貴知識。請尊重原創(chuàng)，轉(zhuǎn)載或引用時，請標明來源。全文共5000余字，預(yù)計閱讀時間約30~50分鐘 | 滿滿干貨(附代碼)，建議收藏！本文
2024年02月03日
瀏覽(34)
【AI大模型應(yīng)用開發(fā)】【LangFuse: LangSmith平替，生產(chǎn)級AI應(yīng)用維護平臺】0. 快速上手 - 基本功能全面介紹與實踐（附代碼）
大家好，我是同學(xué)小張，日常分享AI知識和實戰(zhàn)案例歡迎點贊 + 關(guān)注 ??，持續(xù)學(xué)習(xí) ，持續(xù)干貨輸出。 +v: jasper_8017 一起交流??，一起進步??。微信公眾號也可搜【同學(xué)小張】 ?? 本站文章一覽：前面我們介紹了LangChain無縫銜接的LangSmith平臺，可以跟蹤程序運行步驟，提
2024年03月21日
瀏覽(100)
AI大模型探索之路-應(yīng)用篇16：GLM大模型-ChatGLM3 API開發(fā)實踐
目錄一、ChatGLM3-6B模型API調(diào)用 1. 導(dǎo)入相關(guān)的庫 2. 加載tokenizer 3. 加載預(yù)訓(xùn)練模型 4. 實例化模型 5.調(diào)用模型并獲取結(jié)果二、OpenAI風(fēng)格的代碼調(diào)用 1.?Openai?api?啟動 2. 使用curl命令測試返回 3. 使用Python發(fā)送POST請求測試返回 4. 采用GLM提供的chat對話方式 5.?Embedding處理三、Functio
2024年04月23日
瀏覽(26)

<ruby id="euijf"></ruby>