一.RAG流程與評估標準補充
RAG(Retrieval-Augmented Generation)是一種結合檢索與生成的問答架構。為了確保系統效果,需要從以下三個角度對其評估:
回顧RAG流程
用戶提出問題 → 系統檢索相關上下文 → 基于上下文由大語言模型生成答案。
評估標準
-
上下文相關性
檢索到的上下文是否緊密圍繞用戶問題展開?
是否包含解答問題所需的關鍵信息? -
生成答案的忠實性(Faithfulness)
答案是否與提供的上下文信息保持事實一致性?
能否通過上下文信息進行推斷? -
答案相關性(Relevance)
是否直接、完整地回答了用戶問題?
有無遺漏或冗余無關內容?
二.Rag 評估的三大步驟
第一步:構建測試數據集
評估的第一步,是準備一套測試數據集。這就好比考試要有一份試卷,RIG 系統需要回答什么問題?什么才算是正確答案?這些都要事先準備好。
一個典型的測試數據集通常包含兩部分:
- 問題
- 標準答案
這一步的關鍵,是確保數據具有代表性,能夠覆蓋系統實際面臨的各種場景。
第二步:選擇評估指標
有了測試數據,還需要明確——用什么標準來評判系統的好壞?
這一步我們要選擇合適的評估指標,常見的包括:
準確性(Accuracy):回答是否正確?
相關性(Relevance):回答和問題是否緊密相關?
完整性(Completeness):信息是否全面?
一致性(Consistency):內容是否自洽、符合邏輯?
魯棒性(Robustness):對輸入變化是否敏感?
有些指標是通用的,也可以根據業務需求細化出更具體的子指標。選對指標,才能得到有價值的評估結果。
第三步:執行評估并計算得分
最后,我們進入評估的執行階段。整個過程包括:
- 將測試數據集中的問題輸入 RIG 系統;
- 獲取系統生成的回答;
- 與標準答案進行對比;
- 按照前面選定的指標進行打分或計算。
評估的方式可以是自動化評估(如 BLEU、ROUGE、BERTScore 等)或人工評估(如打分表、人工判斷)。
這一階段的重點是:如何準確、合理地計算每個指標的數值,確保評估結果可信、可解釋、可復現。
三.Ragas
Ragas 是一個專門用于評估 RAG(Retrieval-Augmented Generation)系統的開源工具包
Ragas 能評估哪些方面?
Ragas 提供了一整套面向 RAG 系統的評估指標,包括但不限于:
- Faithfulness(忠實度) 生成的答案是否忠于檢索到的文檔(有沒有胡編亂造)
- Answer Relevance(答案相關性) 答案是否真正回答了問題
- Context Precision / Recall(上下文精度/召回) 檢索回來的文檔是否相關、是否齊全 - Context Relevance(上下文相關性) 檢索內容和問題是否匹配
- Context-Answer Consistency 上下文與生成答案是否一致
這些指標都是專門針對 RAG 系統設計的,兼顧了 檢索質量 和 生成質量,比通用 NLP 指標更貼合實際需求。
** Ragas 的技術特點 **
支持自動化評估:基于 LLM(大模型)來對答案進行打分,省去了人工打分的繁瑣;
適配多種 RAG 框架:如 LangChain、Haystack、LlamaIndex 等;
評估維度豐富
開箱即用的工具鏈:內置數據結構、評估流程、可視化接口等。