前言
RAG 系統已經在多個行業中得到廣泛應用,尤其是在企業內部文檔查詢等場景中。盡管 RAG 系統的應用日益廣泛,關于其最佳配置的研究卻相對缺乏,特別是在上下文大小、基礎 LLM 選擇以及檢索方法等方面。
論文原文: On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems
?
實驗結論
作者重點評估了不同上下文大小、檢索方法以及不同LLM對RAG系統性能的影響。
注:作者不再使用帶有簡短答案的測試集進行評估,而是使用兩個領域(生物醫學與百科全書領域)具有挑戰性的長篇問題作為測試,并且答案必須充分利用整個上下文(一個整體的最終答案必須包括多個甚至所有上下文片段)。
研究結果表明隨著上下文片段數量的增加,系統的性能會逐步提升,但當數量達到10-15個時,性能開始趨于穩定,甚至在某些情況下會出現下降(20-30條)(可能是數量多了,帶來了信息干擾)。
在保持相同的上下文片段數量情況下,Mistral和Qwen在生物醫學任務中表現最好,而GPT和Llama在百科全書任務中表現出色。
實驗結果表格
-
?ROUGE-L 是一種基于最長公共子序列(LCS)的評估指標,主要用于衡量生成文本與參考文本之間的相似性。它關注生成文本中與參考文本匹配的最長連續子序列,側重于召回率(Recall),即生成文本中有多少內容與參考文本一致。
-
?BERTScore 是一種基于預訓練語言模型(如 BERT)的評估指標,通過計算生成文本與參考文本在語義空間中的相似性來評估質量。它使用 BERT 模型將文本編碼為向量,然后計算生成文本與參考文本之間的余弦相似度。相比 ROUGE 等基于詞匯重疊的指標,BERTScore 更能捕捉語義層面的相似性,適合評估生成文本的語義準確性。
-
?Ent.% 是基于自然語言推理(Natural Language Inference, NLI)模型的評估指標,用于衡量生成文本與參考文本之間的邏輯一致性(蘊含關系)。NLI 模型會判斷生成文本是否邏輯上蘊含(Entailment)參考文本的內容。
????????????????????????????????不同TOP K 在測試集上表現
?所有模型都呈現出相似的模式:
-
從較低的零樣本性能開始,僅使用一個上下文片段就能顯著提升性能。
-
大多數模型在所有三個評估指標上逐步且穩定地改進。