推理模型(LRMs)的發展取得了顯著進展,展現出強大的推理能力,能在復雜任務中表現出色。然而,這些模型在多跳問答(QA)任務中仍面臨挑戰,主要歸因于其對參數化知識的依賴,導致事實準確性受限。為解決這一問題,研究人員提出了ReaRAG(Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation)模型,通過知識引導的推理和迭代檢索增強機制,有效提升了大推理模型在多跳問答任務中的表現和事實性。
一、推理模型的現狀與挑戰
像OpenAI的o1、Qwen的QwQ-32B、GLM-Zero-Preview和DeepSeekR1等大推理模型,在復雜任務中表現出令人矚目的推理能力,能夠在生成答案前進行深思熟慮的推理。但在多跳問答任務中,僅依靠參數化知識無法滿足需求,因為這類任務往往需要超出模型記憶范圍的知識進行推理。
檢索增強生成(RAG)為提升LRMs的事實性提供了一種可行方案,它通過整合外部知識來增強模型的回答能力。但RAG在檢索相關文檔時面臨挑戰,需要精確制定搜索查詢。以往的迭代檢索策略雖構建了子查詢和子答案的推理鏈來解決多跳問答,但存在錯誤傳播問題,早期步驟的錯誤會誤導后續檢索和推理,降低最終答案的質量。例如,Search-o1采用基于提示的策略,利用LRM的推理能力迭代修正子查詢,并引入了Reason-in-Documents模塊生成子答案,但它存在特殊令牌生成不可靠、信息提取失敗和幻覺、基于強化學習的LRMs過度思考等問題,限制了其在RAG任務中的性能。
二、ReaRAG模型的設計與實現
2.1 任務形式化
ReaRAG聚焦于多跳問答任務,其目標是構建知識引導的推理鏈,提高生成答案的事實正確性。推理鏈被形式化為一系列步驟,每個步驟包含推理思維(reasoning thought)、動作(action)和觀察(observation)。推理步驟的數量由模型動態決定,但受上限 ( T_{max} ) 約束,以防止無限迭代。動作空間定義為 ( A = {search(), finish()} ) ,search動作根據推理思維生成搜索查詢,從RAG引擎中檢索相關信息,finish動作則表示推理過程結束,輸出最終答案。
2.2 知識引導推理鏈生成
為使外部知識可訪問,ReaRAG設計了結構化的推理步驟。推理思維代表模型在決定動作及其輸入參數前,對先前動作和觀察的思考過程;動作是從動作空間中采樣的JSON字典,包含相應的輸入參數;觀察是執行動作后收到的反饋,用于指導后續推理。
ReaRAG通過自動化數據構建方法來獲取推理鏈。給定一個多跳問題,模型會根據指令提示生成推理思維和動作,提取搜索查詢并在RAG引擎中執行,獲取觀察結果。這個過程會不斷迭代,直到模型選擇finish動作或達到最大迭代次數。為確保數據質量,還會通過F1指標對推理鏈生成的最終答案與真實答案進行比較,丟棄F1分數為0的推理鏈。
2.3 ReaRAG模型的微調與推理
在微調階段,ReaRAG在構建的數據集上進行有監督微調,該數據集包含知識引導的推理鏈。微調使用的損失函數僅在推理思維和動作的令牌上計算損失,以確保模型學習到有效的推理和動作策略。
在推理階段,給定指令提示和問題,ReaRAG首先生成推理思維和初始動作(通常是search動作)。提取搜索查詢并在RAG引擎中執行,獲取觀察結果。這個過程不斷迭代,模型根據觀察結果持續調整推理思維和動作。最終,ReaRAG選擇finish動作,提取最終答案,并通過提示答案模型生成簡潔的最終回答。
三、實驗設置與結果
3.1 實驗設置
為驗證ReaRAG的有效性,研究人員在多個多跳推理任務數據集上進行實驗,包括MuSiQue、HotpotQA、IIRC和單跳的Natural Questions(NQ)。由于這些數據集需要開放式答案,傳統的精確匹配(EM)指標可能無法準確評估,因此采用LLM-as-a-Judge指標( ( ACC_{L} ) ),并使用GPT-4o進行更準確的評估。
實驗設置了多種基線模型,包括上下文檢索、普通RAG和先進的RAG方法。上下文檢索直接將語料庫附加到語言模型的上下文中;普通RAG基于原始多跳問題進行單次檢索;先進的RAG方法如SelfRAG、SearChain和Search-o1等則采用了更復雜的策略來處理多跳問答任務。
3.2 實現細節
ReaRAG的RAG引擎由檢索和生成兩個主要組件構成。檢索部分使用Zhipu的API中的嵌入模型和基于GLM3架構的重排器,以提高檢索質量;生成部分則采用GLM-4-32B,在128k的上下文長度下根據檢索到的文檔生成響應。
數據構建和微調方面,種子數據集來自MuSiQue、HotpotQA和NQ的訓練集,使用QwQ-32B作為LRM生成推理鏈。為確保模型的通用性,對GLM-4-9B進行微調,使用構建的數據集(約20k經過篩選的樣本)和GLM-4的通用SFT數據集。
3.3 主要結果
實驗結果表明,ReaRAG在除單跳NQ基準測試外的所有基準測試中均優于其他基線模型。在NQ基準測試中,ReaRAG與SearChain和使用GLM-4-32B骨干的普通RAG表現相當。這主要是因為SearChain使用GPT-4o作為骨干,而普通RAG的GLM-4-32B骨干規模較大,且單跳設置中ReaRAG的強推理能力優勢不明顯。但從EM指標來看,ReaRAG與使用GLM-4-32B骨干的普通RAG差距較大,這表明EM指標可能無法有效捕捉語言模型生成的上下文有效答案。
與其他基線模型相比,ReaRAG在多跳推理任務中表現出色。在MuSiQue、HotpotQA和IIRC基準測試中,ReaRAG相對于表現最佳的基線模型SearChain,在 ( ACC_{L} ) 指標上分別有14.5%、6.5%和2.25%的提升,在EM指標上分別有7%、7%和8.5%的提升。這充分展示了ReaRAG即使使用較小規模的模型,也能具備強大的多跳推理能力。
3.4 消融實驗
為評估模型的性能,進行了封閉-book性能實驗和強推理能力影響實驗。封閉-book實驗評估語言模型的參數化知識,結果顯示QwQ-32B在需要強推理的基準測試中表現優于GLM-4,但兩者的參數化知識與使用外部知識的結果相比仍顯不足。
在強推理能力影響實驗中,研究人員微調了一個缺乏強推理能力的模型,并遵循相同的Thought-Action-Observation推理范式。結果表明,具有增強推理能力的ReaRAG-9B在多跳基準測試中始終優于缺乏推理能力的模型,在 ( ACC_{L} ) 指標上有6 - 11%的提升,在單跳NQ上有7%的提升。但在NQ上,EM指標的提升較小,在MuSiQue上EM指標甚至有所下降,這再次說明了EM指標在捕捉語言模型生成答案的可變性方面存在局限性。
四、ReaRAG模型的優勢與局限性
4.1 優勢
ReaRAG的優勢體現在多個方面。它通過知識引導的推理鏈增強了LRMs的事實性,能夠可靠地與外部知識源進行交互。在推理過程中,ReaRAG利用LRM的推理能力進行深思熟慮的思考,反思先前步驟,利用外部知識識別錯誤并優化推理,展現出強大的推理能力。與基于強化學習的方法相比,ReaRAG避免了在多跳問答中過度和冗余的搜索。
案例分析進一步展示了ReaRAG的強大推理能力。在處理關于人物關系、作品相關信息等多跳問題時,ReaRAG能夠識別錯誤、解決歧義并修正推理路徑,最終得出正確答案。例如,在判斷“Philippe, Duke of Orléans”的祖母是誰的問題上,ReaRAG最初出現錯誤,但隨后通過驗證和重新推理,成功糾正錯誤并得出正確結論。
4.2 局限性
盡管ReaRAG在多跳問答任務中表現出色,但仍存在一些局限性。其動作空間目前僅限于search和finish,這限制了它處理更廣泛問題的能力,無法執行如利用代碼編譯器進行編碼任務、執行數學計算或進行實時網絡搜索等操作。
數據構建效率方面,ReaRAG依賴LRM的強指令跟隨能力來生成結構化響應進行微調,但大量數據因有效性問題被丟棄,導致計算效率低下和資源浪費。在推理延遲上,ReaRAG通過迭代推理來解決問題,雖然提高了準確性,但與單步生成答案的模型相比,推理時間增加,這在實時應用或對延遲有嚴格要求的場景中可能會限制其實用性。
ReaRAG作為一種增強事實性的推理模型,通過迭代規劃推理步驟并利用外部知識確保推理鏈的正確性,在多跳問答任務中取得了顯著的性能提升。它有效整合了推理模型與外部知識,增強了事實準確性,同時減少了基于強化學習的LRMs中過度思考的問題。
paper:https://arxiv.org/pdf/2503.21729
git:https://github.com/THU-KEG/ReaRAG