SIGIR 2025
- 用戶日益依賴對話助手(如 ChatGPT)來滿足多種信息需求,這些需求包括開放式問題、需要推理的間接回答,以及答案分布在多個段落中的復雜查詢
- RAG試圖通過在生成過程中引入檢索到的信息來解決這些問題
- 但如何確保回應的透明性和來源可追溯性仍是一個未解難題
- 在提示中注入證據可以減少幻覺(hallucination),但冗余信息和過長的上下文容易導致“中間信息遺失”(lost in the middle)問題,即模型難以從長上下文的中部提取相關信息
- RAG試圖通過在生成過程中引入檢索到的信息來解決這些問題
- ——>論文提出了一個模塊化流水線:GINGER(Grounded Information Nugget-Based GEneration of Response)
- 與現有 RAG 方法相比,GINGER 的主要創新在于它基于“信息顆粒”(information nuggets)運作,后者是最小的相關信息單元
- 在響應用戶查詢所檢索到的一組段落中,GINGER 識別出段落中的信息顆粒,按查詢的不同方面對其進行聚類,按相關性對聚類進行排序,對最相關的聚類進行摘要,并對最終回應進行流暢性與連貫性的優化
- GINGER 獨特地建模查詢的不同方面,以確保回應中包含盡可能多的獨特、有用的信息
- 該方法通過將最終回應緊密錨定于原始段落來源,并支持輕松驗證引用,顯著提升了用戶體驗。