【面試題】RAG核心痛點

在這里插入圖片描述

這是一個經典難題。切分粒度過大，單個chunk包含過多無關信息（噪聲），會干擾LLM理解核心內容；切分過小，則可能割裂句子或段落的完整語義，導致關鍵上下文丟失。

解決方案：

語義切分優先：避免簡單的按字符或Token數切分。應優先采用基于句子、段落或語義邊界（如標點、標題）的切分方法，以保留語義完整性。
動態/自適應切分：根據文檔內容（如長度、主題）和預期查詢類型，動態調整切分策略。例如，技術文檔可按章節切分，而新聞稿可按段落切分。
重疊切分（Chunk Overlap）：在相鄰chunk間設置一定比例的重疊內容（如10%-20%），有助于緩解語義割裂問題，保持上下文連貫性。
“小塊+大TopK”策略：使用較小的chunk以減少噪聲，同時增大檢索返回的TopK數量，讓LLM在生成時能綜合更多信息，彌補單個chunk語義不足的問題。

通用RAG在垂直領域（如醫療、法律、金融）表現不佳，主要因為通用Embedding模型和LLM缺乏領域特定的知識和術語理解能力。

解決方案：

領域微調（Fine-tuning）：
- 微調Embedding模型：使用垂直領域的語料對Embedding模型進行微調，使其能更好地捕捉領域內術語和概念的語義。
- 微調LLM：對生成模型（LLM）進行領域特定的指令微調（SFT）或檢索增強微調（如RAFT），使其更擅長基于檢索到的領域知識生成答案。
領域知識注入：構建或引入領域知識圖譜，將結構化知識與非結構化文本chunk結合，提供更豐富的語義關聯。
數據預處理優化：針對垂直領域文檔（如PDF、合同）的特點，優化解析和清洗流程，確保高質量的輸入數據。

LangChain的默認文本分割器（如RecursiveCharacterTextSplitter）可能過于簡單，無法很好地處理復雜格式或長句子，導致語義不連貫。

解決方案：

提高召回率是RAG效果的基礎。單一的向量相似度檢索可能無法覆蓋所有相關文檔。

解決方案：

混合檢索（Hybrid Search）：結合稠密檢索（Dense Retrieval，基于Embedding向量）和稀疏檢索（Sparse Retrieval，如BM25）。BM25擅長匹配關鍵詞，而向量檢索擅長語義匹配，二者互補能顯著提升召回率。
查詢擴展與改寫（Query Expansion/Rewriting）：對用戶原始query進行同義詞替換、問題分解、拼寫糾錯等操作，生成多個查詢變體，擴大檢索范圍。
RAG-Fusion：使用多個改寫后的查詢分別檢索，將結果合并并重新排序（Reciprocal Rank Fusion），能有效增加相關文檔的召回機會。
增大TopK：適當增加返回的候選文檔數量，為后續的重排（Re-ranking）和LLM生成提供更多選擇。
重排（Re-ranking）：在初步召回后，使用更精細（但計算成本更高）的重排模型（如Cross-Encoder）對TopK結果進行二次排序，提升最終輸入LLM的文檔相關性。

即使檢索到了相關context，LLM也可能無法有效利用或生成錯誤答案。

解決方案：

Prompt工程優化：
- 明確指令：在Prompt中清晰指示LLM“僅根據提供的上下文回答”，并說明如果上下文不包含答案應如何回復（如“我不知道”）。
- 結構化Prompt：設計包含角色、任務、約束、上下文、問題等要素的結構化Prompt，引導LLM生成。
- 上下文增強：除了檢索到的chunk，還可以在Prompt中加入假設性答案（HyDE）或對chunk的總結，以提供更多線索。
元Prompting（Meta-prompting）：引入一個“轉換模型”先對檢索到的長篇、雜亂上下文進行清洗、摘要和提煉，再將精煉后的內容輸入給生成模型，可大幅提升生成質量。
微調生成器：對LLM進行專門的RAG場景微調，使其更擅長結合檢索信息生成答案。
評估與迭代：建立評估體系，通過觀察不同Prompt或參數下的輸出效果，持續優化Prompt設計。

開源Embedding模型質量參差不齊，尤其在處理大chunk或特定領域文本時，語義表示可能不準確。

解決方案：

Prompt的微小變動確實可能導致LLM輸出的巨大差異，這是LLM的固有特性。

解決方案：

系統化Prompt工程：建立Prompt模板庫，并進行嚴格的A/B測試或多版本評估，選擇最優方案。
動態Prompt調整：根據用戶query的類型、長度或對話歷史，動態調整Prompt內容，提高靈活性和適應性。
引入約束和示例：在Prompt中加入輸出格式約束、思維鏈（CoT）引導或少量示例（ICL），可以穩定輸出并提升質量。但需注意，不當的示例或引導（如忽略式Prompt）有時反而有害。
自動化Prompt優化：利用元模型或優化算法（如基于評估反饋的迭代優化）來自動搜索和生成更優的Prompt 。

LLM生成效果不佳可能源于多種原因，包括幻覺、無法有效利用上下文、或對復雜query理解不足。

解決方案：

緩解幻覺：這是RAG的核心價值之一。通過強制LLM基于檢索到的上下文生成，并在Prompt中明確要求“有據可依”，可以有效減少幻覺。
優化上下文利用：
- 相關性過濾：在將TopK chunks輸入LLM前，可先用一個輕量級模型或規則過濾掉明顯不相關的chunk，減少干擾。
- 摘要與壓縮：如果上下文過長，可先對其進行摘要，再輸入LLM，避免信息過載和注意力分散。
模型微調：如前所述，針對RAG任務對LLM進行微調，提升其信息整合和忠實度。
選擇合適模型：不同LLM在遵循指令、利用上下文方面的能力差異很大，應根據任務需求選擇最合適的基座模型。