1. 引言:OCR——RAG系統中的關鍵問題
當我們將一個包含掃描頁面的PDF或一張報告截圖扔給RAG系統時,我們期望它能“讀懂”里面的內容。這個“讀懂”的第一步,就是OCR。然而,OCR過程并非100%準確,它受到圖像質量、文字布局、字體、語言等多種因素的影響。
一個看似微不足道的OCR錯誤,比如把revenue
識別成reuenue
,或者把$5,200,000
識別成S,ZOO,OOO
,就會在RAG系統中引發災難性的連鎖反應:
- 索引污染:錯誤或亂碼的文本被向量化,形成錯誤的“語義坐標”。
- 檢索失敗:當用戶查詢“revenue”時,由于索引中是“reuenue”,基于關鍵詞或向量的檢索都可能失敗。
- 上下文誤導:即使僥幸被召回,錯誤的上下文也會嚴重誤導LLM,導致其進行錯誤的計算或得出荒謬的結論。
因此,優化OCR流程,是提升處理掃描文檔和圖片類知識源的RAG應用性能的最高杠桿點之一。
2. 問題剖析:一個OCR錯誤如何影響整個RAG鏈條
場景:解析掃描版財務報表
假設我們有一張掃描質量一般的財務報表截圖,內容如下: