我們日常所接觸的文檔中,經常能碰到多語言混合的文檔。比如論文試卷、財報研報、跨國票據都含有多種語言和文字。要將文檔中的內容識別并提取務必需要使用到OCR技術,而傳統的OCR工具在處理這類型文檔的時候有局限性。
早期的 OCR 系統識別精度有限,主要針對特定印刷字體。隨著技術進步,特別是深度學習在計算機視覺領域的廣泛應用,OCR 的精度和速度得到了質的飛躍,不僅能更準確地識別各種印刷體,對手寫體、多種語言文字的識別能力也大大增強,為后續的信息處理奠定了基礎。
然而,在如今的 AI 時代,僅僅將圖像變成文本字符(OCR 的輸出)是遠遠不夠的。一份文檔的價值不僅在于其中的文字,更在于文字所代表的具體信息及其上下文關系。例如,發票上的“金額”數字旁通常會有“¥”或其他貨幣標識,亦或者一段中文句式中含有幾個英文單詞的解釋。
這正是文檔解析技術(PDF解析)所解決的問題。它在 OCR 提供的原始文本基礎上,進一步運用布局分析(理解文檔的物理結構,如段落、表格、標題位置)和語義理解(識別關鍵實體如姓名、日期、金額、條款,理解它們之間的關系),獲取完整信息片段,并將其高度結構化地輸出為 Markdown、JSON 或直接導入數據庫的標準格式。
不同于傳統OCR功能,文檔解析能夠進一步運用布局分析(理解文檔的物理結構,如段落、表格、標題位置)和語義理解(識別關鍵實體如姓名、日期、金額、條款,理解它們之間的關系),獲取完整信息片段,并將其高度結構化地輸出為 Markdown、JSON 或直接導入數據庫的標準格式。
我們可以通過一個案例簡單理解一下:
關鍵差別非常清晰:
- OCR:輸入圖像 -> 輸出原始文本流(包含所有識別的文字,但無結構、無語義標注)。
- 文檔解析:輸入文檔 (圖像/PDF) -> 輸出結構化數據對象(精準提取并分類的關鍵信息,如 {"amount_table": "196.00", "number_table": "2.0000", "project_name_table": "西他沙星片"})。
因此,文檔解析是 OCR 能力的延伸和升級,從單純的“識字”到真正的“理解文檔”,文檔解析為企業的自動化流程和數據分析提供了可直接使用的“原料”。