為什么需要評測體系?——背景與矛盾
??
- 能干的事:?? 看清楚發票、身份證上的字(準確率>90%),速度飛快(眨眼間完成)。
- ??干不了的事:?? 碰到復雜表格(合并單元格)、跨頁合同(前后條款關聯)、模糊發票(猜意思)就懵圈了。
傳統OCR的瓶頸
-
優勢:
- 文字識別準確率 >90%
- 響應快(毫秒級)
- 廣泛應用于票據、合同等場景
-
短板:
- 難以處理復雜結構,如合并單元格表格、跨頁合同邏輯、模糊發票語義推斷
多模態大模型(MLLMs)的崛起
-
能力:
- 視覺問答、圖文推理、信息提取
- 展現強大泛化能力
-
現實挑戰:
- 在 OCRBench v2 測試中,22個主流模型有20個得分低于50分(滿分100)
-
暴露問題:
- 找不準字的位置(文本定位差)。
- 看不懂手寫的字(手寫識別弱)。
- 理解不了文字背后的邏輯(推理不行)。
- 在專業領域(金融、醫療)容易出錯。
核心矛盾
- MLLMs 宣稱“全能”,但在關鍵行業(金融/醫療/政務)仍不可靠。
- 評測體系成為篩選可靠模型的“照妖鏡”。
評測體系全景圖——19個關鍵基準解析
按任務類型分類速覽
評測方向 | 代表基準 | 核心任務 | 發現的問題 |
---|---|---|---|
文字識別(OCR) | OCRBench v2、CC-OCR | 多語言文本、復雜排版、手寫體識別 | 對生僻字、模糊文本、多方向文字識別率低 |
圖表理解 | ChartX、ChartY、MMC | 數據提取、趨勢分析、圖表轉表格 | 常誤讀坐標軸、混淆數據關系 |
表格解析 | TableVQA-Bench、ComTQA | 表格結構識別、跨單元格推理、數學計算 | 圖像表格識別精度遠低于純文本表格 |
文檔理解 | Fox、ConTextual | 跨頁合同關聯、區域聚焦翻譯、上下文推理 | 難以定位細粒度信息 |
視頻推理 | Video-MME | 長視頻事件鏈理解、跨模態分析 | >1小時視頻理解準確率驟降 |
專業領域 | DesignQA | 工程圖紙合規判斷、規則文檔關聯 | 專業術語和圖紙符號理解錯誤率高 |
基礎感知 | BLINK | 相對深度判斷、圖像篡改檢測 | 人類秒懂的任務,模型正確率僅50%左右 |
典型案例
- GPT-4V 在醫療圖表分析中誤讀數據,導致診斷建議錯誤
- Gemini 在金融合同跨頁條款關聯中漏判關鍵信息
評測體系揭示的行業真相
MLLMs 尚未顛覆傳統OCR
- 簡單場景:傳統OCR仍占優(速度快、成本低)
- 復雜場景:MLLMs有潛力但需針對性優化(如金融表格用Fox基準調優)
模型能力嚴重不均衡
- 圖文描述能力強 ≠ 專業推理能力強(e.g. 能寫詩但算錯財務報表)
- 英文表現好 ≠ 中文表現好(CC-OCR 顯示中文OCR準確率低15%+)
幻覺問題無處不在
- 在模糊圖像中“腦補”錯誤文本(ConTextual 基準中錯誤率 ↑30%)
- 專業領域“一本正經胡說八道”(DesignQA 中合規判斷錯誤率超40%)
- 大模型容易“幻覺”瞎編:?? 看不清或看不懂時,它們傾向于??自信地胡說八道??(比如編造發票號碼、誤讀圖表數據),這在要求??零錯誤??的金融、醫療場景非常危險!評測就是用來暴露這些毛病的。
建議
選模型先看評測
- 金融場景:關注 Fox(文檔)、ComTQA(表格)
- 醫療場景:優先 ChartX(醫學圖表)、MMC(報告理解)
- 多語言需求:驗證 CC-OCR、Omni AI OCR 成績
??選模型要看“考分”:?? 如果你的需求是:
- 理解復雜合同/跨頁文檔 → 重點看 ??Fox?? 成績。
- 解析財務報表圖片 → 重點看 ??ComTQA??、??TableVQA-Bench?? 成績。
- 看懂醫學影像報告圖表 → 重點看 ??ChartX??、??MMC?? 成績。
- 需要多語言識別 → 重點看 ??CC-OCR??、??Omni AI OCR?? 成績。
警惕“通用模型”宣傳
- 即使 GPT-4V/Gemini 也在專業場景翻車,垂直領域仍需微調
- 開源模型(如 Table-LLaVA)在表格任務已接近 GPT-4V,成本更低
- ?? 沒有哪個模型真能在所有方面都拿高分。它們在特定任務上可能很強,但在另一些任務(尤其是需要精準、邏輯、專業知識的)上很弱。
- ??別急著扔掉“認字高手”:?? 對于只要求看清標準票據、身份證上字的應用,又快又準又便宜的傳統OCR還是??首選??!大模型在這上面沒優勢還更貴更慢。
未來方向
- 評測體系本身在進化:從單任務 → 多任務耦合(如 MMT-Bench)考題越來越難,越來越貼近真實復雜場景。
- 模型優化新思路:
- 增加“感知驗證層”(如 ChartVLM 先解析結構再推理)
- 注入領域知識(DesignQA 證明專業數據提升合規判斷準確率20%+)
- 針對特定短板(比如表格)訓練專用模型效果更好(如 ??Table-LLaVA??)
- ??融合是趨勢:?? 最佳方案可能是讓“認字高手”(傳統OCR)先提取準確文字,再讓“學霸”(大模型)去理解推理,各司其職。
“OCR 與多模態大模型不是替代關系,而是協作進化——評測體系如同導航儀,在技術爆發期幫企業繞過陷阱,駛向真正可靠的落地場景。”