OCR MLLM Evaluation

為什么需要評測體系?——背景與矛盾

??

  • 能干的事:?? 看清楚發票、身份證上的字(準確率>90%),速度飛快(眨眼間完成)。
  • ??干不了的事:?? 碰到復雜表格(合并單元格)、跨頁合同(前后條款關聯)、模糊發票(猜意思)就懵圈了。
傳統OCR的瓶頸
  • 優勢

    • 文字識別準確率 >90%
    • 響應快(毫秒級)
    • 廣泛應用于票據、合同等場景
  • 短板

    • 難以處理復雜結構,如合并單元格表格、跨頁合同邏輯、模糊發票語義推斷
多模態大模型(MLLMs)的崛起
  • 能力

    • 視覺問答、圖文推理、信息提取
    • 展現強大泛化能力
  • 現實挑戰

    • 在 OCRBench v2 測試中,22個主流模型有20個得分低于50分(滿分100)
  • 暴露問題

    • 找不準字的位置(文本定位差)。
    • 看不懂手寫的字(手寫識別弱)。
    • 理解不了文字背后的邏輯(推理不行)。
    • 在專業領域(金融、醫療)容易出錯。
核心矛盾
  • MLLMs 宣稱“全能”,但在關鍵行業(金融/醫療/政務)仍不可靠。
  • 評測體系成為篩選可靠模型的“照妖鏡”。

評測體系全景圖——19個關鍵基準解析

按任務類型分類速覽
評測方向代表基準核心任務發現的問題
文字識別(OCR)OCRBench v2、CC-OCR多語言文本、復雜排版、手寫體識別對生僻字、模糊文本、多方向文字識別率低
圖表理解ChartX、ChartY、MMC數據提取、趨勢分析、圖表轉表格常誤讀坐標軸、混淆數據關系
表格解析TableVQA-Bench、ComTQA表格結構識別、跨單元格推理、數學計算圖像表格識別精度遠低于純文本表格
文檔理解Fox、ConTextual跨頁合同關聯、區域聚焦翻譯、上下文推理難以定位細粒度信息
視頻推理Video-MME長視頻事件鏈理解、跨模態分析>1小時視頻理解準確率驟降
專業領域DesignQA工程圖紙合規判斷、規則文檔關聯專業術語和圖紙符號理解錯誤率高
基礎感知BLINK相對深度判斷、圖像篡改檢測人類秒懂的任務,模型正確率僅50%左右
典型案例
  • GPT-4V 在醫療圖表分析中誤讀數據,導致診斷建議錯誤
  • Gemini 在金融合同跨頁條款關聯中漏判關鍵信息

評測體系揭示的行業真相

MLLMs 尚未顛覆傳統OCR
  • 簡單場景:傳統OCR仍占優(速度快、成本低)
  • 復雜場景:MLLMs有潛力但需針對性優化(如金融表格用Fox基準調優)
模型能力嚴重不均衡
  • 圖文描述能力強 ≠ 專業推理能力強(e.g. 能寫詩但算錯財務報表)
  • 英文表現好 ≠ 中文表現好(CC-OCR 顯示中文OCR準確率低15%+)
幻覺問題無處不在
  • 在模糊圖像中“腦補”錯誤文本(ConTextual 基準中錯誤率 ↑30%)
  • 專業領域“一本正經胡說八道”(DesignQA 中合規判斷錯誤率超40%)
  • 大模型容易“幻覺”瞎編:?? 看不清或看不懂時,它們傾向于??自信地胡說八道??(比如編造發票號碼、誤讀圖表數據),這在要求??零錯誤??的金融、醫療場景非常危險!評測就是用來暴露這些毛病的。

建議

選模型先看評測
  • 金融場景:關注 Fox(文檔)、ComTQA(表格)
  • 醫療場景:優先 ChartX(醫學圖表)、MMC(報告理解)
  • 多語言需求:驗證 CC-OCR、Omni AI OCR 成績

??選模型要看“考分”:?? 如果你的需求是:

  • 理解復雜合同/跨頁文檔 → 重點看 ??Fox?? 成績。
  • 解析財務報表圖片 → 重點看 ??ComTQA??、??TableVQA-Bench?? 成績。
  • 看懂醫學影像報告圖表 → 重點看 ??ChartX??、??MMC?? 成績。
  • 需要多語言識別 → 重點看 ??CC-OCR??、??Omni AI OCR?? 成績。
警惕“通用模型”宣傳
  • 即使 GPT-4V/Gemini 也在專業場景翻車,垂直領域仍需微調
  • 開源模型(如 Table-LLaVA)在表格任務已接近 GPT-4V,成本更低
  • ?? 沒有哪個模型真能在所有方面都拿高分。它們在特定任務上可能很強,但在另一些任務(尤其是需要精準、邏輯、專業知識的)上很弱。
  • ??別急著扔掉“認字高手”:?? 對于只要求看清標準票據、身份證上字的應用,又快又準又便宜的傳統OCR還是??首選??!大模型在這上面沒優勢還更貴更慢。
未來方向
  • 評測體系本身在進化:從單任務 → 多任務耦合(如 MMT-Bench)考題越來越難,越來越貼近真實復雜場景。
  • 模型優化新思路
    • 增加“感知驗證層”(如 ChartVLM 先解析結構再推理)
    • 注入領域知識(DesignQA 證明專業數據提升合規判斷準確率20%+)
    • 針對特定短板(比如表格)訓練專用模型效果更好(如 ??Table-LLaVA??)
    • ??融合是趨勢:?? 最佳方案可能是讓“認字高手”(傳統OCR)先提取準確文字,再讓“學霸”(大模型)去理解推理,各司其職。

“OCR 與多模態大模型不是替代關系,而是協作進化——評測體系如同導航儀,在技術爆發期幫企業繞過陷阱,駛向真正可靠的落地場景。”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/82804.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/82804.shtml
英文地址,請注明出處:http://en.pswp.cn/web/82804.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入解析JVM工作原理:從字節碼到機器指令的全過程

一、JVM概述 Java虛擬機(JVM)是Java平臺的核心組件,它實現了Java"一次編寫,到處運行"的理念。JVM是一個抽象的計算機器,它有自己的指令集和運行時內存管理機制。 JVM的主要職責: 加載:讀取.class文件并驗…

Python繪圖庫及圖像類型之特殊領域可視化

Python繪圖庫及圖像類型之基礎圖表-CSDN博客https://blog.csdn.net/weixin_64066303/article/details/148433762?spm1001.2014.3001.5501 Python繪圖庫及圖像類型之高級可視化-CSDN博客https://blog.csdn.net/weixin_64066303/article/details/148450750?spm1001.2014.3001.…

04 APP 自動化- Appium toast 元素定位列表滑動

文章目錄 一、toast 元素的定位二、滑屏操作 一、toast 元素的定位 toast 元素就是簡易的消息提示框,toast 顯示窗口顯示的時間有限,一般3秒左右 # -*- codingutf-8 -*- from time import sleep from appium import webdriver from appium.options.an…

C/C++ OpenCV 矩陣運算

C/C OpenCV 矩陣運算詳解 💡 OpenCV 是一個強大的開源計算機視覺和機器學習庫,它提供了豐富的矩陣運算功能,這對于圖像處理和計算機視覺算法至關重要。本文將詳細介紹如何使用 C/C 和 OpenCV 進行常見的矩陣運算。 矩陣的創建與初始化 在進…

基于大模型的 UI 自動化系統

基于大模型的 UI 自動化系統 下面是一個完整的 Python 系統,利用大模型實現智能 UI 自動化,結合計算機視覺和自然語言處理技術,實現"看屏操作"的能力。 系統架構設計 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…

USB擴展器與USB服務器的2個主要區別

在現代辦公和IT環境中,連接和管理USB設備是常見需求。USB擴展器(常稱USB集線器)與USB服務器(如朝天椒USB服務器)是兩類功能定位截然不同的解決方案。前者主要解決物理接口數量不足的“近身”連接擴展問題,而…

Nuxt.js 中的路由配置詳解

Nuxt.js 通過其內置的路由系統簡化了應用的路由配置,使得開發者可以輕松地管理頁面導航和 URL 結構。路由配置主要涉及頁面組件的組織、動態路由的設置以及路由元信息的配置。 自動路由生成 Nuxt.js 會根據 pages 目錄下的文件結構自動生成路由配置。每個文件都會對…

驗證負載均衡與彈性伸縮

什么是彈性伸縮(Auto Scaling)? 彈性伸縮是指 云計算平臺根據實時負載自動調整計算資源(如服務器實例、容器Pod)數量,以確保系統在高峰時保持穩定,在低谷時節省成本。 什么時候會觸發彈性伸縮&…

區分viewmodel和model職責的方法

gpt回答挺好的,我就分享一下。 1. 最經典的一句話區分 Model(Repository/數據層):只負責**“數據獲取/存儲/持久化”和“核心業務算法”**,不依賴UI層和Android框架,可以脫離界面獨立存在。 ViewModel&…

C語言數據結構筆記3:Union聯合體+結構體取8位Bool量

本文銜接上文要求,新增8位bool量的獲取方式。 目錄 問題提出: Union聯合體struct結構體(方式1): Union聯合體struct結構體(方式2): BYTE方式讀取: 問題提出: 在STM32單片機的編程中,無法定義Boo…

三種讀寫傳統xls格式文件開源庫libxls、xlslib、BasicExcel的比較

最近準備讀寫傳統xls格式文件,而不是較新的xlsx,詢問DeepSeek有哪些開源庫,他給出了如下的簡介和建議,還給出了相應鏈接,不過有的鏈接已失效。最后還不忘提醒,現在該用xlsx格式了。 以下是幾個可以處理傳統…

從測試角度看待CI/CD,敏捷開發

什么是敏捷開發? 是在高強度反饋的情況下,短周期,不斷的迭代產品,滿足用戶需求,搶占更多的市場 敏捷開發是什么? 是一種產品快速迭代的情況下,降低出錯的概率,具體會落實到公司的…

figma MCP + cursor如何將設計稿生成前端頁面

一、準備工作 figma MCP需要通過figma key來獲取設計稿權限,key的生成步驟如下 1. 打開figma網頁版/APP,進入賬戶設定 2. 點擊生成token 3. 填寫內容生成token(一定要確認復制了,不然關閉彈窗后就不會顯示了) 二、配置MCP 4. 進入到cursor…

git互聯GitHub 使用教程

一、下載git Git 公司 右鍵 git config --global user.name "name" git config --global user.email "email" ssh-keygen -t rsa -C email :生成的ssh密鑰需要到github 網站中保存ssh 二、GitHub新建repository 三、本地git互聯GitHub 找…

“輕量應用服務器” vs. “云服務器CVM”:小白入門騰訊云,哪款“云機”更適合你?(場景、配置、價格對比解析)

更多云服務器知識,盡在hostol.com 當你第一次踏入騰訊云這個“數字百貨大樓”,面對琳瑯滿目的“云產品”,是不是有點眼花繚亂,特別是看到“輕量應用服務器”和“云服務器CVM”這兩位都號稱能幫你“安家落戶”的“云主機”時&…

MongoDB學習和應用(高效的非關系型數據庫)

一丶 MongoDB簡介 對于社交類軟件的功能,我們需要對它的功能特點進行分析: 數據量會隨著用戶數增大而增大讀多寫少價值較低非好友看不到其動態信息地理位置的查詢… 針對以上特點進行分析各大存儲工具: mysql:關系型數據庫&am…

Qt學習及使用_第1部分_認識Qt---Qt簡介

前言 學以致用,通過QT框架的學習,一邊實踐,一邊探索編程的方方面面. 參考書:<Qt 6 C開發指南>(以下稱"本書") 標識說明:概念用粗體傾斜.重點內容用(加粗黑體)---重點內容(紅字)---重點內容(加粗紅字), 本書原話內容用深藍色標識,比較重要的內容用加粗傾斜下劃線…

Python語法基礎篇(包含類型轉換、拷貝、可變對象/不可變對象,函數,拆包,異常,模塊,閉包,裝飾器)

Python語法基礎篇&#xff08;二&#xff09; 類型轉換拷貝可變對象與不可變對象可變對象不可變對象 函數拆包異常模塊閉包裝飾器 &#x1f439;&#x1f439;&#x1f439;&#x1f439;&#x1f439;一只正在努力學習計算機技術的小倉鼠&#xff0c;尾部有課程鏈接哦~&#x…

錄制mp4

目錄 單線程保存mp4 多線程保存mp4 rtsp ffmpeg錄制mp4 單線程保存mp4 import cv2 import imageiocv2.namedWindow(photo, 0) # 0窗口大小可以任意拖動&#xff0c;1自適應 cv2.resizeWindow(photo, 1280, 720) url "rtsp://admin:aa123456192.168.1.64/h264/ch1/main…

ISBN書號查詢接口如何用PHP實現調用?

一、什么是ISBN書號查詢接口 ISBN數據查詢接口是一項圖書信息查詢服務。它基于全球通用的ISBN編碼系統&#xff0c;幫助用戶快速獲取圖書的詳細信息&#xff0c;包括書名、作者、出版社、出版時間、價格、封面等關鍵字段。 該接口廣泛應用于電商平臺、圖書館管理系統、二手書…