OCR大模型最新研究

最新OCR大模型介紹

在這里插入圖片描述

1.GPT-4o 2024.5.14

3.MinerU 2024.7.4

3.GOT-OCR 2024.9.3

4.InternVL3-78B 2025.4.11 開源
通用多模態大模型，OCR是它們的能力之一
因其訓練數據的偏向，在文檔理解、數學公式識別、圖表分析等任務上通常是開源模型中的SOTA（最先進水平）
https://chat.intern-ai.org.cn/internvl/chat/7hH1UoW8kh9NYn56a84MaYpPQh1Z89ONciSGUKmgFFA=

5.olmOCR 2025.4.19

6.MonkeyOCR 2025.6.5 開源
專門為看清和識別圖像中的小字、密集文字而設計，在需要極高分辨率的場景下優勢明顯。
http://vlrlabmonkey.xyz:7685/

7.OCRFlux-3B 2025.6.17 開源
專精于OCR：目標是做好文本提取，而不是像LMM那樣進行通用推理參數量相對Gemini等模型較小，易于部署和微 OCRFlux-3B 是基于 Qwen2.5-VL-3B-Instruct 多模態視覺語言模型微調的輕量級模型
https://ocrflux.pdfparser.io/#/
pdf輸入，圖像中文字無法提取，markdown文本結構基本掌握，部分丟失。

8.Gemini 2.5Pro 未開源 2025.6.19
通用多模態大模型，OCR是它們的能力之一
百萬級別的token上下文窗口，可以一次性處理極長的文檔（如數小時的視頻或數百頁的PDF）

9.dots.ocr 2025.8 1.7B 開源小紅書
https://dotsocr.xiaohongshu.com/?source=post_page-----b069d92153c2---------------------------------------

測試效果：dots.ocr > InternVL3-78B >OCRFlux-3B>MonkeyOCR（發布網站未布置好，一直error）

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/95290.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/95290.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/95290.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！