最新OCR大模型介紹
1.GPT-4o 2024.5.14
3.MinerU 2024.7.4
3.GOT-OCR 2024.9.3
4.InternVL3-78B 2025.4.11 開源
通用多模態大模型,OCR是它們的能力之一
因其訓練數據的偏向,在文檔理解、數學公式識別、圖表分析等任務上通常是開源模型中的SOTA(最先進水平)
https://chat.intern-ai.org.cn/internvl/chat/7hH1UoW8kh9NYn56a84MaYpPQh1Z89ONciSGUKmgFFA=
5.olmOCR 2025.4.19
6.MonkeyOCR 2025.6.5 開源
專門為看清和識別圖像中的小字、密集文字而設計,在需要極高分辨率的場景下優勢明顯。
http://vlrlabmonkey.xyz:7685/
7.OCRFlux-3B 2025.6.17 開源
專精于OCR:目標是做好文本提取,而不是像LMM那樣進行通用推理 參數量相對Gemini等模型較小,易于部署和微 OCRFlux-3B 是基于 Qwen2.5-VL-3B-Instruct 多模態視覺語言模型微調的輕量級模型
https://ocrflux.pdfparser.io/#/
pdf輸入,圖像中文字無法提取,markdown文本結構基本掌握,部分丟失。
8.Gemini 2.5Pro 未開源 2025.6.19
通用多模態大模型,OCR是它們的能力之一
百萬級別的token上下文窗口,可以一次性處理極長的文檔(如數小時的視頻或數百頁的PDF)
9.dots.ocr 2025.8 1.7B 開源 小紅書
https://dotsocr.xiaohongshu.com/?source=post_page-----b069d92153c2---------------------------------------
測試效果:dots.ocr > InternVL3-78B >OCRFlux-3B>MonkeyOCR(發布網站未布置好,一直error)