1. 背景介紹
早些時候,Allen Institute for AI 發布了 olmOCR,這是一個基于 Qwen2-VL-7B 視覺語言模型(VLM)的開源工具,用于處理 PDF 和其他復雜文檔的 OCR(光學字符識別)。開發團隊對該工具的高質量和開源特性感到興奮,并探索了如何利用更新的基礎模型和一些輕量級優化來進一步改進它。
2. RolmOCR 的發布
開發團隊開發了 RolmOCR,作為 olmOCR 的替代方案。它具有以下特點:
- 更快:處理速度更快。
- 內存占用更低:減少了顯存和內存的使用。
- 兼容性廣:在多種文檔類型上表現良好。
RolmOCR 基于 Qwen/Qwen2.5-VL-7B-Instruct 模型,并在 allenai/olmOCR-mix-0225 數據集上進行了微調。開發團隊將其開源,采用 Apache 2.0 許可證,供任何人試用、探索或進一步開發。
3. 關鍵改進
開發團隊在 olmOCR 的基礎上進行了以下三項關鍵改進:
3.1 新基礎模型
開發團隊使用了更近期的 Qwen2.5-VL-7B 模型作為基礎,替換了原來的模型。
3.2 不使用元數據輸入
與 olmOCR 不同,開發團隊不再使用從 PDF 中提取的元數據。這一改進顯著減少了提示(prompt)的長度,從而降低了處理時間和顯存占用,同時在大多數情況下保持了準確性。
3.3 數據集旋轉
開發團隊對訓練數據進行了約 15% 的旋轉處理,以增強模型對傾斜文檔的魯棒性。其他訓練數據保持不變。
4. 使用方法
4.1 部署模型
開發團隊建議使用 vLLM 部署 RolmOCR:
export VLLM_USE_V1=1
vllm serve reducto/RolmOCR
5. 局限性
盡管 RolmOCR 在 OCR 方面表現出色,但它仍存在以下局限性:
-
幻覺或內容丟失:與其他基于 VLM 的 OCR 解決方案類似,RolmOCR 可能會出現幻覺(生成不存在的內容)或遺漏部分內容。
-
無布局邊界框輸出:與 Reducto Parsing API 不同,RolmOCR 無法輸出文檔的布局邊界框。
-
未評估量化版本:開發團隊尚未對 RolmOCR 的量化版本進行性能評估。