開源的7B參數OCR視覺大模型:RolmOCR

1. 背景介紹

早些時候,Allen Institute for AI 發布了 olmOCR,這是一個基于 Qwen2-VL-7B 視覺語言模型(VLM)的開源工具,用于處理 PDF 和其他復雜文檔的 OCR(光學字符識別)。開發團隊對該工具的高質量和開源特性感到興奮,并探索了如何利用更新的基礎模型和一些輕量級優化來進一步改進它。

2. RolmOCR 的發布

開發團隊開發了 RolmOCR,作為 olmOCR 的替代方案。它具有以下特點:

  • 更快:處理速度更快。
  • 內存占用更低:減少了顯存和內存的使用。
  • 兼容性廣:在多種文檔類型上表現良好。

RolmOCR 基于 Qwen/Qwen2.5-VL-7B-Instruct 模型,并在 allenai/olmOCR-mix-0225 數據集上進行了微調。開發團隊將其開源,采用 Apache 2.0 許可證,供任何人試用、探索或進一步開發。

3. 關鍵改進

開發團隊在 olmOCR 的基礎上進行了以下三項關鍵改進:

3.1 新基礎模型

開發團隊使用了更近期的 Qwen2.5-VL-7B 模型作為基礎,替換了原來的模型。

3.2 不使用元數據輸入

olmOCR 不同,開發團隊不再使用從 PDF 中提取的元數據。這一改進顯著減少了提示(prompt)的長度,從而降低了處理時間和顯存占用,同時在大多數情況下保持了準確性。

3.3 數據集旋轉

開發團隊對訓練數據進行了約 15% 的旋轉處理,以增強模型對傾斜文檔的魯棒性。其他訓練數據保持不變。

4. 使用方法

4.1 部署模型

開發團隊建議使用 vLLM 部署 RolmOCR

export VLLM_USE_V1=1
vllm serve reducto/RolmOCR

5. 局限性

盡管 RolmOCR 在 OCR 方面表現出色,但它仍存在以下局限性:

  • 幻覺或內容丟失:與其他基于 VLM 的 OCR 解決方案類似,RolmOCR 可能會出現幻覺(生成不存在的內容)或遺漏部分內容。

  • 無布局邊界框輸出:與 Reducto Parsing API 不同,RolmOCR 無法輸出文檔的布局邊界框。

  • 未評估量化版本:開發團隊尚未對 RolmOCR 的量化版本進行性能評估。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/76589.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/76589.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/76589.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

移動端六大語言速記:第14部分 - 數據庫操作

移動端六大語言速記:第14部分 - 數據庫操作 本文將對比Java、Kotlin、Flutter(Dart)、Python、ArkTS和Swift這六種移動端開發語言在數據庫操作方面的特性,幫助開發者理解和掌握各語言的數據庫編程能力。 14. 數據庫操作 14.1 SQL查詢 各語言SQL查詢實現方式對比: 特性Ja…

有哪些反爬機制可能會影響Python爬取視頻?如何應對這些機制?

文章目錄 前言常見反爬機制及影響1. IP 封禁2. 驗證碼3. 請求頭驗證4. 動態加載5. 加密與混淆6. 行為分析 應對方法1. 應對 IP 封禁2. 應對驗證碼3. 應對請求頭驗證4. 應對動態加載5. 應對加密與混淆6. 應對行為分析 前言 在使用 Python 爬取視頻時,會遇到多種反爬…

ESP32開發入門:基于VSCode+PlatformIO環境搭建指南

前言 ESP32作為一款功能強大的物聯網開發芯片,結合PlatformIO這一現代化嵌入式開發平臺,可以大幅提升開發效率。本文將詳細介紹如何在VSCode中搭建ESP32開發環境,并分享實用開發技巧。 一、環境安裝(Windows/macOS/Linux&#xf…

DeepSeek:穿透行業知識壁壘的搜索引擎攻防戰

DeepSeek:穿透行業知識壁壘的搜索引擎攻防戰 文 / 產業智能觀察組(人機協同創作) 一、搜索引擎的"認知折疊"危機 2024年Q1數據顯示,百度搜索結果前10頁中,61.7%的內容存在"偽專業化"現象——看似…

SQL 外鍵(Foreign Key)詳細講解

1. 什么是外鍵??? ??定義??:外鍵是數據庫表中的一列(或一組列),用于??建立兩個表之間的關聯關系??。外鍵的值必須匹配另一個表的主鍵(Primary Key)或唯一約束(Unique Con…

5G中的DU和CU的作用

在5G網絡架構中,CU(Centralized Unit,集中單元) 和 DU(Distributed Unit,分布單元) 是無線接入網(RAN)的重要組成部分,它們的分工和作用如下: 1.…

深度解析 n8n:強大的開源工作流自動化平臺

在數字化時代,企業和個人面臨著日益復雜的工作流程和多樣化的應用工具,如何高效整合這些資源、實現工作流的自動化成為提升效率的關鍵。n8n 作為一款開源的工作流自動化平臺,憑借其強大的功能、廣泛的應用集成能力和靈活的部署方式&#xff0…

ruby超高級語法

以下是 Ruby 中一些 極度硬核 的語法和底層特性,涉及元編程的深淵、虛擬機原理、語法黑魔法等,適用于追求極限的 Ruby 開發者: 高級語法一 一、語法核彈級操作 1. 動態修改繼承鏈 class A; def foo; "A"; end end class B; def …

flutter 獲取通話記錄和通訊錄

Dart SDK version is 3.7.01 dependencies:flutter:sdk: flutterpermission_handler: ^11.0.1 # 權限管理flutter_contacts: ^1.1.92call_log: ^5.0.5cupertino_icons: ^1.0.8dev_dependencies:flutter_test:sdk: flutterflutter_lints: ^5.0.0 2 contact_and_calls_page.da…

bash腳本手動清空mysql表數據

文章目錄 1、bash腳本手動清空mysql表數據 1、bash腳本手動清空mysql表數據 #!/bin/bash# 配置區域(修改此處) MYSQL_USER"root" MYSQL_PASSWORD"123456" MYSQL_HOST"localhost" DATABASES("hps-base:base_test_ite…

Spark Core編程

一文讀懂Spark Core編程核心要點 最近在學習大數據處理框架Spark,今天來給大家分享一下Spark Core編程中非常重要的內容,包括RDD算子、累加器和廣播變量,希望能幫助大家更好地理解和掌握Spark編程。先來說說RDD算子,它是Spark編程…

SDP(一)

SDP(Session Description Protocol)會話描述協議相關參數 Session Description Protocol Version (v): 0 --說明:SDP當前版本號 Owner/Creator, Session Id (o): - 20045 20045 IN IP4 192.168.0.0 --說明:發起者/創建者 會話ID,那么該I…

HarmonyOS:組件布局保存至相冊

一,需求背景 有這樣一個需求,將頁面上的某個自定義組件以圖片的形式保存至相冊。 二,需求拆解 根據需求分析,可將需求拆解成兩步: 1,將組件轉換成圖片資源; 2,將圖片保存到相冊…

算法中的數論基礎

算法中的數論基礎 本篇文章適用于算法考試或比賽之前的臨場復習記憶,沒有復雜公式推理,基本上是知識點以及函數模版,涵蓋取模操作、位運算的小技巧、組合數、概率期望、進制轉換、最大公約數、最小公倍數、唯一分解定理、素數、快速冪等知識…

Redis下載穩定版本5.0.4

https://www.redis.net.cn/download/ Redis下載 Redis 版本號采用標準慣例:主版本號.副版本號.補丁級別,一個副版本號就標記為一個標準發行版本,例如 1.2,2.0,2.2,2.4,2.6,2.8,奇數的副版本號用來表示非標準版本,例如2.9.x發行版本是Redis 3.0標準版本的非標準發行版本…

?UniApp 安卓打包完整步驟(小白向)

? ?一、環境準備? ?安裝 HBuilderX? 下載最新版 HBuilderX 并安裝(官方 IDE,支持一鍵打包)?16確保已安裝 Node.js(用于依賴管理)?26 ?配置 Android 開發環境? 安裝 ?Java JDK 17?(建議選擇穩定…

【Springboot知識】Springboot配置加載機制深入解讀

文章目錄 配置加載概述**Spring Boot 配置加載機制詳解****一、配置加載順序(優先級由低到高)****二、關鍵配置機制說明****1. Profile 機制****2. 外部化配置****3. 配置屬性綁定到 Bean****4. 動態覆蓋配置** **三、配置加載流程圖****2. 配置導入&…

AI圖像生成

要通過代碼實現AI圖像生成,可以使用深度學習框架如TensorFlow、PyTorch或GANs等技術。下面是一個簡單的示例代碼,演示如何使用GANs生成手寫數字圖像: import torch import torchvision import torchvision.transforms as transforms import …

基于springboot的個人博客系統

一、系統架構 前端:html | bootstrap | jquery | css | ajax 后端:springboot | mybatis 環境:jdk1.8 | mysql | maven 二、代碼及數據 三、功能介紹 01. 注冊 02. 登錄 03. 管理后臺-首頁 04. 管理后臺-文章-所有文…

BOTA六維力矩傳感器如何打通機器人AI力控操作的三層架構?感知-決策-執行全鏈路揭秘

想象一下,你對著一個機器人說:“請幫我泡杯茶。”然后,它就真的開始行動了:找茶壺、燒水、取茶葉、泡茶……這一切看似簡單,但背后卻隱藏著復雜的AI技術。今天,我們就來揭秘BOTA六維力矩傳感器在機器人操控…