OCRBench:評估多模態大模型的OCR能力

論文地址:OCRBench: On?The?Hidden?Mystery?of?OCR In?Large?Multimodal?Models:2305.07895

OCRBench在10個文本相關任務上測評多模態大模型(LMM)的OCR能力,包含1000個問題-答案對,每個問題-答案對包含以下五個類別:index(索引),image(圖片),question(問題),answer(回答),category(問題類別)。其中問題類別主要有以下內容:

任務翻譯image(圖片)示例question(問題)示例answer(回答)示例任務數量
Key Information Extraction關鍵信息提取

736.jpg

what is the total amount of this receipt? Answer this question using the text in the image directly.?['26.58']200
Doc-oriented VQA面向文檔的視覺問答

518.jpg

Whats the Venue Name?? ?['the halfmoon']200
Scene Text-centric VQA以場景文本為中心的視覺問答

304.jpg

What is the title of the book???['PENDRAGON']200
Handwritten Mathematical Expression Recognition手寫數學表達式識別

910.jpg

Please write out the expression of the formula in the image using LaTeX format.['x = \\frac { 1 7 } { 5 }\n']100
Irregular Text Recognition?不規則文本識別

52.jpg

what is written in the image?['COFFEE']50
Regular Text Recognition規則文本識別

2.jpg

what is written in the image?['CHAIN']50
Non-Semantic Text Recognition非語義文本識別

250.jpg

what is written in the image?['espt']50
Digit String Recognition數字字符串識別

222.jpg

what is the number in the image?['9557']50
Handwriting Recognition手寫體識別

152.jpg

what is written in the image?['bread']50
Artistic Text Recognition?藝術文本識別

102.jpg

what is written in the image?['Home']50
Total總計---1000

需要注意的是,在tsv文件中,圖片使用Base64編碼保存。Base64 編碼可將二進制圖像文件(PNG、JPEG、GIF)轉換為緊湊的純文本字符串,從而直接嵌入到 HTML、CSS 或 JSON 中。

要將Base64編碼轉換為圖片,有以下三種方式:

(1)使用在線網站:例如:Base64 轉圖片轉換器 – 免費在線工具箱 - DopuBOX

(2)使用腳本:

import base64# 1. 復制 Base64 編碼字符串
base64_data = "/9j/4AAQSkZJRgABAQAAAQABAAD/...(完整字符串)/ALz44+gHAooA/9k="# 2. 解碼并保存為圖片
with open("output.jpg", "wb") as f:f.write(base64.b64decode(base64_data))print("圖片已保存為 output.jpg")

(3)瀏覽器直接預覽

在 HTML 文件中使用以下代碼:

<img src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ...(完整 Base64 字符串).../9k=">

用瀏覽器打開該 HTML 文件即可顯示圖片。


說明

  • 編碼類型:該字符串是?JPEG 圖片的 Base64 編碼(以?/9j/?開頭)。

  • 注意事項:確保復制完整的編碼(從?/9j/?到結束標記?/9k=),否則轉換會失敗。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85443.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85443.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85443.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

servlet前后端交互

前后端交互目錄 servlet流程servlet請求JSON格式實現表格效果完整代碼 servlet流程 流程圖&#xff1a; 客戶端&#xff08;瀏覽器&#xff09;&#xff1a; 技術棧&#xff1a;使用 jQuery Ajax 發起異步請求。請求配置&#xff1a; 請求路徑&#xff1a;指定目標Servlet的…

4. 時間序列預測的自回歸和自動方法(2)

ar_model.AutoReg 模型通過應用以下元素來估計參數 條件最大似然&#xff08;CML&#xff09;估計量&#xff1a;這是一種涉及條件對數似然函數最大化的方法&#xff0c;據此認為已知的參數要么由理論假設固定&#xff0c;要么更常見地由估計值代替&#xff08;LewiseBeck&…

MySQL(84)如何配置MySQL防火墻?

MySQL防火墻&#xff08;MySQL Enterprise Firewall&#xff09;是一種MySQL企業版特性&#xff0c;用于保護數據庫免受SQL注入和其他惡意活動的攻擊。它通過學習和監控合法SQL語句&#xff0c;創建一個允許列表&#xff0c;從而阻止未在列表中的SQL語句。 1. 啟用MySQL防火墻…

優化 Python 爬蟲性能:異步爬取新浪財經大數據

一、同步爬蟲的瓶頸 傳統的同步爬蟲&#xff08;如requestsBeautifulSoup&#xff09;在請求網頁時&#xff0c;必須等待服務器返回響應后才能繼續下一個請求。這種阻塞式I/O操作在面對大量數據時存在以下問題&#xff1a; 速度慢&#xff1a;每個請求必須串行執行&#xff0…

Visual Studio Code (VSCode) Python 開發環境配置完整指南

一、安裝準備 1. 安裝 VSCode 官網下載: Visual Studio Code - Code Editing. Redefined安裝時建議勾選: "添加到PATH" (方便終端調用)"注冊為受支持的文件類型編輯器"2. 安裝 Python 官網下載: Download Python | Python.org安裝時勾選: "Add Pytho…

智能數據標簽引擎:企業級分類分級與動態管控實踐

在數字化轉型浪潮中&#xff0c;企業數據量呈爆發式增長&#xff0c;數據的多樣性和復雜性也不斷提升。如何對海量數據進行高效分類分級&#xff0c;并實施動態管控&#xff0c;成為企業釋放數據價值、保障數據安全的關鍵挑戰。智能數據標簽引擎應運而生&#xff0c;它通過引入…

Redis(1)——RDB持久化

在追求極致性能的 Redis 世界里&#xff0c;數據安全是永恒的主題。作為內存數據庫&#xff0c;Redis 重啟或宕機意味著數據丟失的風險。RDB (Redis Database) 持久化&#xff0c;又稱快照持久化&#xff0c;是 Redis 提供的最經典、最高效的數據落地方案之一。它通過生成某個時…

深度剖析無感刷新Token:領碼SPARK平臺賦能微服務認證的智能實踐

摘要 在現代微服務架構與數字化轉型大潮中&#xff0c;用戶身份認證的連續性與安全性尤為關鍵。無感刷新Token技術通過智能的雙Token機制&#xff0c;確保用戶訪問憑證在不打擾用戶的前提下自動續期&#xff0c;避免因Token過期導致的頻繁登錄中斷。本文結合領碼SPARK融合平臺的…

聲網對話式 AI:開啟我的編程進階之旅

轉行學習編程時&#xff0c;復雜的代碼邏輯常讓我無從下手&#xff0c;直到遇見聲網對話式AI。它像一位耐心的導師&#xff0c;不僅用通俗易懂的語言幫我理解Python循環嵌套等難點&#xff0c;還提供實際代碼示例。當我開發學生成績管理系統時&#xff0c;它甚至直接生成框架代…

精準護理,點亮進行性核上性麻痹患者生活希望

進行性核上性麻痹&#xff08;PSP&#xff09;是一種罕見的神經系統變性疾病&#xff0c;主要表現為姿勢平衡障礙、眼球運動障礙、吞咽困難等癥狀。科學的健康護理能有效延緩病情進展&#xff0c;提升患者生活質量&#xff0c;可從以下方面著手。 ?在飲食護理上&#xff0c;因…

記錄一次 Oracle 表空間不足問題的解決過程

記錄一次 Oracle 表空間不足問題的解決過程 6月14日&#xff0c;某醫院信息科用戶反映無法提交門診病例&#xff0c;門診處方也無法開立。其他功能是正常的。考慮可能是與門診病例有關的表空間用完了。 Oracle表空間的數據文件默認是可以自動增長的&#xff0c;但是單個文件的…

2024 年 11 月公鏈行業研報:比特幣創歷史新高引領市場全面上漲

比特幣屢創歷史新高&#xff0c;主導市場全面上漲&#xff0c;同時 Layer 1 表現強勁&#xff0c;而 Layer 2 格局持續演變。 2024 年 11 月公鏈研報 作者&#xff1a;Stella L (stellafootprint.network) 數據來源&#xff1a;Footprint Analytics 公鏈研究頁面 2024 年 11…

MAX4622ESE+T雙5Ω模擬開關在低失真音頻路由中的實測:0.5Ω匹配度如何改善THD性能

一、產品概述&#xff1a;精密信號切換的硬件基石 MAX4622ESET是一款雙通道SPDT&#xff08;單刀雙擲&#xff09;模擬開關&#xff0c;采用5Ω超低導通電阻設計&#xff08;典型值3Ω&#xff09;&#xff0c;專為高精度信號路由場景優化。其核心價值在于通過單片CMOS架構實現…

高并發秒殺系統(Redis分布式鎖優化與庫存防超賣實戰)

本文通過日活百萬級的電商秒殺案例&#xff0c;深度剖析分庫分表路由算法在高并發場景下的落地實踐。結合Redis分布式鎖的優化方案解決庫存超賣問題&#xff0c;包含完整架構設計、代碼實現及壓測數據對比。全文包含12個核心代碼片段和8類技術圖表&#xff0c;來自線上生產環境…

從loader和plugin開始了解webpack

目錄 一、webpack中loader和plugin的區別1. Loader&#xff08;每個 Loader 是一個函數或對象&#xff09;2.plugin&#xff08;每個 Plugin 是一個實例&#xff09;3.自定義loader和plugin 二、Babel的功能三、Plugin中的compiler和compilation對象1. compiler對象2. compilat…

36-Oracle Statistics Gathering(統計信息收集)

小伙伴們&#xff0c;有沒有因為統計信息不準&#xff0c;導致了業務卡頓&#xff0c;各種狀況頻出&#xff0c;這幾天在實踐和實操的過程中&#xff0c;時不時就需要進行統計信息的收集。同時統計信息收集的動作也是OCM必考內容。 數據庫中的數據是地圖&#xff0c;統計信息是…

Linux驅動程序(PWM接口)與超聲波測距

一、利用阿里云服務器實現樹莓派外網訪問&#xff08;SSH 反向代理&#xff09; 1. 樹莓派端配置 步驟 1&#xff1a;安裝 SSH 服務&#xff08;若未安裝&#xff09; sudo apt-get install openssh-server 步驟 2&#xff1a;創建反向代理連接 -p 22&#xff1a;指定阿里…

Web攻防-XSS跨站文件類型功能邏輯SVGPDFSWFHTMLXMLPMessageLocalStorage

知識點&#xff1a; 1、Web攻防-XSS跨站-文件類型-html&pdf&swf&svg&xml 2、Web攻防-XSS跨站-功能邏輯-postMessage&localStorage 一、演示案例-WEB攻防-XSS跨站-文件類型觸發XSS-SVG&PDF&SWF&HTML&XML等 1、SVG-XSS SVG(Scalable Vect…

強大模型通過自我和解進步——Unsupervised Elicitation of Language Models——論文閱讀筆記

本周關注的工作是&#xff1a;Unsupervised Elicitation of Language Models 這篇文章通篇體現了這樣一件事——香蕉皮大需要香蕉大&#xff01; 一句話總結 首先注意&#xff1a;這個工作不是面向對齊的&#xff0c;而是寫【如何準備】對齊任務的Reward Model需要的數據集的…

Qt—(Qt初識,槽,信號,事件)

一 Qt初識 暫時不寫了 我的理解是類似于c#&#xff0c;是一個組件庫&#xff0c;不局限是一個組件框架。 二 Qt Core Qt Core 是 Qt 框架的基礎模塊&#xff0c;提供非 GUI 的核心功能&#xff1a; 核心類&#xff1a;QObject&#xff08;信號槽機制&#xff09;、QEvent&…