【OCR】總結github上開源 OCR 工具:讓文字識別更簡單

前言

在數字化的時代,光學字符識別(OCR)技術成為了我們處理文檔、圖像文字信息的得力助手。它能夠將圖像中的文字信息轉換為可編輯和可處理的文本數據,極大地提高了信息處理的效率。今天,我要給大家介紹一些優秀的開源 OCR 工具,它們在不同的場景下各顯神通,讓我們一起來看看它們的強大之處吧!

1、端到端 OCR 模型:GOT-OCR 2.0

這是一款開源的端到端多模態 OCR 模型,模型大小僅 1.43 GB。除了能識別和提取文本,還能處理數學公式、分子式、圖表、樂譜、幾何圖形等多種內容,極大地拓寬了 OCR 技術的應用范圍。

目前在 GitHub 上已經獲得了?7.2K?的 Star!

圖片

    開源地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

    2、開源多模態模型:兼容文字識別

    InternVL?是由 OpenGVLab 團隊開發的開源多模態大模型,旨在提供接近 GPT-4V 和 Gemini Pro 等商業模型性能的替代方案,目前已經獲得了?7.2K?的 Star。

    這個是視覺大模型,它能兼容的場景更廣泛,比如圖片理解,理論上不算 OCR 領域的垂直模型,不過這種視覺大模型能夠向下兼容 OCR 提取文字場景的,所以我就算進來了。

    當然開源的視覺大模型有很多,我就不逐個梳理了,先拿這個做案例。

    圖片

      開源地址:https://github.com/OpenGVLab/InternVL

      3、PDF 轉成結構化文本:olmOCR

      olmOCR 是由 AllenAI 開發的一款專注于?PDF 文檔線性化處理的工具包,將復雜布局的 PDF 轉換為適合大語言模型(LLM)訓練的結構化文本。目前已經獲得了?9.8K?的 Star!

      其核心目標是通過高效處理 PDF 的圖文混排、多欄布局等問題,生成連貫的文本數據,提升 LLM 在真實場景中的文檔理解能力。

      要求配置是最新的 NVIDIA GPU(在 RTX 4090、L40S、A100、H100 上測試),至少有 20 GB 的 GPU RAM,30GB 可用磁盤空間

      圖片

      圖片

        開源地址:https://github.com/allenai/olmocr在線演示:https://olmocr.allenai.org/

        4、識別文字轉成結構化文件:Zerox

        Zerox?是由 Omni-AI 團隊開發的一款 AI 驅動的提取文字工具,可以把 PDF、圖片、Docx 等格式的文檔轉換為結構化的 Markdown 文件。目前獲得了?10.3K?的 Star!

        底層實現:底層基于視覺模型(如 GPT-4o-mini)實現 OCR 并直接生成結構化內容。

        無需訓練:與傳統 OCR 工具不同,Zerox 無需提前訓練模型即可處理復雜布局。?

        格式結構:可識別學術論文的分欄排版、技術文檔中的代碼塊、合同表格、試卷公式等,保留邏輯結構并生成整潔的 Markdown。

        圖片

          開源地址:https://github.com/getomni-ai/zerox體驗地址:https://getomni.ai/ocr-demo

          5、行級文本檢測、布局分析:Surya

          Surya 專注于多語言文本及復雜文檔結構的識別,尤其以表格識別能力見長。目前在 GitHub 上已經獲得了?16.8K?的 Star!

          關鍵詞:行級文本檢測、布局分析(表格、圖像、標題等檢測)、閱讀順序檢測、表格識別(檢測行/列)、LaTeX OCR

          ① 多語言支持:支持90+ 種語言,涵蓋中文、日語、阿拉伯語等復雜文字,以及英語、西班牙語等主流語言,適用于全球化場景的文檔處理。

          ② 表格識別優化:能精準識別表格的行、列、單元格結構,包括旋轉或復雜布局的表格,性能優于當前主流開源模型(如 Table Transformer)。

          ③ 復雜文檔解析:可檢測文檔中的標題、圖片、段落等元素,并智能判斷閱讀順序,避免輸出內容混亂。

          圖片

          圖片

          ④ 高效處理能力:支持 CPU/GPU 運行,通過批量處理和圖像預處理優化(如去噪、灰度化),顯著提升識別速度,適用于企業級文檔數字化需求。

          開源地址:https://github.com/VikParuchuri/surya

          6、圖片 PDF 變可復制、搜索

          這個開源工具,專為掃描版 PDF 文件(就是 PDF 中全是圖片,圖片中的文字不可復制的那種)添加可搜索、可復制的文本層。

          目前在 GitHub 已經獲得了?20.7K?的 Star!

          使用的是 Tesseract OCR 引擎,支持 100 多種語言,能保留原始圖像質量并優化文件體積,同時生成符合長期存儲標準的 PDF 格式。 ?

          ① 精準識別:打開圖片型 PDF 的時候,會發現圖片上的文字是沒辦法復制和搜索的。將 OCR 文本層嵌入圖片下方,支持高精度復制和搜索。 ?

          圖片

          ② 批量處理:利用多核 CPU 加速,可高效處理上千頁文檔。 ?

          ③ 圖像優化:自動校正傾斜頁面、旋轉錯誤頁面,提升識別率。 ?

          ④ 跨平臺支持:安裝便捷,兼容 Linux、Windows、macOS 和 Docker

          開源地址:https://github.com/ocrmypdf/OCRmyPDF ?接入文檔:https://ocrmypdf.readthedocs.io/en/latest/

          7、PDF 轉換為 Markdown、JSON 或 HTML

          Marker 是由 Vik Paruchuri 開發的高效文檔轉換工具,可以將 PDF、圖像、Office 文檔及 EPUB 等格式快速轉換為 Markdown、JSON 或 HTML。

          目前在 GitHub 上已經獲得了?22.8K?的 Star。

          圖片

          優勢在于高精度解析復雜內容(如表格、數學公式、代碼塊)和出色的處理速度,支持 GPU 加速,性能優于同類云服務(如 Llamaparse、Mathpix)。

          可以調用大語言模型(如 Gemini、Ollama)優化結果,例如跨頁表格合并、公式格式化、表單數據提取。

          開源地址:https://github.com/vikParuchuri/marker

          8、EasyOCR

          EasyOCR 是由 JaidedAI 開發的開源 OCR 工具庫,輸入圖片,返回提取出來的文字、對應位置坐標、置信度,目前在 GitHub 上獲得了?26K?的 Star。

          支持 80+ 語言和多種文字系統(如中文、拉丁文、阿拉伯文),提供即用型文本識別功能。

          基于 PyTorch 深度學習框架,支持圖片/字節流/URL等多種輸入形式,通過簡潔 API 輸出文本內容、位置及置信度。

          其特點包括多語言混合識別、CPU/GPU 兼容和預訓練模型快速部署,適用于多語言文檔、自然場景文字(如路牌/車牌)等 OCR 場景,兼顧開發者友好性和工業級應用需求。

          例子

          示例2

          示例3

            開源地址:https://github.com/JaidedAI/EasyOCRDemo?地址:https://www.jaided.ai/documentai/demo

            9、安裝即用的離線 OCR 文字識別軟件

            這款免費、開源、離線的 OCR 文字識別軟件,支持 Windows 7+ x64 和 Linux x64 系統,無需聯網,下載即可本地運行。目前已經獲得了?30.8K?的 Star 。

            關鍵詞:本地軟件解壓即用,離線運行;截圖OCR;批量OCR ;

            1-標題-1.png

            2-截圖-1.png

            3-批量-1.png

              開源地址:https://github.com/hiroi-sora/Umi-OCR

              10、OCR 遠古巨神:Tesseract

              Tesseract 是一個功能強大且廣泛應用的開源光學字符識別(OCR)引擎,在 GitHub 上已經獲得了?65.3K?的 Star 。

              能夠將圖像中的文字轉換為可編輯的文本,1985 年至 1994 年間由惠普實驗室開發, 1996 年后被移植到 Windows系統, 2005 年惠普將其開源。

              并最終由 Google 贊助,是知名度比較高的開源 OCR 系統之一。

              圖片

              官方介紹使用先進的深度學習技術(如卷積神經網絡)來進行字符識別,精度較高,尤其在處理質量較好的掃描圖像時表現優異。支持超過 100 種語言的文本識別,方便開發者處理不同語言的文本識別任務。

              除此之外還有一個 JavaScript 版本的Tesseract OCR:Tesseract.js,但是逛逛實際測試下來,發現 JS 版本中文效果不咋滴。

              開源地址:https://github.com/tesseract-ocr/tesseract開源地址:https://github.com/naptha/tesseract.js

              圖片

              本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
              如若轉載,請注明出處:http://www.pswp.cn/diannao/74006.shtml
              繁體地址,請注明出處:http://hk.pswp.cn/diannao/74006.shtml
              英文地址,請注明出處:http://en.pswp.cn/diannao/74006.shtml

              如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

              相關文章

              GenICam標準

              GenICam的目標是為所有類型的相機提供一個統一的編程接口。無論相機使用的是哪種傳輸協議或實現了哪些功能,編程接口(API)都是一樣的。 GenICam(Generic Interface for Cameras)是一個為工業相機和圖像采集設備設計的…

              Docker學習筆記(十)搭建Docker私有倉庫

              一、環境配置 1、宿主機系統:macOS Sequoia(版本15.2) 2、虛擬機VMware Fusion版本:專業版 13.6.2 (24409261) 3、虛擬機系統:AlmaLinux-9-latest-x86_64-boot.iso 二、安裝Harbor開源企業級Docker鏡像 Harbor 是一個開源的企業級 Docker…

              關于微信小程序端base64解碼問題

              由于atob是瀏覽器端的,對于微信小程序不支持,導致模擬器【開發工具】顯示正常,但真機異常解析失敗問題,微信小程序原有的api,官方文檔中也廢棄了 解決方案: 調用: const decodedString ba…

              鴻蒙NEXT項目實戰-百得知識庫03

              代碼倉地址,大家記得點個star IbestKnowTeach: 百得知識庫基于鴻蒙NEXT穩定版實現的一款企業級開發項目案例。 本案例涉及到多個鴻蒙相關技術知識點: 1、布局 2、配置文件 3、組件的封裝和使用 4、路由的使用 5、請求響應攔截器的封裝 6、位置服務 7、三…

              Adobe PR和AE2025到啟動頁面一會自動退出

              Adobe PR和AE2025到啟動頁面一會自動退出 1查找程序啟動錯誤日志2解決方法3思考共勉 1查找程序啟動錯誤日志 查找程序啟動錯誤日志:事件查看器>Windows日志>應用程序 錯誤應用程序名稱: Adobe Premiere Pro.exe,版本: 25.1.0.73,時間…

              Python Pyecharts面試題及參考答案

              目錄 使用隨機數據繪制對比某品牌各季度銷量與庫存的柱狀圖,添加副標題和自定義顏色 繪制雙 Y 軸柱狀圖,展示城市人均收入和支出數據,并設置軸標簽旋轉 45 度 實現水平柱狀圖,展示不同編程語言的受歡迎指數,添加數據標簽 繪制動態溫度變化折線圖,包含平滑曲線和標記點…

              【css酷炫效果】純CSS實現進度條加載動畫

              【css酷炫效果】純CSS實現進度條加載動畫 緣創作背景html結構css樣式完整代碼基礎版進階版 效果圖 通過CSS漸變與背景位移動畫,無需JavaScript即可創建流體動態進度條。 想直接拿走的老板,鏈接放在這里:https://download.csdn.net/download/u…

              安全地自動重新啟動 Windows 資源管理器Bat腳本

              安全地自動重新啟動 Windows 資源管理器腳本 可以直接運行的 Windows 批處理腳本,用于安全地自動重新啟動 Windows 資源管理器。該腳本會在殺死資源管理器之前檢查是否有其他進程正在使用資源管理器相關的文件。 Bat腳本 echo off title 資源管理器安全重啟工具 co…

              【NeurIPS-2022】CodeFormer: 將人臉復原轉化為碼本預測以減少LQ-HQ映射的不確定性

              寫在前面:本博客僅作記錄學習之用,部分圖片來自網絡,如需引用請注明出處,同時如有侵犯您的權益,請聯系刪除! 文章目錄 前言論文動機方法實驗 總結互動致謝參考往期回顧 前言 盲人臉恢復是一個高度不適定的…

              k8s1.30 部署calio網絡

              一、介紹 網路組件有很多種,只需要部署其中一個,推薦calio。 calio是一個純三成的數據中心網絡方案,calico支持廣泛的平臺。如k8s,openstack等。 calio在每一個計算節點利用linux內核,實現了一個高效的虛擬路由器來…

              提升AI性能的秘密武器:量化、蒸餾與剪枝全面解析

              通過高效的模型壓縮技術推進 NLP 在快速發展的自然語言處理 (NLP) 領域,模型的大小和復雜性顯著增加,從而顯著提高了性能。然而,這些龐大模型的部署和維護也帶來了挑戰,特別是在計算成本、功耗和資源受限用戶的可訪問性方面。本博客深入探討了量化、剪枝和蒸餾等尖端模型壓…

              數據結構(python)-------棧和隊列2

              目錄 二、隊列 (一)、定義 1. 定義 2. 邏輯結構 3. 存儲結構 4. 運算規則 5. 實現方式 (二)、隊列與一般線性表的區別 一般線性表 隊列 (三)、分類 …

              基于SpringBoot的“校園招聘網站”的設計與實現(源碼+數據庫+文檔+PPT)

              基于SpringBoot的“校園招聘網站”的設計與實現(源碼數據庫文檔PPT) 開發語言:Java 數據庫:MySQL 技術:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系統展示 系統整體功能圖 局部E-R圖 系統首頁界面 系統注冊…

              投資日記_道氏理論技術分析

              主要用于我自己參考,我感覺我做事情的時候容易上頭,忘掉很多事情。 技術分析有很多方法,但是我個人相信并實踐的還是以道氏理論為根本的方法。方法千千萬萬只有適合自己價值觀,習慣,情緒,性格的方法才是好的…

              ceph運維硬件規劃技巧

              在規劃Ceph集群的硬件配置時,需要綜合考慮性能、成本、冗余、可擴展性以及特殊場景需求等因素。以下是關于Ceph硬件規劃的關鍵技巧和建議,涵蓋存儲設備、網絡、服務器配置、容量規劃、冗余策略等多個方面: 1. 硬件選型建議 存儲設備 存儲節點…

              Windows主機、虛擬機Ubuntu、開發板,三者之間文件互傳

              以下內容源于日常學習的整理,歡迎交流。 下圖是Windows主機、虛擬機Ubuntu、開發者三者之間文件互傳的方式示意圖: 注意,下面談及的所有方式,都要求兩者的IP地址處于同一網段,涉及到的軟件資源見felm。 一、Windows主…

              Softmax溫度調節與注意力縮放:深度神經網絡中的平滑藝術

              Softmax溫度調節與注意力縮放:深度神經網絡中的平滑藝術 在深度學習的精密機械中,有些細微的調整機制往往被視為理所當然,卻實際上蘊含著深刻的數學洞察和巧妙的工程智慧。今天,我們將探討兩個看似獨立卻本質相通的機制&#xff…

              RIP路由欺騙攻擊與防御實驗詳解

              一、基礎網絡配置 1. 路由器R1配置 interface GigabitEthernet0/0/0ip address 192.1.2.254 255.255.255.0 ! interface GigabitEthernet0/0/1ip address 192.1.3.254 255.255.255.0 ! router rip 1version 2network 192.1.2.0network 192.1.3.0 2. 路由器R2配置 interface…

              阿里云平臺Vue項目打包發布

              目錄: 1、vue項目打包2、通過ngixn發布vue的打包文件 1、vue項目打包 在你的vue項目下執行npm run build命令進行打包。 2、通過ngixn發布vue的打包文件 直接將打包的dist文件拷貝到nginx目錄下即可。 修改nginx.conf的配置文件的相關配置,如端口或者ro…

              《基于Spring Boot+Vue的智慧養老系統的設計與實現》開題報告

              個人主頁:@大數據蟒行探索者 一、研究背景及國內外研究現狀 1.研究背景 根據1982年老齡問題世界大會聯合國制定的標準,如果一個國家中超過65歲的老人占全國總人口的7%以上,或者超過60歲的老人占全國總人口的10%以上,那么這個國家將被定義為“老齡化社會”[1]。 隨著國…