【OCR】總結github上開源 OCR 工具：讓文字識別更簡單

前言

在數字化的時代，光學字符識別（OCR）技術成為了我們處理文檔、圖像文字信息的得力助手。它能夠將圖像中的文字信息轉換為可編輯和可處理的文本數據，極大地提高了信息處理的效率。今天，我要給大家介紹一些優秀的開源 OCR 工具，它們在不同的場景下各顯神通，讓我們一起來看看它們的強大之處吧！

1、端到端 OCR 模型：GOT-OCR 2.0

這是一款開源的端到端多模態 OCR 模型，模型大小僅 1.43 GB。除了能識別和提取文本，還能處理數學公式、分子式、圖表、樂譜、幾何圖形等多種內容，極大地拓寬了 OCR 技術的應用范圍。

目前在 GitHub 上已經獲得了?7.2K?的 Star！

開源地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

2、開源多模態模型：兼容文字識別

InternVL?是由 OpenGVLab 團隊開發的開源多模態大模型，旨在提供接近 GPT-4V 和 Gemini Pro 等商業模型性能的替代方案，目前已經獲得了?7.2K?的 Star。

這個是視覺大模型，它能兼容的場景更廣泛，比如圖片理解，理論上不算 OCR 領域的垂直模型，不過這種視覺大模型能夠向下兼容 OCR 提取文字場景的，所以我就算進來了。

當然開源的視覺大模型有很多，我就不逐個梳理了，先拿這個做案例。

開源地址：https://github.com/OpenGVLab/InternVL

3、PDF 轉成結構化文本：olmOCR

olmOCR 是由 AllenAI 開發的一款專注于?PDF 文檔線性化處理的工具包，將復雜布局的 PDF 轉換為適合大語言模型（LLM）訓練的結構化文本。目前已經獲得了?9.8K?的 Star！

其核心目標是通過高效處理 PDF 的圖文混排、多欄布局等問題，生成連貫的文本數據，提升 LLM 在真實場景中的文檔理解能力。

要求配置是最新的 NVIDIA GPU（在 RTX 4090、L40S、A100、H100 上測試），至少有 20 GB 的 GPU RAM，30GB 可用磁盤空間

開源地址：https://github.com/allenai/olmocr在線演示：https://olmocr.allenai.org/

4、識別文字轉成結構化文件：Zerox

Zerox?是由 Omni-AI 團隊開發的一款 AI 驅動的提取文字工具，可以把 PDF、圖片、Docx 等格式的文檔轉換為結構化的 Markdown 文件。目前獲得了?10.3K?的 Star！

底層實現：底層基于視覺模型（如 GPT-4o-mini）實現 OCR 并直接生成結構化內容。

無需訓練：與傳統 OCR 工具不同，Zerox 無需提前訓練模型即可處理復雜布局。?

格式結構：可識別學術論文的分欄排版、技術文檔中的代碼塊、合同表格、試卷公式等，保留邏輯結構并生成整潔的 Markdown。

開源地址：https://github.com/getomni-ai/zerox體驗地址：https://getomni.ai/ocr-demo

5、行級文本檢測、布局分析：Surya

Surya 專注于多語言文本及復雜文檔結構的識別，尤其以表格識別能力見長。目前在 GitHub 上已經獲得了?16.8K?的 Star！

關鍵詞：行級文本檢測、布局分析（表格、圖像、標題等檢測）、閱讀順序檢測、表格識別（檢測行/列）、LaTeX OCR

① 多語言支持：支持90+ 種語言，涵蓋中文、日語、阿拉伯語等復雜文字，以及英語、西班牙語等主流語言，適用于全球化場景的文檔處理。

② 表格識別優化：能精準識別表格的行、列、單元格結構，包括旋轉或復雜布局的表格，性能優于當前主流開源模型（如 Table Transformer）。

③ 復雜文檔解析：可檢測文檔中的標題、圖片、段落等元素，并智能判斷閱讀順序，避免輸出內容混亂。

④ 高效處理能力：支持 CPU/GPU 運行，通過批量處理和圖像預處理優化（如去噪、灰度化），顯著提升識別速度，適用于企業級文檔數字化需求。

開源地址：https://github.com/VikParuchuri/surya

6、圖片 PDF 變可復制、搜索

這個開源工具，專為掃描版 PDF 文件（就是 PDF 中全是圖片，圖片中的文字不可復制的那種）添加可搜索、可復制的文本層。

目前在 GitHub 已經獲得了?20.7K?的 Star！

使用的是 Tesseract OCR 引擎，支持 100 多種語言，能保留原始圖像質量并優化文件體積，同時生成符合長期存儲標準的 PDF 格式。 ?

① 精準識別：打開圖片型 PDF 的時候，會發現圖片上的文字是沒辦法復制和搜索的。將 OCR 文本層嵌入圖片下方，支持高精度復制和搜索。 ?

② 批量處理：利用多核 CPU 加速，可高效處理上千頁文檔。 ?

③ 圖像優化：自動校正傾斜頁面、旋轉錯誤頁面，提升識別率。 ?

④ 跨平臺支持：安裝便捷，兼容 Linux、Windows、macOS 和 Docker

開源地址：https://github.com/ocrmypdf/OCRmyPDF ?接入文檔：https://ocrmypdf.readthedocs.io/en/latest/

7、PDF 轉換為 Markdown、JSON 或 HTML

Marker 是由 Vik Paruchuri 開發的高效文檔轉換工具，可以將 PDF、圖像、Office 文檔及 EPUB 等格式快速轉換為 Markdown、JSON 或 HTML。

目前在 GitHub 上已經獲得了?22.8K?的 Star。

優勢在于高精度解析復雜內容（如表格、數學公式、代碼塊）和出色的處理速度，支持 GPU 加速，性能優于同類云服務（如 Llamaparse、Mathpix）。

可以調用大語言模型（如 Gemini、Ollama）優化結果，例如跨頁表格合并、公式格式化、表單數據提取。

開源地址：https://github.com/vikParuchuri/marker

8、EasyOCR

EasyOCR 是由 JaidedAI 開發的開源 OCR 工具庫，輸入圖片，返回提取出來的文字、對應位置坐標、置信度，目前在 GitHub 上獲得了?26K?的 Star。

支持 80+ 語言和多種文字系統（如中文、拉丁文、阿拉伯文），提供即用型文本識別功能。

基于 PyTorch 深度學習框架，支持圖片/字節流/URL等多種輸入形式，通過簡潔 API 輸出文本內容、位置及置信度。

其特點包括多語言混合識別、CPU/GPU 兼容和預訓練模型快速部署，適用于多語言文檔、自然場景文字（如路牌/車牌）等 OCR 場景，兼顧開發者友好性和工業級應用需求。

示例2

示例3

開源地址：https://github.com/JaidedAI/EasyOCRDemo?地址：https://www.jaided.ai/documentai/demo

9、安裝即用的離線 OCR 文字識別軟件

這款免費、開源、離線的 OCR 文字識別軟件，支持 Windows 7+ x64 和 Linux x64 系統，無需聯網，下載即可本地運行。目前已經獲得了?30.8K?的 Star 。

關鍵詞：本地軟件解壓即用，離線運行；截圖OCR；批量OCR ；

1-標題-1.png

2-截圖-1.png

3-批量-1.png

開源地址：https://github.com/hiroi-sora/Umi-OCR

10、OCR 遠古巨神：Tesseract

Tesseract 是一個功能強大且廣泛應用的開源光學字符識別（OCR）引擎，在 GitHub 上已經獲得了?65.3K?的 Star 。

能夠將圖像中的文字轉換為可編輯的文本，1985 年至 1994 年間由惠普實驗室開發， 1996 年后被移植到 Windows系統, 2005 年惠普將其開源。

并最終由 Google 贊助，是知名度比較高的開源 OCR 系統之一。

官方介紹使用先進的深度學習技術（如卷積神經網絡）來進行字符識別，精度較高，尤其在處理質量較好的掃描圖像時表現優異。支持超過 100 種語言的文本識別，方便開發者處理不同語言的文本識別任務。

除此之外還有一個 JavaScript 版本的Tesseract OCR：Tesseract.js，但是逛逛實際測試下來，發現 JS 版本中文效果不咋滴。

開源地址：https://github.com/tesseract-ocr/tesseract開源地址：https://github.com/naptha/tesseract.js

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/74006.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/74006.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/74006.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！