百度飛槳PaddleOCR 3.0開源發布 OCR精度躍升13%

百度飛槳 PaddleOCR 3.0 開源發布

2025 年 5 月 20 日,百度飛槳團隊正式發布了 PaddleOCR 3.0 版本,并將其開源。這一新版本在文字識別精度、多語種支持、手寫體識別以及高精度文檔解析等方面取得了顯著進展,進一步提升了 PaddleOCR 在 OCR 領域的技術實力和應用價值。

在這里插入圖片描述
開源地址:

https://github.com/PaddlePaddle/PaddleOCR

技術亮點

全場景文字識別模型 PP-OCRv5

PP-OCRv5 是 PaddleOCR 3.0 的核心亮點之一,實現了單一模型支持簡體中文、繁體中文、中文拼音、英文、日文五種文字類型,以及手寫、豎版、拼音、生僻字等復雜文本場景的識別。與上一代相比,PP-OCRv5 的整體識別精度提升了 13 個百分點,達到了業界領先水平。通過統一模型架構,PP-OCRv5 簡化了部署流程,提升了識別的總體精度和速度。

通用文檔解析方案 PP-StructureV3

PP-StructureV3 增強了布局區域檢測、表格識別和公式識別的能力,增加了圖表理解和多列閱讀順序恢復的功能,并能夠將結果轉換為 Markdown 和 JSON 格式。在 OmniDocBench 基準測試中,PP-StructureV3 領先于許多開源和閉源解決方案,展現了其在多場景、多布局 PDF 高精度解析中的強大能力。

智能文檔理解方案 PP-ChatOCRv4

PP-ChatOCRv4 原生支持文心大模型 4.5 Turbo,關鍵信息提取的準確性相比前一代提高了 15 個百分點。它結合了大模型和小模型的優勢,支持多模態文檔理解模型 PP-DocBee2 的離線使用,為復雜文檔信息提取問題(如布局分析、生僻字、多頁 PDF、表格和印章識別)提供了一站式解決方案。

其他更新

PaddleOCR 3.0 還重構了部署能力,統一了推理接口,全面適配了飛槳框架 3.0 正式版,并優化了訓練流程。此外,它還新增了對昆侖芯、昇騰等國產硬件的支持。

? 快速開始

請參考安裝指南完成PaddlePaddle 3.0的安裝,然后安裝paddleocr。

# 安裝 paddleocr
pip install paddleocr==3.0.0

命令行方式推理

# 運行 PP-OCRv5 推理
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False # 運行 PP-StructureV3 推理
paddleocr pp_structurev3 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png --use_doc_orientation_classify False --use_doc_unwarping False# 運行 PP-ChatOCRv4 推理前,需要先獲得千帆API Key
paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 駕駛室準乘人數 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False # 查看 "paddleocr ocr" 詳細參數
paddleocr ocr --help
API方式推理

PP-OCRv5 示例

from paddleocr import PaddleOCR
# 初始化 PaddleOCR 實例
ocr = PaddleOCR(use_doc_orientation_classify=False,use_doc_unwarping=False,use_textline_orientation=False)
# 對示例圖像執行 OCR 推理 
result = ocr.predict(input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
# 可視化結果并保存 json 結果
for res in result:res.print()res.save_to_img("output")res.save_to_json("output")

PP-StructureV3 示例

from pathlib import Path
from paddleocr import PPStructureV3pipeline = PPStructureV3(use_doc_orientation_classify=False,use_doc_unwarping=False
)# For Image
output = pipeline.predict(input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png",)# 可視化結果并保存 json 結果
for res in output:res.print() res.save_to_json(save_path="output") res.save_to_markdown(save_path="output") 

PP-ChatOCRv4 示例

from paddleocr import PPChatOCRv4Docchat_bot_config = {"module_name": "chat_bot","model_name": "ernie-3.5-8k","base_url": "https://qianfan.baidubce.com/v2","api_type": "openai","api_key": "api_key",  # your api_key
}retriever_config = {"module_name": "retriever","model_name": "embedding-v1","base_url": "https://qianfan.baidubce.com/v2","api_type": "qianfan","api_key": "api_key",  # your api_key
}mllm_chat_bot_config = {"module_name": "chat_bot","model_name": "PP-DocBee","base_url": "http://127.0.0.1:8080/",  # your local mllm service url"api_type": "openai","api_key": "api_key",  # your api_key
}pipeline = PPChatOCRv4Doc(use_doc_orientation_classify=False,use_doc_unwarping=False
)visual_predict_res = pipeline.visual_predict(input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",use_common_ocr=True,use_seal_recognition=True,use_table_recognition=True,
)visual_info_list = []
for res in visual_predict_res:visual_info_list.append(res["visual_info"])layout_parsing_result = res["layout_parsing_result"]vector_info = pipeline.build_vector(visual_info_list, flag_save_bytes_vector=True, retriever_config=retriever_config
)
mllm_predict_res = pipeline.mllm_pred(input="vehicle_certificate-1.png",key_list=["駕駛室準乘人數"],mllm_chat_bot_config=mllm_chat_bot_config,
)
mllm_predict_info = mllm_predict_res["mllm_res"]
chat_result = pipeline.chat(key_list=["駕駛室準乘人數"],visual_info=visual_info_list,vector_info=vector_info,mllm_predict_info=mllm_predict_info,chat_bot_config=chat_bot_config,retriever_config=retriever_config,
)
print(chat_result)

意義

PaddleOCR 3.0 的發布不僅展示了百度在 OCR 技術上的持續創新能力,也為開發者提供了更強大且用戶友好的工具,幫助他們快速實現 AI 應用。感興趣的開發者可以訪問 PaddleOCR 的開源地址,獲取更多詳細信息。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81964.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81964.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81964.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Android 14 Binderized HAL開發實戰指南(AIDL版)

Android 14 Binderized HAL開發實戰指南(AIDL版) 環境要求 Android 14源碼編譯環境AOSP android-14.0.0_r7分支Soong build系統Java 17 & NDK r25c 項目結構 hardware/interfaces/myservice/ ├── 1.0 │ ├── IMyHalService.aidl # AID…

第九天的嘗試

目錄 一、每日一言 二、練習題 三、效果展示 四、下次題目 五、總結 一、每日一言 創造美好的代價是努力,失望以及毅力,首先是痛苦,然后才是歡樂。 時間是快的,看怎么利用,安排好一切事情,才能從容面對…

交安安全員:交通工程安全領域的關鍵角色

在交通工程這個龐大而復雜的領域中,交安安全員扮演著舉足輕重的角色,他們是安全的捍衛者,是交通工程順利推進的重要保障。? 交安安全員,專門從事公路水運工程施工企業安全生產管理工作。他們的專業身份由交通運輸部門頒發的交安…

實驗-設計一個應用系統(計算機組成原理)

目錄 一. 實驗內容 二. 實驗步驟 (1)七段數碼管顯示模塊 (2)指令模塊 (3)控制模塊 (4)ALU模塊 (5)CPU模塊 三. 實現效果 四. 實驗環境 五. 實驗小結…

【博客系統】博客系統第四彈:令牌技術

令牌機制 為什么不能使用 Session 實現登錄功能? 傳統思路: 登錄頁面把用戶名密碼提交給服務器。服務器端驗證用戶名密碼是否正確,并返回校驗結果給前端。如果密碼正確,則在服務器端創建 Session。通過 Cookie 把 sessionId 返回…

【瑞數3代】藥監評審中心逆向分析 | 后綴MmEwMD參數

1.目標 目標網址:https://www.cde.org.cn/main/news/listpage/545cf855a50574699b46b26bcb165f32 import requestscookies {FSSBBIl1UgzbN7N80S: 8sYeMWaC_IHoNl8Ckfx2y9MLiueMCkPr2V3MIoZkrMPUfzMMaXKzAoxpNPvyw4lt,Path: /,FSSBBIl1UgzbN7N80T: 3js3ygV.St6BvO20…

【漫話機器學習系列】274.基尼指數(Gini Index)

決策樹中的基尼指數(Gini Index)詳解 —— 從公式理解到實際應用 在構建決策樹模型時,一個核心問題是:如何選擇最優的特征來進行節點劃分? 這就涉及到了“劃分準則”的問題。常見的準則有信息增益、信息增益率以及本文…

R語言學習--Day07--T分布與T檢驗

昨天我們介紹了R中用于對數據進行分類的聚類分析的方法,接下來我們來看T分布。 T分布 T分布適用于幫我們估計整組數據(較小的數據量,一般小于30)的真實值在哪一個區間,具體是計算置信區間(一般為95%&#…

數據結構與算法-線性表-雙向鏈表(Double Linked List)

1 線性表 1.4 雙向鏈表(Double Linked List) 雙向鏈表的結點中有兩個指針域,一個指向直接后繼,另一個指向直接前驅,主要是為了解決前向查找的問題。 雙向鏈表結構: 書籍和視頻教程都只講解了插入和刪除的…

甘特圖實例 dhtmlxGantt.js

本文介紹了如何使用dhtmlxGantt庫創建一個基礎的甘特圖示例,并對其進行漢化和自定義配置。首先,通過引入dhtmlxgantt.css和dhtmlxgantt.js文件初始化甘特圖。接著,通過設置gantt.i18n.setLocale("cn")實現核心文本的漢化&#xff0…

C++23 新增扁平化關聯容器詳解

文章目錄 一、引言已有關聯容器回顧新容器的引入原因 二、std::flat_set定義與特性代碼示例適用場景 三、std::flat_multiset定義與特性代碼示例適用場景 四、std::flat_map定義與特性代碼示例適用場景 五、std::flat_multimap定義與特性代碼示例適用場景 六、與其他容器的比較…

使用zap,對web應用/API接口 做安全檢測

https://www.zaproxy.org/getting-started/ 檢測方法 docker pull ghcr.io/zaproxy/zaproxy:stable# 執行baseline測試 docker run -t ghcr.io/zaproxy/zaproxy:stable zap-baseline.py \ -t https://baseline.yeshen.org# 執行api測試 docker run -t ghcr.io/zaproxy/zaproxy…

Qt—模態與非模態對話框

Qt—模態與非模態對話框 核心概念 ?模態對話框??:強制用戶優先處理當前窗口,阻塞指定范圍的用戶交互。?非模態對話框??:允許用戶自由切換窗口,無交互限制。 一、模態對話框類型與行為 1. 應用級模態(Applica…

Axure高保真CRM客戶關系管理系統原型

一套出色的CRM(客戶關系管理)系統,無疑是企業管理者掌控客戶動態、提升銷售業績的得力助手。今天,就為大家介紹一款精心打造的Axure高保真CRM客戶關系管理系統原型模板,助你輕松開啟高效客戶管理之旅。 這款CRM原型模…

【羊圈——狀壓 + DP / 記憶化搜索DP】

題目 一般DP代碼&#xff08;注意&#xff0c;這里只能向外推(起始狀態是f(1,0)&#xff0c;不能向內推&#xff08;不然會導致之前的羊圈被割裂&#xff09;&#xff09; #include <bits/stdc.h> using namespace std;const int MAX_N 210; const int MAX_M 16;int n…

講解Mysql InnoDB的MVCC

1. 定義 MVCC是多版本并發控制&#xff08;Multi - Version Concurrency Control&#xff09;的縮寫。它是InnoDB存儲引擎實現高并發控制的一種機制。在數據庫系統中&#xff0c;多個事務可能會同時對數據進行讀寫操作&#xff0c;而MVCC通過為數據行保存多個版本來解決并發事務…

ZeroMQ Sockets介紹及應用示例

1. 概念解釋 ZeroMQ Sockets提供了一種類標準套接字&#xff08;socket-like&#xff09;的 API&#xff0c;是消息導向的通信機制&#xff0c;基于 TCP/UDP 等傳輸層協議&#xff0c;但封裝了底層細節&#xff08;如連接管理、消息路由、緩沖區等&#xff09;&#xff0c;提供…

語音合成之十五 語音合成(TTS)分句生成拼接時的響度一致性問題:現狀、成因與對策

語音合成&#xff08;TTS&#xff09;分句生成拼接時的響度一致性問題&#xff1a;現狀、成因與對策 引言&#xff1a;分段式文本轉語音中的響度一致性挑戰業界對響度差異問題的認知拼接語音片段中響度變化的根本原因分段拼接的固有挑戰各片段預測韻律特征的差異文本特征和模型…

Android中Binder驅動作用?

Binder驅動的作用與核心功能 Binder驅動是Android系統中實現進程間通信&#xff08;IPC&#xff09;的核心底層組件&#xff0c;它工作于Linux內核層&#xff0c;負責管理跨進程通信的建立、數據傳輸、資源同步等關鍵任務。以下是其核心作用及實現細節&#xff1a; 1. ??進程…

網絡學習-TCP協議(七)

一、TCP協議 TCP&#xff08;Transmission Control Protocol&#xff0c;傳輸控制協議&#xff09;是一種面向連接的、可靠的、基于字節流的傳輸層通信協議。 1、三次握手 客戶端&#xff1a; 1、先發起連接&#xff0c;發送SYN置1&#xff0c;seqnum12345(隨機值)----半連接…