【PaddleOCR】OCR表格識別數據集介紹,包含PubTabNet、好未來表格識別、WTW中文場景表格等數據,持續更新中......

🧑 博主簡介:曾任某智慧城市類企業算法總監,目前在美國市場的物流公司從事高級算法工程師一職,深耕人工智能領域,精通python數據挖掘、可視化、機器學習等,發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN人工智能領域的優質創作者,提供AI相關的技術咨詢、項目開發和個性化解決方案等服務,如有需要請站內私信或者聯系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉絲群介紹:① 群內初中生、高中生、本科生、研究生、博士生遍布,可互相學習,交流困惑。② 熱榜top10的常客也在群里,也有數不清的萬粉大佬,可以交流寫作技巧,上榜經驗,漲粉秘籍。③ 群內也有職場精英,大廠大佬,可交流技術、面試、找工作的經驗。④ 進群免費贈送寫作秘籍一份,助你由寫作小白晉升為創作大佬。⑤ 進群贈送CSDN評論防封腳本,送真活躍粉絲,助你提升文章熱度。有興趣的加文末聯系方式,備注自己的CSDN昵稱,拉你進群,互相學習共同進步。

在這里插入圖片描述

【PaddleOCR】OCR表格識別數據集介紹,包含PubTabNet、好未來表格識別、WTW中文場景表格等數據,持續更新中......

    • 數據集匯總
    • 1. PubTabNet數據集
    • 2. 好未來表格識別競賽數據集
    • 3. WTW中文場景表格數據集

這里整理了常用表格識別數據集,持續更新中,歡迎各位小伙伴貢獻數據集~

數據集匯總

數據集名稱圖片下載地址PPOCR標注下載地址
PubTabNethttps://github.com/ibm-aur-nlp/PubTabNetjsonl格式,可直接用pubtab_dataset.py加載
好未來表格識別競賽數據集https://ai.100tal.com/datasetjsonl格式,可直接用pubtab_dataset.py加載
WTW中文場景表格數據集https://github.com/wangwen-whu/WTW-Dataset需要進行轉換后才能用pubtab_dataset.py加載

1. PubTabNet數據集

  • 數據簡介:PubTabNet數據集的訓練集合中包含50萬張圖像,驗證集合中包含0.9萬張圖像。部分圖像可視化如下所示。

在這里插入圖片描述
在這里插入圖片描述

  • 說明:使用該數據集時,需要遵守CDLA-Permissive協議。

2. 好未來表格識別競賽數據集

  • 數據簡介:好未來表格識別競賽數據集的訓練集合中包含1.6萬張圖像。驗證集未給出可訓練的標注。

在這里插入圖片描述
在這里插入圖片描述

3. WTW中文場景表格數據集

  • 數據簡介:WTW中文場景表格數據集包含表格檢測和表格數據兩部分數據,數據集中同時包含掃描和拍照兩張場景的圖像。

    在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/87642.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/87642.shtml
英文地址,請注明出處:http://en.pswp.cn/web/87642.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

sparkjar任務運行

mainclass: test.sparkjar.SparkJarTest

Web攻防-文件下載文件讀取文件刪除目錄遍歷路徑穿越

知識點: 1、WEB攻防-文件下載&讀取&刪除-功能點&URL 2、WEB攻防-目錄遍歷&穿越-功能點&URL 黑盒分析: 1、功能點 文件上傳,文件下載,文件刪除,文件管理器等地方 2、URL特征 文件名: d…

使用LIMIT + OFFSET 分頁時,數據重復的風險

在使用 LIMIT OFFSET 分頁時,數據重復的風險不僅與排序字段的唯一性有關,還與數據變動(插入、刪除、更新)密切相關。以下是詳細分析: 一、數據變動如何導致分頁異常 1. 插入新數據 場景:用戶在瀏覽第 1 頁…

Excel 數據透視表不夠用時,如何處理來自多個數據源的數據?

當數據透視表感到“吃力”時,我們該怎么辦: 數據量巨大:Excel工作表有104萬行的限制,當有幾十萬行數據時,透視表和公式就會變得非常卡頓。數據來源多樣:數據分散在多個Excel文件、CSV文件、數據庫甚至網頁…

cf(1034)Div3(補題A B C D E F)

哈,這個比賽在開了不久之后,不知道為啥卡了差不多20來分鐘,后面卡著卡著就想睡覺了。實在是太困了.... 題目意思: Alice做一次操作,刪除任意數字a,而Bob做一次操作刪除b使得ab對4取余是3。 獲勝條件,有人…

瀏覽器與服務器的交互

瀏覽器地址欄輸入URL(網址??) ????(1) 服務器進行URL解析??:驗證URL格式,提取協議、域名等 ????(2) 服務器進行DNS查詢??:將域名轉換為IP地址(可能涉及緩存或DNS預取) ????…

Spring Boot中POST請求參數校驗的實戰指南

在現代的Web開發中,數據校驗是確保應用程序穩定性和安全性的關鍵環節。Spring Boot提供了強大而靈活的校驗機制,能夠幫助開發者輕松地對POST請求參數進行校驗。本文將詳細介紹如何在Spring Boot中實現POST請求參數的校驗,并通過具體的代碼示例…

Spring Boot + MyBatis/MyBatis Plus:XML中循環處理List參數的終極指南

重要提醒:使用Param注解時,務必導入正確的包! import org.apache.ibatis.annotations.Param; 很多開發者容易錯誤導入Spring的Param,導致參數綁定失敗! 一、為什么需要傳遞List參數? 最常見的場景是動態構…

Design Compiler:自適應重定時(Adaptive Retiming)

相關閱讀 Design Compilerhttps://blog.csdn.net/weixin_45791458/category_12738116.html?spm1001.2014.3001.5482 簡介 重定時是DC Ultra引入的一種時序優化技術,可以將時序單元(觸發器和鎖存器)穿越組合邏輯前后移動,以優化設…

解決kali Linux在VMware中的全局縮放問題

在每次啟動kali時,因為屏幕分辨率過高,系統整體特別小,該怎么操作調整合適呢 在搜索中搜索kali HiDPI Mode 選擇yes 然后就會自動調整合適了

Python關鍵字梳理

在 Python 中,關鍵字(Keywords)是具有特殊含義的保留字,它們用于定義語法和結構。async 是 Python 3.5 引入的關鍵字,用于支持異步編程(Asynchronous Programming)。下面我將詳細講解 async 及其…

結構體實戰:用Rust編寫矩形面積計算器

文章目錄結構體實戰:用Rust編寫矩形面積計算器📐 問題描述1?? 基礎版:獨立變量(混亂版)2?? 進階版:使用元組3?? 終極版:使用結構體(優雅版)🎯 運行結果…

基于開源鏈動2+1模式AI智能名片S2B2C商城小程序的場景零售創新研究

摘要:本文聚焦場景消費邏輯,探討開源鏈動21模式AI智能名片S2B2C商城小程序在場景零售中的應用。通過分析場景消費中消費者體驗的關鍵作用,結合該技術組合的特性,闡述其如何優化場景內容、增強場景美感,為消費者創造超乎…

新發布:26考研院校和專業大綱

復習方向錯了,努力可能白費 近日,多所高校陸續發布2026年碩士研究生招生考試自命題科目大綱,為備考的學子們指明了復習方向。今年的考綱有哪些重要變化?又該如何應對?本文為你全面梳理! 院校和專業發布詳情…

matlab/Simulink-全套50個汽車性能建模與仿真源碼模型9

50個simulink模型(所有模型羅列如下,沒羅列就是沒有,包含子模塊總共50個。) 基于汽車驅動力-行駛阻力平衡圖的汽車動力性仿真模型 基于汽車動力特性圖的汽車動力性仿真模型 基于汽車功率平衡圖的汽車動力性仿真模型 電動汽車動力…

為什么星敏感器(Star Tracker)需要時間同步?—— 從原理到應用的全解析

為什么星敏感器(Star Tracker)需要時間同步?—— 從原理到應用的全解析 引言 在衛星姿態控制系統中,星敏感器(Star Tracker, 簡稱“星敏”) 是最精確的姿態測量設備之一,其精度可達角秒級&…

【Cocos TypeScript 零基礎 24.1】

目錄 首次實戰開發心得實戰項目<修仙錄游戲> 首次實戰開發心得 遇到的技術問題也多 發表問題也不少 收入問題 本人都將會寫篇專欄總結一下 實戰項目<修仙錄游戲> 上圖是已上線的實戰項目二維碼 耗費的時間太久了 下次將跟新開發遇到的各種奇奇怪怪的問題 各位看…

Linux關機指令詳解:shutdown命令的使用指南

掌握shutdown命令的正確使用對于Linux系統管理員至關重要&#xff0c;它不僅能確保系統安全關閉&#xff0c;還能避免數據丟失和用戶工作中斷。 目錄 一、基本語法 二、常用選項 三、使用示例 立即關機 10分鐘后關機 指定時間關機&#xff08;如23:00&#xff09; 重啟系…

青少年編程與數學 02-022 專業應用軟件簡介 08 電子設計自動化軟件

青少年編程與數學 02-022 專業應用軟件簡介 08 電子設計自動化軟件一、什么是EDA軟件&#xff08;一&#xff09;定義與起源&#xff08;二&#xff09;功能與分類&#xff08;三&#xff09;技術發展趨勢二、EDA軟件在當前國際競爭中的重要性&#xff08;一&#xff09;技術壁…

TypeScript系列:第六篇 - 編寫高質量的TS類型

掌握這些&#xff0c;ts類型聲明事半功倍 &#x1f4aa;&#x1f3fb; 不要做 永遠不要使用類型 Number、String、Boolean、Symbol 或 Object 這些類型指的是非原始裝箱對象&#xff0c;使用 number、string、boolean 和 symbol 類型不要使用 any 作為類型&#xff0c;除非正在…