🧑 博主簡介:曾任某智慧城市類企業
算法總監
,目前在美國市場的物流公司從事高級算法工程師
一職,深耕人工智能領域,精通python數據挖掘、可視化、機器學習等,發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN人工智能領域的優質創作者,提供AI相關的技術咨詢、項目開發和個性化解決方案等服務,如有需要請站內私信或者聯系任意文章底部的的VX名片(ID:xf982831907
)
💬 博主粉絲群介紹:① 群內初中生、高中生、本科生、研究生、博士生遍布,可互相學習,交流困惑。② 熱榜top10的常客也在群里,也有數不清的萬粉大佬,可以交流寫作技巧,上榜經驗,漲粉秘籍。③ 群內也有職場精英,大廠大佬,可交流技術、面試、找工作的經驗。④ 進群免費贈送寫作秘籍一份,助你由寫作小白晉升為創作大佬。⑤ 進群贈送CSDN評論防封腳本,送真活躍粉絲,助你提升文章熱度。有興趣的加文末聯系方式,備注自己的CSDN昵稱,拉你進群,互相學習共同進步。
【PaddleOCR】OCR表格識別數據集介紹,包含PubTabNet、好未來表格識別、WTW中文場景表格等數據,持續更新中......
- 數據集匯總
- 1. PubTabNet數據集
- 2. 好未來表格識別競賽數據集
- 3. WTW中文場景表格數據集
這里整理了常用表格識別數據集,持續更新中,歡迎各位小伙伴貢獻數據集~
數據集匯總
數據集名稱 | 圖片下載地址 | PPOCR標注下載地址 |
---|---|---|
PubTabNet | https://github.com/ibm-aur-nlp/PubTabNet | jsonl格式,可直接用pubtab_dataset.py加載 |
好未來表格識別競賽數據集 | https://ai.100tal.com/dataset | jsonl格式,可直接用pubtab_dataset.py加載 |
WTW中文場景表格數據集 | https://github.com/wangwen-whu/WTW-Dataset | 需要進行轉換后才能用pubtab_dataset.py加載 |
1. PubTabNet數據集
- 數據簡介:PubTabNet數據集的訓練集合中包含50萬張圖像,驗證集合中包含0.9萬張圖像。部分圖像可視化如下所示。
- 說明:使用該數據集時,需要遵守CDLA-Permissive協議。
2. 好未來表格識別競賽數據集
- 數據簡介:好未來表格識別競賽數據集的訓練集合中包含1.6萬張圖像。驗證集未給出可訓練的標注。
3. WTW中文場景表格數據集
-
數據簡介:WTW中文場景表格數據集包含表格檢測和表格數據兩部分數據,數據集中同時包含掃描和拍照兩張場景的圖像。