目錄
- 引言
- lineless_table_rec: 無線表格識別庫
- 安裝
- 使用
- 結果
- wired_table_rec:有線表格識別庫
- 安裝
- 使用
- 結果
- 寫在最后
引言
TableStructureRec 倉庫是用來對文檔中表格做結構化識別的推理庫,包括來自 PaddleOCR 的表格結構識別算法模型、來自阿里讀光有線和無線表格識別算法模型等。
該倉庫將表格識別前后處理做了完善,并結合 OCR,保證表格識別部分可直接使用。
該倉庫會持續關注表格識別這一領域,集成最新最好用的表格識別算法,爭取打造最具有落地價值的表格識別工具庫。
歡迎大家持續關注。
在這里,我們做的工作主要包括以下兩點:
- 將模型轉換為 ONNX 格式,便于部署
- 完善后處理代碼,與 OCR 識別模型整合,可以保證輸出結果為完整的表格和對應的內容
lineless_table_rec: 無線表格識別庫
lineless_table_rec
庫源于阿里讀光-LORE 無線表格結構識別模型。
該模型主要解決無線表格結構識別問題,具體包括文檔中涉及到一些三線表之類表格結構識別。對于有線的表格支持較差。
安裝
pip install lineless_table_rec
使用
from lineless_table_rec import LinelessTableRecognitionengine = LinelessTableRecognition()img_path = "tests/test_files/lineless_table_recognition.jpg"
table_str, elapse = engine(img_path)print(table_str)
print(elapse)
結果
wired_table_rec:有線表格識別庫
wired_table_rec
庫源于阿里讀光-表格結構識別-有線表格。
該模型主要解決拍照和截屏場景下有線結構識別問題。
安裝
pip install wired_table_rec
使用
from wired_table_rec import WiredTableRecognitiontable_rec = WiredTableRecognition()img_path = "tests/test_files/wired/table_recognition.jpg"
table_str, elapse = table_rec(img_path)
print(table_str)
print(elapse)
結果
寫在最后
目前 PaddleOCR 中表格識別暫未整理到這個倉庫中,后續會整理進來。
歡迎持續關注。
倉庫地址:TableStructureRec