PDF中的復雜表格或少線表格還原通常需要借助專業的工具或在線服務,以下是一些可行的方法:
方法一:使用在線PDF轉換工具
方法二:使用桌面PDF編輯軟件
方法三:通過OCR技術提取表格
方法四:手動重建表格
?在眾多的方法及工具中,推薦使用TextIn文檔解析功能。
?優勢與長處:
TextIn通用文檔解析最新推出表格處理優化版本。本次優化主要改善了表格識別效果,以統一方案替代有線表格與無線表格分類處理方法,減少了級聯損失,大幅度提升表格全對率,能夠有效實現PDF文件中的復雜表格、少線表格的還原。
?
?案例分析:如何實現PDF文件中的復雜表格、少線表格的還原?
以下將通過幾個案例,直觀展示TextIn表格解析性能優化的表現。
01 無線表格解析
?
圖1-1 識別錯誤
?
圖1-2 優化結果
如圖所示,圖1-1是無線表格解析中常見的bad case:合并單元格結構識別不準確。由于合并單元格有頂部對齊、垂直居中多種形式,在實際文檔中版面復雜多變,在沒有框線的情況下,更增加了解析模型的識別難度。
圖1-2中可以看到,最新TextIn文檔解析表格性能,能妥善處理這類難點情況,實現正確的表格還原,保障下游信息處理的準確性。
02 不規則無線表格解析
??
圖2-1 識別錯誤
??
圖2-2優化結果
缺少結構信息的表格文字識別會丟失重要價值,導致數據成為無意義的數字。
PDF文件中,擁有不同行列數的不規則無線表格在同一版面呈現的情況相當常見。以圖中的金融機構報告為例,值得注意的是,TextIn表格優化后,模型會同步預測空cell,以提升整體表格解析準確率。
03 低清晰度無線表格解析
??
圖3-1 識別錯誤
??
圖3-2優化結果
如圖所示,對于清晰度較低、噪點多的掃描圖像,優化后的表格模型也能實現精準的識別。
從具體案例來看,TextIn表格解析性能,對解決單元格中的多行問題有優異的效果,用戶如有產品說明書、體檢報告、技術規格書等文件及其他類型多行復雜表格的解析需求,解析引擎的準確性和使用體驗都將大幅度提升,能夠滿足教育、金融、數據處理等多種場景的精細化使用需求。
?前端功能新增:支持表格編輯
新版前端組件支持在線表格編輯,包括文字編輯、插入或刪除行列、單元格合并與拆分等一系列常用表格編輯操作,便于直接通過窗口操作對識別結果進行修改或校正。
??
支持單獨提取文檔中的表格元素,導出為Excel。
??
對于PDF文件里的復雜表格、少線表格,TextIn表格解析能夠實現精準還原,大幅度提升表格全對率,滿足用戶多樣化的使用需求。
??