- 這個文檔涉及到多模態(文本、發票、訂單、語音)
對于普通的文本,我們希望對某些實體的某些屬性挖空生成文檔模版,并根據預設字段填空最后生成正式文件- 對于發票、訂單,我們想提取它的字段信息,寫入DB
- 對于一些審批、建議語音條,我們想要把它識別為文字并提取關鍵字,最為后續流程的依據
DI = 文本理解 + 文本生成 + 文本糾錯 + 前端外殼
💡 最后所有模型都訓好之后,和后端邏輯一起封裝到api中調用
🌟 KIT VS UIE
任務流成果展示
🎈 挖空任務
💦 1、基于正則表達式挖空
💦 2、基于實體屬性字段挖空
首先需要使用doccano對文檔做字段標注,導出標注好的數據集轉換為UIX可用的訓練格式,在UIE上進行微調訓練得出模型A,在調用挖空后端代碼時,需要加載微調好的預訓練模型做指導,這樣我們就可以基于A的偏好來對任意文件中的類似實體字段進行挖空
- 文本標注
- 訓練模型
- 導入挖空后端邏輯
- Bug(模型文件缺inference.pdmodel文件)
最后生成的文本是否流程、地道,還需要接入評判模型來干預
Bert主要用于理解文本,后續生成文本預計使用qwen、llama或gpt
🎈 發票、合同文字提取
這里應該得在我們的采購領域、招標領域等再訓練一個文字識別模型來提升檢測識別精度(現在有根據一些公開數據集(發票)的預訓練模型,如果在我們的數據集上正確率達標就不需要訓練)
🎈 語音任務
🙏 致謝
PaddleNLP UIE–小樣本快速提升性能(含doccona標注)
PaddleNLP信息抽取,uie微調打造自己專屬的信息抽取模型
如何使用文本標注工具——doccano?
PP-Structure文檔分析
PP-OCR 文本檢測識別