全局目錄,一步到位
- 功能流程
- 第一階段 基于現有條件進行 `調研,測試與評估`
- 1.1 ocr深度學習模型 pp-ocr
- 1.2 nlp結構化模型
- 1.3 硬件要求:
- 第二階段 模型訓練微調
- 2.1 更換ocr-GPU模型, 下載相關環境
- 2.2 nlp模型 語義訓練
- 2.3 最低硬件要求:
- 2.4 樣本數據: (重點)
- 2.5 進一步增強模型能力
- 2.5 python語言類庫 (深度學習框架)
- 第三階段: 結果
- 注意事項
- 至此, 醫療領域-此方向的專屬ocr大模型就完成了
功能流程
第一階段 基于現有條件進行 調研,測試與評估
全部先使用 預訓練完成的模型(本地進行測試,評估后進行二階段訓練微調)
1.1 ocr深度學習模型 pp-ocr
- 了解 百度開源模型 pp-ocr
- 先在windows上使用預訓練模型 可先選cpu版本查看執行效果
- 下載nlp自然語言模型進行json格式化輸出
- 模型評估: 上述結果不能滿足業務需求, 進行第二階段
1.2 nlp結構化模型
先選: DD-Parse(盡量先使用百度pp全家桶)
1.3 硬件要求:
先基于現有電腦進行測試, 不滿足在升級
第二階段 模型訓練微調
官方明確說明 windows僅支持推理,不支持訓練
解決方案: linux部署 或者 WSL2或Docker方案解決
2.1 更換ocr-GPU模型, 下載相關環境
2.2 nlp模型 語義訓練
2.3 最低硬件要求:
cpu i7 /i5 等都可以(滿足: x64/ Intel 64/ AMD64 即可) 核心數要多
內存 32g(最低) 不然訓練時候會頻繁報錯
顯存: 8g - 12g 太小訓練效率低
硬盤: 512g/1T(推薦)
2.4 樣本數據: (重點)
3000-5000, 需要進行數據標注,進行 監督學習
2.5 進一步增強模型能力
- 可通過用戶反饋進行學習訓練
- 對模型的性能 準確率進行評估
2.5 python語言類庫 (深度學習框架)
python --version:
3.8/3.9/3.10/3.11/3.12/3.13
pip 版本為20.2.2
或更高版本
Python 和 pip 是 64bit,并且處理器架構是x86_64(或稱作 x64、Intel 64、AMD64)
架構
paddleocr 3.0
shapely
pyclipper
lmdb
tqdm
sklearn
requirements.txt (將版本寫清楚,工程初始化用)
第三階段: 結果
- 微調后的PP-OCR檢測/識別模型(.pdparams)
- API接口封裝文檔(FastAPI部署方案)
- 訓練的python項目代碼
注意事項
- 需要對錯誤數據進行記錄(用戶反饋等)
- 持續的進行訓練 直到達到模型評估的標注,滿足業務要求
- 模型安裝的安全性以及用戶隱私數據的保護
至此, 醫療領域-此方向的專屬ocr大模型就完成了
如果后續需要拓展升級, 再出相關方案 windows版本官方文檔上不支持