Ai大模型 - ocr圖像識別形成結構化數據(pp-ocr+nlp結合) 以及訓練微調實現方案(初稿)

全局目錄,一步到位

  • 功能流程
  • 第一階段 基于現有條件進行 `調研,測試與評估`
    • 1.1 ocr深度學習模型 pp-ocr
    • 1.2 nlp結構化模型
    • 1.3 硬件要求:
  • 第二階段 模型訓練微調
    • 2.1 更換ocr-GPU模型, 下載相關環境
    • 2.2 nlp模型 語義訓練
    • 2.3 最低硬件要求:
    • 2.4 樣本數據: (重點)
    • 2.5 進一步增強模型能力
    • 2.5 python語言類庫 (深度學習框架)
  • 第三階段: 結果
  • 注意事項
  • 至此, 醫療領域-此方向的專屬ocr大模型就完成了

功能流程

數據預處理
檢測模型微調
識別模型微調
模型聯調
NLP后處理
錯誤分析
迭代優化

第一階段 基于現有條件進行 調研,測試與評估

全部先使用 預訓練完成的模型(本地進行測試,評估后進行二階段訓練微調)

在這里插入圖片描述

1.1 ocr深度學習模型 pp-ocr

  1. 了解 百度開源模型 pp-ocr
  2. 先在windows上使用預訓練模型 可先選cpu版本查看執行效果
  3. 下載nlp自然語言模型進行json格式化輸出
  4. 模型評估: 上述結果不能滿足業務需求, 進行第二階段

1.2 nlp結構化模型

先選: DD-Parse(盡量先使用百度pp全家桶)

1.3 硬件要求:

先基于現有電腦進行測試, 不滿足在升級

第二階段 模型訓練微調

官方明確說明 windows僅支持推理,不支持訓練
解決方案: linux部署 或者 WSL2或Docker方案解決

2.1 更換ocr-GPU模型, 下載相關環境

2.2 nlp模型 語義訓練

2.3 最低硬件要求:

cpu i7 /i5 等都可以(滿足: x64/ Intel 64/ AMD64 即可) 核心數要多 
內存 32g(最低) 不然訓練時候會頻繁報錯
顯存: 8g - 12g 太小訓練效率低
硬盤: 512g/1T(推薦)

2.4 樣本數據: (重點)

3000-5000, 需要進行數據標注,進行 監督學習

2.5 進一步增強模型能力

  • 可通過用戶反饋進行學習訓練
  • 對模型的性能 準確率進行評估

2.5 python語言類庫 (深度學習框架)

python --version: 3.8/3.9/3.10/3.11/3.12/3.13
pip 版本為 20.2.2更高版本
Python 和 pip 是 64bit,并且處理器架構是 x86_64(或稱作 x64、Intel 64、AMD64)架構

paddleocr 3.0
shapely
pyclipper
lmdb
tqdm
sklearn
requirements.txt (將版本寫清楚,工程初始化用) 

第三階段: 結果

  1. 微調后的PP-OCR檢測/識別模型(.pdparams)
  2. API接口封裝文檔(FastAPI部署方案)
  3. 訓練的python項目代碼

注意事項

  1. 需要對錯誤數據進行記錄(用戶反饋等)
  2. 持續的進行訓練 直到達到模型評估的標注,滿足業務要求
  3. 模型安裝的安全性以及用戶隱私數據的保護

至此, 醫療領域-此方向的專屬ocr大模型就完成了

如果后續需要拓展升級, 再出相關方案 windows版本官方文檔上不支持

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89222.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89222.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89222.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Linux】軟硬鏈接,動靜態庫

目錄 一、認識一下常用指令 1、建立一個軟鏈接 2、建立一個硬鏈接 3、刪除文件的第二種方式:刪除鏈接unlink指令 二、什么是硬鏈接? 三、軟硬鏈接的原理: 四、應用場景 1、建立一個軟鏈接可以快速在一個比較深的路徑中找到目標文件進行…

VRR(可變刷新率)和QMS(快速媒體切換)

🔧 一、技術原理的本質區別 技術VRR (可變刷新率)QMS (快速媒體切換)核心目標消除動態幀率波動導致的畫面撕裂/卡頓消除靜態幀率切換時的黑屏中斷工作機制實時調整顯示器刷新率(Hz)匹配GPU輸出幀率(FPS)→ 動態延長/縮…

GO 語言學習 之 Map

map 是 Go 語言中非常重要的數據結構,常用于需要快速查找、統計或分組數據的場景。 map定義: package mainimport "fmt"func main() {var m1 map[int]string // 創建一個 mapm2 : make(map[int]string) // 創建一個 map m3…

什么是可觀測性?監控、日志、追蹤三者之間有什么區別?

一、引言:為什么現代系統需要“看得見”? 你是否遇到過這樣的情況:系統運行突然變慢,但沒人知道問題出在哪?隨著微服務、云原生架構的普及,系統的復雜度越來越高,傳統的“靠經驗判斷”已經無法…

扣子(coze)實戰|自動搬運+改寫+歸檔!自媒體矩陣終極方案

今天給大家分享的是用coze做一個工作流來自動提取抖音/小紅書視頻文案及改寫并傳入到飛書多維表格,我們先來看案例 上傳視頻鏈接即可一鍵生成,廢話不多說,上教程~ 一、整體工作流如下: 二、開發思路: 三、詳細工作流分…

K8s環境下基于Nginx WebDAV與TLS/SSL的文件上傳下載部署指南

#作者:閆乾苓 文章目錄 1.問題及背景2.方案說明3.部署步驟3.1 制作TLS/SSL私有證書3.2 創建訪問nginx賬戶密碼文件并創建secret3.3 為TLS/SSL私有證書創建secret3.4 為Nginx 配置文件創建confimap3.5 使用deployment,svc部署nginx3.6 客戶端curl上傳下載…

【Day 7-N17】Python函數(1)——函數定義、位置參數調用函數、關鍵字參數調用函數、函數的默認值

挑戰14天學會Python,第7天學習筆記!加油! 一、概述 函數(Function)是 Python 中用于封裝可重用代碼塊的基本結構。通過定義函數,我們可以將復雜邏輯拆分為更小、更易管理的單元,并通過參數傳遞…

STM32 驅動 ADS1015 單端 差分 多通道模式 ADC 轉換

文章目錄 一、ADS1015簡介二、引腳功能三、寄存器介紹1.Conversion Register 轉化數據存放寄存器2.Config Register 配置寄存器 四、IIC時序1.寫寄存器2.讀寄存器 五、程序六、實驗現象1.單端模式2.差分模式3.偽多通道模式 一、ADS1015簡介 ADS1015 是一款由德州儀器&#xff…

RabbitMQ 消費冪等性與消息重放實現

一、冪等性實現 1.1 什么是冪等性? 冪等性是指同一條消息無論被消費多少次,業務結果都只生效一次,防止重復扣款、重復發貨等問題。 RabbitMQ 的投遞模式是“至少一次交付”(at-least-once delivery),如果消費者處理失敗或者沒有及…

【HarmonyOS 5】鴻蒙TEE(可信執行環境)詳解

【HarmonyOS 5】鴻蒙TEE(可信執行環境)詳解 一、TEE是什么? 1、TEE的定義: 可信執行環境(Trusted Execution Environment),簡稱TEE,是存在于智能手機、平板或任意移動設備主處理器…

算法: 冒泡排序

冒泡排序是一種簡單的排序算法,通過相鄰元素的比較和交換,使較大的元素逐漸"浮"到數組末尾。 時間復雜度:最佳 O(n) | 平均 O(n) | 最差 O(n) 空間復雜度:O(1) 穩定性:穩定 應用場景/前提條件 適用于小規模數據對幾乎已排序的數據效率較高…

基于SpringBoot的家電銷售展示平臺

源碼編號:S567 源碼名稱:基于SpringBoot的家電銷售展示平臺 用戶類型:雙角色,用戶、管理員 數據庫表數量:14 張表 主要技術:Java、Vue、ElementUl 、SpringBoot、Maven 運行環境:Windows/M…

java+vue+SpringBoo智慧旅游系統(程序+數據庫+報告+部署教程+答辯指導)

源代碼數據庫LW文檔(1萬字以上)開題報告答辯稿ppt部署教程代碼講解代碼時間修改工具 技術實現 開發語言:后端:Java 前端:vue框架:springboot數據庫:mysql 開發工具 JDK版本:JDK1.…

Docker 入門教程(三):鏡像操作命令

文章目錄 🐳 Docker 入門教程(三):鏡像操作命令獲取鏡像:docker pull查看鏡像:docker images刪除鏡像:docker rmi搜索鏡像:docker search鏡像打標簽:docker tag鏡像詳情與…

如何修改discuz文章標題字數限制 修改成255

在 Discuz! X3.5 中,文章(主題)標題字數的限制可以通過修改數據庫結構以及后臺配置來實現,以下是完整的修改方法,將標題長度限制改為 255 個字符: ? 一、修改數據庫字段長度 Discuz 默認標題字段是 subje…

基于BP神經網絡的26個英文字母識別

本課題旨在設計并實現一個基于BP(反向傳播)神經網絡的英文字母識別系統,實現對手寫或打印的26個英文字母(A-Z)的自動分類識別。項目首先對字母圖像進行預處理(如灰度化、歸一化、二值化和特征提取&#xff…

系統架構設計師論文分享-論云原生技術的應用

我的軟考歷程 摘要 2023年2月,我所在的公司做了開發紗線MES系統的決定,該系統為國內紗線工廠提供SAAS服務,旨在提高紗線工廠的智能化和數字化水平。我在該項目中被任命為系統架構設計師,全面掌管該項目的架構設計工作。該項目涉…

重置 MySQL root 密碼

引言 在linux可能存在安裝mysql安裝失敗,一直不出現默認密碼 /usr/local/mysql/mysql-8.0.26/bin/mysqld --defaults-file/etc/my.cnf --usermysql --basedir/usr/local/mysql/mysql-8.0.26 --datadir/usr/local/mysql/mysql-8.0.26/data --lower-case-table-name…

面試八股---HTML

面試八股 1、HTML 1.1 src和href的區別 src 用于替換當前元素,href 用于在當前文檔和引用資源之間確立聯系。 核心區別在于 href 關聯的資源(主要是 CSS)是用于描述頁面外觀的,瀏覽器可以先生成內容再應用樣式,因此…

氣候智能體:AI如何重構人類應對氣候危機的決策體系?

前言 前些天發現了一個巨牛的人工智能免費學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到網站 《氣候智能體:AI如何重構人類應對氣候危機的決策體系?》 展開全景式論述。文章結合2025年最新技術突破與…