Ai大模型 - ocr圖像識別形成結構化數據(pp-ocr+nlp結合) 以及訓練微調實現方案(初稿)

Ai大模型 - ocr圖像識別形成結構化數據(pp-ocr+nlp結合) 以及訓練微調實現方案(初稿)

diannao/2025/7/1 18:02:41/文章來源:https://blog.csdn.net/pingzhuyan/article/details/148957068

全局目錄,一步到位

功能流程
第一階段基于現有條件進行 `調研,測試與評估`
- 1.1 ocr深度學習模型 pp-ocr
- 1.2 nlp結構化模型
- 1.3 硬件要求:
第二階段模型訓練微調
- 2.1 更換ocr-GPU模型, 下載相關環境
- 2.2 nlp模型語義訓練
- 2.3 最低硬件要求:
- 2.4 樣本數據: (重點)
- 2.5 進一步增強模型能力
- 2.5 python語言類庫 (深度學習框架)
第三階段: 結果
注意事項
至此, 醫療領域-此方向的專屬ocr大模型就完成了

功能流程

第一階段基于現有條件進行 `調研,測試與評估`

全部先使用預訓練完成的模型(本地進行測試,評估后進行二階段訓練微調)

在這里插入圖片描述

1.1 ocr深度學習模型 pp-ocr

了解百度開源模型 pp-ocr
先在windows上使用預訓練模型可先選cpu版本查看執行效果
下載nlp自然語言模型進行json格式化輸出
模型評估: 上述結果不能滿足業務需求, 進行第二階段

1.2 nlp結構化模型

先選: DD-Parse(盡量先使用百度pp全家桶)

1.3 硬件要求:

先基于現有電腦進行測試, 不滿足在升級

第二階段模型訓練微調

官方明確說明 windows僅支持推理,不支持訓練
解決方案: linux部署或者 WSL2或Docker方案解決

2.1 更換ocr-GPU模型, 下載相關環境

2.2 nlp模型語義訓練

2.3 最低硬件要求:

cpu i7 /i5 等都可以(滿足: x64/ Intel 64/ AMD64 即可) 核心數要多 
內存 32g(最低) 不然訓練時候會頻繁報錯
顯存: 8g - 12g 太小訓練效率低
硬盤: 512g/1T(推薦)

2.4 樣本數據: (重點)

3000-5000, 需要進行數據標注,進行監督學習

2.5 進一步增強模型能力

可通過用戶反饋進行學習訓練
對模型的性能準確率進行評估

2.5 python語言類庫 (深度學習框架)

python --version: 3.8/3.9/3.10/3.11/3.12/3.13
pip 版本為 20.2.2 或更高版本
Python 和 pip 是 64bit，并且處理器架構是 x86_64（或稱作 x64、Intel 64、AMD64）架構

paddleocr 3.0
shapely
pyclipper
lmdb
tqdm
sklearn
requirements.txt (將版本寫清楚,工程初始化用)

第三階段: 結果

微調后的PP-OCR檢測/識別模型（.pdparams）
API接口封裝文檔（FastAPI部署方案）
訓練的python項目代碼

注意事項

需要對錯誤數據進行記錄(用戶反饋等)
持續的進行訓練直到達到模型評估的標注,滿足業務要求
模型安裝的安全性以及用戶隱私數據的保護

至此, 醫療領域-此方向的專屬ocr大模型就完成了

如果后續需要拓展升級, 再出相關方案 windows版本官方文檔上不支持

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/89222.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/89222.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/89222.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

【Linux】軟硬鏈接，動靜態庫

【Linux】軟硬鏈接，動靜態庫

目錄一、認識一下常用指令 1、建立一個軟鏈接 2、建立一個硬鏈接 3、刪除文件的第二種方式：刪除鏈接unlink指令二、什么是硬鏈接？ 三、軟硬鏈接的原理： 四、應用場景 1、建立一個軟鏈接可以快速在一個比較深的路徑中找到目標文件進行…

閱讀更多...

VRR（可變刷新率）和QMS（快速媒體切換）

VRR（可變刷新率）和QMS（快速媒體切換）

🔧 一、技術原理的本質區別技術VRR (可變刷新率)QMS (快速媒體切換)核心目標消除動態幀率波動導致的畫面撕裂/卡頓消除靜態幀率切換時的黑屏中斷工作機制實時調整顯示器刷新率（Hz）匹配GPU輸出幀率（FPS）→ 動態延長/縮…

閱讀更多...

GO 語言學習之 Map

GO 語言學習之 Map

map 是 Go 語言中非常重要的數據結構，常用于需要快速查找、統計或分組數據的場景。 map定義： package mainimport "fmt"func main() {var m1 map[int]string // 創建一個 mapm2 : make(map[int]string) // 創建一個 map m3…

閱讀更多...

什么是可觀測性？監控、日志、追蹤三者之間有什么區別？

什么是可觀測性？監控、日志、追蹤三者之間有什么區別？

一、引言：為什么現代系統需要“看得見”？ 你是否遇到過這樣的情況：系統運行突然變慢，但沒人知道問題出在哪？隨著微服務、云原生架構的普及，系統的復雜度越來越高，傳統的“靠經驗判斷”已經無法…

閱讀更多...

扣子(coze)實戰|自動搬運+改寫+歸檔！自媒體矩陣終極方案

扣子(coze)實戰|自動搬運+改寫+歸檔！自媒體矩陣終極方案

今天給大家分享的是用coze做一個工作流來自動提取抖音/小紅書視頻文案及改寫并傳入到飛書多維表格，我們先來看案例上傳視頻鏈接即可一鍵生成，廢話不多說，上教程~ 一、整體工作流如下： 二、開發思路： 三、詳細工作流分…

閱讀更多...

K8s環境下基于Nginx WebDAV與TLS/SSL的文件上傳下載部署指南

K8s環境下基于Nginx WebDAV與TLS/SSL的文件上傳下載部署指南

#作者：閆乾苓文章目錄 1.問題及背景2.方案說明3.部署步驟3.1 制作TLS/SSL私有證書3.2 創建訪問nginx賬戶密碼文件并創建secret3.3 為TLS/SSL私有證書創建secret3.4 為Nginx 配置文件創建confimap3.5 使用deployment，svc部署nginx3.6 客戶端curl上傳下載…

閱讀更多...

【Day 7-N17】Python函數（1）——函數定義、位置參數調用函數、關鍵字參數調用函數、函數的默認值

【Day 7-N17】Python函數（1）——函數定義、位置參數調用函數、關鍵字參數調用函數、函數的默認值

挑戰14天學會Python，第7天學習筆記！加油！ 一、概述函數（Function）是 Python 中用于封裝可重用代碼塊的基本結構。通過定義函數，我們可以將復雜邏輯拆分為更小、更易管理的單元，并通過參數傳遞…

閱讀更多...

STM32 驅動 ADS1015 單端差分多通道模式 ADC 轉換

STM32 驅動 ADS1015 單端差分多通道模式 ADC 轉換

文章目錄一、ADS1015簡介二、引腳功能三、寄存器介紹1.Conversion Register 轉化數據存放寄存器2.Config Register 配置寄存器四、IIC時序1.寫寄存器2.讀寄存器五、程序六、實驗現象1.單端模式2.差分模式3.偽多通道模式一、ADS1015簡介 ADS1015 是一款由德州儀器&#xff…

閱讀更多...

RabbitMQ 消費冪等性與消息重放實現

RabbitMQ 消費冪等性與消息重放實現

一、冪等性實現 1.1 什么是冪等性？ 冪等性是指同一條消息無論被消費多少次，業務結果都只生效一次，防止重復扣款、重復發貨等問題。 RabbitMQ 的投遞模式是“至少一次交付”(at-least-once delivery)，如果消費者處理失敗或者沒有及…

閱讀更多...

【HarmonyOS 5】鴻蒙TEE（可信執行環境）詳解

【HarmonyOS 5】鴻蒙TEE（可信執行環境）詳解

【HarmonyOS 5】鴻蒙TEE（可信執行環境）詳解一、TEE是什么？ 1、TEE的定義： 可信執行環境（Trusted Execution Environment），簡稱TEE，是存在于智能手機、平板或任意移動設備主處理器…

閱讀更多...

算法: 冒泡排序

算法: 冒泡排序

冒泡排序是一種簡單的排序算法，通過相鄰元素的比較和交換，使較大的元素逐漸"浮"到數組末尾。時間復雜度:最佳 O(n) | 平均 O(n) | 最差 O(n) 空間復雜度:O(1) 穩定性:穩定應用場景/前提條件適用于小規模數據對幾乎已排序的數據效率較高…

閱讀更多...

基于SpringBoot的家電銷售展示平臺

基于SpringBoot的家電銷售展示平臺

源碼編號：S567 源碼名稱：基于SpringBoot的家電銷售展示平臺用戶類型：雙角色，用戶、管理員數據庫表數量：14 張表主要技術：Java、Vue、ElementUl 、SpringBoot、Maven 運行環境：Windows/M…

閱讀更多...

java+vue+SpringBoo智慧旅游系統（程序+數據庫+報告+部署教程+答辯指導）

java+vue+SpringBoo智慧旅游系統（程序+數據庫+報告+部署教程+答辯指導）

源代碼數據庫LW文檔（1萬字以上）開題報告答辯稿ppt部署教程代碼講解代碼時間修改工具技術實現開發語言：后端：Java 前端：vue框架：springboot數據庫：mysql 開發工具 JDK版本：JDK1.…

閱讀更多...

Docker 入門教程（三）：鏡像操作命令

Docker 入門教程（三）：鏡像操作命令

文章目錄 🐳 Docker 入門教程（三）：鏡像操作命令獲取鏡像：docker pull查看鏡像：docker images刪除鏡像：docker rmi搜索鏡像：docker search鏡像打標簽：docker tag鏡像詳情與…

閱讀更多...

如何修改discuz文章標題字數限制修改成255

如何修改discuz文章標題字數限制修改成255

在 Discuz! X3.5 中，文章（主題）標題字數的限制可以通過修改數據庫結構以及后臺配置來實現，以下是完整的修改方法，將標題長度限制改為 255 個字符： ? 一、修改數據庫字段長度 Discuz 默認標題字段是 subje…

閱讀更多...

基于BP神經網絡的26個英文字母識別

基于BP神經網絡的26個英文字母識別

本課題旨在設計并實現一個基于BP（反向傳播）神經網絡的英文字母識別系統，實現對手寫或打印的26個英文字母（A-Z）的自動分類識別。項目首先對字母圖像進行預處理（如灰度化、歸一化、二值化和特征提取&#xff…

閱讀更多...

系統架構設計師論文分享-論云原生技術的應用

系統架構設計師論文分享-論云原生技術的應用

我的軟考歷程摘要 2023年2月，我所在的公司做了開發紗線MES系統的決定，該系統為國內紗線工廠提供SAAS服務，旨在提高紗線工廠的智能化和數字化水平。我在該項目中被任命為系統架構設計師，全面掌管該項目的架構設計工作。該項目涉…

閱讀更多...

重置 MySQL root 密碼

重置 MySQL root 密碼

引言在linux可能存在安裝mysql安裝失敗，一直不出現默認密碼 /usr/local/mysql/mysql-8.0.26/bin/mysqld --defaults-file/etc/my.cnf --usermysql --basedir/usr/local/mysql/mysql-8.0.26 --datadir/usr/local/mysql/mysql-8.0.26/data --lower-case-table-name…

閱讀更多...

面試八股---HTML

面試八股---HTML

面試八股 1、HTML 1.1 src和href的區別 src 用于替換當前元素，href 用于在當前文檔和引用資源之間確立聯系。核心區別在于 href 關聯的資源（主要是 CSS）是用于描述頁面外觀的，瀏覽器可以先生成內容再應用樣式，因此…

閱讀更多...

氣候智能體：AI如何重構人類應對氣候危機的決策體系？

氣候智能體：AI如何重構人類應對氣候危機的決策體系？

前言前些天發現了一個巨牛的人工智能免費學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到網站《氣候智能體：AI如何重構人類應對氣候危機的決策體系？》展開全景式論述。文章結合2025年最新技術突破與…

閱讀更多...

最新文章