智能化文檔開發（DI）

智能化文檔開發（DI）

web/2025/8/26 17:51:49/文章來源:https://blog.csdn.net/weixin_43008312/article/details/145029464

這個文檔涉及到多模態（文本、發票、訂單、語音）
對于普通的文本，我們希望對某些實體的某些屬性挖空生成文檔模版，并根據預設字段填空最后生成正式文件
對于發票、訂單，我們想提取它的字段信息，寫入DB
對于一些審批、建議語音條，我們想要把它識別為文字并提取關鍵字，最為后續流程的依據

DI = 文本理解 + 文本生成 + 文本糾錯 + 前端外殼

💡 最后所有模型都訓好之后，和后端邏輯一起封裝到api中調用

🌟 KIT VS UIE

在這里插入圖片描述

任務流成果展示

🎈 挖空任務

💦 1、基于正則表達式挖空

在這里插入圖片描述

💦 2、基于實體屬性字段挖空

首先需要使用doccano對文檔做字段標注，導出標注好的數據集轉換為UIX可用的訓練格式，在UIE上進行微調訓練得出模型A，在調用挖空后端代碼時，需要加載微調好的預訓練模型做指導，這樣我們就可以基于A的偏好來對任意文件中的類似實體字段進行挖空

文本標注
訓練模型
導入挖空后端邏輯
Bug（模型文件缺inference.pdmodel文件）

最后生成的文本是否流程、地道，還需要接入評判模型來干預
Bert主要用于理解文本，后續生成文本預計使用qwen、llama或gpt

🎈 發票、合同文字提取

這里應該得在我們的采購領域、招標領域等再訓練一個文字識別模型來提升檢測識別精度（現在有根據一些公開數據集（發票）的預訓練模型，如果在我們的數據集上正確率達標就不需要訓練）

🎈 語音任務

🙏 致謝

PaddleNLP UIE–小樣本快速提升性能（含doccona標注）

PaddleNLP信息抽取，uie微調打造自己專屬的信息抽取模型

如何使用文本標注工具——doccano？

PP-Structure文檔分析

PP-OCR 文本檢測識別

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/65583.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/65583.shtml
英文地址，請注明出處：http://en.pswp.cn/web/65583.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

CSS語言的編程范式

CSS語言的編程范式

CSS語言的編程范式引言在現代網頁開發中，CSS（層疊樣式表）作為一種樣式語言，承擔著網站前端呈現的重要角色。無論是簡單的靜態網頁還是復雜的單頁應用，CSS都在人機交互中發揮著至關重要的作用。掩蓋在美觀背后的&am…

閱讀更多...

【輕松學C：編程小白的大冒險】--- C語言簡介 02

【輕松學C：編程小白的大冒險】--- C語言簡介 02

在編程的藝術世界里，代碼和靈感需要尋找到最佳的交融點，才能打造出令人為之驚嘆的作品。而在這座秋知葉i博客的殿堂里，我們將共同追尋這種完美結合，為未來的世界留下屬于我們的獨特印記。【輕松學C：編程小白的大冒險】…

閱讀更多...

零基礎監控數據可視化 Spring Boot 2.x(Actuator + Prometheus + Grafana手把手) （上）

零基礎監控數據可視化 Spring Boot 2.x(Actuator + Prometheus + Grafana手把手) （上）

一、安裝Prometheus Releases prometheus/prometheus GitHubhttps://github.com/prometheus/prometheus/releases 或 https://prometheus.io/download/https://prometheus.io/download/ 1. 下載適用于 Windows 的二進制文件： 找到最新版本的發布頁面&#xf…

閱讀更多...

Idea日志亂碼

Idea日志亂碼

問題描述前提：本人使用windows Idea運行sh文件，指定了utf-8編碼，但是運行過程中還是存在中文亂碼 Idea的相關配置都已經調整字體調整為雅黑文件編碼均調整為UTF-8 調整Idea配置文件但是還是存在亂碼，既然Idea相關配置已經…

閱讀更多...

Linux 注冊線程化的中斷處理程序

Linux 注冊線程化的中斷處理程序

1. 注冊線程化中斷處理函數 devmem_request_threaded_irq 是 Linux 內核中的一個函數，用于請求并注冊一個線程化的中斷處理程序。這個函數允許開發者注冊一個中斷處理函數，這個函數會在中斷發生時被調用，從而實現相應的中斷處理邏輯。它通過…

閱讀更多...

MySQL 數據表與索引設計藝術：打造高效數據存取架構

MySQL 數據表與索引設計藝術：打造高效數據存取架構

🐇明明跟你說過：個人主頁 🏅個人專欄：《MySQL技術精粹》🏅 🔖行路有良友，便是天堂🔖 目錄一、引言 1、什么是MySQL 2、MySQL適用場景二、MySQL的數據存儲與檢索 1、數據表…

閱讀更多...

安卓硬件加速hwui

安卓硬件加速hwui

安卓硬件加速本文基于安卓11。從 Android 3.0 (API 級別 11) 開始，Android 2D 渲染管道支持硬件加速，這意味著在 View 的畫布上執行的所有繪圖操作都使用 GPU。由于啟用硬件加速所需的資源增加，你的應用程序將消耗更多內存。軟件繪制&am…

閱讀更多...

海信116英寸RGB-Mini LED：一朵綻放在科技穹頂的中國花火

海信116英寸RGB-Mini LED：一朵綻放在科技穹頂的中國花火

東方古鎮的打鐵花，拉斯維加斯的煙花秀，盛大的花火表演總會在歲末年初的時候，吸引世界各地人們的目光。一年一度的科技展會，也起到煙花秀一樣的作用，讓人們提前望見未知的精彩。 CES還沒開始，CES 2025展會的…

閱讀更多...

超簡單，使用Kube-Vip實現K8s高可用VIP詳細教程

超簡單，使用Kube-Vip實現K8s高可用VIP詳細教程

具體步驟如下： 以下步驟在其中一個 master 上操作即可， 1、參數配置 export VIP192.168.0.110 export INTERFACEens33 export KVVERSIONv0.8.7VIP 是虛擬IP地址，和主機同一個網段，且未被占用。INTERFACE 是你當前主機的網絡接口…

閱讀更多...

積分漏斗模型中5個指標統計

積分漏斗模型中5個指標統計

緣起最近遇到一個積分漏斗模型的設計，這里記錄一下。以防止以后忘記了。其中畢竟關鍵的屬性是： 獲得積分可用積分已有積分積分漏斗模型這里隨著【當前日期】也就是今天日期。隨著時間一天天過去，積分也一天天過去。上面那個【填報時間】…

閱讀更多...

Ubuntu掛載Windows 磁盤，雙系統

Ubuntu掛載Windows 磁盤，雙系統

首先我們需要在終端輸入這個命令，來查看磁盤分配情況 lsblk -f 找到需要掛載的磁盤，檢查其類型（ 我的/dev/nvme2n1p1類型是ntfs，名字叫3500winData） 然后新建一個掛載磁盤的目錄，我的是/media/zeqi/3500wi…

閱讀更多...

程序血緣分析技術在工商銀行軟件工程中的應用

程序血緣分析技術在工商銀行軟件工程中的應用

當前，隨著軟件領域技術更新換代速度的日益加快，市場需求也變得更加多樣化和個性化，業界普遍通過加速產品迭代來滿足客戶需求，但在此過程中也暴露出一些研發管理痛點問題，如服務和程序類資產信息分散于各個不同的應用和系統中，信息歸集費時費力；設計、開發和測試人員無法…

閱讀更多...

微信小程序中隱藏scroll-view 滾動條網頁中隱藏滾動條

微信小程序中隱藏scroll-view 滾動條網頁中隱藏滾動條

在微信小程序中隱藏scroll-view的滾動條可以通過以下幾種方法實現： 方法一：使用CSS隱藏滾動條在小程序的樣式文件中（如app.wxss或頁面的.wxss文件），添加以下CSS代碼來隱藏滾動條： scroll-view ::-webkit…

閱讀更多...

服務器證書不受信任是什么問題？

服務器證書不受信任是什么問題？

用戶在訪問某些網站時，可能會遇到“服務器證書不受信任”的警告。這一問題不僅影響用戶的瀏覽體驗，更可能對網站的信譽和安全性產生深遠影響。那么服務器證書不受信任是什么問題呢？ 服務器證書的基本概念服務器證書是由證書頒發機構(CA)簽…

閱讀更多...

【AI游戲】使用強化學習玩 Flappy Bird：從零實現 Q-Learning 算法（附完整資源）

【AI游戲】使用強化學習玩 Flappy Bird：從零實現 Q-Learning 算法（附完整資源）

1. 引言 Flappy Bird 是一款經典的休閑游戲，玩家需要控制小鳥穿過管道，避免碰撞。雖然游戲規則簡單，但實現一個 AI 來自動玩 Flappy Bird 卻是一個有趣的挑戰。本文將介紹如何使用 Q-Learning 強化學習算法來訓練一個 AI，使其能夠…

閱讀更多...

Web滲透測試之XSS跨站腳本攻擊跨域是什么？同源機制又是什么？ cors以及Jsonp是什么一篇文章給你說明白

Web滲透測試之XSS跨站腳本攻擊跨域是什么？同源機制又是什么？ cors以及Jsonp是什么一篇文章給你說明白

目錄 Cookie的Httponly屬性和逃過方式瀏覽器同源機制 cors跨域和jsonp跨域和跨域標簽 Cors跨域 - 跨源 Jsonp 跨域 jsonp跨域原理： 說明: Cookie的Httponly屬性和逃過方式 Xss攻擊手段最常用的目的獲取cookie Cookie中設置了 httponlyTrue 方式js操作獲…

閱讀更多...

【C++】字符串的 += 和 + 運算詳解

【C++】字符串的 += 和 + 運算詳解

博客主頁： [小????????] 本文專欄: C 文章目錄 💯前言💯1. 字符串的和基本用法1.1 的用法1.2 的用法 💯2. 示例代碼的剖析與解釋代碼分析 💯3. 底層實現與性能分析3.1 的實現原理3.2 的實現原理3.…

閱讀更多...

CCLINK轉MODBUS-TCP協議轉換網關模塊應用案例

CCLINK轉MODBUS-TCP協議轉換網關模塊應用案例

大家好，今天我們要聊的是生產管理系統中的CCLINK和MODBUS-TCP協議，它們的不同使得數據互通比較困難，但捷米特JM-CCLK-TCP網關的出現改變了這一切。為了實現整個生產線的協同工作，需要這些設備之間能夠進行有效的數據交換和指令傳…

閱讀更多...

Go學習：多重賦值與匿名變量

Go學習：多重賦值與匿名變量

1. 變量的多重賦值 1.1 基本語法格式 go語言中，可以將多個賦值語句合并成一句，比如： a : 10 b : 20 c : 30//a,b,c三個變量的賦值語句可以簡練成以下格式a, b, c : 10, 20, 30 1.2 交換變量值當需要交換兩個變量的值時&#…

閱讀更多...

Spring——依賴注入之p命名空間和c命名空間

Spring——依賴注入之p命名空間和c命名空間

p命名空間其實就是Set注入只不過p命名空間寫法更簡潔 p可以理解為 property標簽的首字母p p命名空間依賴于set方法依賴引入使用前需要再配置文件頭文件中引入p命名空間的依賴： ** xmlns:p“http://www.springframework.org/schema/p” ** 用法在bean標簽…

閱讀更多...

最新文章