智能化文檔開發(DI)

  • 這個文檔涉及到多模態(文本、發票、訂單、語音)
    對于普通的文本,我們希望對某些實體的某些屬性挖空生成文檔模版,并根據預設字段填空最后生成正式文件
  • 對于發票、訂單,我們想提取它的字段信息,寫入DB
  • 對于一些審批、建議語音條,我們想要把它識別為文字并提取關鍵字,最為后續流程的依據

DI = 文本理解 + 文本生成 + 文本糾錯 + 前端外殼

💡 最后所有模型都訓好之后,和后端邏輯一起封裝到api中調用

🌟 KIT VS UIE

在這里插入圖片描述

任務流成果展示

🎈 挖空任務

💦 1、基于正則表達式挖空

在這里插入圖片描述

💦 2、基于實體屬性字段挖空

首先需要使用doccano對文檔做字段標注,導出標注好的數據集轉換為UIX可用的訓練格式,在UIE上進行微調訓練得出模型A,在調用挖空后端代碼時,需要加載微調好的預訓練模型做指導,這樣我們就可以基于A的偏好來對任意文件中的類似實體字段進行挖空

  • 文本標注
  • 訓練模型
  • 導入挖空后端邏輯
  • Bug(模型文件缺inference.pdmodel文件)

最后生成的文本是否流程、地道,還需要接入評判模型來干預
Bert主要用于理解文本,后續生成文本預計使用qwen、llama或gpt

🎈 發票、合同文字提取

這里應該得在我們的采購領域、招標領域等再訓練一個文字識別模型來提升檢測識別精度(現在有根據一些公開數據集(發票)的預訓練模型,如果在我們的數據集上正確率達標就不需要訓練)

🎈 語音任務

🙏 致謝

PaddleNLP UIE–小樣本快速提升性能(含doccona標注)

PaddleNLP信息抽取,uie微調打造自己專屬的信息抽取模型

如何使用文本標注工具——doccano?

PP-Structure文檔分析

PP-OCR 文本檢測識別

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/65583.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/65583.shtml
英文地址,請注明出處:http://en.pswp.cn/web/65583.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

CSS語言的編程范式

CSS語言的編程范式 引言 在現代網頁開發中,CSS(層疊樣式表)作為一種樣式語言,承擔著網站前端呈現的重要角色。無論是簡單的靜態網頁還是復雜的單頁應用,CSS都在人機交互中發揮著至關重要的作用。掩蓋在美觀背后的&am…

【輕松學C:編程小白的大冒險】--- C語言簡介 02

在編程的藝術世界里,代碼和靈感需要尋找到最佳的交融點,才能打造出令人為之驚嘆的作品。而在這座秋知葉i博客的殿堂里,我們將共同追尋這種完美結合,為未來的世界留下屬于我們的獨特印記。 【輕松學C:編程小白的大冒險】…

零基礎 監控數據可視化 Spring Boot 2.x(Actuator + Prometheus + Grafana手把手) (上)

一、安裝Prometheus Releases prometheus/prometheus GitHubhttps://github.com/prometheus/prometheus/releases 或 https://prometheus.io/download/https://prometheus.io/download/ 1. 下載適用于 Windows 的二進制文件: 找到最新版本的發布頁面&#xf…

Idea日志亂碼

問題描述 前提:本人使用windows Idea運行sh文件,指定了utf-8編碼,但是運行過程中還是存在中文亂碼 Idea的相關配置都已經調整 字體調整為雅黑 文件編碼均調整為UTF-8 調整Idea配置文件 但是還是存在亂碼,既然Idea相關配置已經…

Linux 注冊線程化的中斷處理程序

1. 注冊線程化中斷處理函數 devmem_request_threaded_irq 是 Linux 內核中的一個函數,用于請求并注冊一個線程化的中斷處理程序。這個函數允許開發者注冊一個中斷處理函數,這個函數會在中斷發生時被調用,從而實現相應的中斷處理邏輯。它通過…

MySQL 數據表與索引設計藝術:打造高效數據存取架構

🐇明明跟你說過:個人主頁 🏅個人專欄:《MySQL技術精粹》🏅 🔖行路有良友,便是天堂🔖 目錄 一、引言 1、什么是MySQL 2、MySQL適用場景 二、MySQL的數據存儲與檢索 1、數據表…

安卓硬件加速hwui

安卓硬件加速 本文基于安卓11。 從 Android 3.0 (API 級別 11) 開始,Android 2D 渲染管道支持硬件加速,這意味著在 View 的畫布上執行的所有繪圖操作都使用 GPU。由于啟用硬件加速所需的資源增加,你的應用程序將消耗更多內存。 軟件繪制&am…

海信116英寸RGB-Mini LED:一朵綻放在科技穹頂的中國花火

東方古鎮的打鐵花,拉斯維加斯的煙花秀,盛大的花火表演總會在歲末年初的時候,吸引世界各地人們的目光。一年一度的科技展會,也起到煙花秀一樣的作用,讓人們提前望見未知的精彩。 CES還沒開始,CES 2025展會的…

超簡單,使用Kube-Vip實現K8s高可用VIP詳細教程

具體步驟如下: 以下步驟在其中一個 master 上操作即可, 1、參數配置 export VIP192.168.0.110 export INTERFACEens33 export KVVERSIONv0.8.7VIP 是虛擬IP地址,和主機同一個網段,且未被占用。INTERFACE 是你當前主機的網絡接口…

積分漏斗模型中5個指標統計

緣起 最近遇到一個積分漏斗模型的設計,這里記錄一下。以防止以后忘記了。其中畢竟關鍵的屬性是: 獲得積分可用積分已有積分 積分漏斗模型 這里隨著【當前日期】也就是今天日期。隨著時間一天天過去,積分也一天天過去。上面那個【填報時間】…

Ubuntu掛載Windows 磁盤,雙系統

首先我們需要在終端輸入這個命令,來查看磁盤分配情況 lsblk -f 找到需要掛載的磁盤,檢查其類型( 我的/dev/nvme2n1p1類型是ntfs,名字叫3500winData) 然后新建一個掛載磁盤的目錄,我的是/media/zeqi/3500wi…

程序血緣分析技術在工商銀行軟件工程中的應用

當前,隨著軟件領域技術更新換代速度的日益加快,市場需求也變得更加多樣化和個性化,業界普遍通過加速產品迭代來滿足客戶需求,但在此過程中也暴露出一些研發管理痛點問題,如服務和程序類資產信息分散于各個不同的應用和系統中,信息歸集費時費力;設計、開發和測試人員無法…

微信小程序中 隱藏scroll-view 滾動條 網頁中隱藏滾動條

在微信小程序中隱藏scroll-view的滾動條可以通過以下幾種方法實現: 方法一:使用CSS隱藏滾動條 在小程序的樣式文件中(如app.wxss或頁面的.wxss文件),添加以下CSS代碼來隱藏滾動條: scroll-view ::-webkit…

服務器證書不受信任是什么問題?

用戶在訪問某些網站時,可能會遇到“服務器證書不受信任”的警告。這一問題不僅影響用戶的瀏覽體驗,更可能對網站的信譽和安全性產生深遠影響。那么服務器證書不受信任是什么問題呢? 服務器證書的基本概念 服務器證書是由證書頒發機構(CA)簽…

【AI游戲】使用強化學習玩 Flappy Bird:從零實現 Q-Learning 算法(附完整資源)

1. 引言 Flappy Bird 是一款經典的休閑游戲,玩家需要控制小鳥穿過管道,避免碰撞。雖然游戲規則簡單,但實現一個 AI 來自動玩 Flappy Bird 卻是一個有趣的挑戰。本文將介紹如何使用 Q-Learning 強化學習算法來訓練一個 AI,使其能夠…

Web滲透測試之XSS跨站腳本攻擊 跨域是什么?同源機制又是什么? cors以及Jsonp是什么 一篇文章給你說明白

目錄 Cookie的Httponly屬性和逃過方式 瀏覽器同源機制 cors跨域和jsonp跨域和跨域標簽 Cors跨域 - 跨源 Jsonp 跨域 jsonp跨域原理: 說明: Cookie的Httponly屬性和逃過方式 Xss攻擊手段 最常用的目的獲取cookie Cookie中設置了 httponlyTrue 方式js操作獲…

【C++】字符串的 += 和 + 運算詳解

博客主頁: [小????????] 本文專欄: C 文章目錄 💯前言💯1. 字符串的 和 基本用法1.1 的用法1.2 的用法 💯2. 示例代碼的剖析與解釋代碼分析 💯3. 底層實現與性能分析3.1 的實現原理3.2 的實現原理3.…

CCLINK轉MODBUS-TCP協議轉換網關模塊應用案例

大家好,今天我們要聊的是生產管理系統中的CCLINK和MODBUS-TCP協議,它們的不同使得數據互通比較困難,但捷米特JM-CCLK-TCP網關的出現改變了這一切。 為了實現整個生產線的協同工作,需要這些設備之間能夠進行有效的數據交換和指令傳…

Go學習:多重賦值與匿名變量

1. 變量的多重賦值 1.1 基本語法格式 go語言中,可以將多個賦值語句 合并成 一句,比如: a : 10 b : 20 c : 30//a,b,c三個變量的賦值語句可以簡練成以下格式a, b, c : 10, 20, 30 1.2 交換變量值 當需要交換兩個變量的值時&#…

Spring——依賴注入之p命名空間和c命名空間

p命名空間 其實就是Set注入 只不過p命名空間寫法更簡潔 p可以理解為 property標簽的首字母p p命名空間依賴于set方法 依賴引入 使用前需要再配置文件頭文件中引入p命名空間的依賴: ** xmlns:p“http://www.springframework.org/schema/p” ** 用法 在bean標簽…