Visual NLP:圖像信息自動提取的未來

本文旨在以簡單的方式解釋 Visual NLP 的關鍵概念,讓你了解 Visual NLP 的含義、它的用例是什么、如何使用它以及為什么它是構建自動提取管道的未來 。

NSDT在線工具推薦:?Three.js AI紋理開發包?-?YOLO合成數據生成器?-?GLTF/GLB在線編輯?-?3D模型格式在線轉換?-?可編程3D場景編輯器?

1、什么是Visual NLP?

NLP 的一個分支,結合了視覺(空間和布局)特征和文檔中存在的文本信息。 大多數經典的 NLP 問題都處理文本數據,這些數據包含大量信息,但仍然缺乏幫助我們區分文本內容和含義的視覺隊列。

鑒于我們正處于像 ChatGPT、Bard、Claude 等人工智能LLM時代,它們本質上是多模式的,即接受圖像和文本作為輸入,我們確實看到了這些系統的潛力。

轉向 Visual NLP 的主要原因之一是需要對掃描文檔進行信息提取。 目前,IE 活動是通過將掃描文檔轉換為文本并在其上運行 NLP 來進行的。

現在,讓我們看看這種方法的局限性:

  • 由于文本表示不明確(例如清晰度、字體等),OCR 文本識別失敗。
  • 不使用可能為文本增加價值的視覺圖像。
  • 通過 OCR 轉換為文本時,表格數據會變得混亂。

添加視覺數據有助于克服此類挑戰,并為模型提供豐富的數據,以更好地完成任務。

2、Visual NLP用例

Visual NLP 的一些用例包括:

  • 視覺文檔分類(使用文本+空間特征+圖像)
  • 視覺問答
  • 布局分析:分析文檔內容的空間排列以了解其結構和含義的過程。 這包括識別文本、圖像、表格和其他元素的位置,以及整體文檔結構,例如標題和副標題。
  • 關鍵信息提取:從文檔和其他視覺內容中提取關鍵信息的過程。 這可以包括姓名、日期、地點和金額等信息。
  • 圖像字幕:生成圖像的文本描述的任務。
  • 表格檢測:識別和定位圖像和文檔中的表格的任務。
  • 表結構識別:識別表的邏輯和物理結構的任務。 表的邏輯結構是指表中不同單元格之間的關系,例如哪些單元格屬于同一標題行或列。 表格的物理結構是指表格的布局,例如邊框的位置和單元格之間的間距。

下面是如何利用 Visual NLP 力量的一些示例。

2.1 從掃描收據中提取關鍵信息

此任務的目的是從給定收據中提取多個關鍵字段的文本,并將每個收據圖像的文本保存在 json 文件中。 我們對 Donut 模型進行了微調,以從掃描的發票收據中提取公司、地址、日期、總計等實體。

事實數據如下:

{     
"company": "BOOK TA .K (TAMAN DAYA) SDN BHD",     
"date": "25/12/2018",     
"address": "NO.53, TAMAN DAYA, 81100 JOHOR BAHRU, JOHOR.",     
"total": "9.00" 
}

該模型能夠學習直接從圖像中提取這些實體。 當考慮真實情況和預測文本完全匹配的正確實例時,我們能夠獲得約 60% 的準確率。

2.2 視覺質量檢查

此任務的目的是從圖像中生成給定問題的答案。 我們針對此任務對 Donut 模型進行了微調。

事實數據如下所示:

{
"gt_parses": [{"question": "what is AGE?", "answer": "30"}, {"question": "what is GENDER?", "answer": "Female"}, {"question": "what is DATE?", "answer": "2023-01-07"}
]
}

該模型能夠學習直接從圖像生成答案。

一些可以通過HuggingFace使用的Visual NLP模型

  • Donut
  • Pix2Struct
  • LayoutLM
  • DiT

在上面的示例中,我們使用 Donut 作為起點來展示 Visual NLP 系統的功能,但你可以使用上述任何模型。

3、基于 Visual NLP 的自動化信息提取流程

上述示例展示了當前 Visual NLP 系統的明顯潛力,以及為什么該研究領域將成為自動提取管道的未來。

視覺 NLP 是一個快速發展的領域,有可能徹底改變我們處理和理解信息的方式。 通過結合視覺和文本特征,視覺 NLP 模型可以克服傳統 NLP 模型的局限性,從更廣泛的來源(包括掃描文檔)提取更準確、更全面的信息。

隨著視覺 NLP 領域的不斷成熟,我們可以期待看到更多創新和突破性的應用程序出現。 例如,視覺 NLP 可用于開發能夠理解和索引文本和圖像的新搜索引擎,或者創建新型教育工具,通過結合視覺和文本信息來幫助學生更有效地學習。


原文鏈接:Visual NLP簡明教程 - BimAnt

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/162453.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/162453.shtml
英文地址,請注明出處:http://en.pswp.cn/news/162453.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

微信小程序-空值操作符

提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目錄 空值合并操作符(??) 空值合并操作符(??) 在編寫代碼時,如果某個屬性不為 null 和 undefined&#x…

C++ 函數、數組、指針、輸入輸出、日期時間

一、C函數: 函數是一組執行一個任務的語句。每個C程序至少有一個函數,即主函數main()。函數有很多叫法,比如方法、子例程或程序等等。函數聲明告訴編譯器函數的名稱、返回類型和參數。函數定義提供了函數的實際主體。 return_type function…

一站式解決Mac音視頻轉換需求——Xilisoft Video Converter Ultimate for Mac

在數字化時代,音視頻的應用越來越廣泛,不同的設備和平臺對音視頻格式的要求也不盡相同。因此,如何找到一款功能強大、易于操作的音視頻轉換軟件成為了Mac用戶的迫切需求。而Xilisoft Video Converter Ultimate for Mac(曦力音視頻…

4.18每日一題(極坐標累次積分到直角坐標累次積分的轉換)

注:rdr化為直角坐標以后r直接消去了,不需要計算

可編程交流回饋式負載箱在電源設備中的應用

可編程交流回饋式負載箱可以用于測試電源設備的輸出能力,通過在負載箱中設置不同的負載條件,可以模擬不同的工作負載情況,從而測試電源設備在不同負載下的輸出能力和穩定性。這對于電源設備的設計和生產非常重要,可以幫助制造商評…

2023年亞太杯數學建模亞太賽C題思路解析+代碼+論文

下文包含:2023年亞太杯數學建模亞太賽C題思路解析代碼參考論文等及如何準備數學建模競賽(23號比賽開始后逐步更新) C君將會第一時間發布選題建議、所有題目的思路解析、相關代碼、參考文獻、參考論文等多項資料,幫助大家取得好成…

SELinux refpolicy詳解(1)

本文部分內容參考: SELinux - ArchWiki SELinux_百度百科 一、SELinux介紹 1. SELinux簡介 SELinux(Security-Enhanced Linux,安全增強型Linux)是美國國家安全局(NSA)對于強制訪問控制的實現&#xff0…

【python學習】基礎篇-常用函數-偏函數

偏函數(Partial function)是指固定一個函數的部分參數,返回一個新的函數。 在Python中,可以使用functools模塊中的partial()函數來創建偏函數。 偏函數的用法如下: 1.首先,導入functools模塊中的partial()函數。 from functool…

css實現水波紋效果

css實現水波紋效果 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><styl…

HarmonyOS ArkTS Video組件的使用(七)

概述 在手機、平板或是智慧屏這些終端設備上&#xff0c;媒體功能可以算作是我們最常用的場景之一。無論是實現音頻的播放、錄制、采集&#xff0c;還是視頻的播放、切換、循環&#xff0c;亦或是相機的預覽、拍照等功能&#xff0c;媒體組件都是必不可少的。以視頻功能為例&a…

C 語言嵌套結構體

C 語言嵌套結構體 C為我們提供了將一個結構嵌套在另一個結構中的功能&#xff0c;從而創建復雜的數據類型。例如&#xff0c;我們可能需要在結構中存儲實體員工的地址。而地址也可以包含其他信息&#xff0c;例如街道編號&#xff0c;城市&#xff0c;地區和密碼。因此&#x…

CVE-2022-21661

簡介 CVE-2022-21661是一個與WordPress相關的漏洞&#xff0c;涉及到SQL注入問題。該漏洞主要源于WordPress的WQ_Tax_Query類中的clean_query函數&#xff0c;可能允許攻擊者通過控制傳遞給該函數的數據來控制生成的SQL查詢&#xff0c;從而執行任意的SQL代碼。 當WordPress的…

【ROS 2 進階-MoveIt!】MoveIt!中的關鍵節點

所有內容請查看&#xff1a;博客學習目錄_Howe_xixi的博客-CSDN博客 原文檔鏈接&#xff1a;Docs

自動駕駛軌跡預測學習筆記

目錄 VectorNet&#xff1a;自動駕駛軌跡預測 CVPR2023 軌跡預測冠軍方案 QCNeXt VectorNet&#xff1a;自動駕駛軌跡預測 VectorNet&#xff1a;自動駕駛軌跡預測 - 知乎 CVPR2023 軌跡預測冠軍方案 QCNeXt CVPR2023 軌跡預測冠軍方案&#xff01;QCNeXt&#xff1a;新一代…

什么是索引下推

索引下推介紹 索引下推&#xff08;INDEX CONDITION PUSHDOWN&#xff0c;簡稱 ICP&#xff09;是在 MySQL 5.6 針對掃描二級索引的一項優化改進。總的來說是通過把索引過濾條件下推到存儲引擎&#xff0c;來減少 MySQL 存儲引擎訪問基表的次數以及 MySQL 服務層訪問存儲引擎的…

持續格式刷

雙擊格式刷即可

專訪|OpenTiny 開源社區 常浩:完成比完美更重要

前言 2023年已過大半&#xff0c;備受關注的 OpenTiny*開源之夏活動也順利結項。開源之夏由中國科學院軟件研究所發起的計劃&#xff0c;目的在于鼓勵在校學生積極參與開源軟件的開發維護&#xff0c;推動優秀開源軟件社區的繁榮發展。該活動聯合各大開源社區&#xff0c;聚焦…

令人贊嘆的花里胡哨的代碼雨動畫效果

【點我-這里送書】 本人詳解 作者:王文峰,參加過 CSDN 2020年度博客之星,《Java王大師王天師》 公眾號:JAVA開發王大師,專注于天道酬勤的 Java 開發問題中國國學、傳統文化和代碼愛好者的程序人生,期待你的關注和支持!本人外號:神秘小峯 山峯 轉載說明:務必注明來源(…

element emitter broadcast向下廣播 dispatch向上分派

emitter 項目使用element的emitter.js&#xff0c;做個使用記錄 function broadcast(componentName, eventName, params) {this.$children.forEach(child > {const name child.$options.name;if (name componentName) {child.$emit.apply(child, [eventName].concat(para…

pytorch訓練出現的bug

訓練過后發現.csv文件左側出現了幾列unname和一列0&#xff0c;1&#xff0c;2。這個時候在訓練就會從unname那一列開始訓練。我們需要把這幾列刪除&#xff0c;之后再重新訓練