CCIG 2024:合合信息文檔解析技術突破與應用前景

目錄

    • 背景
    • 當前大模型訓練和應用面臨的問題
      • 訓練Token耗盡
      • 訓練語料質量要求高
      • LLM文檔問答應用中文檔解析不精準
    • 合合信息的文檔解析技術
      • 1. 具備多文檔元素識別能力
      • 2. 具備版面分析能力
      • 3. 高性能的文檔解析
      • 4. 高精準、高效率的文檔解析
      • 文檔多板式部分示例
    • 文檔解析典型技術難點
      • 元素重疊、本身多樣性、復雜板式示例
      • 單行、行內、表格內公式示例
    • 合合信息提出的文檔解析技術解決方案
      • 文檔圖像預處理算法框架
        • 圖像文檔彎曲矯正算法
        • 圖像文檔干擾去除算法
      • 版面分析算法框架
        • 物理版面分析 - 文檔布局分析
        • 邏輯版面分析 - 語義結構分析
        • 版面分析算法的發展
      • Textln 文檔解析效果
    • 總結

背景

2024年5月24日-26日于西安召開中國圖象圖形大會(CCIG 2024),此次大會由中國圖象圖形學學會主辦,空軍軍醫大學、西安交通大學和西北工業大學承辦,南京理工大學、陜西省圖象圖形學學會、陜西省生物醫學工程學會協辦,陜西省科學技術協會支持。包括于起峰院士、鄭海榮院士、焦李成教授、王大軼研究員和虞晶怡教授在內的多位知名學者將作主旨報告,帶來前沿的學術分享。大會期間將舉辦25場學術論壇、7場特色論壇和2場企業論壇,匯聚2000余名專家學者,構建開放創新、交叉融合的交流平臺。

在此盛會上,合合信息的智能創新事業部研發總監常揚發表演講。常揚老師分享了合合信息在文檔解析技術方面的最新研究成果,探討如何利用這些技術加速大模型的訓練和應用。文檔解析技術在大模型發展中扮演著至關重要的角色,尤其是在應對訓練Token耗盡、語料質量要求高和解析不精準等挑戰,高效獲取高質量數據的方法,包括文檔元素識別、版面正確解析和轉化速度快等關鍵技術。本文將對常揚老師的演講進行詳細展開。

當前大模型訓練和應用面臨的問題

訓練Token耗盡

大模型(如GPT-4、BERT等)在訓練過程中需要處理大量的文本數據,這些數據被分解成更小的單位,稱為Tokens。每個Token代表一個詞、詞的一部分或一個標點符號。隨著模型變得越來越復雜,對數據的需求也隨之增加,訓練Token的耗盡成為一個主要問題。這意味著模型在訓練過程中會消耗大量的Tokens,如果Tokens不足,模型的訓練效果會受到限制。

訓練語料質量要求高

高質量的訓練語料是確保大模型性能的關鍵。低質量或噪聲數據可能會導致模型學習到錯誤的信息,從而影響其性能。高質量語料需要具備準確性、豐富性和多樣性,確保模型能夠理解和生成高質量的語言。

LLM文檔問答應用中文檔解析不精準

在大模型的應用中,如文檔問答(Document QA)系統,文檔解析的精準度至關重要。文檔解析不精準會導致模型無法正確理解文檔內容,影響問答的準確性和用戶體驗。例如,當文檔中的表格、公式、圖表等復雜元素不能被正確解析時,模型可能會提供錯誤或不完整的答案。

在這里插入圖片描述
在這里插入圖片描述

合合信息的文檔解析技術

合合信息在文檔解析技術方面進行了深入的研究和開發,其核心研究方向包括多文檔元素識別、版面分析和高性能的文檔解析技術。這些技術不僅提高了文檔解析的精度和效率,還為大模型的訓練和應用提供了有力的支持。

在這里插入圖片描述

1. 具備多文檔元素識別能力

多文檔元素識別能力是指系統能夠識別并區分文檔中不同類型的元素,如表格、段落、公式、標題等。每種元素在文檔中都有其特定的結構和語義,準確識別這些元素是文檔解析的基礎。

技術實現

  • 深度學習模型:利用卷積神經網絡(CNN)和循環神經網絡(RNN)等深度學習模型,訓練系統識別不同的文檔元素。
  • 特征提取:通過圖像處理技術提取表格線條、段落邊界、公式符號等特征,以提高識別的準確性。
  • 標注數據集:構建大型標注數據集,包含多種文檔元素的標注信息,用于模型訓練和驗證。
    應用場景:
  • 文檔自動化處理:在辦公自動化、電子檔案管理等場景中,實現自動化的文檔分類和元素提取。
  • 教育和科研:識別學術論文中的圖表和公式,輔助科研數據的整理和分析。

2. 具備版面分析能力

版面分析能力是指系統能夠正確解析文檔的版式布局,識別文檔中的欄、節、段等布局結構。復雜的文檔版式,如雙欄、三欄和文表混合布局,給解析帶來極大挑戰。

技術實現

  • 物理版面分析:使用基于回歸的單階段檢測模型(如Faster R-CNN、YOLO)檢測文檔中的物理布局元素(如欄、節)。
  • 邏輯版面分析:通過語義分析技術,理解文檔的語義結構和層次關系,將不同的文字塊組織成段落、列表等語義單元。
  • 混合方法:結合物理和邏輯版面分析方法,提升對復雜文檔版式的解析能力。
    應用場景:
  • 出版和印刷:解析書籍、報紙、雜志等出版物的版面結構,優化排版和印刷流程。
  • 檔案數字化:對紙質檔案進行數字化處理,保持原始版面布局,提高數字檔案的可讀性和可用性。

3. 高性能的文檔解析

高性能的文檔解析技術能夠快速處理和轉化大規模文檔,尤其是上百頁的PDF文檔,確保還原正確的閱讀順序,避免混亂的語序。

技術實現

  • 并行處理技術:利用多線程和分布式計算技術,加快大規模文檔的解析速度。
  • 優化算法:優化文檔解析算法,提高處理效率,減少時間消耗。
  • 硬件加速:借助GPU加速技術,進一步提升文檔解析的性能。
    應用場景:
  • 大數據處理:在金融、法律、醫療等領域,快速解析和處理大量文檔,提高數據處理效率。
  • 實時應用:在實時文檔問答和即時信息提取等應用中,提供快速、準確的文檔解析服務。

4. 高精準、高效率的文檔解析

文檔解析的精準度和效率是衡量技術性能的重要指標。合合信息的文檔解析技術能夠提供高精準、高效率的解析結果,適用于大模型的訓練和應用場景。

技術實現

  • 精細化模型訓練:通過精細化的模型訓練和調優,提高文檔解析的準確性。
  • 錯誤糾正機制:引入錯誤檢測和糾正機制,自動識別和修正解析過程中的錯誤。
  • 用戶反饋系統:利用用戶反饋信息,持續優化和改進解析算法。
    應用場景:
  • 大模型訓練:在大模型訓練過程中,提供高質量的訓練數據,提升模型性能。
  • 知識庫問答:在知識庫問答系統中,快速準確地解析文檔內容,提供高質量的問答服務。

文檔多板式部分示例

在這里插入圖片描述
在這里插入圖片描述

文檔解析典型技術難點

在文檔解析過程中,技術難點眾多,涉及文檔元素的遮蓋重疊、復雜版式、多樣的文檔元素、頁眉頁腳、多欄布局與表格、無線表格與合并單元格,以及各種公式的識別和處理。以下是對這些技術難點的詳細列舉。

  1. 元素遮蓋重疊:文檔中的各種元素(如文字、表格、公式等)可能會相互遮擋或重疊,給解析帶來挑戰。
  2. 復雜版式:文檔可能采用雙欄、跨頁、三欄等復雜的版式布局,需要準確識別和分析這些版式結構。
  3. 元素本身的多樣性:不同類型的文檔元素(如標題、段落、表格、公式等)具有不同的特點,需要針對性地進行識別和分析。
  4. 頁眉頁腳的復雜形式:頁眉頁腳的形式可能多種多樣,需要準確識別并區分。
  5. 多欄布局及其與表格的影響:多欄布局以及多欄中插入表格會對文檔解析帶來額外的挑戰。
  6. 無線表格與合并單元格:無線表格與合并單元格的識別。
  7. 各種公式:單行公式、行內公式、表格內公式等
    元素重疊、本身多樣性、復雜板式示例

元素重疊、本身多樣性、復雜板式示例

在這里插入圖片描述

單行、行內、表格內公式示例

在這里插入圖片描述

合合信息提出的文檔解析技術解決方案

文檔圖像預處理算法框架

主要包括以下幾點

  • 區域提取: 提取文檔區域
  • 干擾去除: 去除手指、陰影、摩爾紋等干擾
  • 形變矯正: 包括傾斜透視矯正、彎曲矯正等
  • 圖像恢復: 陰影去除、摩爾紋去除
  • 圖像增強: 增強銳化等操作

在這里插入圖片描述

圖像文檔彎曲矯正算法
  1. 形變文檔圖像建模
  • 使用偏移場來建模形變文檔圖像
  • 通過DocUNet網絡進行形變矯正
  1. 空間變換
  • 根據偏移場信息對圖像進行空間變換,完成彎曲矯正
  1. 邊緣填充
  • 使用Inpainting技術對矯正后的圖像進行邊緣填充

在這里插入圖片描述

圖像文檔干擾去除算法
  1. 文檔圖像預處理
  • 使用U2net卷積網絡進行背景提取
  • 通過信息融合和干擾去除模塊去除摩爾紋、光照影響等干擾
  1. 干擾去除算法效果
  • 可以有效去除手指、陰影等干擾,提高文檔圖像的質量

在這里插入圖片描述

文檔圖像預處理算法整體效果如下

在這里插入圖片描述

版面分析算法框架

在這里插入圖片描述

物理版面分析 - 文檔布局分析
  • 使用基于回歸的單階段檢測模型,如FasterRCNN、YOLO等,對文檔中的各種布局元素進行檢測和定位。
  • 檢測模型可以對文檔中的欄(column)、節(section)等布局要素進行識別。

在這里插入圖片描述

邏輯版面分析 - 語義結構分析

邏輯版面分析算法主要關注文檔的語義結構和布局關系,通過建立層級概念和建模布局關系,實現對文檔邏輯結構的分析和理解。將不同的文字塊根據語義關系建模,形成文檔的層次結構,如頁(page)、段落(paragraph)、列表(list)等。

在這里插入圖片描述

版面分析算法的發展

合合信息在近期的研究發現,真實世界的文檔布局類型非常豐富,無法簡單地用單欄、雙欄等類別來定義。
例如下面列舉的,目錄,報紙,試卷等。所以判別式的技術路線,可以處理好大部分的文檔,還無法真正對真實世界中各式各樣的文檔進行良好的版面分析。

在這里插入圖片描述

近年來的開放詞匯目標檢測(OVD),視覺語義對齊(Alignment)等工作,以及生成式模型等前沿進展,都會給版面分析帶來新的研究思路。

Textln 文檔解析效果

在這里插入圖片描述

在這里插入圖片描述

總結

常揚老師在CCIG 2024大會上的演講深入探討了合合信息在文檔解析技術方面的突破性進展。這些技術不僅解決了大模型訓練和應用中的諸多挑戰,還大大提升了文檔解析的效率和精度。通過先進的圖像預處理、版面分析和語義結構分析,合合信息為大模型在文檔問答、知識庫問答等應用場景中的表現提供了堅實的技術支持。期待這些創新技術能夠為未來的研究和產業應用帶來更多可能性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/19469.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/19469.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/19469.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【代碼隨想錄Day23】|669.修建二叉搜索樹、108.將有序數組轉換為二叉搜索樹、538.把二叉搜索樹轉換為累加樹

669. 修剪二叉搜索樹 這題最開始的想法是復用刪除節點的那題的思路做,需要修改的部分就是要讓程序刪除完一個點后繼續遍歷,因為后續可能還有不符合條件的節點。但這樣想也做復雜了。 這類題其實不用想用什么序遍歷,用哪種方式只是為了更好的…

案例|開發一個美業小程序,都有什么功能

隨著移動互聯網的迅猛發展,美業連鎖機構紛紛尋求數字化轉型,以小程序為載體,提升服務效率,增強客戶體驗。 線下店現在面臨的困境: 客戶到店排隊時間過長,體驗感受差 新客引流難,老用戶回頭客…

基于EV54Y39A PIC-IOT WA的手指數量檢測功能開發(MPLAB+ADC)

目錄 項目介紹硬件介紹項目設計開發環境及工程參考總體流程圖硬件基本配置光照傳感器讀取定時器檢測邏輯 功能展示項目總結 👉 【Funpack3-2】基于EV54Y39A PIC-IOT WA的手指數量檢測功能開發 👉 Github: EmbeddedCamerata/PIC-IOT_finger_recognition 項…

Flutter基礎 -- Dart 語言 -- 注釋函數表達式

目錄 1. 注釋 1.1 單行注釋 1.2 多行注釋 1.3 文檔注釋 2. 函數 2.1 定義 2.2 可選參數 2.3 可選參數 默認值 2.4 命名參數 默認值 2.5 函數內定義 2.6 Funcation 返回函數對象 2.7 匿名函數 2.8 作用域 3. 操作符 3.1 操作符表 3.2 算術操作符 3.3 相等相關的…

上海亞商投顧:滬指沖高回落 兩市成交金額僅剩7000億

上海亞商投顧前言:無懼大盤漲跌,解密龍虎榜資金,跟蹤一線游資和機構資金動向,識別短期熱點和強勢個股。 一.市場情緒 三大指數昨日沖高回落,午后一度集體翻綠,臨近尾盤小幅回升。光伏產業鏈再度走強&#…

aws 在ecs外部實例上運行gpu負載

參考資料 https://docs.amazonaws.cn/zh_cn/AmazonECS/latest/developerguide/ecs-gpu.htmlhttps://docs.amazonaws.cn/AWSEC2/latest/UserGuide/accelerated-computing-instances.html#gpu-instanceshttps://docs.amazonaws.cn/AWSEC2/latest/UserGuide/install-nvidia-drive…

LeetCode 63.不同路徑Ⅱ

思路&#xff1a; 在有障礙物的地方增加一個判斷即可 class Solution { public:int uniquePathsWithObstacles(vector<vector<int>>& obstacleGrid) {int dp[105][105];int mobstacleGrid.size();int nobstacleGrid[0].size();for(int i0;i<m;i){for(int j0…

K8s集群之 存儲卷 PV PVC

目錄 默寫 1 如何將pod創建在指定的Node節點上 2 污點的種類(在node上設置) 一 掛載存儲??????? 1 emptyDir存儲卷 2 hostPath存儲卷 ①在 node01 節點上創建掛載目錄 ② 在 node02 節點上創建掛載目錄 ③ 創建 Pod 資源 ④ 在master上檢測一下&#xff1a;…

C++ vector 模擬實現

vector的底層也是一個動態數組&#xff0c;他與 string 的區別就是&#xff0c;string 是專門用來存儲字符類數據的&#xff0c;為了兼容C語言&#xff0c;使用C語言的接口&#xff0c;在string的動態數組內都會都開一塊空間用來存 \0 &#xff0c;而vector則不會。 首先我們要…

【Linux多線程】認識多線程創建線程

文章目錄 什么是多線程為什么稱linux下的線程是輕量級進程呢&#xff1f; 線程的優點線程的缺點線程異常線程和進程創建線程1.pthread_create2.pthread_self 什么是多線程 進程是正在運行的程序的實例&#xff0c;而線程&#xff08;thread&#xff09;是進程中的一個執行路線…

python 刪除pdf 空白頁

環境 python 3.10 PyPDF2 3.0.1 安裝 pip install PyPDF2流程 將空白頁和內容頁讀取出來&#xff0c;看看內部結構有什么不同以此為依據&#xff0c;遍歷整個PDF 文件&#xff0c;標記處有內容的頁面&#xff0c;寫入到另外一個PDF文件。 python 代碼 # 每一個頁都是一個…

Springboot郵件發送配置

Springboot郵件發送配置 pom.xml依賴&#xff1a; <dependency><groupId>org.eclipse.angus</groupId><artifactId>jakarta.mail</artifactId><version>2.0.3</version> </dependency> <dependency><groupId>or…

跨域的解決方案

1. 計算機更改跨域 1.C盤->Windows->System32->drivers->etc 2.修改hosts 文件2. Chrome瀏覽器的跨域設置 操作步驟&#xff1a;1.打開我的電腦——C盤 新建一個文件夾&#xff0c;命名為MyChromeDevUserData2.右鍵——Chrome——快捷方式——目標&#xff0c;在…

ChatGPT成知名度最高生成式AI產品,使用頻率卻不高

5月29日&#xff0c;牛津大學、路透社新聞研究所聯合發布了一份生成式AI&#xff08;AIGC&#xff09;調查報告。 在今年3月28日—4月30日對美國、英國、法國、日本、丹麥和阿根廷的大約12,217人進行了調查&#xff0c;深度調研他們對生成式AI產品的應用情況。 結果顯示&…

ElementUI之el-table標題列中顯示el-tooltip

ElementUI之el-table標題列中顯示el-tooltip 文章目錄 ElementUI之el-table標題列中顯示el-tooltip1. el-table標題列中顯示el-tooltip2. 實現代碼3. 展示效果 1. el-table標題列中顯示el-tooltip 在el-table-column標簽內添加具名插槽v-slot:header 在el-tooltip標簽中使用具…

【幾何】輸入0-360度任意的角度,求上面直線與橢圓相切點的坐標計算公式

?輸入0-360度任意的角度,求上面直線與橢圓相切點的坐標計算公式 使用積分計算 使用到的公式有橢圓公式: x 2 a 2 + y 2 b 2 = 1 \frac{x^2}{a^2}+\frac{y^2}{b^2} = 1 a2x2?+b2y2?=1 平面旋轉公式 X r = cos ? θ ? ( X s ? X O ) ? sin ? θ ? ( Y s ? Y O ) + X …

端午節粽子龍舟主題互動趣味小游戲效果是什么

端午三天樂&#xff0c;無論節日當天還是之前&#xff0c;行業商家都可以自己的品牌為主借勢營銷&#xff0c;趣味活動形式玩法和內容呈現達成多種效果&#xff0c;品牌傳播、公眾號漲粉、線下互動、商品促銷、用戶促活等。 在【雨科】平臺擁有多款端午節互動小游戲類型&#…

網易狼人殺 設置點擊自動發言

我們玩網易狼人殺 剛開始 都會發現 要按住麥克風才能發言 不得不說 相當的麻煩 我們可以點擊如下圖 右上角這個設置的齒輪 新彈出的設置面板上 勾選這個點擊發言 然后 我們只需要 點一下 就可以進入發言狀態 然后 再點一下即可停止發言 會方便非常多

zabbix事件告警監控:如何實現對相同部件觸發器告警及恢復的強關聯

有一定Zabbix使用經驗的小伙伴可能會發現&#xff0c;接收告警事件時&#xff0c;其中可能包含著大量不同的部件名&#xff0c;同一部件的事件在邏輯上具有很強關聯性&#xff0c;理論上應保持一致的告警/恢復狀態&#xff0c;但Zabbix默認并未對它們進行關聯&#xff0c;直接后…

AIGC降重:如何2分鐘降低論文AI率和查重率?推薦使用SpeedAI科研小助手

確保學術論文的獨立性與誠信性&#xff0c;對于學業的成就及學位的獲取至關重要&#xff0c;其中&#xff0c;論文的人工智能查重與降低AIGC相似度扮演著核心角色。 常規的查重手段主要圍繞查重軟件的運用和個體的自行審查&#xff1b;而降重則通常通過語句重組、同義替換、內…