【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】【思路篇】A題解題全流程(持續更新)

【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】A題解題全流程-思路(持續更新)

寫在前面:

1、A題、C題將會持續更新,陸續更新發布文章

2、賽題交流咨詢Q群:1037590285

3、全家桶依舊包含:

  • 代碼、
  • 數據集、
  • 模型、
  • 論文、
  • 教學視頻、
  • 服務器鏡像分享(無需搭建環境和下載模型)、
  • 售后服務
  • 贈品成品系統(基于大模型pdf提取系統)可用做畢設

一、解題思路

實現技術: RapidLayout+Qwen2.5VL-7B+OCR+clip+Qwen2.5-7B-chat

總體思路概述:

  • 問題一:版面分析對pdf每一頁進行布局分析,結合ocr、多模態大模型進行內容信息提取,處理細節解決問題。保存正文內容、圖片、公式入庫儲存用于后續任務。
  • 問題二:本地構建部署Qwen2.5-7B-chat進行調用,對保存的正文內容與賽題要求進行大模型分析,微調模型輸出參數,降低模型幻覺,增加消息隊列防止同一問題,輸出回答錯亂。
  • 問題三:根據問題一入庫保存的圖片、公式,進行clip構建圖像側特征矩陣,根據特征相似度進行重復率判斷。以及pdf屬性為文本的論文文本內容,進行構建文本側特征矩陣。進行相似度匹配查重。
  • 問題四:對于圖片占比過高的論文pdf,結合版面分析+ocr,對pdf全提取,提取全文本,對文本特征進行相似度匹配,作為權重1;再將所以pdf頁面作為圖片,構建圖像側特征矩陣,做相似度匹配,作為權重2。最終根據權重綜合得出該類論文的重復率。

二、版面分析結果:

在這里插入圖片描述
在這里插入圖片描述

輸出數據結構

json

樣例:{"參賽隊號": "T001","論文標題": "基于深度學習的文檔分析研究","總頁數": 12,"總字數": 8500,"摘要": {"頁數": 1, "字數": 300},"正文": {"頁數": 8,"字數": 6500,"圖片數": 6,"圖片比例": 0.15,"表格數": 3,"公式數": 12},"段落統計": {"數量": 45,"平均句子": 3.2,"平均字數": 144},"參考文獻": {"數量": 28},"附錄": {"頁數": 2, "代碼行數": 150}
}

在這里插入圖片描述

三、大模型本地實現處理分析:

在這里插入圖片描述

在這里插入圖片描述

主要分享思路,后續做完整體再繼續更新全部

“占個坑位。hh”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/76276.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/76276.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/76276.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

T11 TensorFlow入門實戰——優化器對比實驗

🍨 本文為🔗365天深度學習訓練營 中的學習紀錄博客🍖 原作者:K同學啊 | 接輔導、項目定制 一、前期準備 1. 導入數據 # Import the required libraries import pathlib import matplotlib.pyplot as plt import tensorflow as t…

Docker部署sprintboot后端項目

創建Docker網絡 docker network create icjs 部署Redis docker run -d \--network icjs \--name redis \-p 6379:6379 \redis:latest數據持久化 docker run --restartalways --network icjs -p 6379:6379 --name redis -v /opt/docker/redis/redis.conf:/etc/redis/redis.c…

01小游戲

問題描述 小明得到了一個長度為 nn 的字符串 ss ,該字符串都是由數字 00 和 11 組成,并且下標從 11 開始,小明現在需要對這個字符串進行 qq 次操作,每次操作包含以下兩種操作之一: 操作 11 :小明查詢該字符…

Androidstudio開發,實現商品分類

文章目錄 1. 功能需求2. 代碼實現過程1. 編寫布局文件2. 創建商品分類(Adapter)適配器3. 實現商品分類Activity4. 在res/values/ 下新建 array.xml ,用于添加商品分類數據5. 效果演示 6. 關于作者其它項目視頻教程介紹 1. 功能需求 顯示商品分…

Linux快速安裝docker和docker-componse步驟

在 CentOS 7 上安裝 Docker 和 Docker Compose 的步驟如下: 1. 安裝 Docker 1.1. 更新系統 首先,確保你的系統是最新版本: sudo yum update -y1.2. 安裝必要的包 安裝 yum-utils,這是管理 YUM 源的工具: sudo yu…

VBA代碼解決方案第二十三講 EXCEL中,如何刪除工作表中的空白行

《VBA代碼解決方案》(版權10028096)這套教程是我最早推出的教程,目前已經是第三版修訂了。這套教程定位于入門后的提高,在學習這套教程過程中,側重點是要理解及掌握我的“積木編程”思想。要靈活運用教程中的實例像搭積木一樣把自己喜歡的代碼…

Pytorch--tensor.view()

在 PyTorch 中,tensor.view() 是一個常用的方法,用于改變張量(Tensor)的形狀(shape),但不會改變其數據本身。它類似于 NumPy 的 reshape(),但有一些關鍵區別。 1. 基本用法 import …

【機器學習】——機器學習思考總結

摘要 這篇文章深入探討了機器學習中的數據相關問題,重點分析了神經網絡(DNN)的學習機制,包括層級特征提取、非線性激活函數、反向傳播和梯度下降等關鍵機制。同時,文章還討論了數據集大小的標準、機器學習訓練數據量的…

CoAP Shell 筆記

CoAP Shell 筆記 1. 概述 CoAP (Constrained Application Protocol) 是一種專為物聯網 (IoT) 中資源受限的節點和網絡設計的 RESTful Web 傳輸協議。CoAP Shell 是一個基于命令行的交互式工具,用于與支持 CoAP 的服務器進行交互。 2. 主要功能 協議支持&#xff…

【最新】探索CFD的未來:從OpenFOAM到深度學習,全面解析計算流體力學的頂級資源與前沿技術

計算流體力學(CFD)作為現代工程與科學研究的核心工具,正以前所未有的速度邁向智能化與多物理場耦合的新時代。本文全面梳理了在線學習CFD的頂級資源,涵蓋了從傳統數值模擬到深度學習驅動的物理信息模型的廣泛領域,旨在為研究者、工程師和學生提供一站式參考指南。內容分為…

[leetcode]2492. 兩個城市間路徑的最小分數(并查集 排序后建邊)

題目鏈接 題意 給定一個 n n n個點 m m m條邊的無向圖 每條邊有邊權 求1-n的路徑中最小的邊權是多少 每條路可以重復走 思路 把邊按邊權降序排序 用并查集維護連通性 遍歷每條邊 每次合并邊的起點和終點 如果1和n聯通 并且這條邊在1和n的這個連通塊中 就對ans取min Code…

Windows中IDEA2024.1的安裝和使用

如果你也喜歡,記得一鍵三連啊 一、卸載 二、安裝 三、注冊 1、打開Crack文件,直接雙擊 “安裝.bat”,否則可能安裝會出錯!! 2、選擇【Activation code】(不要關閉該界面繼續后面的步驟)。 …

【C#】構造協議幀通過串口下發

構造一個“協議幀”&#xff0c;打包串口/網絡通信幀頭部結構的核心部分 &#x1f527; 代碼&#xff1a; List<byte> frame new List<byte>();// 1. 固定幀頭 frame.AddRange(BitConverter.GetBytes(0x0130)); // 幀頭 (4B) frame.AddRange(BitConverter…

04_SQL概述及DDL

文章目錄 一、關于SQL1.1、SQL概述1.2、SQL分類 二、數據庫操作2.1、查看數據庫2.2、切換數據庫2.3、查詢當前使用的數據庫2.4、創建數據庫2.5、查看數據庫創建信息2.6、修改數據庫2.7、刪除數據庫 三、表的操作3.1、數據類型3.1.1、數值類型3.1.2、字符串類型3.1.3、日期時間類…

HCIA-數據通信datacom認證

文章目錄 一、數據通信簡介1.1 標準協議1.2 數據傳輸過程 二、通用路由平臺VRP2.1 VRP簡介2.2 命令行基礎 三 、網絡層協議IP3.1 數據封裝3.2 數據包傳輸2.3 IP地址2.4 子網劃分2.5 ICMP 四、IP路由基礎4.1 路由概述4.2 路由表4.3 路由轉發4.4 靜態路由4.5 動態路由4.6 路由高級…

fast_pow(),c語言冪函數

double fast_pow(double a, int n) { double res 1.0; while (n > 0) { if (n & 1) res * a; // 如果當前位是1&#xff0c;累乘 a * a; // 平方 n >> 1; // 右移一位&#xff08;相當于 n / 2&…

OpenBMC:BmcWeb 處理http請求2 查找路由對象

OpenBMC:BmcWeb 處理http請求1 生成Request和AsyncResp對象_bmc web-CSDN博客 當接收到http請求,并且完成解析后,調用了App::handle處理請求 而App::handle又調用了router.handle(req, asyncResp);來處理請求 1.Router::handle void handle(const std::shared_ptr<Requ…

[Mac]利用hexo-theme-fluid美化個人博客

接上文,使用Fluid美化個人博客 文章目錄 一、安裝hexo-theme-fluid安裝依賴指定主題創建「關于頁」效果展示 二、修改個性化配置1. 修改網站設置2.修改文章路徑顯示3.體驗分類和標簽4.左上角博客名稱修改5.修改背景圖片6.修改關于界面 歡迎大家參觀 一、安裝hexo-theme-fluid 參…

深入理解二叉樹、B樹與B+樹:原理、應用與實現

文章目錄 引言一、二叉樹&#xff1a;基礎而強大的結構基本概念特性分析Java實現應用場景 二、B樹&#xff1a;適合外存的多路平衡樹基本概念關鍵特性查詢流程示例Java簡化實現典型應用 三、B樹&#xff1a;數據庫索引的首選核心改進優勢分析范圍查詢示例Java簡化實現實際應用 …

8.4考研408簡單選擇排序與堆排序知識點深度解析

考研408「簡單選擇排序與堆排序」知識點全解析 一、簡單選擇排序 1.1 定義與核心思想 簡單選擇排序(Selection Sort)是一種選擇排序算法,其核心思想是: 每趟選擇:從待排序序列中選擇最小(或最大)的元素,與當前位置的元素交換。逐步構建有序序列:經過 n ? 1 n-1