【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】【思路篇】A題解題全流程（持續更新）

【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】A題解題全流程-思路（持續更新）

寫在前面：

1、A題、C題將會持續更新，陸續更新發布文章

2、賽題交流咨詢Q群：1037590285

3、全家桶依舊包含：

代碼、
數據集、
模型、
論文、
教學視頻、
服務器鏡像分享（無需搭建環境和下載模型）、
售后服務
贈品成品系統（基于大模型pdf提取系統）可用做畢設

一、解題思路

實現技術: RapidLayout+Qwen2.5VL-7B+OCR+clip+Qwen2.5-7B-chat

總體思路概述：

問題一：版面分析對pdf每一頁進行布局分析，結合ocr、多模態大模型進行內容信息提取，處理細節解決問題。保存正文內容、圖片、公式入庫儲存用于后續任務。
問題二：本地構建部署Qwen2.5-7B-chat進行調用，對保存的正文內容與賽題要求進行大模型分析，微調模型輸出參數，降低模型幻覺，增加消息隊列防止同一問題，輸出回答錯亂。
問題三：根據問題一入庫保存的圖片、公式，進行clip構建圖像側特征矩陣，根據特征相似度進行重復率判斷。以及pdf屬性為文本的論文文本內容，進行構建文本側特征矩陣。進行相似度匹配查重。
問題四：對于圖片占比過高的論文pdf，結合版面分析+ocr，對pdf全提取，提取全文本，對文本特征進行相似度匹配，作為權重1；再將所以pdf頁面作為圖片，構建圖像側特征矩陣，做相似度匹配，作為權重2。最終根據權重綜合得出該類論文的重復率。

二、版面分析結果：

在這里插入圖片描述

輸出數據結構

json

樣例：{"參賽隊號": "T001","論文標題": "基于深度學習的文檔分析研究","總頁數": 12,"總字數": 8500,"摘要": {"頁數": 1, "字數": 300},"正文": {"頁數": 8,"字數": 6500,"圖片數": 6,"圖片比例": 0.15,"表格數": 3,"公式數": 12},"段落統計": {"數量": 45,"平均句子": 3.2,"平均字數": 144},"參考文獻": {"數量": 28},"附錄": {"頁數": 2, "代碼行數": 150}
}

在這里插入圖片描述

三、大模型本地實現處理分析：

在這里插入圖片描述

主要分享思路，后續做完整體再繼續更新全部

“占個坑位。hh”

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/76276.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/76276.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/76276.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！