【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】A題解題全流程-思路(持續更新)
寫在前面:
1、A題、C題將會持續更新,陸續更新發布文章
2、賽題交流咨詢Q群:1037590285
3、全家桶依舊包含:
- 代碼、
- 數據集、
- 模型、
- 論文、
- 教學視頻、
- 服務器鏡像分享(無需搭建環境和下載模型)、
- 售后服務
- 贈品成品系統(基于大模型pdf提取系統)可用做畢設
一、解題思路
實現技術: RapidLayout+Qwen2.5VL-7B+OCR+clip+Qwen2.5-7B-chat
總體思路概述:
- 問題一:版面分析對pdf每一頁進行布局分析,結合ocr、多模態大模型進行內容信息提取,處理細節解決問題。保存正文內容、圖片、公式入庫儲存用于后續任務。
- 問題二:本地構建部署Qwen2.5-7B-chat進行調用,對保存的正文內容與賽題要求進行大模型分析,微調模型輸出參數,降低模型幻覺,增加消息隊列防止同一問題,輸出回答錯亂。
- 問題三:根據問題一入庫保存的圖片、公式,進行clip構建圖像側特征矩陣,根據特征相似度進行重復率判斷。以及pdf屬性為文本的論文文本內容,進行構建文本側特征矩陣。進行相似度匹配查重。
- 問題四:對于圖片占比過高的論文pdf,結合版面分析+ocr,對pdf全提取,提取全文本,對文本特征進行相似度匹配,作為權重1;再將所以pdf頁面作為圖片,構建圖像側特征矩陣,做相似度匹配,作為權重2。最終根據權重綜合得出該類論文的重復率。
二、版面分析結果:
輸出數據結構
json
樣例:{"參賽隊號": "T001","論文標題": "基于深度學習的文檔分析研究","總頁數": 12,"總字數": 8500,"摘要": {"頁數": 1, "字數": 300},"正文": {"頁數": 8,"字數": 6500,"圖片數": 6,"圖片比例": 0.15,"表格數": 3,"公式數": 12},"段落統計": {"數量": 45,"平均句子": 3.2,"平均字數": 144},"參考文獻": {"數量": 28},"附錄": {"頁數": 2, "代碼行數": 150}
}
三、大模型本地實現處理分析:
主要分享思路,后續做完整體再繼續更新全部
“占個坑位。hh”