【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】A題解題全流程(持續更新)

【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】A題解題全流程-思路(持續更新)

寫在前面:

1、A題、C題將會持續更新,陸續更新發布文章

2、賽題交流咨詢Q群:1037590285

3、全家桶依舊包含:

  • 代碼、
  • 數據集、
  • 模型、
  • 論文、
  • 教學視頻、
  • 服務器鏡像分享(無需搭建環境和下載模型)、
  • 售后服務
  • 贈品成品系統(基于大模型pdf提取系統)可用做畢設

一、解題思路

實現技術: RapidLayout+Qwen2.5VL-7B+OCR+clip+Qwen2.5-7B-chat

總體思路概述:

  • 問題一:版面分析對pdf每一頁進行布局分析,結合ocr、多模態大模型進行內容信息提取,處理細節解決問題。保存正文內容、圖片、公式入庫儲存用于后續任務。
  • 問題二:本地構建部署Qwen2.5-7B-chat進行調用,對保存的正文內容與賽題要求進行大模型分析,微調模型輸出參數,降低模型幻覺,增加消息隊列防止同一問題,輸出回答錯亂。
  • 問題三:根據問題一入庫保存的圖片、公式,進行clip構建圖像側特征矩陣,根據特征相似度進行重復率判斷。以及pdf屬性為文本的論文文本內容,進行構建文本側特征矩陣。進行相似度匹配查重。
  • 問題四:對于圖片占比過高的論文pdf,結合版面分析+ocr,對pdf全提取,提取全文本,對文本特征進行相似度匹配,作為權重1;再將所以pdf頁面作為圖片,構建圖像側特征矩陣,做相似度匹配,作為權重2。最終根據權重綜合得出該類論文的重復率。

二、版面分析結果:

在這里插入圖片描述
在這里插入圖片描述

輸出數據結構

json

樣例:{"參賽隊號": "T001","論文標題": "基于深度學習的文檔分析研究","總頁數": 12,"總字數": 8500,"摘要": {"頁數": 1, "字數": 300},"正文": {"頁數": 8,"字數": 6500,"圖片數": 6,"圖片比例": 0.15,"表格數": 3,"公式數": 12},"段落統計": {"數量": 45,"平均句子": 3.2,"平均字數": 144},"參考文獻": {"數量": 28},"附錄": {"頁數": 2, "代碼行數": 150}
}

在這里插入圖片描述

三、大模型本地實現處理分析:

在這里插入圖片描述

在這里插入圖片描述

主要分享思路,后續做完整體再繼續更新全部

“占個坑位。hh”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74937.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74937.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74937.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何讓 history 記錄命令執行時間?Linux/macOS 終端時間戳設置指南

引言:你真的會用 history 嗎? 有沒有遇到過這樣的情況:你想回顧某個重要命令的執行記錄,卻發現 history 只列出了命令序號和內容,根本沒有時間戳?這在運維排查、故障分析、甚至審計時都會帶來極大的不便。 想象一下,你在服務器上誤刪了某個文件,但不知道具體是幾點執…

Redis緩存異常場景深度解析:穿透、擊穿、雪崩及終極解決方案

一、引言 在高并發系統中,緩存承擔著流量洪峰的削峰填谷作用。然而當緩存層出現異常時,可能引發數據庫級聯崩潰,造成系統癱瘓。本文將深入剖析緩存穿透、緩存擊穿、緩存雪崩三大典型問題,并提供企業級解決方案。文章包含7種防御策…

Scala 之 正則

regex 函數提取 import scala.util.matching.Regex// 輸入表達式 val expression "[a#0, round(a#0, 0) AS round(a, 0)#1, abs(a#0) AS abs(a)#2, len(cast(a#0 as string)) AS len(a)#3]"// 定義一個正則表達式來提取函數名稱 val functionPattern: Regex &quo…

CI/CD-Jenkins安裝與應用

CI/CD-Jenkins安裝與應用 Docker安裝Jenkins docker-compose.yaml version: "3.8" # # 自定義網絡配置 # networks:cicd:driver: bridgeservices:jenkins:# 盡量使用新版本的Jenkins, 低版本的Jenkins的有些插件使用不了# jenkins/jenkins:lts-jdk17是長期支持版…

驗證Linux多進程時間片切換的程序

?? 一、軟件需求 在同時運行多個CPU密集型進程時,需采集以下統計信息: 當前運行在邏輯CPU上的進程ID每個進程的運行進度百分比 實驗程序設計要求: 1. 命令行參數 參數說明示例值n并發進程數量3total總運行時長(毫秒&…

IvorySQL:兼容Oracle數據庫的開源PostgreSQL

今天給大家介紹一款基于 PostgreSQL 開發、兼容 Oracle 數據庫的國產開源關系型數據庫管理系統:IvorySQL。 IvorySQL 由商瀚高軟件提供支持,主要的功能特性包括: 完全兼容 PostgreSQL:IvorySQL 基于 PostgreSQL 內核開發&#xf…

樹莓派超全系列文檔--(13)如何使用raspi-config工具其二

如何使用raspi-config工具其二 raspi-configPerformance optionsOverclockGPU memoryOverlay file systemFan Localisation optionsLocaleTime zoneKeyboardWLAN country Advanced optionsExpand filesystemNetwork interface namesNetwork proxy settingsBoot orderBootloader…

QT音樂播放器(1):數據庫保存歌曲

實現功能:用數據庫保存本地導入和在線搜索的歌曲記錄 目錄 一. 保存本地添加的歌曲 1. 使用QSettings (1)在構造函數中,創建對象。 (2)在導入音樂槽函數中,保存新添加的文件路徑&#xff0c…

自動化發布工具CI/CD實踐Jenkins常用工具和插件的使用

1、安裝常用工具 名稱版本備注jdkjava8代碼打包所需git1.8.3.1maven3.6.3注意配置私服內容nvm0.39.3多Node.js環境管理工具Node.jsv14.18.0 / v16.17.1包管理工具yarn1.22.15包管理工具 1.1 安裝jdk Jenkins 需要使用java11 及以上,但是代碼打包依賴jdk8&#xff…

shared_ptr和 weak_ptr的詳細介紹

關于 shared_ptr 和 weak_ptr 的詳細介紹及使用示例: 1. shared_ptr(共享所有權智能指針) 核心特性 引用計數:記錄當前有多少個 shared_ptr 共享同一個對象。自動釋放:當引用計數歸零時,自動釋放對象內存…

Spring AI MCP 架構詳解

Spring AI MCP 架構詳解 1.什么是MCP? MCP 是一種開放協議,它對應用程序向大語言模型(LLMs)提供上下文信息的方式進行了標準化。可以把 MCP 想象成人工智能應用程序的 USB-C 接口。就像 USB-C 為將設備連接到各種外圍設備和配件提供了一種…

騰訊系AI應用,可以生視頻,3D模型...

以下注冊手機后就可以使用了。 騰訊智影 智能抹除-在線去水印去字幕-抹除水印字幕-騰訊智影 混元(文字,圖片生成3D) 騰訊混元3D 混元視頻(文字生成視頻,可惜右下角有文字) https://video.hunyuan.tencen…

數據結構(并查集,圖)

并查集 練習版 class UnionFindSet { public:void swap(int* a, int* b){int tmp *a;*a *b;*b tmp;}UnionFindSet(size_t size):_ufs(size,-1){}int UnionFind(int x){}void Union(int x1, int x2){}//長分支改為相同節點int FindRoot(int x){}bool InSet(int x1, int x2)…

數據結構:探秘AVL樹

本節重點 理解AVL樹的概念掌握AVL樹正確的插入方法利用_parent指針正確更新平衡因子掌握并理解四種旋轉方式:左單旋,右單旋,左右雙旋,右左雙旋 一、AVL樹的概念 AVL樹得名于它的發明者G. M. Adelson-Velsky和E. M. Landis&…

電源系統的熱設計與熱管理--以反激式充電器為例

前言 反激電源常用于各種電子設備中,比如充電器、適配器等,它們通過變壓器進行能量轉換。高溫環境可能對電子元件造成影響,特別是像MOSFET、二極管、變壓器這樣的關鍵部件,導致效率變低,甚至可能導致功能失效。還有安…

linux課程學習二——緩存

一.文件io與標準io的一個區別 遇到死循環可以ctrl c結束進程 使用printf輸出,輸出沒有問題 用wirte輸出,參數1,可以理解為上面介紹的linux標準文件描述符的1(STDOUT)標準輸出,我們加上一個死循環while&…

Kafka中的消息如何分配給不同的消費者?

大家好,我是鋒哥。今天分享關于【Kafka中的消息如何分配給不同的消費者?】面試題。希望對大家有幫助; Kafka中的消息如何分配給不同的消費者? 在 Kafka 中,消息是通過 主題(Topic) 進行組織的&…

Android的安全問題 - 在 Android 源碼的 system/sepolicy 目錄中,區分 public、private 和 vendor的目的

參考:Google文檔 在 Android 8.0 及更高版本中自定義 SEPolicy 在 Android 源碼的 system/sepolicy 目錄中,區分 public、private 和 vendor 是為了模塊化 SELinux 策略,并明確不同部分的訪問權限和接口邊界。這種設計主要基于以下原因&…

Java NIO之FileChannel 詳解

關鍵點說明 文件打開選項: StandardOpenOption.CREATE - 文件不存在時創建 StandardOpenOption.READ/WRITE - 讀寫權限 StandardOpenOption.APPEND - 追加模式 StandardOpenOption.TRUNCATE_EXISTING - 清空已存在文件 緩沖區操作: ByteBuffer.wrap…

stock-pandas,一個易用的talib的替代開源庫。

原創內容第841篇,專注智能量化投資、個人成長與財富自由。 介紹一個ta-lib的平替——我們來實現一下,最高價突破布林帶上軌,和最低價突破布林帶下軌的可視化效果: cross_up_upper stock[high].copy()# cross_up_upper 最高價突破…