【更新完畢】2025泰迪杯數據挖掘競賽A題數學建模思路代碼文章教學:競賽論文初步篩選系統

完整內容請看文末最后的推廣群
在這里插入圖片描述

基于自然語言處理的競賽論文初步篩選系統
基于多模態分析的競賽論文自動篩選與重復檢測模型
摘要
隨著大學生競賽規模的不斷擴大,參賽論文的數量激增,傳統的人工篩選方法面臨著工作量大、效率低且容易出錯的問題。因此,利用計算機和人工智能技術對競賽論文進行自動篩選成為一種有效的解決方案。該賽題的目標是通過設計數學模型和算法,實現競賽論文的自動篩選,計算論文的重復率,檢測文本、圖片和公式的相似性,從而提高篩選效率、減少人工誤差,并降低人工成本。
問題一主要關注從競賽論文中提取基本信息(如標題、摘要、關鍵詞等),以便為后續的篩選和評審提供基礎數據。通過PDF提取工具( pdfplumber),自動化提取論文中的文本內容,并通過論文結構和正則化表達進行信息提取,如標題通常位于論文前幾頁,摘要、關鍵詞等信息緊隨其后, 并設計了針對圖片、公式和代碼的識別函數。該模型能夠快速處理大量競賽論文,自動提取關鍵信息。
問題二旨在根據論文的內容和格式進行篩選,檢查是否包含有效的參賽隊信息,判斷論文是否與賽題相關,且是否具有實質性內容。通過文件名映射提取參賽隊號,通過關鍵詞匹配判斷論文是否與賽題相關,并識別無實質內容的論文。
問題三的目標是檢測論文之間的重復內容,包括文本的重復率、雷同圖片和雷同公式。通過提取文本內容,使用TF-IDF和余弦相似度計算論文之間的文本相似度;對于圖片和公式,使用感知哈希和哈希值比較的方法來判斷圖片和公式是否雷同。該模型通過結合文本、圖片和公式的相似度,能夠全面檢測論文中的重復內容。在文本檢測方面,余弦相似度和TF-IDF方法能夠有效衡量文本的相似性。圖片和公式的檢測通過感知哈希和哈希值比較,表現良好。
問題四的目的是檢測高圖片占比的PDF文件,并分析其與其他文檔的重復情況。通過計算圖片在頁面中的占比來判斷是否為高圖片占比的論文,并結合OCR技術提取圖片中的文字內容來提高圖文結合的相似度計算。該模型能夠有效識別高圖片占比的PDF,并對其進行重復率分析。通過計算每一頁的圖片占比并進行平均,可以準確識別圖片占比較高的文檔。使用OCR技術提取圖片中的文字,有助于提高圖文結合相似度的計算精度。
模型有效地實現了自動化的競賽論文篩選與分析,極大地提升了論文評審的效率。未來可以考慮通過進一步優化算法、增強模型的魯棒性,來解決這些問題。此外,模型的計算消耗較大,尤其是在處理大規模數據時,需要高效的計算資源和優化策略。

關鍵詞:余弦相似度; 感知哈希; OCR技術; 多模態分析; 競賽評審; pdfplumber; 正則化表達

目錄
摘要 1
一、 問題重述 4
1.1 問題背景 4
1.2 要解決的問題 4
二、 問題分析 6
2.1 任務一的分析 6
2.2 任務二的分析 6
2.3 任務三的分析 7
2.4 任務四的分析 7
三、 問題假設 9
四、 模型原理 10
4.1 關鍵詞識別 10
4.2 中文文本分析 11
4.3 相關性分析 11
五、 模型建立與求解 13
5.1 問題一建模與求解 13
5.2問題二建模與求解 18
5.3問題三建模與求解 21
5.4問題四建模與求解 25
六、 模型評價與推廣 29
6.1模型的評價 29
6.1.1模型缺點 29
6.1.2模型缺點 29
6.2 模型推廣 30
七、 參考文獻 31
附錄【自行黏貼】 32

二、 問題分析
2.1任務一的分析
針對問題一,論文的初步篩選與評審工作通常需要涉及對論文的基本信息進行提取和統計,包括論文的標題、作者、摘要、關鍵詞等內容。對于大量的競賽論文而言,手動提取這些信息顯然是不切實際的,因此需要自動化的手段來完成這些任務。問題一的核心目標是設計一個自動化的系統,通過程序從PDF格式的論文中提取相關信息,為后續的篩選和評審提供基礎數據。
具體來說,論文的標題和摘要通常位于論文的前幾頁,是論文的關鍵部分。作者和關鍵詞可能出現在標題之后或其他部分。為了準確提取這些內容,需要假設每篇論文都有類似的結構,并且可以通過正則表達式或關鍵詞匹配來識別這些部分。文本的提取也依賴于PDF的結構,如果文件的排版或內容較復雜,提取的準確性可能受到影響。
此外,提取公式和圖片的工作同樣需要自動化完成。公式通常以數學符號和特定的格式(如 . . . ... ... 或 […])出現,圖片則嵌入在文本中。需要對每一頁進行遍歷和分析,提取有效的公式和圖片內容。

2.2任務二的分析
問題二的目的是對論文進行篩選,確保論文與賽題相關并且具有實質內容。具體任務包括三個方面:首先,需要確認論文是否包含有效的參賽隊信息;其次,需要判斷論文內容是否與賽題相關;最后,評估論文是否具有實質性內容,避免出現大量無意義的內容,如致謝、附錄和參考文獻等。
第一步是檢查參賽隊信息,這一任務通過查看文件名中的加密號并將其與參賽隊號映射表進行匹配來完成。若匹配成功,則認為該論文包含有效的參賽隊信息。
第二步是判斷論文內容與賽題的相關性。為此,需要提取論文正文部分并通過關鍵詞匹配方法來判斷論文是否與賽題相關。賽題的相關關鍵詞已給出,因此可以通過在文本中查找這些關鍵詞來識別與賽題相關或無關的論文。
最后,第三步是檢查論文的實質性內容。很多論文可能在正文中包含大量無實際內容的段落,例如致謝、附錄、代碼實現等部分。通過檢測正文內容的有效性以及是否含有這些無關段落,能夠篩選出不符合要求的論文。

2.3任務三的分析
問題三的核心目標是通過自動化手段檢測競賽論文中的重復內容,具體包括計算文本的重復率、檢測雷同的圖片以及雷同的公式。隨著論文數量的增多,檢測論文中是否存在抄襲或雷同內容變得尤為重要。
首先,文本重復率的計算基于文本相似度的分析。通過提取每篇論文的正文文本,并將其轉化為TF-IDF向量,利用余弦相似度來衡量不同論文之間的文本相似度。通過計算每篇論文與其他論文的相似度,可以得出每篇論文的重復率。
其次,雷同圖片的檢測依賴于圖片的感知哈希技術。通過提取論文中的圖片并計算其哈希值,利用哈希值之間的差異來判斷圖片是否雷同。感知哈希是一種能夠有效識別圖片相似度的方法,尤其是在圖片做了細微修改時,依然能夠識別出相似內容。
最后,雷同公式的檢測同樣使用哈希技術。通過提取公式并計算其哈希值,比較不同論文中的公式,判斷是否存在雷同公式。公式的格式一般具有較強的規律性,因此通過哈希值可以準確地檢測出相似或相同的公式。

2.4任務四的分析
問題四的目標是通過分析PDF文件中的圖片占比來識別是否為高圖片占比的文檔,并進一步分析其與其他文檔的重復情況。高圖片占比PDF常常包含大量無關或無實際內容的圖片,這些圖片可能是裝飾性的或者與論文主題無關。因此,識別這種類型的PDF文件對于競賽論文的篩選具有重要意義。
首先,圖片占比的計算基于頁面的總面積和圖片的面積,通過計算圖片在頁面中所占的比例來判斷是否為高圖片占比PDF。若該比例超過設定的閾值(如30%),則該PDF被認為是高圖片占比。
接下來,使用OCR技術提取圖片中的文字內容。OCR(光學字符識別)可以從圖片中提取出有用的文字信息,幫助進一步分析圖片的內容。對于有文字內容的圖片,OCR可以提升其在相似度計算中的作用。
最后,進行多模態相似度分析,即結合文本和圖片的相似度來評估論文之間的相似度。通過對論文的文本部分和圖片部分分別計算相似度,并結合兩者的信息來綜合評定論文的重復率。綜合相似度將文本和圖片的相似度進行加權合并,得到更為準確的重復率結果。

問題一結果
在這里插入圖片描述

在這里插入圖片描述

問題二結果

在這里插入圖片描述

問題三結果

我們首先需要計算競賽論文之間的文本相似度,衡量文本的重復率。該過程使用 余弦相似度 方法,計算每篇論文與其他論文的相似度,并得到最大相似度作為論文的重復率。基于pdfminer函數從PDF文件中提取出每篇論文的正文內容,排除參考文獻、附錄等部分。使用 TF-IDF(詞頻-逆文檔頻率)對每篇論文的文本進行向量化,將每篇論文表示為一個向量。TF-IDF 是衡量單詞在文本中的重要性的常用方法。使用 余弦相似度(Cosine Similarity) 計算兩篇文本的相似度,公式如下:

其中,( A ) 和 ( B ) 是文本的TF-IDF向量,( A \cdot B ) 是向量的內積,( |A| ) 和 ( |B| ) 是向量的模。

對于每篇論文 ( i ),計算它與其他論文的最大相似度,作為該論文的重復率。若論文 ( i ) 與論文 ( j ) 的相似度最大,則該論文的重復率 ( R_i ) 可以表示為:

對于每篇論文 ( i ),其重復率 ( R_i ) 計算公式為:

其中 ( A_i ) 和 ( A_j ) 是第 ( i ) 和第 ( j ) 篇論文的 TF-IDF 向量。

接著我們需要檢測論文中的雷同圖片,檢查不同的論文是否使用了相同或相似的圖片。為此,我們使用 感知哈希算法 來計算圖片的哈希值,并比較圖片之間的相似度。

在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

問題四結果
同時通過 pytesseract OCR技術提取圖片中的文字信息。對于每張圖片,計算其特征向量,使用 標準化處理(將圖片轉換為灰度圖像并調整大小)來提取圖片的特征向量,用于后續的圖片相似度分析。
對于每一張圖片,使用 感知哈希(Perceptual Hash) 來提取其特征向量。感知哈希的計算公式為:

其中 h§ 是圖片 p 的感知哈希值,表示圖片的特征。
我們需要綜合文本和圖片信息,計算每篇論文的相似度。為此,我們首先計算文本之間的余弦相似度,然后計算圖片之間的相似度,最后將兩者的相似度結合得到綜合相似度。
對每篇論文的正文內容進行 TF-IDF 向量化,并計算余弦相似度。余弦相似度公式如下:

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/77753.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/77753.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/77753.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機視覺與深度學習 | RNN原理,公式,代碼,應用

RNN(循環神經網絡)詳解 一、原理 RNN(Recurrent Neural Network)是一種處理序列數據的神經網絡,其核心思想是通過循環連接(隱藏狀態)捕捉序列中的時序信息。每個時間步的隱藏狀態 ( h_t ) 不僅依賴當前輸入 ( x_t ),還依賴前一時間步的隱藏狀態 ( h_{t-1} ),從而實現…

AI速讀:解鎖LLM下Game Agent的奇妙世界

在 AI 浪潮中,大語言模型(LLMs)正重塑游戲智能體格局。想知道基于 LLMs 的游戲智能體如何運作,在各類游戲中有何驚艷表現,未來又將走向何方? 大型語言模型(LLMs)的興起為游戲智能體的…

【每日八股】復習計算機網絡 Day3:TCP 協議的其他相關問題

文章目錄 昨日內容復習TCP 的四次揮手?TCP 為什么要四次揮手?在客戶端處于 FIN_WAIT_2 狀態時,如果此時收到了亂序的來自服務端的 FIN 報文,客戶端會如何處理?何時進入 TIME_WAIT 狀態?TCP 四次揮手丟了怎么…

學習筆記十五——rust柯里化,看不懂 `fn add(x) -> impl Fn(y)` 的同學點進來!

🧠 Rust 柯里化從零講透:看不懂 fn add(x) -> impl Fn(y) 的同學點進來! 🍔 一、什么是柯里化?先用一個超好懂的生活比喻 假設你在點一個漢堡: 你說:我要點一個雞腿漢堡! 店員…

深入理解 TCP 協議 | 流量、擁塞及錯誤控制機制

注:本文為 “TCP 協議” 相關文章合輯。 原文為繁體,注意術語描述差異。 作者在不同的文章中互相引用其不同文章,一并匯總于此。 略作重排,如有內容異常,請看原文。 TCP 三向交握 (Three-way Handshake) 2016-12-21 …

PCL庫編譯指南

PCL(Point Cloud Library)的編譯過程會根據不同操作系統有所差異。以下是詳細的編譯步驟: Linux/Ubuntu系統編譯 1. 安裝依賴項 bash sudo apt-get update sudo apt-get install git build-essential linux-libc-dev sudo apt-get install cmake cmake-gui sud…

【Linux】條件變量、基于阻塞隊列的生產者消費者模型

📚 博主的專欄 🐧 Linux | 🖥? C | 📊 數據結構 | 💡C 算法 | 🌐 C 語言 進程是資源分配的基本單位,線程是調度的基本單位,線程是在進程內部運行的(是進程內部…

32-工藝品商城小程序

技術: 基于 B/S 架構 SpringBootMySQLvueelementuiuniapp 環境: Idea mysql maven jdk1.8 node 可修改為其他類型商城 用戶端功能 1.系統首頁展示輪播圖及工藝品列表 2.分類模塊:展示產品的分類類型 3.購物車:進行商品多選結算 或者批量管理操作 4.…

SLAM | 激光SLAM中的退化問題

在激光SLAM中,判斷退化環境的核心是通過數學建模分析環境特征對位姿估計的約束能力。除了LOAM中提出的退化因子D外,還存在多種基于表達式和閾值設定的方法。以下是幾種典型方法及其實現原理: 1. 協方差矩陣特征值分析 原理:通過分析點云協方差矩陣的特征值分布,判斷環境中…

【2025最新版】火鳥門戶v8.5系統源碼+PC、H5、小程序 +數據化大屏插件

一.介紹 火鳥地方門戶系統V8.5源碼 系統包含4端: PCH5小程序APP 二.搭建環境 系統環境:CentOS、 運行環境:寶塔 Linux 網站環境:Nginx 1.2.22 MySQL 5.6 PHP-7.4 常見插件:fileinfo ; redis 三.測…

PHP騰訊云人臉核身獲取NONCE ticket

參考騰訊云官方文檔: 人臉核身 獲取 NONCE ticket_騰訊云 前提條件,已經成功獲取了access token。 獲取參考文檔: PHP騰訊云人臉核身獲取Access Token-CSDN博客 public function getTxFaceNonceTicket($uid) {$access_token file_get_c…

多人3D游戲完整實現方案

以下是一份完整的代碼實現方案,涵蓋架構設計、核心模塊實現和部署流程。我們以 多人3D游戲 為例,結合之前討論的Nano服務端框架和Unity客戶端: 技術棧 模塊技術選型服務端Golang + Nano框架 + MongoDB客戶端Unity 2022 + C# + Mirror Networking通信協議Protobuf + WebSock…

【Linux我做主】GDB調試工具完全指南

Linux下GDB調試工具完全指南:25個核心命令詳解與實戰示例 github地址 有夢想的電信狗 前言 GDB(GNU Debugger)是Linux開發中不可或缺的調試工具,尤其在定位代碼邏輯錯誤和內存問題時表現卓越。本文基于實際開發經驗&#xff0…

QT中柵格模式探索

1、Qt中選擇了柵格模式,如下圖所示: 2、在進行整個大的UI界面布局時,需了解每個控件所需要選擇的屬性sizePolicy。 sizePolicy包含如下幾種選擇: 3、舉個例子:此時整個UI界面,我采用了柵格模式&#xf…

【計算機網絡】3數據鏈路層①

這篇筆記專門講數據鏈路層的功能。 2.功能 數據鏈路層的主要任務是讓幀在一段鏈路上或一個網絡中傳輸。 2.1.封裝成幀(組幀) 解決的問題:①幀定界②幀同步③透明傳輸 實現組幀的方法通常有以下種。 2.1.1.字符計數法 原理:在每個幀開頭,用一個定長計數字段來記錄該…

[區塊鏈lab2] 構建具備加密功能的Web服務端

實驗目標: 掌握區塊鏈中密碼技術的工作原理。在基于Flask框架的服務端中實現哈希算法的加密功能。 實驗內容: 構建Flash Web服務器,實現哈希算法、非對稱加密算法的加密功能。 實驗步驟: 哈希算法的應用:創建hash…

藍橋杯之前綴和

一維前綴 解題思路 看到“區間之和”問題,直接想到“前綴和” 前綴和的核心公式: sum[i]sum[i?1]a[i] 利用前綴和求區間和 [l,r] 的公式: 區間和sum[r]?sum[l?1] 解題步驟模板 輸入數組: 讀取數組長度 n 和查詢次數 m。 讀…

【學習筆記】計算機網絡(八)—— 音頻/視頻服務

第8章 互聯網上的音頻/視頻服務 文章目錄 第8章 互聯網上的音頻/視頻服務8.1概述8.2 流式存儲音頻/視頻8.2.1 具有元文件的萬維網服務器8.2.2 媒體服務器8.2.3 實時流式協議 RTSP 8.3 交互式音頻/視頻8.3.1 IP 電話概述8.3.2 IP電話所需要的幾種應用協議8.3.3 實時運輸協議 RTP…

【WRF運行】解決metgrid生成文件太大無內存!

目錄 方法:改變工作目錄運行 metgrid.exe參考由于我的運行內存過小,當研究區較大時,metgrid生成文件內存太大,導致每次運行都報錯,此時可更改工作目錄(空余文件夾)以運行 metgrid.exe(并非必須在wrf安裝目錄下運行!!!)。 metgrid.exe 本身不支持直接通過參數或 nam…

基于 Django 進行 Python 開發

基于 Django 進行 Python 開發涉及多個方面的知識點,以下為你詳細介紹: 1. Django 基礎 項目與應用創建 借助django-admin startproject project_name來創建新的 Django 項目。利用python manage.py startapp app_name創建新的應用。項目結構 理解項目各文件和目錄的作用,像…