利用余弦相似度在大量文章中找出抄襲的文章

? ? ? ? 我前面的2篇文章分別講了如果利用余弦相似度來判斷2篇文章的相似度,來確定文章是否存在抄襲,和余弦相似度的原理,即余弦相似度到底是怎么來判斷文章的相似性高低的等等。這一篇再說下,對于文章字數多和大量文章時,如果找到兩篇相似度高的文章。這里就需要考慮內存溢出的風險了。所以對第一篇的代碼進行了改造。在一定程度上降低了內存溢出的風險。

pom依賴

<dependency><groupId>org.apache.commons</groupId><artifactId>commons-math3</artifactId><version>3.6.1</version>
</dependency>

? ? ? ?這里和第一篇略有不同,即第一篇采用的hankcs包實現的余弦相似度算法。本篇文章時通過math3包實現的。但是原理相同。

代碼如下

package com.lsl.config;import org.apache.commons.math3.linear.ArrayRealVector;
import org.apache.commons.math3.linear.RealVector;import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.*;public class PlagiarismDetector {// 計算余弦相似度public static double cosineSimilarity(RealVector vectorA, RealVector vectorB) {double dotProduct = vectorA.dotProduct(vectorB);double normA = vectorA.getNorm();double normB = vectorB.getNorm();return dotProduct / (normA * normB);}// 將文本轉換為詞頻向量public static Map<String, Integer> textToWordFrequency(String text) {Map<String, Integer> wordFrequency = new HashMap<>();String[] words = text.split("\\s+");for (String word : words) {wordFrequency.put(word, wordFrequency.getOrDefault(word, 0) + 1);}return wordFrequency;}// 將詞頻映射轉換為向量public static RealVector wordFrequencyToVector(Map<String, Integer> wordFrequency, List<String> vocabulary) {double[] vector = new double[vocabulary.size()];for (int i = 0; i < vocabulary.size(); i++) {vector[i] = wordFrequency.getOrDefault(vocabulary.get(i), 0);}return new ArrayRealVector(vector);}// 讀取文件內容(流式讀取)public static String readFile(String filePath) throws IOException {StringBuilder content = new StringBuilder();try (BufferedReader br = new BufferedReader(new FileReader(filePath))) {String line;while ((line = br.readLine()) != null) {content.append(line).append("\n");}}return content.toString();}// 構建詞匯表(增量構建)public static List<String> buildVocabulary(Path papersDir) throws IOException {Set<String> vocabulary = new HashSet<>();Files.list(papersDir).forEach(path -> {try {String content = readFile(path.toString());String[] words = content.split("\\s+");vocabulary.addAll(Arrays.asList(words));} catch (IOException e) {e.printStackTrace();}});return new ArrayList<>(vocabulary);}// 主函數public static void main(String[] args) throws IOException {// 論文文件目錄Path papersDir = Paths.get("D:\\codeabc");// 構建詞匯表List<String> vocabulary = buildVocabulary(papersDir);// 存儲每篇論文的詞頻向量List<RealVector> vectors = new ArrayList<>();// 逐篇處理論文Files.list(papersDir).forEach(path -> {try {String content = readFile(path.toString());Map<String, Integer> wordFrequency = textToWordFrequency(content);RealVector vector = wordFrequencyToVector(wordFrequency, vocabulary);vectors.add(vector);} catch (IOException e) {e.printStackTrace();}});System.err.println("共有=" + vectors.size() + "文章");// 比較每對論文的相似度for (int i = 0; i < vectors.size(); i++) {for (int j = i + 1; j < vectors.size(); j++) {double similarity = cosineSimilarity(vectors.get(i), vectors.get(j));if (similarity > 0.9) { // 假設相似度大于0.9認為是抄襲System.out.printf("Paper %d and Paper %d are similar with cosine similarity: %.2f%n", i, j, similarity);}}}}
}

運行截圖如下:

改進點說明

  1. 流式讀取文件

    • 使用BufferedReader逐行讀取文件內容,避免一次性加載整個文件到內存中。

  2. 增量構建詞匯表

    • 使用Files.list逐篇讀取論文內容,逐步構建詞匯表,而不是一次性加載所有論文內容。

  3. 逐篇處理論文

    • 在構建詞頻向量時,逐篇處理論文,避免一次性加載所有論文的詞頻向量到內存中。

  4. 內存優化

    • 使用HashSet存儲詞匯表,避免重復詞匯占用額外內存。

    • 使用ArrayList存儲詞頻向量,確保內存使用可控

進一步優化建議

  1. 分布式計算

    • 如果數據量非常大(如100,000篇論文),可以考慮使用分布式計算框架(如Apache Spark)來并行處理數據。

  2. 外部存儲

    • 將詞匯表和詞頻向量存儲到磁盤(如數據庫或文件),避免內存不足。

  3. 分塊比較

    • 將論文分成多個塊,逐塊比較相似度,進一步減少內存占用。

  4. 剔除干擾詞匯

    • 比如代碼中對于一些import導入語句可以剔除

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/72650.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/72650.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/72650.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

設計模式-對象創建

對象創建 前言1. Factory Method1.1 模式介紹1.2 模式代碼1.2.1 問題代碼1.2.2 重構代碼 1.3 模式類圖1.4 要點總結 2. Abstract Factory2.1 模式介紹2.2 模式代碼2.2.1 問題代碼2.2.2 重構代碼 2.3 模式類圖2.4 要點總結 3. Prototype3.1 模式介紹3.2 模式代碼3.3 模式類圖3.4…

SQLAlchemy系列教程:批量插入數據

高效地批量插入數據對于應用程序的性能至關重要。SQLAlchemy為批處理操作提供了幾種機制&#xff0c;可以最大限度地減少開銷并加快數據庫事務時間。在本指南中&#xff0c;我們將探討如何使用SQLAlchemy執行批量插入&#xff0c;包括從基礎技術到高級技術。 搭建環境 在開始之…

V2X驗證

1. 標準和規范驗證 歐洲對 DSRC 和 V2X 系統有一系列的標準和規范,主要由 ETSI (European Telecommunications Standards Institute) 和 IEEE 等組織制定。驗證通常包括以下標準和規范: ETSI EN 302 571:這是DSRC在歐洲的主要標準,規定了DSRC系統的技術要求和操作條件。ET…

openEuler系統遷移 Docker 數據目錄到 /home,解決Docker 臨時文件占用大問題

根據錯誤信息 write /var/lib/docker/tmp/...: no space left on device&#xff0c;問題的根源是 根分區&#xff08;/&#xff09;的磁盤空間不足&#xff0c;而非 /home 分區的問題。以下是詳細解釋和解決方案&#xff1a; 問題原因分析 Docker 臨時文件占用根分區空間&…

Matlab 四分之一車輛被動懸架和模糊pid控制對比

1、內容簡介 Matlab 183-四分之一車輛被動懸架和模糊pid控制對比 可以交流、咨詢、答疑 2、內容說明 略 3.1 車輛多自由度模型建立 對于車輛動力學&#xff0c;一般都是研究其懸架系統&#xff0c;懸架系統由輪胎&#xff0c;輪胎空氣&#xff0c;彈簧&#xff0c;減震器和…

LabVIEW旋轉設備狀態在線監測系統

為了提高大型旋轉設備如電機和水泵的監控效率和故障診斷能力&#xff0c;用LabVIEW軟件開發了一套實時監測與故障診斷系統。該系統集成了趨勢分析、振動數據處理等多項功能&#xff0c;可實時分析電機電流、壓力、溫度及振動數據&#xff0c;以早期識別和預報故障。 ? 項目背…

微前端 無界wujie

開發環境配置: Node.js 版本 < 18.0.0 pnpm 腳手架示例模版基于 pnpm turborepo 管理項目 如果您的當前環境中需要切換 node.js 版本, 可以使用 nvm or fnm 進行安裝. 以下是通過 nvm 或者nvs 安裝 Node.js 16 LTS 版本 nvs安裝教程 https://blog.csdn.net/glorydx/artic…

跟網型逆變器小干擾穩定性分析與控制策略優化simulink仿真模型和代碼(包含完整仿真報告)

關注&#xff1a;“電擊小子程高興的MATLAB小屋”獲取巨額優惠 1.模型簡介 本仿真模型基于MATLAB/Simulink&#xff08;版本MATLAB 2016Rb&#xff09;軟件。建議采用matlab2016 Rb及以上版本打開。&#xff08;若需要其他版本可聯系代為轉換&#xff09; 近年來&#xff0c…

基于SpringBoot的“城市公交查詢系統”的設計與實現(源碼+數據庫+文檔+PPT)

基于SpringBoot的“城市公交查詢系統”的設計與實現&#xff08;源碼數據庫文檔PPT) 開發語言&#xff1a;Java 數據庫&#xff1a;MySQL 技術&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系統展示 系統總體結構圖 系統首頁界面 用戶登錄界面 公…

框架源碼私享筆記(02)Mybatis核心框架原理 | 一條SQL透析核心組件功能特性

最近在思考一個問題&#xff1a;如何能夠更好的分享主流框架源碼學習筆記&#xff08;主要是源碼部分&#xff09;?讓有緣刷到的同學既可以有所收獲&#xff0c;還能保持對相關技術架構探討學習熱情和興趣。以及自己也保持較高的分享熱情和動力。 今天嘗試用一個SQL查詢作為引…

UNI-APP uts插件 支持ANDROID 監聽手機狀態

插件地址 https://ext.dcloud.net.cn/plugin?id22646 模塊 import {startPhoneListener,stopPhoneListener,checkIsAutoRecord,toCallAutoRecorderPage,navigateToCallRecordingSettings,jumpToPermissionPage,makePhoneCall,allRecorderFilesAction,registerSmsReceiver,} f…

windows協議不再續簽,華為再無windows可用,將于四月發布鴻蒙PC

大家好&#xff0c;我是國貨系創始人張云澤&#xff0c;最近不少小伙伴在后臺問&#xff1a;“聽說Windows協議要到期了&#xff1f;我的電腦會不會變磚&#xff1f;”還有人說&#xff1a;“華為筆記本以后用不了Windows了&#xff1f;鴻蒙系統能用嗎&#xff1f;”今天咱們就…

Stable Diffusion API /sdapi/v1/txt2img的完整參數列表及其說明

基本參數 {"prompt": "高質量&#xff0c;精細的恐龍", // 主提示詞"negative_prompt": "模糊&#xff0c;低質量", // 負面提示詞"styles": ["photorealistic", "detailed"], // 應用的風格預設&q…

TK矩陣:提高多賬號管理效率的利器

隨著TikTok的火爆&#xff0c;越來越多的人開始利用這個平臺進行內容創作和社交互動。無論是個人創作者、品牌方&#xff0c;還是營銷公司&#xff0c;TikTok都提供了巨大的機會&#xff0c;但同時也帶來了運營上的挑戰&#xff0c;尤其是在管理多個賬戶時。每個賬號的維護、內…

關于Redis的集群(上)

目錄 基本概念 數據分片算法 哈希求余 ?編輯一致性哈希算法 哈希槽分區算法 搭建集群環境 創建目錄和配置 編寫 docker-compose.yml 啟動容器 構建集群 基本概念 廣義的集群&#xff0c;只要是多個機器構成了分布式系統&#xff0c;都可以成為是一個“集群”。 但…

【CSS3】化神篇

目錄 平面轉換平移旋轉改變旋轉原點多重轉換縮放傾斜 漸變線性漸變徑向漸變 空間轉換平移視距旋轉立體呈現縮放 動畫使現步驟animation 復合屬性animation 屬性拆分逐幀動畫多組動畫 平面轉換 作用&#xff1a;為元素添加動態效果&#xff0c;一般與過渡配合使用 概念&#x…

Java 線程創建全解析:五種方式詳細對比與實戰示例

目錄 Java 線程創建全解析&#xff1a;五種方式詳細對比與實戰示例一、引言二、創建線程的五種方式1. 繼承 Thread 類2. 實現 Runnable 接口3. 匿名內部類實現 Thread4. 匿名內部類實現 Runnable5. 使用 Lambda 表達式&#xff08;Java 8及以上&#xff09; 三、線程創建方式對…

Dify平臺離線鏡像部署

Dify 是一款開源的大語言模型(LLM) 應用開發平臺。它融合了后端即服務&#xff08;Backend as Service&#xff09;和 LLMOps 的理念&#xff0c;使開發者可以快速搭建生產級的生成式 AI 應用。即使你是非技術人員&#xff0c;也能參與到 AI 應用的定義和數據運營過程中。 前提…

Unitest和pytest區別

1?? 設計理念 ?? unittest &#xff1a; 是 Python 標準庫的一部分&#xff0c;設計靈感來自 Java 的 JUnit&#xff0c;強調面向對象的測試模式。 測試用例需要繼承 unittest.TestCase 類&#xff0c;測試方法以 test_ 開頭。 更適合傳統、結構化的測試開發方式。 ? pyte…

GIT標簽(Tag)操作

在Git中&#xff0c;標簽&#xff08;Tag&#xff09;用于標記特定的提交點&#xff0c;通常用于發布版本。 切換到需要打標簽的分支&#xff1a; git checkout <branch-name>創建標簽 git tag v1.0.0 git tag -a v1.0.0 -m "Release version 1.0.0"查看所…