具有LCS方法的通用文本比較工具

常見的問題是檢測并顯示兩個文本(尤其是幾百行或幾千行)的差異。 使用純java.lang.String類方法可能是一種解決方案,但是對于此類操作最重要的問題是,“性能”將不能令人滿意。 我們需要一種有效的解決方案,其可能具有以下觀點:
文字差異工具示例

該問題包含兩個部分:

  • 檢測兩個文本的差異:為了檢測差異,在此解決方案中使用了一種有效的LCS(最長公共子序列)動態算法 。 該解決方案具有O(text1WordCount * text2WordCount)復雜度,并在下面被編碼為“ longestCommonSubsequence”方法。
  • 可視化差異:可視化使用基于HTML標記的方法,該方法將text2的新單詞標記為綠色,將text1的舊單詞標記為紅色。 該解決方案具有O(changedWordsCount *(text1WordCount + text2WordCount))復雜度,并在下面被編碼為“ markTextDifferences”方法。

注意1:為簡單起見,“ normalizeText”方法用于刪除\ n,\ t和多個空格字符。 注意2:此類創建為Vaadin組件。 但是,“ longestCommonSubsequence”是純通用的,“ markTextDifferences”方法是基于HTML的可視組件的通用,因此它們也可以用于不同的框架。

import java.util.ArrayList;
import com.vaadin.ui.CustomComponent;
import com.vaadin.ui.Label;
import com.vaadin.ui.Layout;
import com.vaadin.ui.VerticalLayout;/**
* Text comparison component which marks differences of two texts with colors.
* 
* @author cb
*/
public class TextCompareComponent extends CustomComponent {private Layout mainLayout = new VerticalLayout();private ArrayList<String> longestCommonSubsequenceList;private static final String INSERT_COLOR = "#99FFCC";private static final String DELETE_COLOR = "#CB6D6D";public TextCompareComponent(String text1, String text2) {text1 = normalizeText(text1);text2 = normalizeText(text2);this.longestCommonSubsequenceList = longestCommonSubsequence(text1, text2);String result = markTextDifferences(text1, text2, longestCommonSubsequenceList, INSERT_COLOR, DELETE_COLOR);Label label = new Label(result, Label.CONTENT_XHTML);mainLayout.addComponent(label);setCompositionRoot(mainLayout);}/*** Finds a list of longest common subsequences (lcs) of given two texts.* * @param text1* @param text2* @return - longest common subsequence list*/private ArrayList<String> longestCommonSubsequence(String text1,String text2){String[] text1Words = text1.split(" ");String[] text2Words = text2.split(" ");int text1WordCount = text1Words.length;int text2WordCount = text2Words.length;int[][] solutionMatrix = new int[text1WordCount + 1][text2WordCount + 1];for (int i = text1WordCount - 1; i >=0; i--) {for (int j = text2WordCount - 1; j >= 0; j--) {if (text1Words[i].equals(text2Words[j])){solutionMatrix[i][j] = solutionMatrix[i + 1][j + 1] + 1;}else {solutionMatrix[i][j] = Math.max(solutionMatrix[i + 1][j],solutionMatrix[i][j + 1]);}}}int i = 0, j = 0;ArrayList<String> lcsResultList =new ArrayList<String>();while (i < text1WordCount && j < text2WordCount) {if (text1Words[i].equals(text2Words[j])) {lcsResultList.add(text2Words[j]);i++;j++;} else if (solutionMatrix[i + 1][j] >= solutionMatrix[i][j + 1]) {i++;}else {j++;}}return lcsResultList;}/*** Normalizes given string by deleting \n, \t and extra spaces.* * @param text - initial string* @return - normalized string*/private String normalizeText(String text) {text = text.trim();text = text.replace("\n", " ");text = text.replace("\t", " ");while (text.contains("  ")) {text = text.replace("  ", " ");}return text;}/*** Returns colored inserted/deleted text representation of given two texts.* Uses longestCommonSubsequenceList to determine colored sections.** @param text1* @param text2* @param lcsList* @param insertColor* @param deleteColor* @return - colored result text*/private String markTextDifferences(String text1, String text2,ArrayList<String> lcsList, String insertColor, String deleteColor) {StringBuffer stringBuffer = new StringBuffer();if (text1 != null && lcsList != null) {String[] text1Words = text1.split(" ");String[] text2Words = text2.split(" ");int i = 0, j = 0, word1LastIndex = 0, word2LastIndex = 0;for (int k = 0; k < lcsList.size(); k++) {for (i = word1LastIndex, j = word2LastIndex;i < text1Words.length && j < text2Words.length;) {if (text1Words[i].equals(lcsList.get(k)) &&text2Words[j].equals(lcsList.get(k))) {stringBuffer.append("<SPAN>" + lcsList.get(k) + " </SPAN>");word1LastIndex = i + 1;word2LastIndex = j + 1;i = text1Words.length;j = text2Words.length;}else if (!text1Words[i].equals(lcsList.get(k))) {for (; i < text1Words.length &&!text1Words[i].equals(lcsList.get(k)); i++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +deleteColor + "'>" + text1Words[i] + " </SPAN>");}} else if (!text2Words[j].equals(lcsList.get(k))) {for (; j < text2Words.length &&!text2Words[j].equals(lcsList.get(k)), j++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +insertColor + "'>" + text2Words[j] + " </SPAN>");}}}}for (; word1LastIndex < text1Words.length; word1LastIndex++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +deleteColor + "'>" + text1Words[word1LastIndex] + " </SPAN>");}for (; word2LastIndex < text2Words.length; word2LastIndex++) {stringBuffer.append("<SPAN style='BACKGROUND-COLOR:" +insertColor + "'>" + text2Words[word2LastIndex] + " </SPAN>");}}return stringBuffer.toString();}
}

參考:我們的JCG合作伙伴 Cagdas Basaraner在CodeBuild博客上使用LCS方法實現了通用文本比較工具 。


翻譯自: https://www.javacodegeeks.com/2012/05/generic-text-comparison-tool-with-lcs.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/373085.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/373085.shtml
英文地址,請注明出處:http://en.pswp.cn/news/373085.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

eclipse 開發 scala

(環境&#xff1a;jdk1.7,scala插件scala-2.1.1.2-site.zip) 1:下載scala插件 http://download.scala-ide.org/sdk/helium/e38/scala211/stable/site2&#xff1a;解壓到本地將這兩個文件里的jar包全部復制到eclipse的安裝目錄對應的文件夾里三&#xff1a;重啟eclipse這時會提…

關于這個博客

博客主要打算寫關于游戲制作方面的內容&#xff0c;包括directx&#xff0c;實時圖形知識等等方面的內容&#xff0c;作為一個渣暫時都是一些簡單的東西&#xff0c;努力找工作中...... 開這個博客主要目的是為了對自己做的事有個記錄吧&#xff0c;并且關于directx方面的東西本…

Quartz Scheduler失火指令說明

有時&#xff0c;Quartz無法在您需要的時間運行您的工作。 這有三個原因&#xff1a; 所有工作線程都忙于運行其他作業&#xff08;可能具有更高的優先級&#xff09; 調度程序本身已關閉 該作業是在過去的開始時間安排的&#xff08;可能是編碼錯誤&#xff09; 您可以通過…

android 代碼獲取屏幕圖像,安卓獲取屏幕以及獲得像素點 ~ 大樹洞

由于一些不可告人的需求&#xff0c;所以開始尋找各種可以實現安卓實時獲得屏幕上某個像素點的功能首先&#xff0c;將需求進行拆解&#xff0c;分別為1、獲得屏幕2、獲得屏幕上一個像素點獲得屏幕獲得屏幕分為比較多種的方式&#xff0c;在以前大致分為adb screencap 獲取當前…

海量端口掃描工具masscan

海量端口掃描工具masscanmasscan號稱是互聯網上最快的端口掃描工具&#xff0c;可以6分鐘掃描整個互聯網&#xff0c;每秒可以發送一百萬個數據包。為了提高處理速度&#xff0c;masscan定制了TCP/IP棧&#xff0c;從而不影響本地其他TCP/IP的數據傳輸。masscan提供較為豐富的選…

改進租房練習

代碼基本沒有改動&#xff0c;函數有變化&#xff0c;老師只用了一個函數&#xff0c;自己做寫了4個function&#xff0c;減少了代碼量 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitio…

Google App Engine JAX-RS REST服務

在本文中&#xff0c;您將學習如何使用JAX-RS參考實現&#xff08;Jersey&#xff09;創建REST服務并將其部署在Google AppEngine上。 先決條件 對于本教程&#xff0c;您將需要&#xff1a; Google AppEngine帳戶 Eclipse Galileo&#xff08;3.5.x&#xff09; 適用于Java的…

libnids校驗和引起回放包不能正常捕捉

如題 取消校驗和校驗即可&#xff1a; struct nids_chksum_ctl temp;temp.netaddr 0;temp.mask 0;temp.action 1;nids_register_chksum_ctl(&temp,1); 在init之前。轉載于:https://www.cnblogs.com/yaoyuanfeixing/p/6308067.html

鴻蒙系統的全面開源,華為:打造全球的操作系統,鴻蒙今日全面開源!

原標題&#xff1a;華為&#xff1a;打造全球的操作系統&#xff0c;鴻蒙今日全面開源&#xff01;今日下午&#xff0c;2019華為全球開發者大會在華為松山湖基地正式開幕。華為正式對外推出了自研操作系統——鴻蒙系統(Harmony OS)。華為消費者業務CEO余承東指出&#xff0c;鴻…

android 獲取路徑目錄方法以及判斷目錄是否存在,創建目錄

Environment 常用方法&#xff1a; * 方法&#xff1a;getDataDirectory()解釋&#xff1a;返回 File &#xff0c;獲取 Android 數據目錄。* 方法&#xff1a;getDownloadCacheDirectory()解釋&#xff1a;返回 File &#xff0c;獲取 Android 下載/緩存內容目錄。* 方法&…

Maven不會吮吸。 。 。 但是Maven文件會

我不會參加整個Maven辯論&#xff0c;但是可以說我是所有最佳實踐的有力支持者&#xff0c;對我而言&#xff0c;Maven是最佳實踐的體現。 我的意思是說&#xff0c;Maven是圍繞特定的最佳實踐構建方法構建的。 注意&#xff0c;我說了一種特定的最佳實踐構建方法。 在現實世界…

html5 游戲制作教程,html5一步步實現超級瑪麗游戲制作(新手教程源碼)

【實例簡介】【實例截圖】【核心代碼】My first Gamebody {border:none 0px;margin:0px;padding:10px;font-size : 16px;background-color : #f3f3f3;}canvas {border : 1px solid blue;}// 頁面初始化函數function init(){//加載圖片,并存入全局變量 ImgCache,// 加載完成后,調…

同步與異步的概念

進程同步用來實現程序并發執行時候的可再現性。 一&#xff0e;進程同步及異步的概念 1&#xff0e;進程同步&#xff1a;就是在發出一個功能調用時&#xff0c;在沒有得到結果之前&#xff0c;該調用就不返回。也就是必須一件一件事做,等前一件做完了才能做下一件事.就像早上起…

編寫Play 2的模塊,第1部分:使工作正常

幾周前&#xff0c;我遷移了Play&#xff01; 框架 1.x版本的Deadbolt應用于Play 2平臺&#xff0c;并且對缺少有關創建模塊的信息感到驚訝。 Play 1.x文檔中詳細介紹了該主題&#xff0c;這使得創建模塊非常簡單。 顯然&#xff0c;需要做些事情-這是關于為Play 2創建模塊和插…

Dotnet Core

Global Exceptionhttp://www.talkingdotnet.com/global-exception-handling-in-aspnet-core-webapi/轉載于:https://www.cnblogs.com/zwheui/p/6339692.html

交友系統設計:哪種地理空間鄰近算法更快?

小熊學Java&#xff1a;https://javaxiaobear.cn 交友與婚戀是人們最基本的需求之一。隨著互聯網時代的不斷發展&#xff0c;移動社交軟件已經成為了人們生活中必不可少的一部分。然而&#xff0c;熟人社交并不能完全滿足年輕人的社交與情感需求&#xff0c;于是陌生人交友平臺…

linux ntp 'ntp_request.c'遠程拒絕服務漏洞,NTP 'ntp_request.c'遠程拒絕服務漏洞

NTP ntp_request.c遠程拒絕服務漏洞發布日期&#xff1a;2013-12-30更新日期&#xff1a;2014-01-09受影響系統&#xff1a;NTP NTP 描述&#xff1a;--------------------------------------------------------------------------------BUGTRAQ ID: 64692CVE(CAN) ID: CVE-20…

指針的內容 ; 指針的地址 指針所指向的內容 指針的類型 指針所指向的類型...

這幾個個東東很具有迷惑性。 int a10; //假設a的地址是 0x0000004C int *p; //假設p的地址是 0x0035FA94 p&a; 指針的內容&#xff1a;指針里面存放的是地址。 指針p里面存放的是a的地址(&a)。即指針p里面存放的內容是0x0000004C。 指針的地址&#xff…

Apache Camel教程– EIP,路由,組件,測試和其他概念的簡介

公司之間的數據交換增加了很多。 必須集成的應用程序數量也增加了。 這些接口使用不同的技術&#xff0c;協議和數據格式。 但是&#xff0c;這些應用程序的集成應以標準化的方式建模&#xff0c;有效實現并由自動測試支持。 企業集成模式&#xff08;EIP&#xff09;[1]中存在…

iOS開發UI篇—UITableview控件簡單介紹

一、基本介紹 在眾多移動應?用中,能看到各式各樣的表格數據 。 在iOS中,要實現表格數據展示,最常用的做法就是使用UITableView&#xff0c;UITableView繼承自UIScrollView,因此支持垂直滾動,?且性能極佳 。 UITableview有分組和不分組兩種樣式&#xff0c;可以在storyboard或…