對比倆個字符串的相似度

package com.opslab.util.algorithmImpl;

import com.opslab.util.CharsetUtil;
import com.opslab.util.SysUtil;

import java.io.ByteArrayInputStream;
import java.io.InputStream;
import java.io.UnsupportedEncodingException;

/**
* 對比倆個字符串的相似度
*/
public class StringImpl {
//第一種實現方式
private static String longestCommonSubstring(String strA, String strB) {
char[] chars_strA = strA.toCharArray();
char[] chars_strB = strB.toCharArray();
int m = chars_strA.length;
int n = chars_strB.length;
int[][] matrix = new int[m + 1][n + 1];
for (int i = 1; i <= m; i++) {
for (int j = 1; j <= n; j++) {
if (chars_strA[i - 1] == chars_strB[j - 1])
matrix[i][j] = matrix[i - 1][j - 1] + 1;
else
matrix[i][j] = Math.max(matrix[i][j - 1], matrix[i - 1][j]);
}
}
char[] result = new char[matrix[m][n]];
int currentIndex = result.length - 1;
while (matrix[m][n] != 0) {
if (matrix[n] == matrix[n - 1])
n--;
else if (matrix[m][n] == matrix[m - 1][n])
m--;
else {
result[currentIndex] = chars_strA[m - 1];
currentIndex--;
n--;
m--;
}
}
return new String(result);
}

private static boolean charReg(char charValue) {
return (charValue >= 0x4E00 && charValue <= 0X9FA5) || (charValue >= 'a' && charValue <= 'z') || (charValue >= 'A' && charValue <= 'Z') || (charValue >= '0' && charValue <= '9');
}

private static String removeSign(String str) {
StringBuffer sb = new StringBuffer();
for (char item : str.toCharArray()){
if (charReg(item)) {
sb.append(item);
}
}
return sb.toString();
}

/**
* 快速比較倆個字符串的相似度
*
* @param strA 較長的字符串
* @param strB 較短的字符串
* @return 倆個字符串的相似度
* <p>summary</p>:較長的字符串放到前面有助于提交效率
*/
public static double SimilarDegree(String strA, String strB) {
String newStrA = removeSign(strA);
String newStrB = removeSign(strB);
int temp = Math.max(newStrA.length(), newStrB.length());
int temp2 = longestCommonSubstring(newStrA, newStrB).length();
return temp2 * 1.0 / temp;
}

//第二種實現方式
private static int compare(String str, String target) {
int d[][]; // 矩陣
int n = str.length();
int m = target.length();
int i; // 遍歷str的
int j; // 遍歷target的
char ch1; // str的
char ch2; // target的
int temp; // 記錄相同字符,在某個矩陣位置值的增量,不是0就是1
if (n == 0) {
return m;
}
if (m == 0) {
return n;
}
d = new int[n + 1][m + 1];
for (i = 0; i <= n; i++) { // 初始化第一列
d[i][0] = i;
}

for (j = 0; j <= m; j++) { // 初始化第一行
d[0][j] = j;
}

for (i = 1; i <= n; i++) { // 遍歷str
ch1 = str.charAt(i - 1);
// 去匹配target
for (j = 1; j <= m; j++) {
ch2 = target.charAt(j - 1);
if (ch1 == ch2) {
temp = 0;
} else {
temp = 1;
}

// 左邊+1,上邊+1, 左上角+temp取最小
d[i][j] = min(d[i - 1][j] + 1, d[i][j - 1] + 1, d[i - 1][j - 1] + temp);
}
}
return d[n][m];
}

private static int min(int one, int two, int three) {
return (one = one < two ? one : two) < three ? one : three;
}

/**
* 獲取字符串的相似度
*
* @param str
* @param target
* @return
*/
public static double SimilarityRatio(String str, String target) {
return 1 - (double) compare(str, target) / Math.max(str.length(), target.length());
}

?


/**
* 獲取字符串編碼
*
* @param str 需要處理的字符串
*/
public static String simpleEncoding(String str) {
try{
byte[] bs = str.getBytes(SysUtil.JVM_ENCODING);
if(str.equals(new String(bs,CharsetUtil.UTF_8))){
return CharsetUtil.UTF_8;
}
if(str.equals(new String(bs,CharsetUtil.GBK))){
return CharsetUtil.GBK;
}
if(str.equals(new String(bs,"ISO-8859-1"))){
return "ISO-8859-1";
}
}catch(UnsupportedEncodingException e) {
System.out.println("111111111");
e.printStackTrace();
}
String encode = "GB2312";

try {
if (str.equals(new String(str.getBytes(encode), encode))) {
return encode;
}
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}

encode = "ISO-8859-1";
try {
if (str.equals(new String(str.getBytes(encode), encode))) {
return encode;
}
} catch (UnsupportedEncodingException exception1) {
exception1.printStackTrace();
}
encode = "UTF-8";
try {
if (str.equals(new String(str.getBytes(encode), encode))) {
return encode;
}
} catch (UnsupportedEncodingException exception1) {
exception1.printStackTrace();
}
encode = "GBK";
try {
if (str.equals(new String(str.getBytes(encode), encode))) {
return encode;

}
} catch (UnsupportedEncodingException exception1) {
exception1.printStackTrace();
}
return "";
}


}

轉載于:https://www.cnblogs.com/chinaifae/p/10254654.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/276212.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/276212.shtml
英文地址,請注明出處:http://en.pswp.cn/news/276212.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何下載python2.7.16_CENTOS6.5 安裝PYTHON2.7.16

前言Centos6.5默認自帶python2.6.6&#xff0c;很多模塊無法使用&#xff0c;建議安裝2.7以后版本較為穩定&#xff0c;需要升級到2.7。一、安裝過程1. 先安裝相應的依賴yum -y install gcc openssl-devel bzip2-devel2. 下載軟件包cd /optwget https://www.python.org/ftp/pyt…

2021年的今天,如何成為一名專業的前端工程師?

大家好&#xff0c;我是若川。今天給分享一篇來自阿里克軍大佬的好文。以下是正文~如果你想成為一名專業的前端工程師&#xff0c;那么你需要了解要學什么&#xff0c;學到什么程度&#xff0c;以及如何有效地學習。大學里沒有正規的前端技術課程&#xff0c;普遍缺少比較權威的…

“劣質”的PHP代碼簡化

下面這一小段“劣質”的PHP代碼是一道簡化了的測試題。這種問題就像在問&#xff1a;你該怎樣優化這段代碼&#xff1f;<?echo("<p>search results for query:").$_GET[query].".</p>";?>這段代碼的主要問題在于它把用戶提交的數據直接…

nc65右鍵生成菜單_DbSchema生成表單和報表,原來如此簡單

DbSchema 8 for Mac是mac上一款非常實用的商業數據庫ER圖繪制軟件&#xff0c;可以輕松的對文檔進行注釋或標注&#xff0c;而且Dbschema集成了SQL和數據工具&#xff0c;能生成直觀的圖表、PDF文件或HTML 5文檔等&#xff0c;非常的實用。現在就來給大家分享DbSchema如何生成表…

Java行為參數化(一)

一.什么是行為參數化呢 說白了就是將一段行為當作參數傳入一個方法中唄&#xff0c;那么這段行為是什么呢&#xff1f; 答&#xff1a;那也是一個方法咯。 Java在1.8版本引入了行為參數化的概念&#xff0c;首先&#xff0c;我們先看一小段代碼 public class test { public sta…

猴子排圈求最后編號問題

轉載鏈接&#xff1a;http://www.cnblogs.com/mztest/archive/2013/01/30/2882829.html 一群猴子排成一圈&#xff0c;按1&#xff0c;2&#xff0c;...&#xff0c;n依次編號。然后從第1只開始數&#xff0c;數到第m只,把它踢出圈&#xff0c;從它后面再開始數&#xff0c;再…

若川的2020年度總結,水波不興

前言從2014年開始&#xff0c;每一年都會寫年度總結&#xff0c;堅持了6個年頭。回顧2014&#xff0c;約定2015&#xff08;QQ空間日志&#xff09;2015年總結&#xff0c;淡化舊標簽&#xff0c;無懼未來&#xff08;QQ空間日志&#xff09;2016年度總結&#xff0c;畢業工作2…

sql修改表字段數據類型

--加 ALTER TABLE table2 ADD row_id bigint --刪 ALTER TABLE table2 DROP COLUMN row_id --改 ALTER TABLE 你的表 ALTER COLUMN 列名 你的類型 null declare a varchar(200) select ac.name fr…

關于敏捷開發方法(Agile Software Development)的閱讀筆記

對“敏捷開發”&#xff08;Agile Software Development&#xff09;這個詞&#xff0c;我是在這學期鄒欣老師《現代程序設計》課上第一次聽到的&#xff0c;剛聽到時并不知道其具體指什么&#xff0c;只是從字面上直覺其意思應該是快速開發之類的。這次從 Agile Guide 、 The …

phpbreak跳出幾層循環_PHP跳出循環之“break”

前面給大家講解了PHP控制循環語句&#xff0c;知道了&#xff0c;當我們的程序塊滿足一定的條件后才會跳出循環&#xff0c;而跳出循環則是使用我們的break或者continue關鍵字。本章&#xff0c;將會先給大家講解“break”跳出循環。在前面的講解PHP循環控制語句“while”循環的…

Vuex 4.0 正式發布!新年,官方生態齊聚一堂。

Vuex 4 官方版本正式發布。Vuex 4 的重點是兼容性。Vuex 4 支持 Vue 3&#xff0c;但是仍然提供了與 Vuex 3 完全相同的 API&#xff0c;因此用戶可以在 Vue 3 中直接復用他們現有的 Vuex 代碼。下文會把破壞性的改動列出來&#xff0c;請注意查看。在源碼的 example 文件夾[1]…

原生js實現給指定元素的后面追加內容

參考鏈接&#xff1a;http://www.jb51.net/article/35412.htm 原生js實現給指定元素的后面追加內容 var header1 document.getElementById("header"); var p document.createElement("p"); // 創建一個元素節點 insertAfter(p,header1); // 因為js沒有…

文檔中根元素后面的標記格式必須正確。

文檔中根元素后面的標記格式必須正確。 php或其它語言動態輸出的xml&#xff0c;最開始<標記 前面有空格&#xff0c;最后面>標記 后面有 空格 導致xml解析出錯 解決辦法: var data:String evt.target.data;//兼容FireFox, php輸出的xml data data.substr(data…

lstm數學推導_如何在訓練LSTM的同時訓練詞向量?

你本來也不用自己手動進行詞向量更新啊&#xff0c;你搞這么一出最后收斂到0那不是必然的么&#xff1f; 霍華德 老師的答案已經給你推導出來了。實際上你問的這個問題很簡單——只要把Embedding層本身也當成模型參數的一部分就可以了&#xff0c;一開始不使用外部詞向量&#…

Javascript在頁面加載時的執行順序(轉載)

原文&#xff1a;http://dancewithnet.com/2007/03/22/order-of-execution-of-javascript-on-web/ 一、在HTML中嵌入Javasript的方法 直接在Javascript代碼放在標記對<script>和</script>之間由<script />標記的src屬性制定外部的js文件放在事件處理程序中&a…

TClientDataSet[27]: 字段值的約束(或叫輸入限制)

Required、Precision、MaxValue、MinValue:begin{ Required: 必填字段 }with TIntegerField.Create(Self) do beginFieldName : ID;Required : True;DataSet : ClientDataSet1;end;{ Precision: 浮點數精度}with TFloatField.Create(Self) do beginFieldName : Float;Precision…

年度總結文章的抽獎結果公布

大家好&#xff0c;我是若川。2月4日&#xff0c;發表了我的2020年度總結文章《若川的2020年度總結&#xff0c;水波不興》&#xff0c;本以為閱讀量應該突破一千會比較快&#xff0c;實際上比較艱難&#xff0c;而且還掉粉10來人。2020年運營公眾號以來&#xff0c;不知不覺發…

php 正則表達式 匹配中日韓字符(GBK)

轉載鏈接&#xff1a;http://www.cnblogs.com/ITEagle/archive/2013/01/14/2859775.html 首先是這些非英文字符的編碼范圍&#xff1a; 這里是幾個主要非英文語系字符范圍 2E80&#xff5e;33FFh&#xff1a;中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假…

linux多線程求和_linux 多線程信號處理總結

linux 多線程信號總結(一)1. 在多線程環境下&#xff0c;產生的信號是傳遞給整個進程的&#xff0c;一般而言&#xff0c;所有線程都有機會收到這個信號&#xff0c;進程在收到信號的的線程上下文執行信號處理函數&#xff0c;具體是哪個線程執行的難以獲知。也就是說&#xff…

Elon Musk

人物事件 成長學習 1971年6月28日&#xff0c;埃隆馬斯克在南非的比勒陀利亞出生&#xff0c;他的 埃隆馬斯克 父親是一名南非機電工程師&#xff0c;母親是加拿大人&#xff0c;從事營養師兼模特。[8] 1981年&#xff0c;10歲的馬斯克就擁有了自己的第一臺電腦&#xff0c;并…