大數據挖掘--兩個角度理解相似度計算理論

文章目錄

0 相似度計算可以轉換成什么問題
1 集合相似度的應用
- 1.1 集合相似度
- - 1.1文檔相似度
  - 1.2 協同過濾
  - - 用戶-用戶協同過濾
    - 物品-物品協同過濾
- 1.2 文檔的shingling--將文檔表示成集合
- - 1.2.1 k-shingling
  - 1.2.2 基于停用詞的 shingling
- 1.3 最小哈希簽名
- 1.4 局部敏感哈希算法（LSH）
- 1.5 最小哈希簽名和局部敏感哈希（LSH）的概念結合示例
- - - 最小哈希簽名步驟：
    - 局部敏感哈希 (LSH) 步驟：
2 距離測度的應用
- 2.1 距離測度
- - 1. 歐氏距離 (Euclidean Distance)
  - 2. 余弦距離 (Cosine Distance)
  - 3. 編輯距離 (Edit Distance)
  - 4. 海明距離 (Hamming Distance)
3 LSH函數家族

0 相似度計算可以轉換成什么問題

相似度計算是數據分析和機器學習領域中一項關鍵任務，它可以幫助我們理解和分析不同對象之間的相似性。然而，相似度計算本身可以通過轉換成其他類型的問題來更加有效地處理和解決。

首先，我們來看一種常見的相似度度量——Jaccard相似度。Jaccard相似度將相似度計算視為集合之間的比較問題。具體來說，它關注兩個集合之間的交集相對于并集的大小。這種方法特別適合用于需要比較集合相似性的場景，比如在文本分析中，我們可以將文檔表示為一組詞的集合，Jaccard相似度幫助我們評估兩份文檔的相似程度。通過計算交集和并集，我們將相似度問題轉化為集合運算問題，這種方法簡潔而有效，尤其在需要處理大量數據時，利用集合操作的高效性可以顯著提高計算速度。

另一方面，相似度計算也可以轉換為距離測度的問題。在這種情況下，我們將對象視為幾何空間中的點，計算這些點之間的距離來推斷相似性。歐氏距離是一種直觀的衡量方式，它通過計算兩點之間的直線距離來評估它們的接近程度。這種方法在需要空間可視化的場合中非常有用。此外，還有曼哈頓距離，它通過計算路徑總長來反映兩點的差異，這在某些離散空間中表現出色。余弦相似度則提供了另一種轉換視角，通過考察向量之間的夾角來確定它們的相似性，這在高維向量空間中，尤其在文本分析和推薦系統中，被廣泛使用。

1 集合相似度的應用

1.1 集合相似度

1.1文檔相似度

在文本分析中，我們常常需要衡量兩篇文檔之間的相似性，這可以通過集合相似度來實現。一個常用的方法是Jaccard相似度。假設有兩個文檔 $A$ 和 $B$ ，我們可以將它們表示為詞的集合，分別記為 $S_A$ 和 $S_B$ 。Jaccard相似度計算公式如下：

$J(S_A, S_B) = \frac{|S_A \cap S_B|}{|S_A \cup S_B|}$

其中， $|S_A \cap S_B|$ 是兩個集合的交集的大小， $|S_A \cup S_B|$ 是兩個集合的并集的大小。Jaccard相似度的值在 0 到 1 之間，值越大表示兩個文檔越相似。

算法：在實際應用中，計算文檔相似度時，我們可以進行如下步驟：

將每個文檔轉換為詞集合。
計算每對文檔集合的交集和并集大小。
應用Jaccard公式計算相似度。

這種方法簡單高效，特別適合于初步的文本聚類和分類問題。

1.2 協同過濾

在推薦系統中，協同過濾是一種廣泛使用的方法。這里我們主要探討基于集合相似度的協同過濾，包括用戶-用戶和物品-物品協同過濾。

用戶-用戶協同過濾

在用戶-用戶協同過濾中，我們通過比較用戶之間的興趣相似性來進行推薦。假設我們有用戶 $u_i$ 和 $u_j$ ，它們的興趣集合分別為 $I_i$ 和 $I_j$ 。我們可以使用Jaccard相似度來計算用戶相似性：

$J(I_i, I_j) = \frac{|I_i \cap I_j|}{|I_i \cup I_j|}$

通過計算用戶之間的Jaccard相似度，我們可以為用戶推薦那些相似用戶喜歡的物品。

物品-物品協同過濾

類似地，在物品-物品協同過濾中，我們比較物品之間的相似性。假設有物品 $p_a$ 和 $p_b$ ，它們的用戶集合分別為 $U_a$ 和 $U_b$ ，我們計算物品的Jaccard相似度：

$J(U_a, U_b) = \frac{|U_a \cap U_b|}{|U_a \cup U_b|}$

物品相似性可以幫助我們推薦用戶可能喜歡的其他相似物品。

算法：協同過濾的基本步驟包括：

構建用戶-物品矩陣。
根據需要選擇用戶-用戶或物品-物品的相似度計算。
計算相似度矩陣。
根據相似度為用戶生成推薦列表。

通過利用集合相似度，我們能夠有效地實現協同過濾，使推薦系統更加智能化和個性化。這些方法不僅提高了推薦的準確性，還提升了用戶的參與感和滿意度。

1.2 文檔的shingling–將文檔表示成集合

在文本處理和分析過程中，將文檔轉換為集合的形式可以幫助我們更好地進行相似度分析和其他文本操作。其中，shingling 是一種將文檔轉化為集合的方法，通過將文檔分割為一系列短的連續子序列（或稱為“片段”）來實現。以下是關于 k-shingling 和基于停用詞的 shingling 的詳細介紹。

1.2.1 k-shingling

k-shingling 是一種將文檔轉化為子序列集合的方法，通過將文檔中的文本分割為長度為 k 的連續子字符串（或子詞）來實現。每一個長度為 k 的子串稱為一個“shingle”。這種方法的核心在于選擇合適的 k 值，以確保文檔可以被合理地分割。

步驟：

選擇 k 值：通常，k 的選擇取決于具體應用和文檔長度。較小的 k 值可以捕捉到更多的局部信息，而較大的 k 值更能反映文檔的全局結構。
生成 shingles：從文檔中提取所有可能的 k-shingles。對于每一個連續的 k 個字符或詞，記錄為一個 shingle。
構建集合：將所有提取的 shingles 組成一個集合。此集合可以用來比較不同文檔的相似性。

示例：對于字符串 “The quick brown fox” 和 k = 2，可能的 shingles 為 {“Th”, “he”, "e “, " q”, “qu”, “ui”, “ic”, “ck”, "k “, " b”, “br”, “ro”, “ow”, “wn”, "n “, " f”, “fo”, “ox”}。

1.2.2 基于停用詞的 shingling

基于停用詞的 shingling 是一種改進的 shingling 方法，它通過忽略文檔中的停用詞（例如 “the”, “is”, “at”, “on” 等），來生成更具意義的 shingles。這種方法可以幫助減少噪聲，提高文檔相似度計算的精確度。

步驟：

移除停用詞：在進行 shingling 之前，首先從文檔中移除常見的停用詞。這可以通過預定義的停用詞列表實現。
生成 shingles：在移除停用詞后，使用類似 k-shingling 的方法生成 shingles。這樣生成的 shingles 更能體現文檔的核心內容。
構建集合：將生成的 shingles 組成一個集合，用于進一步的相似度計算。

優點：通過忽略停用詞，基于停用詞的 shingling 能夠更專注于文檔的主題詞匯，減少不必要的干擾。

好的，以下是關于如何使用最小哈希簽名將大文檔壓縮成小的簽名，以及如何利用局部敏感哈希（LSH）算法處理這些簽名，以保持文檔間的相似度。

1.3 最小哈希簽名

最小哈希簽名是一種將大集合（如文檔中的術語集合）壓縮成較小的簽名的技術，同時保留集合之間的相似度。這是通過一組哈希函數實現的，它們將集合中的元素映射到整數，并選取最小的數值作為簽名。

步驟：

選擇哈希函數：選擇一組不同的哈希函數 $h_1, h_2, \ldots, h_n$ 。每個哈希函數將文檔中的shingle（子字符串）映射到一個整數。
生成簽名：對于每個文檔和每個哈希函數，計算所有shingle的哈希值，并記錄最小的哈希值。重復此過程n次（使用n個不同的哈希函數），形成一個長度為n的簽名向量。
保持相似度：兩個文檔的最小哈希簽名相同元素的比例，接近于這兩個文檔的Jaccard相似度，即 $\frac{|A \cap B|}{|A \cup B|}$ 。

1.4 局部敏感哈希算法（LSH）

LSH 是一種用于快速查找相似文檔的算法，特別適用于處理最小哈希簽名。這種方法通過將簽名分段，并使用哈希函數將相似的簽名段映射到相同的桶中，從而實現高效的近似最近鄰搜索。

步驟：

分段簽名：將最小哈希簽名分成若干段，每段包含若干個哈希值。例如，每個簽名被分成b個段，每段包含r個哈希值。
映射到桶：對每個段，使用一個哈希函數將其映射到一個哈希桶。相似的文檔由于簽名段的相似性，很可能被映射到同一個桶中。
查找相似文檔：當需要查找與某個文檔相似的文檔時，可以僅查找與其簽名段映射到相同桶中的文檔，這大大縮小了查找范圍。

優勢：通過結合最小哈希簽名和 LSH，能夠有效地處理和比較大規模文檔集合。最小哈希簽名減少了需要處理的數據量，而 LSH 提供了快速的相似性檢索機制，使得處理大規模數據集的效率得以提升。

1.5 最小哈希簽名和局部敏感哈希（LSH）的概念結合示例

假設我們有兩個文檔，它們的 shingle 集合如下：

文檔 A: {“shingle1”, “shingle2”, “shingle3”}
文檔 B: {“shingle2”, “shingle3”, “shingle4”}

我們應用三組不同的哈希函數 $h_1(x)$ , $h_2(x)$ , $h_3(x)$ ，假設這些函數的輸出如下：

$h_1("shingle1") = 5$ , $h_1("shingle2") = 3$ , $h_1("shingle3") = 7$ , $h_1("shingle4") = 6$
$h_2("shingle1") = 2$ , $h_2("shingle2") = 9$ , $h_2("shingle3") = 1$ , $h_2("shingle4") = 4$
$h_3("shingle1") = 8$ , $h_3("shingle2") = 6$ , $h_3("shingle3") = 5$ , $h_3("shingle4") = 3$

最小哈希簽名步驟：

計算最小哈希簽名：
- 對于文檔 A:
  - $h_1$ : 最小值是 3 (來自 “shingle2”)
  - $h_2$ : 最小值是 1 (來自 “shingle3”)
  - $h_3$ : 最小值是 5 (來自 “shingle3”)
- 對于文檔 B:
  - $h_1$ : 最小值是 3 (來自 “shingle2”)
  - $h_2$ : 最小值是 1 (來自 “shingle3”)
  - $h_3$ : 最小值是 3 (來自 “shingle4”)
生成最小哈希簽名：
- 文檔 A 的簽名: (3, 1, 5)
- 文檔 B 的簽名: (3, 1, 3)
比較簽名：通過比較簽名發現，文檔 A 和 B 在三個哈希函數中有兩個值相同，簽名相同位置的值相同比例為 2/3。

局部敏感哈希 (LSH) 步驟：

分段簽名：
- 將簽名分成兩段，每段包含一組哈希值：
  - 文檔 A: (3, 1) 和 (5)
  - 文檔 B: (3, 1) 和 (3)
映射到桶：
- 使用哈希函數對每一段進行哈希，映射到哈希桶：
  - 段 (3, 1) 的兩文檔都被映射到同一個桶，因此它們可能相似。
  - 段 (5) 和 (3) 被映射到不同的桶。
查找相似文檔：
- 由于文檔 A 和 B 在 (3, 1) 段中被映射到同一個桶，因此 LSH 會識別文檔 B 作為文檔 A 的相似候選者。

通過結合最小哈希簽名和 LSH，我們大幅度降低了計算復雜度。最小哈希簽名幫助我們壓縮文檔，同時保留相似度信息，而 LSH 則通過分段簽名和桶映射，快速聚合可能相似的文檔以進行進一步的精細比較。這種方法尤其適用于需要快速處理和比較的大規模數據集。

2 距離測度的應用

2.1 距離測度

1. 歐氏距離 (Euclidean Distance)

定義：歐氏距離是兩點間的“直線”距離，用于度量兩個點在歐幾里得空間中的距離。對于兩個n維向量 $A = (a_1, a_2, ..., a_n)$ 和 $B = (b_1, b_2, ..., b_n)$ ，其計算公式為：
$\text{Euclidean Distance} = \sqrt{\sum_{i=1}^{n} (a_i - b_i)^2}$
應用：常用于幾何空間中的距離計算，如圖像處理、聚類分析（如k-means算法）。

2. 余弦距離 (Cosine Distance)

定義：余弦距離實際上測量的是兩個向量之間的夾角余弦值，表示兩個向量的方向相似度。計算公式為：
$\text{Cosine Similarity} = \frac{A \cdot B}{\|A\| \|B\|}$
余弦距離則為 $\text{Cosine Similarity}$ 。
應用：適用于文本分析和信息檢索，因為它關注的是向量的方向而不是大小，比如在文檔相似性計算中。

3. 編輯距離 (Edit Distance)

定義：編輯距離，又稱Levenshtein距離，是將一個字符串轉換成另一個字符串所需的最小編輯操作次數（包括插入、刪除、替換的操作）。
應用：廣泛用于拼寫檢查、DNA序列比對和自然語言處理中。

4. 海明距離 (Hamming Distance)

定義：海明距離用于衡量兩個等長字符串之間的差異，即在相同位置上不同字符的數量。
應用：主要用于編碼理論和信息技術中的錯誤檢測和糾正，例如校驗和比較二進制字符串。

3 LSH函數家族

算法	定義	中心思想	核心公式	優點	缺點	應用場景
MinHash LSH	用于集合相似性的LSH方法	通過最小哈希簽名計算集合的Jaccard相似度	$\min(\{h_i(x) \mid x \in A\})$	高效處理集合相似性，減少計算量	需要預計算最小哈希簽名	文檔去重，集合相似性計算
SimHash	用于文本和文檔相似性的LSH方法	將高維向量降維為短簽名，保留方向信息	$\text{sign}(\sum w_i x_i)$	適合處理高維數據，方向不變性	不適合處理完全不同的文本	文本檢索，文檔相似性計算
p-stable LSH	用于歐氏距離的LSH方法	基于p-stable分布投影到低維空間	$\lfloor \frac{a \cdot x + b}{r} \rfloor$	準確近似歐氏距離，適合高維數值數據	投影精度依賴于維度選擇	圖像檢索，數值數據相似性計算
Bit Sampling LSH	用于漢明距離的LSH方法	從二進制字符串中隨機選擇位作為特征	直接位選擇	簡單高效，直接操作二進制數據	僅適合固定長度的二進制數據	二進制數據比較，錯誤檢測和校驗