算法學習筆記：16.哈希算法 ——從原理到實戰，涵蓋 LeetCode 與考研 408 例題

在計算機科學中，哈希算法（Hash Algorithm）是一種將任意長度的輸入數據映射到固定長度輸出的技術，其輸出稱為哈希值（Hash Value）或散列值。哈希算法憑借高效的查找、插入和刪除性能，在數據存儲、密碼學、數據校驗等領域發揮著核心作用。

哈希算法的基本概念

哈希算法的核心是映射函數（哈希函數），它將輸入數據（如字符串、數字、文件等）轉換為固定長度的哈希值。例如，將字符串"hello"通過哈希函數映射為0a4d55a8d778e5022fab701977c5d840bbc486d0（SHA-1 哈希值），將數字123映射為數組索引5（用于哈希表存儲）。

哈希算法的關鍵特性包括：

確定性：相同輸入必然產生相同哈希值。

高效性：計算哈希值的過程快速，時間復雜度接近O(1)。

抗碰撞性：不同輸入產生相同哈希值（碰撞）的概率極低（密碼學哈希算法的核心要求）。

雪崩效應：輸入的微小變化會導致哈希值的劇烈變化（如"hello"和"hellp"的哈希值差異極大）。

在數據結構中，哈希表（Hash Table）是哈希算法的典型應用，它通過哈希函數將鍵（Key）映射到數組的索引，實現高效的數據訪問。例如，使用哈希表存儲學生信息時，可將學生 ID 作為鍵，通過哈希函數映射到數組位置，從而快速查找學生信息。

哈希算法的思想

哈希算法的核心思想是通過映射函數實現快速定位，具體可分為以下兩類場景：

2.1 哈希表中的映射思想

在哈希表中，哈希算法的目標是將鍵均勻分布到數組中，實現O(1)級別的查找、插入和刪除操作。其核心步驟包括：

哈希函數設計：將鍵key映射為數組索引index，常見方法有：

- 直接定址法：index = a * key + b（適用于鍵為整數且范圍較小的場景）。

- 除留余數法：index = key % tableSize（最常用，需選擇合適的tableSize減少碰撞）。

- 數字分析法：提取鍵中分布均勻的部分作為索引（適用于鍵為固定長度的數字）。

- 折疊法：將鍵分割為若干部分，合并后取余（適用于長鍵）。

解決碰撞：由于哈希函數的映射是多對一的，必然存在碰撞（不同鍵映射到同一索引），常見解決方法：

鏈地址法的圖示如下：

（索引 1 處發生碰撞，鍵值對 1 和 2 通過鏈表存儲）

- 開放定址法：當碰撞發生時，通過一定規則（如線性探測、二次探測、雙重哈希）尋找下一個空閑位置。例如，線性探測的公式為index = (hash(key) + i) % tableSize（i為探測次數）。

- 鏈地址法：將哈希值相同的鍵值對存儲在同一個鏈表中，數組的每個位置指向一個鏈表的頭節點。當查找時，先通過哈希函數定位到鏈表，再遍歷鏈表查找目標鍵。

2.2 密碼學中的哈希思想

密碼學哈希算法（如 MD5、SHA-256）的核心思想是通過復雜的數學運算實現不可逆映射，確保數據的完整性和安全性。其設計目標包括：

不可逆性：無法從哈希值反推原始輸入。

強抗碰撞性：無法找到兩個不同輸入產生相同哈希值。

例如，在用戶密碼存儲中，系統不會直接存儲明文密碼，而是存儲密碼的哈希值。當用戶登錄時，系統計算輸入密碼的哈希值，與存儲的哈希值比對，從而驗證身份（避免明文密碼泄露）。

哈希算法的解題思路

使用哈希算法解決實際問題時，需根據場景選擇合適的策略：

3.1 哈希表的解題步驟

當需要高效查找、去重或計數時，優先使用哈希表，步驟如下：

確定鍵值對：明確需要存儲的鍵（用于查找的關鍵字）和值（需關聯的數據）。

選擇哈希結構：Java 中常用HashMap（無序）、HashSet（僅存鍵，用于去重）、LinkedHashMap（保持插入順序）等。

處理碰撞：Java 的HashMap默認使用鏈地址法 + 紅黑樹（當鏈表長度超過 8 時轉為紅黑樹）解決碰撞，無需手動處理。

操作數據：

- 查找：通過get(key)獲取值，判斷是否存在。

- 插入：通過put(key, value)存儲鍵值對。

- 刪除：通過remove(key)移除鍵值對。

- 計數：統計鍵出現的次數（如用HashMap<Key, Integer>記錄次數）。

3.2 密碼學哈希的解題步驟

在涉及數據校驗、簽名等場景時，使用密碼學哈希算法，步驟如下：

選擇哈希函數：根據安全性要求選擇（如 SHA-256 優于 MD5）。

計算哈希值：對輸入數據（如文件、字符串）計算哈希值。

驗證或比對：通過比對哈希值判斷數據是否被篡改（如文件傳輸前后的哈希值是否一致）。

LeetCode 例題及 Java 代碼實現

例題 1：兩數之和（LeetCode 1）

給定一個整數數組nums和一個目標值target，請你在該數組中找出和為目標值的那兩個整數，并返回它們的數組下標。你可以假設每種輸入只會對應一個答案，且同樣的元素不能被重復利用。

解題思路

使用哈希表存儲已遍歷的元素及其索引，對于當前元素nums[i]，計算互補值target - nums[i]，若哈希表中存在該互補值，則返回兩者的索引；否則將當前元素存入哈希表。時間復雜度O(n)，空間復雜度O(n)。

代碼實現


import java.util.HashMap;import java.util.Map;public class TwoSum {public int[] twoSum(int[] nums, int target) {Map<Integer, Integer> map = new HashMap<>();for (int i = 0; i < nums.length; i++) {int complement = target - nums[i];if (map.containsKey(complement)) {return new int[]{map.get(complement), i};}map.put(nums[i], i);}throw new IllegalArgumentException("No solution");}public static void main(String[] args) {TwoSum solution = new TwoSum();int[] nums = {2, 7, 11, 15};int[] result = solution.twoSum(nums, 9);System.out.println(result[0] + ", " + result[1]); // 輸出：0, 1}}

例題 2：存在重復元素（LeetCode 217）

給定一個整數數組，判斷是否存在重復元素。如果存在一值在數組中出現至少兩次，函數返回true。如果數組中每個元素都不相同，則返回false。

解題思路

使用HashSet存儲元素，遍歷數組時若元素已在集合中，說明存在重復，返回true；否則加入集合。時間復雜度O(n)，空間復雜度O(n)。

代碼實現


import java.util.HashSet;import java.util.Set;public class ContainsDuplicate {public boolean containsDuplicate(int[] nums) {Set<Integer> set = new HashSet<>();for (int num : nums) {if (set.contains(num)) {return true;}set.add(num);}return false;}public static void main(String[] args) {ContainsDuplicate solution = new ContainsDuplicate();System.out.println(solution.containsDuplicate(new int[]{1, 2, 3, 1})); // 輸出：trueSystem.out.println(solution.containsDuplicate(new int[]{1, 2, 3, 4})); // 輸出：false}}

例題 3：有效的字母異位詞（LeetCode 242）

給定兩個字符串s和t，編寫一個函數來判斷t是否是s的字母異位詞。字母異位詞指字母相同，但排列不同的字符串。

解題思路

使用哈希表（或數組，因字符范圍有限）統計每個字符的出現次數。先遍歷s增加計數，再遍歷t減少計數，若最終所有計數為0，則為異位詞。時間復雜度O(n)，空間復雜度O(1)（字符集大小固定）。

代碼實現

public class ValidAnagram {public boolean isAnagram(String s, String t) {if (s.length() != t.length()) {return false;}int[] count = new int[26]; // 假設僅包含小寫字母for (char c : s.toCharArray()) {count[c - 'a']++;}for (char c : t.toCharArray()) {count[c - 'a']--;if (count[c - 'a'] < 0) {return false;}}return true;}public static void main(String[] args) {ValidAnagram solution = new ValidAnagram();System.out.println(solution.isAnagram("anagram", "nagaram")); // 輸出：trueSystem.out.println(solution.isAnagram("rat", "car")); // 輸出：false}}

哈希算法與考研 408

在計算機考研 408 中，哈希算法是數據結構部分的核心考點，主要涉及以下內容：

5.1 哈希表的構造與碰撞處理

考研 408 重點考查哈希表的實現細節，包括：

哈希函數的設計：掌握除留余數法、直接定址法等常用方法，能根據場景選擇合適的哈希函數（如鍵為整數時優先使用除留余數法）。

碰撞解決方法：深入理解開放定址法（線性探測、二次探測）和鏈地址法的原理、優缺點及操作過程：

- 開放定址法：優點是數據存儲在數組中，緩存利用率高；缺點是存在聚集現象（線性探測的主要問題），刪除操作復雜（需標記為 “已刪除” 而非直接清空）。

- 鏈地址法：優點是碰撞處理簡單，刪除操作方便，無聚集現象；缺點是指針開銷大，緩存利用率低。

5.2 哈希表的性能分析

哈希表的性能取決于負載因子（loadFactor = 元素個數 / 表長）和碰撞處理方法：

負載因子越小，碰撞概率越低，查找效率越高，但空間浪費大。

負載因子越大，碰撞概率越高，查找效率下降（鏈地址法中鏈表變長，開放定址法中探測次數增加）。

考研中常考不同碰撞處理方法的時間復雜度：

理想情況下（無碰撞）：查找、插入、刪除的時間復雜度均為O(1)。

實際情況下：鏈地址法的平均查找長度為1 + loadFactor / 2；開放定址法為-ln(1 - loadFactor) / loadFactor（線性探測）。

5.3 哈希算法的應用

考研 408 中常考哈希算法的典型應用：

哈希表：用于實現字典、集合、緩存（如 LRU 緩存）等數據結構。

數據校驗：通過哈希值驗證文件完整性（如下載文件時比對哈希值）。

密碼存儲：存儲密碼的哈希值而非明文（結合鹽值 Salt 增強安全性）。

哈希映射：如 Java 中的HashMap、Python 中的dict等語言內置數據結構的實現原理。

5.4 與其他數據結構的對比

考研中常對比哈希表與數組、鏈表、二叉搜索樹的性能：

數據結構	查找	插入	刪除	有序性	適用場景
數組	O(n)	O(n)	O(n)	可保持	小數據量、頻繁訪問連續元素
鏈表	O(n)	O(1)	O(1)	可保持	頻繁插入 / 刪除頭部 / 中部元素
二叉搜索樹	O(log n)	O(log n)	O(log n)	有序	需要有序遍歷或范圍查詢
哈希表	O(1)	O(1)	O(1)	無序	頻繁查找、插入、刪除且無需有序