哈夫曼編碼和哈夫曼樹

哈夫曼編碼(Huffman Coding) 是一種基于字符出現頻率的無損數據壓縮算法,通過構建哈夫曼樹(Huffman Tree) 來生成最優前綴編碼,使得高頻字符用短編碼,低頻字符用長編碼,從而實現高效壓縮。


1. 哈夫曼樹(Huffman Tree)

  • 定義:哈夫曼樹是一棵帶權路徑長度(WPL)最小的二叉樹。
    • 權值:字符的出現頻率(或概率)。
    • 帶權路徑長度:每個葉子節點的權值 × 其到根節點的路徑長度之和。
  • 特點
    • 沒有度為1的節點(嚴格的二叉樹)。
    • 頻率越高的字符離根越近,編碼越短。
構建哈夫曼樹的步驟
  1. 統計字符頻率:為每個字符賦予權值(頻率)。
  2. 創建節點集合:每個字符作為一個葉子節點,組成初始森林。
  3. 合并最小權值節點
    • 每次選擇權值最小的兩個節點,合并成一個新父節點,權值為兩者之和。
    • 重復合并,直到只剩一棵樹。
  4. 生成編碼:從根到葉子的路徑,左分支為 0,右分支為 1(或相反)。

示例
假設字符 A(5), B(9), C(12), D(13), E(16), F(45)
構建過程如下:

  1. 初始節點集合:5, 9, 12, 13, 16, 45
  2. 合并最小的 59 → 新節點 14
  3. 合并 1213 → 新節點 25
  4. 合并 1416 → 新節點 30
  5. 合并 2530 → 新節點 55
  6. 合并 4555 → 根節點 100
    最終哈夫曼樹結構如下:
         (100)/       \F(45)     (55)/      \(25)      (30)/    \     /   \C(12)   D(13)(14)  E(16)/ \A(5) B(9)

2. 哈夫曼編碼(Huffman Coding)

  • 規則:從根到葉子節點的路徑生成二進制編碼。
    • 左分支為 0,右分支為 1(或相反)。
  • 示例(基于上述哈夫曼樹):
    • F(45)0
    • C(12)100
    • D(13)101
    • A(5)1100
    • B(9)1101
    • E(16)111
編碼特點
  1. 前綴碼(Prefix Code):任何字符的編碼都不是其他編碼的前綴,避免解碼歧義。
  2. 最優性:在所有前綴碼中,哈夫曼編碼的壓縮效率最高(WPL最小)。

3. 哈夫曼編碼的壓縮與解壓

壓縮過程
  1. 統計字符頻率,構建哈夫曼樹。
  2. 生成字符到二進制編碼的映射表。
  3. 將原始數據替換為哈夫曼編碼的二進制流。
解壓過程
  1. 根據哈夫曼樹或編碼表,從二進制流中逐位解碼。
  2. 從根節點開始,根據 0/1 向左/右子樹移動,直到到達葉子節點,輸出對應字符。

4. 代碼實現(C++ 示例)

#include <iostream>
#include <queue>
#include <unordered_map>
using namespace std;// 哈夫曼樹節點
struct Node {char ch;int freq;Node *left, *right;Node(char c, int f) : ch(c), freq(f), left(nullptr), right(nullptr) {}
};// 優先隊列的比較器(按頻率升序)
struct Compare {bool operator()(Node* a, Node* b) {return a->freq > b->freq;}
};// 構建哈夫曼樹
Node* buildHuffmanTree(const unordered_map<char, int>& freqMap) {priority_queue<Node*, vector<Node*>, Compare> pq;for (auto& pair : freqMap) {pq.push(new Node(pair.first, pair.second));}while (pq.size() > 1) {Node* left = pq.top(); pq.pop();Node* right = pq.top(); pq.pop();Node* parent = new Node('\0', left->freq + right->freq);parent->left = left;parent->right = right;pq.push(parent);}return pq.top();
}// 生成編碼表
void generateCodes(Node* root, string code, unordered_map<char, string>& codes) {if (!root) return;if (root->ch != '\0') {codes[root->ch] = code;return;}generateCodes(root->left, code + "0", codes);generateCodes(root->right, code + "1", codes);
}int main() {unordered_map<char, int> freqMap = {{'A',5}, {'B',9}, {'C',12}, {'D',13}, {'E',16}, {'F',45}};Node* root = buildHuffmanTree(freqMap);unordered_map<char, string> codes;generateCodes(root, "", codes);for (auto& pair : codes) {cout << pair.first << ": " << pair.second << endl;}return 0;
}

5. 應用場景

  • 文件壓縮:如 ZIP、GZIP、JPEG、MP3 等格式。
  • 數據傳輸:減少帶寬占用。
  • 數據庫存儲:壓縮文本字段。

6. 優缺點

  • 優點
    • 無損壓縮,解壓后數據完全恢復。
    • 對高頻字符優化,壓縮效率高。
  • 缺點
    • 需要存儲哈夫曼樹或編碼表,可能增加額外開銷。
    • 不適合字符頻率分布均勻的場景。

總結

哈夫曼編碼通過構建最優二叉樹實現高效壓縮,是經典的數據壓縮算法之一。理解其核心思想(貪心算法)和實現步驟(構建樹、生成編碼),是掌握數據壓縮技術的基礎。


練一練

在這里插入圖片描述
答案:B

在這里插入圖片描述
答案:A

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/902105.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/902105.shtml
英文地址,請注明出處:http://en.pswp.cn/news/902105.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Jetson Orin NX 部署YOLOv12筆記

步驟一.創建虛擬環境 conda create -n yolov12 python3.8.20 注意&#xff1a;YOLOv12/YOLOv11/YOLOv10/YOLOv9/YOLOv8/YOLOv7a/YOLOv5 環境通用 步驟二.激活虛擬環境 conda activate yolov12 #激活環境 步驟三.查詢Jetpack出廠版本 Jetson系列平臺各型號支持的最高Jetp…

Linux指令篇 (2)

指令篇&#xff08;2&#xff09; Linux基本指令&#xff08;2&#xff09;(1) mkdir指令&#xff08;重要&#xff09;&#xff08;2&#xff09;rmdir指令&&rm指令(重要)&#xff08;3&#xff09;man指令(重要)&#xff08;4&#xff09;cp指令&#xff08;重要&…

致遠OA——自定義開發rest接口

文章目錄 :apple: 業務流程 &#x1f34e; 業務流程 代碼案例&#xff1a; https://pan.quark.cn/s/57fa808c823f 官方文檔&#xff1a; https://open.seeyoncloud.com/seeyonapi/781/https://open.seeyoncloud.com/v5devCTP/39/783.html 登錄系統 —— 后臺管理 —— 切換系…

區塊鏈如何成為智能城市的底層引擎?從數據透明到自動化治理

區塊鏈如何成為智能城市的底層引擎&#xff1f;從數據透明到自動化治理 引言&#xff1a;智能城市真的智能嗎&#xff1f; 在數字化時代&#xff0c;智能城市&#xff08;Smart City&#xff09;逐步成為各國推動城市創新的重要方向。城市管理者希望借助物聯網&#xff08;IoT…

洛谷P1177【模板】排序:十種排序算法全解(1)

扯談 之前我已經把十大排序算法全講了一遍&#xff08;具體詳見專欄C排序算法&#xff09;,今天我們來用一道簡單的題目總結實戰一下。 算法實現 一、桶排序&#xff08;Bucket Sort&#xff09; ?適用場景?&#xff1a;數據范圍已知且較小&#xff08;需根據測試數據調整…

SuperMap iClient3D for WebGL 如何加載WMTS服務

在 SuperMap iClient3D for WebGL 中加載WMTS服務時&#xff0c;參數配置很關鍵&#xff01;下面我們詳細介紹如何正確填寫參數&#xff0c;確保影像服務完美加載。 一、數據制作 對于上述視頻中的地圖制作&#xff0c;此處不做講述&#xff0c;如有需要可訪問&#xff1a;Onl…

再讀bert(Bidirectional Encoder Representations from Transformers)

再讀 BERT&#xff0c;仿佛在數字叢林中邂逅一位古老而智慧的先知。初次相見時&#xff0c;驚嘆于它以 Transformer 架構為羅盤&#xff0c;在預訓練與微調的星河中精準導航&#xff0c;打破 NLP 領域長久以來的迷霧。而如今&#xff0c;書頁間躍動的不再僅是 Attention 機制精…

從零開始 保姆級教程 Ubuntu20.04系統安裝MySQL8、服務器配置MySQL主從復制、本地navicat遠程連接服務器數據庫

從零開始&#xff1a;Ubuntu 20.04 系統安裝 MySQL 8、服務器配置 MySQL 主從復制、本地 Navicat 遠程連接服務器數據庫 初始化服務器1. 更新本地軟件包列表2. 安裝 MySQL 服務器3. 查看 MySQL 安裝版本4. 登錄 MySQL 管理終端5. 設置 root 用戶密碼&#xff08;推薦使用 nativ…

java怎么完善注冊,如果郵箱中途更換,能否判斷

解析在下面 附贈代碼 private static class CodeInfo {String code;long timestamp;CodeInfo(String code, long timestamp) {this.code code;this.timestamp timestamp;}}// 存儲驗證碼&#xff08;郵箱 -> 驗證碼信息&#xff09;(保證線程安全) 以免中途更改郵箱pri…

n8n 中文系列教程_01. 簡單易懂的現代AI魔法,n8n的快速了解與概念科普(文末有彩蛋)

1. 教程簡介 歡迎來到“無代碼工具探索”課程&#xff0c;這是專為非技術人員設計的指南&#xff08;當然&#xff0c;技術人員也可以從中受益&#xff09;。我們的目標是通過無代碼工具來提升工作效率&#xff0c;尤其是利用像 n8n 這樣的靈活數據庫平臺。這些工具被譽為“現…

解碼 Web Service:從技術原理到應用場景的深度剖析

Web Service 是一種基于網絡的、分布式的計算技術&#xff0c;它允許不同的應用程序之間通過網絡進行通信和交互。以下是關于 Web Service 的詳細介紹&#xff1a; 一、定義與概念 Web Service 是一種可以通過 Web 協議&#xff08;如 HTTP&#xff09;進行訪問的軟件組件&am…

Nacos啟動報錯

Nacos啟動是在單機模式下&#xff0c;不是集群模式 點擊startup.cmd啟動會報錯 打開bin目錄 rem是注釋的意思&#xff0c;在nacos1.3.2之后&#xff0c;nacos默認的都是集群模式&#xff0c;我們這里單機測試就是用單機模式。 也可以修改MODE&#xff0c;如果選擇不修改&…

uniapp-商城-26-vuex 使用流程

為了能在所有的頁面都實現狀態管理&#xff0c;我們按照前面講的頁面進行狀態獲取&#xff0c;然后再進行頁面設置和布局&#xff0c;那就是重復工作&#xff0c;vuex 就會解決這樣的問題&#xff0c;如同類、高度提煉的接口來幫助我們實現這些重復工作的管理。避免一直在造一樣…

Git 命令速查手冊

聽說用美圖可以釣讀者&#xff1f; 一、基礎操作核心命令 1. 倉庫初始化與克隆 命令作用示例git init創建新倉庫git init my-projectgit clone克隆遠程倉庫git clone [https://github.com/user/repo.git](https://github.com/user/repo.git)git remote add關聯遠程倉庫git re…

信息量、香農熵、交叉熵、KL散度總結

信息量 對于一個事件而言&#xff0c;它一般具有三個特征&#xff1a; 小概率事件往往具有較大的信息量 大概率事件往往具有較小的信息量 獨立事件的信息量相互可以相加 比如我們在買彩票這個事件中&#xff0c;彩票未中獎的概率往往很高&#xff0c;對我們而言一點也不稀…

使用C語言的cJSON中給JSON字符串添加轉義

在 cJSON 庫中&#xff0c;沒有直接提供 一個函數來專門給 JSON 字符串添加轉義&#xff08;如將 " 轉義為 \"&#xff0c;\n 轉義為 \\n 等&#xff09;。 但 cJSON 在 序列化&#xff08;cJSON_Print 或 cJSON_PrintUnformatted&#xff09; 時會自動處理轉義字符…

宇樹機器狗go2—slam建圖(1)點云格式

0.前言 上一篇番外文章教大家如何在宇樹機器狗go2的gazebo仿真環境中實現簡單的導航運動&#xff0c;本期文章會教大家如何讓宇樹的機器狗go2在仿真環境中進行slam建圖時經常會遇到的一些點云格式&#xff0c;在后續的slam建圖和slam算法解析的時候會經常與這些點云信息打交道…

linux socket編程之udp(實現客戶端和服務端消息的發送和接收)

目錄 一.創建socket套接字(服務器端) 二.bind將prot與端口號進行綁定(服務器端) 2.1填充sockaddr_in結構 2.2bind綁定端口 三.直接通信(服務器端) 3.1接收客戶端發送的消息 3.2給客戶端發送消息 四.客戶端通信 4.1創建socket套接字 4.2客戶端bind問題 4.3直接通信即可…

第1期:Python基礎語法入門

1.1 Python簡介 Python是一種解釋型、面向對象、動態數據類型的高級編程語言。它設計簡潔&#xff0c;易于學習&#xff0c;適合初學者。Python廣泛應用于數據科學、人工智能、Web開發、自動化腳本等領域。它的語法簡潔易懂&#xff0c;強調代碼的可讀性。 1.2 安裝Python與配…

使用EXCEL繪制平滑曲線

播主播主&#xff0c;你都多少天沒更新了&#xff01;&#xff01;&#xff01;泥在干什么&#xff1f;你還做這個賬號麻&#xff1f;&#xff01;&#xff01;&#xff01; 做的做的&#xff08;哭唧唧&#xff09;&#xff0c;就是最近有些忙&#xff0c;以及…… 前言&…