解碼LLM量化：深入剖析最常見8位與4位核心算法

大型語言模型（LLM）的性能日益強大，但其龐大的體積和高昂的計算成本構成了部署的主要障礙。模型量化，作為一種將高精度浮點權重（如16位）映射到低位寬整數（如8位或4位）的技術，已成為應對這一挑戰的關鍵。它旨在不顯著犧牲模型性能的前提下，大幅壓縮模型大小、降低顯存占用并加速推理。

本文將系統性地剖析當前業界主流的8位與4-bit量化算法，重點闡述其核心思想、差異點及實踐中的關鍵注意事項。

8位量化技術相對成熟，能夠在顯著降低資源消耗的同時，保持接近原始模型的性能。其主要挑戰在于如何有效處理權重和激活值中的“異常值”（Outliers）。

Absmax量化是一種基礎且高效的對稱量化方案，也是許多框架中8位量化的起點。

核心思想
Absmax的核心在于找到權重張量中所有數值的絕對值最大值（absmax），并以此為基準進行線性縮放。它將原始的[-absmax, absmax]浮點數范圍，直接映射到[-127, 127]的8位有符號整數范圍內。這個absmax值與一個固定的整數范圍（127）共同定義了縮放因子（Scale），它是連接浮點世界和整數世界的橋梁。
算法流程
1. 尋找縮放基準: 對于給定的權重張量W，計算 s = absmax(W)。
2. 計算縮放因子: Scale = s / 127。
3. 量化: W_int8 = round(W / Scale)。
4. 反量化: 在計算時，通過 W_fp16 ≈ W_int8 * Scale 恢復浮點數值。
關鍵挑戰
Absmax的主要弱點在于對異常值的極端敏感性。若一個張量中絕大多數權重都分布在[-1, 1]區間，但存在一個值為20.0的異常值，那么absmax將為20.0。這會導致縮放因子變得極大，使得[-1, 1]區間內的所有權重都被量化到極少數幾個整數上（如-1, 0, 1），從而丟失了大量的精度信息。

SmoothQuant是一種更先進的量化感知（Quantization-Aware）算法，它精準地識別并解決了導致LLM量化性能下降的關鍵瓶頸——激活值中的異常值。

核心思想
SmoothQuant的核心在于，矩陣乘法 Y = X * W 的量化誤差同時來源于激活值X和權重W。其中，激活值的分布通常比權重更不規則，更容易出現大幅度的異常值。SmoothQuant提出，可以通過一個數學上等價的變換，將激活值的量化“難度”一部分“遷移”給權重。
算法流程
1. 等價變換: 引入一個可學習的平滑因子s，將矩陣乘法改寫為 Y = (X / s) * (s * W)。
2. 難度遷移: 通過優化選擇s，使得X' = X / s的數值分布變得更加平滑（異常值被抑制），而W' = s * W的分布雖然有所變化，但仍在易于量化的范圍內。
3. 獨立量化: 對處理后、更容易量化的X'和W'分別進行標準的8位Absmax量化。

差異點與優勢

特性	Absmax	SmoothQuant
關注點	僅關注權重張量本身。	同時關注激活值和權重，識別出激活值是主要矛盾。
處理方式	被動接受權重分布，對異常值無能為力。	主動干預，通過數學變換平滑激活值，優化整個計算流。
性能表現	在LLM中遇到激活值異常時，性能下降明顯。	顯著提升了LLM的INT8量化性能，已成為高性能推理的標準。

4位量化能帶來極致的模型壓縮率，但精度挑戰也隨之劇增。簡單的線性映射在此幾乎完全失效，必須采用更復雜的、基于優化的算法。

GPTQ是早期在4位量化領域取得突破性成功的算法，其核心是把量化視為一個誤差最小化的優化問題。

核心思想
GPTQ的目標不是簡單地讓量化后的權重在數值上逼近原始權重，而是要找到一組4位整數權重W_int4，使得反量化后的權重W'與原始輸入X相乘的結果，與原始權重W和X相乘的結果誤差最小。即 argmin || W*X - W'*X ||。
算法流程
1. 逐層量化: 采用貪心策略，一次只處理模型中的一層，固定其他層不變。
2. 逐列優化: 在單層權重矩陣內部，逐列進行量化。
3. 誤差補償: 這是GPTQ的精髓。在量化完第i列后，會計算出產生的量化誤差。這個誤差將被添加到所有尚未被量化的后續列上。這樣，后續列的量化過程就會自動地去“補償”前面步驟中產生的誤差，從而實現全局最優。
4. 校準數據: 該過程需要一個小的校準數據集來獲取代表性的激活值X，以便進行誤差計算和優化。

AWQ從一個完全不同的視角出發，它認為并非所有權重都同等重要，應該優先保護那些對模型輸出影響最大的權重。

核心思想
AWQ的觀察是，權重的重要性與其對應的激活值幅度高度相關。一個權重即使數值不大，但如果它總是與一個大幅度的激活值相乘，那么它對最終結果的貢獻就很大。因此，量化的核心應該是保留這些與顯著激活通道相關的權重的精度。
算法流程
1. 識別重要激活: 使用校準數據集，分析并找到那些平均幅度較大的激活通道。
2. 保護對應權重: 與這些重要激活通道相對應的權重被視為“顯著權重”。
3. 選擇性縮放: 引入一個優化的縮放因子，僅對這些顯著權重進行縮放，降低其數值范圍，從而使其在量化時能被更精確地表示。為了維持數學等價性，對應的激活通道會被相應地放大。
4. 量化: 對縮放后的權重張量進行4位量化。

差異點與權衡：GPTQ vs. AWQ

特性	GPTQ	AWQ
核心哲學	誤差重建: 通過迭代補償，讓最終輸出的誤差最小化。	顯著性保護: 保護與重要激活相關的權重，從源頭減少誤差。
量化過程	迭代優化，逐列求解，量化過程相對較慢。	分析驅動，一次性縮放，量化過程非常快。
校準數據	用于計算和最小化輸出誤差。	用于分析激活值分布，識別重要權重。
性能表現	精度非常高，長期以來是4位量化的黃金標準。	精度與GPTQ相當，有時更優，且量化速度和推理性能有優勢。

校準數據集的重要性: 對于GPTQ和AWQ這類高級算法，一個雖小但具有代表性的校準數據集是保證量化后模型性能的關鍵。
硬件與核函數: 量化的最終推理加速效果，高度依賴于底層硬件是否對低位寬整數運算（如INT4/INT8矩陣乘法）有高效的支持（Kernel）。
生態系統: bitsandbytes, auto-gptq, auto-awq等庫的出現，極大地簡化了這些復雜算法的應用，使其能夠被廣大開發者方便地集成和使用。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/96540.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/96540.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/96540.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！