【自然語言處理】BitNet b1.58：1bit LLM時代

論文地址：https://arxiv.org/pdf/2402.17764.pdf

相關博客
【自然語言處理】BitNet b1.58：1bit LLM時代
【自然語言處理】【長文本處理】RMT：能處理長度超過一百萬token的Transformer
【自然語言處理】【大模型】MPT模型結構源碼解析(單機版)
【自然語言處理】【大模型】ChatGLM-6B模型結構代碼解析(單機版)
【自然語言處理】【大模型】BLOOM模型結構源碼解析(單機版)

一、BitNet

? BitNet采用了與Transformer基本一致的模型架構，僅將標準矩陣乘法層換成了BitLinear，其他組件仍然是高精度的。BitLinear主要是包含的操縱：權重量化、激活量化以及LayerNorm。

? 權重量化。通過減均值實現0中心化，然后用sign實現二值化。假設全精度權重為 $W\in\mathcal{R}^{n\times m}$ ，則二值量化過程為
$\widetilde{W}=\text{Sign}(W-\alpha) \tag{1} \\$

$\text{Sign}(W_{ij})=\begin{cases} +1,&&\text{if}\;W_{ij}>0 \\ -1,&&\text{if}\;W_{ij}\leq 0 \\ \end{cases} \tag{2} \\$

$\alpha=\frac{1}{nm}\sum_{ij}W_{ij} \tag{3} \\$

? 激活量化。使用absmax的方式將激活量化至b-bit。具體的實現方式是乘以 $Q_b$ 再除以輸入矩陣的最大絕對值，從而將激活縮放至 $Q_b,Q_b](Q_b=2^{b-1})$ ，即
$\tilde{x}=\text{Quant}(x)=\text{Clip}(x\times\frac{Q_b}{\gamma},-Q_b+\epsilon,Q_b-\epsilon) \tag{4}\\$

$\text{Clip}(x,a,b)=\max(a,\min(b,x)),\quad\gamma=\parallel x\parallel_\infty \tag{5} \\$

其中 $\epsilon$ 是防止裁剪時溢出的小浮點數。

? 對于非線性函數之前的激活值則采用不同的量化方式，通過減輕最小值的方式將其縮放至 $0,Q_b]$ ，從而保證所有值均為非負：
$\tilde{x}=\text{Quant}(x)=\text{Clip}((x-\eta)\times\frac{Q_b}{\gamma},\epsilon,Q_b-\epsilon),\quad\eta=\min_{i,j}x_{ij}\tag{6} \\$
? LayerNorm。在對激活值量化前，為了保證量化后的方差穩定，采用了SubLN。

? BitLinear的完成計算過程為
$y=\widetilde{W}\tilde{x}=\widetilde{W}\text{Quant}(\text{LN}(x))\times\frac{\beta\gamma}{Q_b}\tag{7} \\$

$\text{LN}(x)=\frac{x-E(x)}{\sqrt{\text{Var}(x)+\epsilon}},\quad\beta=\frac{1}{nm}\parallel W\parallel_1 \tag{8} \\$

二、BitNet b1.58

? BitNet b1.58在BitNet的基礎上做了一些修改。

? 權重量化。采用absmean的方式將權重約束在 ${-1,0,1\}$ 中，而BitNet則將權重約束為二值 ${-1,1\}$ 。具體來說，先使用平均絕對值來縮放權重，然后通過舍入的方式轉換為 ${-1,0,1\}$ ：
$\widetilde{W}=\text{RoundClip}(\frac{W}{\gamma+\epsilon},-1,1)\tag{9} \\$

$\text{RoundClip}(x,a,b)=\max(a,\min(b,\text{round}(x)))\tag{10} \\$

$\gamma=\frac{1}{nm}\sum_{ij}|W_{ij}|\tag{11} \\$

? 激活量化。同BitNet一樣，但是對于非線性函數前的激活不再量化至 $0,Q_b]$ ，而是都量化至 $Q_b,Q_b]$ 。

? 此外，為了能夠方便于開源軟件兼容，整體結構采用類似LLaMA的結構。具體來說，使用RMSNorm、SwiGLU、RoPE并移除所有偏置。

三、實驗

1. 困惑度

在這里插入圖片描述

? BitNet b1.58在3B大小時，困惑度與LLaMA相匹配，但是速度快2.71倍且顯存使用減少3.55倍。當BitNet b1.58大小為3.9B時，速度快2.4倍且顯存減少3.32倍，并且效果顯著優于LLaMA 3B。

2. 下游任務

在這里插入圖片描述

? 隨著模型尺寸的增加，BitNet b1.58和LLaMA在下游任務上的差距逐步縮小。在尺寸達到3B時，BitNet b.158能夠與全精度相匹配。

3. 顯存和延時

在這里插入圖片描述

? 隨著模型尺寸的增加，BitNet b1.58的速度優勢和顯存優勢會更加明顯。

4. 能耗

在這里插入圖片描述

? 矩陣乘法是LLM中能耗最高的部分。BitNet b1.58主要是INT8的加法計算，而LLaMA則是由FP16加法和乘法組成。在7nm芯片上，BitNet b1.58能夠節約71.4倍的計算能耗。隨著模型尺寸的增加，BitNet b1.58在能耗方面會越來越高效。

5. 吞吐

在這里插入圖片描述
? 相同機器下，BitNet b1.58的batch size是LLaMA LLM的11倍，吞吐則是8.9倍。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/717861.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/717861.shtml
英文地址，請注明出處：http://en.pswp.cn/news/717861.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！