【自然語言處理】BitNet b1.58:1bit LLM時代

論文地址:https://arxiv.org/pdf/2402.17764.pdf

相關博客
【自然語言處理】BitNet b1.58:1bit LLM時代
【自然語言處理】【長文本處理】RMT:能處理長度超過一百萬token的Transformer
【自然語言處理】【大模型】MPT模型結構源碼解析(單機版)
【自然語言處理】【大模型】ChatGLM-6B模型結構代碼解析(單機版)
【自然語言處理】【大模型】BLOOM模型結構源碼解析(單機版)

一、BitNet

? BitNet采用了與Transformer基本一致的模型架構,僅將標準矩陣乘法層換成了BitLinear,其他組件仍然是高精度的。BitLinear主要是包含的操縱:權重量化、激活量化以及LayerNorm。

? 權重量化。通過減均值實現0中心化,然后用sign實現二值化。假設全精度權重為 W ∈ R n × m W\in\mathcal{R}^{n\times m} WRn×m,則二值量化過程為
W ~ = Sign ( W ? α ) (1) \widetilde{W}=\text{Sign}(W-\alpha) \tag{1} \\ W =Sign(W?α)(1)

Sign ( W i j ) = { + 1 , if W i j > 0 ? 1 , if W i j ≤ 0 (2) \text{Sign}(W_{ij})=\begin{cases} +1,&&\text{if}\;W_{ij}>0 \\ -1,&&\text{if}\;W_{ij}\leq 0 \\ \end{cases} \tag{2} \\ Sign(Wij?)={+1,?1,??ifWij?>0ifWij?0?(2)

α = 1 n m ∑ i j W i j (3) \alpha=\frac{1}{nm}\sum_{ij}W_{ij} \tag{3} \\ α=nm1?ij?Wij?(3)

? 激活量化。使用absmax的方式將激活量化至b-bit。具體的實現方式是乘以 Q b Q_b Qb?再除以輸入矩陣的最大絕對值,從而將激活縮放至 [ ? Q b , Q b ] ( Q b = 2 b ? 1 ) [-Q_b,Q_b](Q_b=2^{b-1}) [?Qb?,Qb?](Qb?=2b?1),即
x ~ = Quant ( x ) = Clip ( x × Q b γ , ? Q b + ? , Q b ? ? ) (4) \tilde{x}=\text{Quant}(x)=\text{Clip}(x\times\frac{Q_b}{\gamma},-Q_b+\epsilon,Q_b-\epsilon) \tag{4}\\ x~=Quant(x)=Clip(x×γQb??,?Qb?+?,Qb???)(4)

Clip ( x , a , b ) = max ? ( a , min ? ( b , x ) ) , γ = ∥ x ∥ ∞ (5) \text{Clip}(x,a,b)=\max(a,\min(b,x)),\quad\gamma=\parallel x\parallel_\infty \tag{5} \\ Clip(x,a,b)=max(a,min(b,x)),γ=∥x?(5)

其中 ? \epsilon ?是防止裁剪時溢出的小浮點數。

? 對于非線性函數之前的激活值則采用不同的量化方式,通過減輕最小值的方式將其縮放至 [ 0 , Q b ] [0,Q_b] [0,Qb?],從而保證所有值均為非負:
x ~ = Quant ( x ) = Clip ( ( x ? η ) × Q b γ , ? , Q b ? ? ) , η = min ? i , j x i j (6) \tilde{x}=\text{Quant}(x)=\text{Clip}((x-\eta)\times\frac{Q_b}{\gamma},\epsilon,Q_b-\epsilon),\quad\eta=\min_{i,j}x_{ij}\tag{6} \\ x~=Quant(x)=Clip((x?η)×γQb??,?,Qb???),η=i,jmin?xij?(6)
? LayerNorm。在對激活值量化前,為了保證量化后的方差穩定,采用了SubLN

? BitLinear的完成計算過程為
y = W ~ x ~ = W ~ Quant ( LN ( x ) ) × β γ Q b (7) y=\widetilde{W}\tilde{x}=\widetilde{W}\text{Quant}(\text{LN}(x))\times\frac{\beta\gamma}{Q_b}\tag{7} \\ y=W x~=W Quant(LN(x))×Qb?βγ?(7)

LN ( x ) = x ? E ( x ) Var ( x ) + ? , β = 1 n m ∥ W ∥ 1 (8) \text{LN}(x)=\frac{x-E(x)}{\sqrt{\text{Var}(x)+\epsilon}},\quad\beta=\frac{1}{nm}\parallel W\parallel_1 \tag{8} \\ LN(x)=Var(x)+? ?x?E(x)?,β=nm1?W1?(8)

二、BitNet b1.58

? BitNet b1.58在BitNet的基礎上做了一些修改。

? 權重量化。采用absmean的方式將權重約束在 { ? 1 , 0 , 1 } \{-1,0,1\} {?1,0,1}中,而BitNet則將權重約束為二值 { ? 1 , 1 } \{-1,1\} {?1,1}。具體來說,先使用平均絕對值來縮放權重,然后通過舍入的方式轉換為 { ? 1 , 0 , 1 } \{-1,0,1\} {?1,0,1}
W ~ = RoundClip ( W γ + ? , ? 1 , 1 ) (9) \widetilde{W}=\text{RoundClip}(\frac{W}{\gamma+\epsilon},-1,1)\tag{9} \\ W =RoundClip(γ+?W?,?1,1)(9)

RoundClip ( x , a , b ) = max ? ( a , min ? ( b , round ( x ) ) ) (10) \text{RoundClip}(x,a,b)=\max(a,\min(b,\text{round}(x)))\tag{10} \\ RoundClip(x,a,b)=max(a,min(b,round(x)))(10)

γ = 1 n m ∑ i j ∣ W i j ∣ (11) \gamma=\frac{1}{nm}\sum_{ij}|W_{ij}|\tag{11} \\ γ=nm1?ij?Wij?(11)

? 激活量化。同BitNet一樣,但是對于非線性函數前的激活不再量化至 [ 0 , Q b ] [0,Q_b] [0,Qb?],而是都量化至 [ ? Q b , Q b ] [-Q_b,Q_b] [?Qb?,Qb?]

? 此外,為了能夠方便于開源軟件兼容,整體結構采用類似LLaMA的結構。具體來說,使用RMSNorm、SwiGLU、RoPE并移除所有偏置。

三、實驗

1. 困惑度

在這里插入圖片描述

? BitNet b1.58在3B大小時,困惑度與LLaMA相匹配,但是速度快2.71倍且顯存使用減少3.55倍。當BitNet b1.58大小為3.9B時,速度快2.4倍且顯存減少3.32倍,并且效果顯著優于LLaMA 3B。

2. 下游任務

在這里插入圖片描述

? 隨著模型尺寸的增加,BitNet b1.58和LLaMA在下游任務上的差距逐步縮小。在尺寸達到3B時,BitNet b.158能夠與全精度相匹配。

3. 顯存和延時

在這里插入圖片描述

? 隨著模型尺寸的增加,BitNet b1.58的速度優勢和顯存優勢會更加明顯。

4. 能耗

在這里插入圖片描述

? 矩陣乘法是LLM中能耗最高的部分。BitNet b1.58主要是INT8的加法計算,而LLaMA則是由FP16加法和乘法組成。在7nm芯片上,BitNet b1.58能夠節約71.4倍的計算能耗。隨著模型尺寸的增加,BitNet b1.58在能耗方面會越來越高效。

5. 吞吐

在這里插入圖片描述
? 相同機器下,BitNet b1.58的batch size是LLaMA LLM的11倍,吞吐則是8.9倍。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/717861.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/717861.shtml
英文地址,請注明出處:http://en.pswp.cn/news/717861.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何在 Mac 上成功輕松地恢復 Excel 文件

Microsoft Excel 的 Mac 版本始終略落后于 Windows 版本,這也許可以解釋為什么如此多的用戶渴望學習如何在 Mac 上恢復 Excel 文件。 但導致重要電子表格不可用的不僅僅是 Mac 版 Excel 的不完全穩定性。用戶有時會失去注意力并刪除錯誤的文件,存儲設備…

2024-03-03 c++

🌸 MFC進度條控件 | Progress Control 1。新建MFC項目(基于對話框、靜態庫) 2。添加控件,刪除初始的3個多余控件 加1個progress control,修改其marquee為true,添加變量:變量名為test_progress。…

Angular基礎---HelloWorld---Day1

文章目錄 1. 創建Angular 項目2.對Angular架構的最基本了解3.創建并引用新的組件(component)4.對Angular架構新的認識(多組件)5.組件中業務邏輯文件的編輯(ts文件)6.標簽中屬性的綁定(1) ID的綁定(2) class…

String和String Builder

String和StringBuilder的區別 String類 String類代表字符串。java程序中所有字符串文字(例如“abc”)都被實現為此類的實例。 String類源碼是用final修飾的,它們的值在創建后不能被更改。字符串緩沖區支持可變字符串。 String對象是不可變…

STM32 (2)

1.stm32編程模型 將C語言程序燒錄到芯片中會存儲在單片機的flsah存儲器中,給芯片上電后,Flash中的程序會逐條進入到CPU中去執行,進而CPU去控制各種模塊(即外設)去實現各種功能。 2.寄存器和寄存器編程 CPU通過控制其…

Apache POI的簡單介紹與應用

介紹 Apache POI 是一個處理Miscrosoft Office各種文件格式的開源項目。我們可以使用 POI 在 Java 程序中對Miscrosoft Office各種文件進行讀寫操作。PS: 一般情況下,POI 都是用于操作 Excel 文件,如圖: Apache POI 的應用場景&…

SQL無列名注入

SQL無列名注入 ? 前段時間,隊里某位大佬發了一個關于sql注入無列名的文章,感覺好像很有用,特地研究下。 關于 information_schema 數據庫: ? 對于這一個庫,我所知曉的內容并不多,并且之前總結SQL注入的…

設計模式-橋接模式實踐案例

橋接模式(Bridge Pattern)是一種結構型設計模式,用于將抽象與實現分離,使它們可以獨立地變化。這種模式通過提供一個橋接結構,可以將實現接口的實現部分和抽象層中可變化的部分分離開來。 以下是一個使用 Java 實現橋…

【數據結構】_包裝類與泛型

目錄 1. 包裝類 1.1 基本數據類型和對應的包裝類 1.2 (自動)裝箱和(自動)拆箱 1.2.1 裝箱與拆箱 1.2.2 自動(顯式)裝箱與自動(顯式)拆箱 1.3 valueOf()方法 2. 泛型類 2.1 泛…

【深度學習筆記】計算機視覺——目標檢測和邊界框

目標檢測和邊界框 前面的章節(例如 sec_alexnet— sec_googlenet)介紹了各種圖像分類模型。 在圖像分類任務中,我們假設圖像中只有一個主要物體對象,我們只關注如何識別其類別。 然而,很多時候圖像里有多個我們感興趣…

某大型制造企業數字化轉型規劃方案(附下載)

目錄 一、項目背景和目標 二、業務現狀 1. 總體應用現狀 2. 各模塊業務問題 2.1 設計 2.2 仿真 2.3 制造 2.4 服務 2.5 管理 三、業務需求及預期效果 1. 總體業務需求 2. 各模塊業務需求 2.1 設計 2.2 仿真 2.3 制造 2.4 服務 2.5 管理 四、…

在vue中對keep-alive的理解,它是如何實現的,具體緩存的是什么?

對keep-alive的理解,它是如何實現的,具體緩存的是什么? (1)keep-alive有以下三個屬性:注意:keep-alive 包裹動態組件時,會緩存不活動的組件實例。主要流程 (2&#xff09…

數字化轉型導師堅鵬:證券公司數字化營銷

證券公司數字化營銷 ——借力數字化技術實現零售業務的批量化、精準化、場景化、智能化營銷 課程背景: 很多證券公司存在以下問題: 不知道如何提升證券公司數字化營銷能力? 不知道證券公司如何開展數字化營銷工作? 不知道…

胎神游戲集第二期

延續上一期 一、海島奇胎 #include<bits/stdc.h> #include<windows.h> #include<stdio.h> #include<conio.h> #include<time.h> using namespace std; typedef BOOL (WINAPI *PROCSETCONSOLEFONT)(HANDLE, DWORD); PROCSETCONSOLEFONT SetCons…

Linux 安裝pip和換源

一 配置文檔 Linux和macOS&#xff1a; 全局配置&#xff1a;/etc/pip.conf 用戶級配置&#xff1a;~/.pip/pip.conf 或 ~/.config/pip/pip.conf 二 下載 和 安裝 # pip 安裝 wget https://bootstrap.pypa.io/get-pip.py python get-pip.py 三 查看和升級 pip -Vpython -m…

GO語言學習筆記(與Java的比較學習)(十一)

協程與通道 什么是協程 一個應用程序是運行在機器上的一個進程&#xff1b;進程是一個運行在自己內存地址空間里的獨立執行體。一個進程由一個或多個操作系統線程組成&#xff0c;這些線程其實是共享同一個內存地址空間的一起工作的執行體。 并行是一種通過使用多處理器以提…

Java虛擬機 - JVM

JVM的內存區域劃分 JVM它其實也是一個進程,進程運行的過程中,會從操作系統中申請一些資源.內存就是其中的一種.這些內存就支撐了java程序的運行.JVM從系統中申請的一大塊內存,會根據實際情況和使用用途來劃分出不同的空間,這個就是區域劃分.它一般分為 堆區, 棧區, 程序計數器…

springboot240基于Spring boot的名城小區物業管理系統

基于Spring boot的名城小區物業管理系統的設計與實現 摘要 當下&#xff0c;正處于信息化的時代&#xff0c;許多行業順應時代的變化&#xff0c;結合使用計算機技術向數字化、信息化建設邁進。以前相關行業對于物業信息的管理和控制&#xff0c;采用人工登記的方式保存相關數…

InnoDB存儲引擎對MVCC的實現

MVCC MVCC的目的 在搞清楚MVCC之前,我們要搞懂一個問題,MVCC到底解決的是什么問題? 我用一句話概括,那就是為了解決讀-寫可以一起的問題! 在我們的印象里,InnoDB可以讀讀并發,不能讀寫并發,或者寫寫并發 這是很正常的想法,因為如果讀寫并發的化,會有并發問題 而對于寫寫…

帶壓縮路徑的并查集

find帶壓縮路徑的并查集 int fa[]; void init(int _size) {for(int i0;i<_size;i){fa[i] i;} } int find(int aim) {int cur aim;while (fa[aim] ! aim){aim fa[aim];}while (fa[cur] ! cur){int tmp cur;cur fa[cur];fa[tmp] aim;}return aim; } void join(int a,in…