從FP32到BF16，再到混合精度的全景解析

筆者做過目標檢測模型、超分模型以及擴散生成模型。其中最常使用的是單精度FP32、半精度FP16、BF16。
雙精度"FP64"就不說了，不太會用到。

單精度（FP32）、半精度（FP16）和混合精度（FP32+FP16） 是常見的浮點數計算格式，在深度學習模型的訓練與推理中都有涉及。
它們在計算效率、顯存占用和數值穩定性上有顯著差異。以下是它們的核心區別對比：

精度類型	位數	顯存占用&生成效果	生成速度	用途
FP32	32-bit	🌟🌟🌟🌟最高	🌟最慢	預訓練
FP16	16-bit	🌟🌟	🌟🌟🌟	微調訓練、推理
BF16	16-bit	🌟🌟	🌟🌟🌟	微調訓練、推理
混合精度	FP16+FP32	🌟🌟🌟	🌟🌟	微調訓練、推理
FP8 (E4M3)	8-bit	🌟最低	🌟🌟🌟🌟最快	邊緣設備推理
FP8 (E5M2)	8-bit	🌟最低	🌟🌟🌟🌟最快	邊緣設備推理

注：推理即圖像生成。

簡單的說，「BF16」的顯存占用與「FP16」相近，但穩定性與訓練效果更好。所以在訓練時建議用「BF16」替代「FP16」。

「BF16」由 Google Brain 提出，保留與 FP32 相同的指數位數（8 位指數），僅降低小數位數（從FP32的23 位縮減到7位）。雖然BF16點小數部分精度低于 FP16的10位，但這部分對深度學習影響較小，可以暫時忽略。

混合精度會同時使用 FP16 和 FP32，關鍵部分（如梯度更新）保留 FP32。

筆者一般會直接使用自動混合精度（AMP），即讓程序自己選擇精度，一般來講模型權重會保存為FP32，前向與反向傳播用FP16。

實際中很少使用FP8，因為它們的生成效果幾乎是最差的（不管INT8），基本只會用于邊緣設備（如RV1126等）。所以只需簡單了解：

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/77141.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/77141.shtml
英文地址，請注明出處：http://en.pswp.cn/web/77141.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！