8 位量化使數十億參數規模的模型能夠適應更小的硬件,而不會降低性能。 8 位量化的工作原理如下:
1.從輸入隱藏狀態中按列提取較大值(離群值)。
2.對 FP16 中的離群值和 int8 中的非離群值執行矩陣乘法。
3.改變非異常值結果以將值拉回到 FP16,并將它們添加到 FP16 中的異常值結果中。
因此,本質上,我們執行矩陣乘法以節省精度,然后將非異常值結果拉回到 FP16,而非異常值的初始值和按比例縮小后的值之間沒有太大差異。你可以看下面的例子
8 位量化使數十億參數規模的模型能夠適應更小的硬件,而不會降低性能。 8 位量化的工作原理如下:
1.從輸入隱藏狀態中按列提取較大值(離群值)。
2.對 FP16 中的離群值和 int8 中的非離群值執行矩陣乘法。
3.改變非異常值結果以將值拉回到 FP16,并將它們添加到 FP16 中的異常值結果中。
因此,本質上,我們執行矩陣乘法以節省精度,然后將非異常值結果拉回到 FP16,而非異常值的初始值和按比例縮小后的值之間沒有太大差異。你可以看下面的例子
本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。 如若轉載,請注明出處:http://www.pswp.cn/news/208639.shtml 繁體地址,請注明出處:http://hk.pswp.cn/news/208639.shtml 英文地址,請注明出處:http://en.pswp.cn/news/208639.shtml
如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!