大模型性能優化KV Cache

原理

KV Cache的本質就是避免重復計算，把需要重復計算的結果進行緩存，生成式模型的新的token的產生需要用到之前的所有token的 $K, V$ ，在計算注意力的時候是當前的 $Q$ 和所有的 $K, V$ 來進行計算，所以是緩存 $K, V$ 。

由于Causal Mask的存在，前面已經生成的token不需要與后面的token產生attention，也就是用不到前面token的 $Q$ ，用的上前面token的 $K, V$ ，具體的公式如下：
$att_1(Q,K,V)=softmax(\frac{Q_1K_1^T}{\sqrt{D}})V_1$
$att_2(Q,K,V)=softmax(\frac{Q_2K_1^T}{\sqrt{D}})V_1+softmax(\frac{Q_2K_2^T}{\sqrt{D}})V_2$
$att_3(Q,K,V)=softmax(\frac{Q_3K_1^T}{\sqrt{D}})V_1+softmax(\frac{Q_3K_2^T}{\sqrt{D}})V_2+softmax(\frac{Q_3K_3^T}{\sqrt{D}})V_3$

可以看出， $K, V$ 存在重復計算的情況，因此可以進行Cache。

KV Cache只適用于Decoder架構，因為有Causal Mask的存在，如果是Encoder，處理的是輸入序列，是一次性完成整個序列attention的計算，并不像Decoder一樣有自左向右的重復性的計算，Encoder由于其一次性和并行性，用不上KV-Cache，而解碼器由于其自回歸性，KV Cache是很有用的。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/35776.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/35776.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/35776.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！