大模型推理框架vLLM 中的Prompt緩存實現原理

背景：為什么需要Prompt緩存模塊？

在大模型問答多輪對話應用場景中，不同請求的 Prompt 往往有相同的前綴，比如：

第一次問答：

你是一名專業的電子產品客服，負責回答客戶關于手機產品的咨詢。請根據以下問題提供準確、友好的回答。
當前產品庫支持查詢的品牌包括：Apple、華為、小米、三星。用戶問題：
iPhone 16 的電池容量是多少？
模型回答：
iPhone 16 的電池容量為 3227 mAh。

第二次問答：

（保留之前所有上下文）
你是一名專業的電子產品客服...（同上）用戶問題：
iPhone 16 的電池容量是多少？
模型回答：
iPhone 16 的電池容量為 3227 mAh.用戶新問題：
那它的快充功率呢？
模型回答：
iPhone 16 支持 20W 快充。

兩輪問答請求中，系統預設的客服角色描述、產品庫范圍等前綴內容完全一致，這就會導致模型推理流程：

Prefix Cache 通過緩存這個已計算好的 Prompt 編碼結果（KV 對）直接復用，前面的結果會存儲在GPU緩存中，生成時只算后半部分。

這里說的Prompt緩存實際是vLLM中Prefix Cache的實現

vLLM 的 Prefix Cache 原理

vLLM 中的 Prefix Cache 是基于 KV Cache 的靜態共享機制，主要思路：

前綴哈希（Prefix Hashing）
- 將 Prompt 轉成 token 序列后計算哈希值
- 相同 token 序列的哈希值相同
- 哈希值作為緩存 key
存儲 KV 對（Key/Value Tensors）
- KV 對是 attention 層計算后的結果
- 存在 GPU 顯存中（或部分放在 CPU 內存）
復用機制（Reuse）
- 當新的請求到來時，如果前綴哈希匹配，就直接加載已有的 KV 對
- 只需對新增的 token 做計算
分頁管理（PagedAttention 兼容）
- Prefix Cache 依舊用 page（block）方式管理
- 可與普通 KV Cache 混用，不影響批處理

工作流程：

以一次批處理請求為例：

這樣的好處是可以減少重復計算：多個請求共享相同前綴的計算結果，同時加速批處理：常見系統提示（system prompt）復用率很高

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/93067.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/93067.shtml
英文地址，請注明出處：http://en.pswp.cn/web/93067.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！