VLLM專題（三十九）—自動前綴緩存（二）

diannao/2025/8/22 4:03:50/文章來源:https://blog.csdn.net/qq_39698985/article/details/146325312

前綴緩存（Prefix Caching）是一種在LLM推理中廣泛使用的優化技術，旨在避免冗余的提示詞（prompt）計算。其核心思想很簡單——我們緩存已處理請求的鍵值緩存（kv-cache）塊，并在新請求的前綴與之前請求相同時重用這些塊。由于前綴緩存幾乎是一種“免費的午餐”，并且不會改變模型輸出，因此它已被許多公共端點（例如OpenAI、Anthropic等）和大多數開源LLM推理框架（例如SGLang）廣泛采用。

盡管實現前綴緩存的方法有很多，但vLLM選擇了一種基于哈希的方法。具體來說，我們通過對每個kv-cache塊中的token以及該塊之前的prefix中的token進行哈希來標識緩存塊。

                    Block 1                  Block 2                  Block 3[A gentle breeze stirred] [

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/74228.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/74228.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/74228.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！