『大模型筆記』并發請求中的 Prefill 與 Decode:優化大語言模型性能 |
文章目錄
- 一. Token 生成的兩個階段:Prefill 和 Decode
- 1.1. 指標分析
- 1.2. 資源利用率分析
- 二. 并發處理機制
- 2.1. 靜態批處理 vs 持續批處理(Static Batching vs. Continuous Batching)
- 2.2. Prefill 優先策略
- 2.3. 分塊 Prefill 策略(Chunked Prefill)
- 三. 參考文獻
系列文章,目錄如下:
- 第0篇:『大模型筆記』基于Transformer的生成式模型分布式服務系統
- 第1篇:『大模型筆記』高效請求排隊:優化大語言模型(LLM)性能
- 第2篇:『大模型筆記』并發請求中的 Prefill