『大模型筆記』高效請求排隊:優化大語言模型(LLM)性能 |
文章目錄
- 一. 起點:基礎的推理引擎
- 二. 問題:“重度用戶”會阻塞其他用戶
- 三. 解決方案:公平調度
- 3.1. 擴展思路
- 四. 問題:后端隊列沒有“反壓”機制
- 五. 解決方案:獲取后端指標
- 5.1 擴展思路
- 六. 替代方案:后端優先級調度
- 6.1. 后端優先級調度能否完全替代 LLM-Server 的調度功能?
- 七. 總結與展望
- 八. 參考文獻
系列文章,目錄如下:
- 第0篇:『大模型筆記』基于Transformer的生成式模型分布式服務系統
- 第1篇:『大模型筆記』高效請求排隊:優化大語言模型(LLM)性能
- 第2篇:『大模型筆記』并發請求中的 Prefi