文章目錄
- SGLang
- 安裝
- deepseek運行
- Qwen3-30B-A3B
官網:https://github.com/sgl-project/sglang
SGLang
SGLang 是一個面向大語言模型和視覺語言模型的高效服務框架。它通過協同設計后端運行時和前端編程語言,使模型交互更快速且具備更高可控性。核心特性包括:
1. 快速后端運行時
- 高效服務能力:通過基數注意力(RadixAttention)實現前綴緩存、零開銷CPU調度器、連續批處理、分頁注意力(Token Attention)、推測式解碼、張量并行、分塊預填充、結構化輸出、量化支持(FP8/INT4/AWQ/GPTQ)以及多LoRA批處理。
- 性能優化:支持分布式推理加速和動態內存管理,顯著降低延遲。
2. 靈活的前端編程語言
- 直觀開發接口:支持鏈式生成調用、高級提示工程、控制