寫在前面
大型語言模型(LLM)API,特別是遵循 OpenAI 規范的接口(無論是 OpenAI 官方、Azure OpenAI,還是 DeepSeek、Moonshot 等眾多兼容服務),已成為驅動下一代 AI 應用的核心引擎。然而,隨著應用規模的擴大和用戶量的增長,僅僅關注模型的功能是不夠的,API 的性能表現成為決定用戶體驗和系統穩定性的關鍵因素。
開發者和運維團隊常常需要回答以下問題:
- 用戶發送請求后,需要多久才能看到第一個字的響應?(首 Token 延遲 - Time To First Token, TTFT)
- 我的 API 服務同時能處理多少個用戶的請求而不會崩潰或嚴重延遲?(最大并發數 - Max Concurrency)
- 在穩定運行狀態下,API 每秒鐘能成功處理多少個請求?(每秒查詢率 - Queries Per Second, QPS