AI Gateway 介紹

AI 網關和傳統的 API 網關

API 網關發展

在最開始的時候，互聯網通過電話線連接上網，通過“調制解調器（Modem）”將計算機信號和電話線信號“調制”與“調解”以實現上網功能。當今時代大多使用寬帶上網，撥號上網已被逐漸淘汰。

流量網關得雛形來自于路由器，交換機和中轉站等技術，在網絡流量傳輸中，幫助優化流量，提高安全性和流量管理能力。

傳統流量代理

隨著互聯網越來越普及和規模化，需要解決得問題越來越多，例如：

跨域訪問；
性能；
安全等。

正向代理（Forward Proxy）

正向代理是客戶端（用戶）和目標服務器之間的中繼代理，客戶端通過正向代理發送請求，代理服務器將請求轉發給目標服務器，并將響應返回給客戶端。如下圖所示：

請添加圖片描述

正向代理服務器一般部署在客戶端內網環境中，內部用戶通過其來訪問外部資源。

如圖所示，正向代理解決了以下問題：

安全：保護用戶 IP 地址安全，防止 IP 追蹤；
突破封鎖：在一些情況下，客戶端無法直接訪問某些服務器，此時可以使用代理服務突破地理/IP 封鎖限制；
流量過濾：過濾流量內包含的不良信息，例如學校內網或者圖書館網絡等。

反向代理（Reverse Proxy）

反向代理是目標服務器的中繼節點，客戶端的請求首先到達反向代理，由它轉發到實際的目標服務器。目標服務器的響應同樣通過反向代理返回給客戶端，如下圖所示：

請添加圖片描述

反向代理服務器一般部署在服務端內網環境中，用來接受客戶端流量并轉發給服務器。

如圖所示，反向代理解決了以下問題：

安全：保護服務器的真實 IP 地址，抵御 DDos 攻擊；
性能優化：采用 LB 策略，靜態資源緩存等加速訪問；
統一服務入口。

應用場景如 WAF（Web Application Firewall，Web應用防火墻）、CDN 等。

API 網關代理

微服務架構的核心樞紐，統一管理 API 生命周期，實現流量管理，服務治理，安全防護等特性。

請添加圖片描述

在沒有 Web API Gateway 組件時，client 流量直接打在服務器上，對后端服務器壓力較大，且流量處理邏輯集中在后端上，使得后端服務不能專注于處理業務，同時還要處理和網絡日志等相關代碼邏輯。

加入 API gw 之后，統一將 API 流量管理分離到 API gw 來完成，其核心能力主要為：

服務治理：熔斷，限流，重試，healthCheck，金絲雀發布，可觀測支持等；
安全防護：高級認證，API 鑒權，黑白名單等；
流量管理：流量染色，多種路由策略，協議轉換等。

AI 網關

大模型時代的 AI API 流量調度中心，連接 AI 服務和應用客戶端。這里借用 Higress 的 AI 網關架構圖來展示。

AI 網關核心能力：

AI 流量調度，提高 TTFT（Time To First Token）并提高系統吞吐量；
MCP 生態集成，通過 AI 網關，集成 MCP Server；
保障大模型的內容安全，對輸入和輸出進行過濾；
屏蔽底層協議，對外暴露統一 endpoint。例如 OpenAI API 和 Dashscope API ；
實現 Token 限流功能；
實現 AI 可觀測集成等。

從 OpenAI GPT 爆火之后，企業級 AI 應用需求大幅增長，AI API 調用量激增，通過 AI Gateway 可以大幅度提升 AI 接入體驗。以上幾點在 Higress AI 中都有體現，細節參考 Higress AI 。

AI 網關的理解

在上文中，介紹了 AI 網關的核心能力主要有以下幾點，其作為 API Gateway 的一個變種實現，主要為 AI 調用提供便利：

AI 流量調度

感知流量調度：通過 LLM（大語言模型）感知的流量調度，利用 Prefix Cache、Lora Adapter、KVCache 等策略，實現 TTFT（響應時間）的大幅降低。
公平調度：采用 VTC（虛擬時間控制）策略，確保流量的公平分配。

AI 服務治理

多租戶限流：基于輸入/輸出 Token 實現的限流機制，確保不同用戶的請求得到合理處理。
自動故障轉移：根據服務優先級進行推理服務的自動切換，提升系統的穩定性。
超時重試：設置超時重試機制，確保請求的可靠性。

AI 安全防護

證書管理：管理 LLM 供應商的證書，確保安全性。
安全校驗：對請求的 prompt 進行安全校驗，防止惡意內容。
內容過濾：實現不當內容的過濾，保障使用安全。

AI 可觀測性

細粒度指標：提供對 LLM 服務訪問的細致指標，便于監控和分析。

AI 擴展插件

插件機制：支持用戶面向 LLM 場景的插件，如語義緩存和 Prompt 改寫，增強功能靈活性。

AI 生態交互

協議轉換：實現 MCP（模型控制協議）到 HTTP 的轉換，便于無縫對接。
統一 API 管理：支持多 LLM 供應商的接入，簡化 API 管理流程。

AI 網關架構

下面以 Envoy AI Gatwway 為例，來分析下 AI 網關架構。其分為數據面（CP control plane）和控制面（DP data plane）。

CP：將用戶配置 CRD 等轉流量配置規則，下發至 DP；
DP：應用 CP 下發的規則，轉發給指定的 AI 后端。

請添加圖片描述

從架構圖可以看到，請求流量經過 External processor，通常在這里會給流量染色，加入后端服務特征，后續 DP 基于此特征轉發流量。

請添加圖片描述

上圖為 Envoy AI Gateway DP 面和流量示意圖。可以看出 Envoy AI Gateway 提供的 AI Gateway 發生在請求流量的那一步。

AI 網關功能詳解

LLM 感知的流量調度

基于 Prefix Cache 的調度

LLM 推理計算主要分為兩個過程：Prefill 階段（Prompt 計算）和 Decode 階段。在 Prefill 階段計算所有 Token 的 KV Cache，通常 KVCache 只是為單次推理的，當推理結束，對應的 KV-Cache 就會清除。此時，AI Gateway 就可以保存并復用對應的 KV Cache。

在某些 LLM 業務場景下，多次請求的 Prompt 可能會共享同一個前綴（Prefix），比如少量樣本學習，多輪對話等。在這些情況下，很多請求 Prompt 的前綴的 KV Cache 計算的結果是相同的，可以被緩存起來，給之后的請求復用。

這里既然要復用對應的 KV Cache，KV Cache 又是在同一個 AI 后端 pod 中產生的，那么自然要求 Prefix Cache 的優化要調度到同一個 Pod 上去。

基于 VTC 公平推理調度

參考地址 Arxiv：https://arxiv.org/pdf/2501.14312

虛擬令牌計數器（VTC）是基于 “大型語言模型服務的公平性” 的 LLM 服務公平調度算法。

VTC 的目的是通過跟蹤每個客戶獲得的服務（加權令牌計數），優先處理獲得服務較少的客戶，從而實現客戶之間的公平性。它集成了連續批處理功能，并能處理 LLM 服務所面臨的獨特挑戰，如可變的令牌成本和未知的輸出長度。

其他的調度策略不一一描述。

MCP 轉換

Higress 支持將存量的 API 服務轉為 MCP Server，并基于 Higress 進行服務調用。

Token 限流

https://higress.cn/ai/scene-guide/token-management/

AI Gateway 能夠對大模型使用的 Token 數量進行追蹤，在消費者使用超額時進行限制，從而更好管理調用 AI 應用的用戶額度，為 Token 使用分析提供數據支持

自動故障轉移

相關概念可以參考：https://help.aliyun.com/zh/api-gateway/ai-gateway/user-guide/ai-fallback

結合服務發現機制，為 AI 后端服務根據 Region 和 Zone 設立優先級，當某個 AI 后端服務不可用時，短暫從可用列表中摘除，使用小流量探測的手段，直至 AI 后端服務恢復時繼續提供服務。

AI 內容安全

基于此機制，API Gateway 可以通過進入阿里云的內容安全審核服務對用戶的 Prompt 進行檢測，以組織不安全的輸入：

請添加圖片描述

自定義擴展

可擴展是 API Gateway 的一個重要特性，支持用戶根據自己的流量場景，使用不同的語言定制化 API Gateway 插件，例如 Kong 和 APISIX 支持 Lua 插件集成。

在此處同樣參考 Higress 的架構圖，其基于 WASM 機制，提供了一系列的 AI 插件：

請添加圖片描述

參考資料

Envoy AI Gateway：https://aigateway.envoyproxy.io/docs/concepts/architecture/system-architecture
Higress AI：https://higress.ai/
阿里云內容審核服務：https://www.aliyun.com/product/lvwang
K8s Gateway API 推理擴展：https://kubernetes.io/zh-cn/blog/2025/06/05/introducing-gateway-api-inference-extension/
VTC 公平推理調度：https://arxiv.org/pdf/2501.14312