AI Gateway 介紹

AI 網關和傳統的 API 網關

API 網關發展

在最開始的時候,互聯網通過電話線連接上網,通過“調制解調器(Modem)”將計算機信號和電話線信號“調制”與“調解”以實現上網功能。當今時代大多使用寬帶上網,撥號上網已被逐漸淘汰。

流量網關得雛形來自于路由器,交換機和中轉站等技術,在網絡流量傳輸中,幫助優化流量,提高安全性和流量管理能力。

傳統流量代理

隨著互聯網越來越普及和規模化,需要解決得問題越來越多,例如:

  • 跨域訪問;
  • 性能;
  • 安全等。

正向代理(Forward Proxy)

正向代理是客戶端(用戶)和目標服務器之間的中繼代理,客戶端通過正向代理發送請求,代理服務器將請求轉發給目標服務器,并將響應返回給客戶端。如下圖所示:

請添加圖片描述

正向代理服務器一般部署在客戶端內網環境中,內部用戶通過其來訪問外部資源。

如圖所示,正向代理解決了以下問題:

  1. 安全:保護用戶 IP 地址安全,防止 IP 追蹤;
  2. 突破封鎖:在一些情況下,客戶端無法直接訪問某些服務器,此時可以使用代理服務突破地理/IP 封鎖限制;
  3. 流量過濾:過濾流量內包含的不良信息,例如學校內網或者圖書館網絡等。

反向代理(Reverse Proxy)

反向代理是目標服務器的中繼節點,客戶端的請求首先到達反向代理,由它轉發到實際的目標服務器。目標服務器的響應同樣通過反向代理返回給客戶端,如下圖所示:

請添加圖片描述

反向代理服務器一般部署在服務端內網環境中,用來接受客戶端流量并轉發給服務器。

如圖所示,反向代理解決了以下問題:

  1. 安全:保護服務器的真實 IP 地址,抵御 DDos 攻擊;
  2. 性能優化:采用 LB 策略,靜態資源緩存等加速訪問;
  3. 統一服務入口。

應用場景如 WAF(Web Application Firewall,Web應用防火墻)、CDN 等。

API 網關代理

微服務架構的核心樞紐,統一管理 API 生命周期,實現流量管理,服務治理,安全防護等特性。

請添加圖片描述

在沒有 Web API Gateway 組件時,client 流量直接打在服務器上,對后端服務器壓力較大,且流量處理邏輯集中在后端上,使得后端服務不能專注于處理業務,同時還要處理和網絡日志等相關代碼邏輯。

加入 API gw 之后,統一將 API 流量管理分離到 API gw 來完成,其核心能力主要為:

  1. 服務治理:熔斷,限流,重試,healthCheck,金絲雀發布,可觀測支持等;
  2. 安全防護:高級認證,API 鑒權,黑白名單等;
  3. 流量管理:流量染色,多種路由策略,協議轉換等。

AI 網關

大模型時代的 AI API 流量調度中心,連接 AI 服務和應用客戶端。這里借用 Higress 的 AI 網關架構圖來展示。

img

AI 網關核心能力:

  1. AI 流量調度,提高 TTFT(Time To First Token)并提高系統吞吐量;
  2. MCP 生態集成,通過 AI 網關,集成 MCP Server;
  3. 保障大模型的內容安全,對輸入和輸出進行過濾;
  4. 屏蔽底層協議,對外暴露統一 endpoint。例如 OpenAI API 和 Dashscope API ;
  5. 實現 Token 限流功能;
  6. 實現 AI 可觀測集成等。

從 OpenAI GPT 爆火之后,企業級 AI 應用需求大幅增長,AI API 調用量激增, 通過 AI Gateway 可以大幅度提升 AI 接入體驗。以上幾點在 Higress AI 中都有體現,細節參考 Higress AI 。

AI 網關的理解

在上文中,介紹了 AI 網關的核心能力主要有以下幾點,其作為 API Gateway 的一個變種實現,主要為 AI 調用提供便利:

AI 流量調度

  • 感知流量調度:通過 LLM(大語言模型)感知的流量調度,利用 Prefix Cache、Lora Adapter、KVCache 等策略,實現 TTFT(響應時間)的大幅降低。
  • 公平調度:采用 VTC(虛擬時間控制)策略,確保流量的公平分配。

AI 服務治理

  • 多租戶限流:基于輸入/輸出 Token 實現的限流機制,確保不同用戶的請求得到合理處理。
  • 自動故障轉移:根據服務優先級進行推理服務的自動切換,提升系統的穩定性。
  • 超時重試:設置超時重試機制,確保請求的可靠性。

AI 安全防護

  • 證書管理:管理 LLM 供應商的證書,確保安全性。
  • 安全校驗:對請求的 prompt 進行安全校驗,防止惡意內容。
  • 內容過濾:實現不當內容的過濾,保障使用安全。

AI 可觀測性

  • 細粒度指標:提供對 LLM 服務訪問的細致指標,便于監控和分析。

AI 擴展插件

  • 插件機制:支持用戶面向 LLM 場景的插件,如語義緩存和 Prompt 改寫,增強功能靈活性。

AI 生態交互

  • 協議轉換:實現 MCP(模型控制協議)到 HTTP 的轉換,便于無縫對接。
  • 統一 API 管理:支持多 LLM 供應商的接入,簡化 API 管理流程。

AI 網關架構

下面以 Envoy AI Gatwway 為例,來分析下 AI 網關架構。其分為數據面(CP control plane)和控制面(DP data plane)。

  • CP:將用戶配置 CRD 等轉流量配置規則,下發至 DP;
  • DP:應用 CP 下發的規則,轉發給指定的 AI 后端。

請添加圖片描述

從架構圖可以看到,請求流量經過 External processor,通常在這里會給流量染色,加入后端服務特征,后續 DP 基于此特征轉發流量。

請添加圖片描述

上圖為 Envoy AI Gateway DP 面和流量示意圖。可以看出 Envoy AI Gateway 提供的 AI Gateway 發生在請求流量的那一步。

AI 網關功能詳解

LLM 感知的流量調度

基于 Prefix Cache 的調度

LLM 推理計算主要分為兩個過程:Prefill 階段(Prompt 計算)和 Decode 階段。在 Prefill 階段計算所有 Token 的 KV Cache,通常 KVCache 只是為單次推理的,當推理結束,對應的 KV-Cache 就會清除。此時,AI Gateway 就可以保存并復用對應的 KV Cache。

在某些 LLM 業務場景下,多次請求的 Prompt 可能會共享同一個前綴(Prefix),比如少量樣本學習,多輪對話等。在這些情況下,很多請求 Prompt 的前綴的 KV Cache 計算的結果是相同的,可以被緩存起來,給之后的請求復用。

這里既然要復用對應的 KV Cache,KV Cache 又是在同一個 AI 后端 pod 中產生的,那么自然要求 Prefix Cache 的優化要調度到同一個 Pod 上去。

基于 VTC 公平推理調度

參考地址 Arxiv:https://arxiv.org/pdf/2501.14312

虛擬令牌計數器(VTC)是基于 “大型語言模型服務的公平性” 的 LLM 服務公平調度算法。

VTC 的目的是通過跟蹤每個客戶獲得的服務(加權令牌計數),優先處理獲得服務較少的客戶,從而實現客戶之間的公平性。它集成了連續批處理功能,并能處理 LLM 服務所面臨的獨特挑戰,如可變的令牌成本和未知的輸出長度。

其他的調度策略不一一描述。

MCP 轉換

Higress 支持將存量的 API 服務轉為 MCP Server,并基于 Higress 進行服務調用。

Token 限流
  • https://higress.cn/ai/scene-guide/token-management/

AI Gateway 能夠對大模型使用的 Token 數量進行追蹤,在消費者使用超額時進行限制,從而更好管理調用 AI 應用的用戶額度,為 Token 使用分析提供數據支持

自動故障轉移

相關概念可以參考:https://help.aliyun.com/zh/api-gateway/ai-gateway/user-guide/ai-fallback

結合服務發現機制,為 AI 后端服務根據 Region 和 Zone 設立優先級,當某個 AI 后端服務不可用時,短暫從可用列表中摘除,使用小流量探測的手段,直至 AI 后端服務恢復時繼續提供服務。

AI 內容安全

基于此機制,API Gateway 可以通過進入阿里云的內容安全審核服務對用戶的 Prompt 進行檢測,以組織不安全的輸入:

請添加圖片描述

自定義擴展

可擴展是 API Gateway 的一個重要特性,支持用戶根據自己的流量場景,使用不同的語言定制化 API Gateway 插件,例如 Kong 和 APISIX 支持 Lua 插件集成。

在此處同樣參考 Higress 的架構圖,其基于 WASM 機制,提供了一系列的 AI 插件:

請添加圖片描述

參考資料

  1. Envoy AI Gateway:https://aigateway.envoyproxy.io/docs/concepts/architecture/system-architecture
  2. Higress AI:https://higress.ai/
  3. 阿里云內容審核服務:https://www.aliyun.com/product/lvwang
  4. K8s Gateway API 推理擴展:https://kubernetes.io/zh-cn/blog/2025/06/05/introducing-gateway-api-inference-extension/
  5. VTC 公平推理調度:https://arxiv.org/pdf/2501.14312

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85747.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85747.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85747.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

15.3 LLaMA 3+LangChain實戰:智能點餐Agent多輪對話設計落地,訂單準確率提升90%!

LLaMA 3LangChain實戰:智能點餐Agent多輪對話設計落地,訂單準確率提升90%! 關鍵詞:多輪對話設計、場景化提示工程、LLaMA 3 微調、LangChain Agent、飯店點餐場景建模 飯店點餐場景的 Agent 方案設計 通過分層架構實現復雜場景對…

EXPLAIN優化 SQL示例

以下通過 6 個真實案例展示如何使用 EXPLAIN 優化 SQL,每個案例包含問題 SQL、EXPLAIN 分析、優化方案和優化后效果對比: 案例 1:全表掃描優化 (typeALL) 問題 SQL(用戶訂單查詢): SELECT * FROM orders …

「Linux文件及目錄管理」通配符與文件名

「Linux文件及目錄管理」通配符與文件名 知識點解析 通配符是Linux中用于匹配文件名的特殊字符,能高效處理批量文件操作。 常見通配符包括: *:匹配任意字符序列(包括空字符)touch a b ab a123 # 創建測試文件 ls a* # 匹配a, ab, a123?:精確匹配單個字符…

服務器配置記錄

1. 獲取服務器IP,用戶,密碼 2. 使用VS Code遠程登錄 下載ssh插件本地cmd執行ssh-keygen -t rsa -b 4096 -C "jt_windows"完成密鑰生成。本地cmd執行type %USERPROFILE%\.ssh\id_rsa.pub查看密鑰并復制。遠程服務器執行以下命令: …

Windows 后滲透中可能會遇到的加密字符串分析

在 Windows 后滲透過程中,攻擊者經常會遇到各種加密字符串或數據,這些數據通常用于存儲敏感信息,如憑據、會話票據或配置數據。理解這些加密字符串的類型、加密機制、存儲位置以及解密方法,對于權限提升、橫向移動和持久化至關重要…

騰訊云本地專用集群CDC:混合云架構下的分布式云服務實踐

摘要 在數字化轉型加速的背景下,企業上云面臨數據合規、低時延、運維復雜度等多重挑戰。騰訊云本地專用集群CDC(Cloud Dedicated Cluster)通過融合公有云與本地IDC優勢,提供近場云服務解決方案。本文基于IDC行業報告及技術實測數…

wpa_supplicant 源碼學習

代碼地址:git clone https://w1.fi/hostap.git 我目前學的的版本是 wpa_supplicant 2.12-devel-hostap_2_11-857-g54930b62b 五月份左右的提交,是較新的代碼 想做白盒測試。最近開始學習 wpa_supplicant 這個工具。 自學了一個多月吧。 整理了一些代碼跳…

[學習] C語言<string.h>中字符串函數全解析

C語言<string.h>中字符串函數全解析 在 C 語言中&#xff0c;字符串處理是程序開發中的重要組成部分。C 標準庫 <string.h> 提供了一系列函數用于操作字符數組&#xff08;即字符串&#xff09;。這些函數以 str 開頭&#xff0c;功能強大、使用廣泛&#xff0c;掌…

OJ搭建:Judge0服務器、DeepSeek服務接入簡介

序 各大OJ平臺上有很多很好的資源&#xff0c;但作為自己的“備課本”總有各種不便&#xff0c;教學生時間久了總是有一些自己的題目和想法&#xff0c;這在教初學的學生時非常突出。所以&#xff0c;很多年前就搞了一些嘗試&#xff0c;包括&#xff1a;在機房搭建ubuntu服務器…

Java的鎖機制問題

鎖機制 1.鎖監視器 在 Java 并發編程中&#xff0c;鎖監視器&#xff08;Monitor&#xff09; 是對象內部與鎖關聯的同步機制&#xff0c;用于控制多線程對共享資源的訪問。以下是核心要點&#xff1a; &#x1f512; 監視器的核心組成 獨占區&#xff08;Ownership&#xff…

老鳳祥的AI智能眼鏡:讓智慧更近生活

在科技進步的潮流中,人工智能技術不斷為我們的生活增添色彩。近日,有關字節跳動旗下的火山引擎與中國珠寶品牌老鳳祥合作開發 AI 智能眼鏡的消息引發了廣泛關注。這款與眾不同的眼鏡因其獨特的功能及技術支持,已經在業內引起了極大反響。 AI眼鏡:老年群體的智能好幫手 根…

Kotlin 中為什么沒有靜態變量和靜態方法—不用static?

Kotlin 的設計核心是&#xff1a; 一切皆對象&#xff1a;消除 static 的「非對象」特性&#xff0c;用 companion&#xff08;對象&#xff09;和頂層函數&#xff08;包級對象&#xff09;替代&#xff0c;讓代碼更統一。避免全局狀態濫用&#xff1a;static 成員是全局可見…

VSCode性能調優:從卡頓到絲滑的終極方案

? 核心價值 "這套配置使某金融核心系統VS Code內存占用從8GB降至1.2GB,加載速度提升15倍" —— 2024某銀行效能優化報告 ?? 性能瓶頸拆解 一、百萬行項目優化方案 ?? 黃金配置參數 // settings.json(核彈級優化) {"files.watcherExclude": {"…

以云織夢,渡數濟世:輝瑞與亞馬遜云科技共譜醫藥新樂章

胖頭陀科技 編輯&#xff1a;沐由 【導讀】“用合規的數據來幫助患者&#xff0c;成為患者回歸健康的一味新藥。”當下&#xff0c;在數字洪流的浪潮中&#xff0c;這味“良藥”正沿著云和AI的脈絡&#xff0c;奔向有需求的千家萬戶…… 如果說到Pfizer&#xff0c;估計十個人…

SpringBoot后端開發知識點總結(持續更新)

目錄 1. 常用易混淆注解解釋1.1 Resource和Autowired注解的區別1.2 PathVariable和RequestParam注解的區別 2. Mybatis-Plus高級特性2.1 強大的通用CRUD接口2.2 代碼生成器 3. IDEA實用快捷鍵4. 前后端聯調關鍵點4.1 代碼示例4.2 聯調要點4.3 調試技巧 1. 常用易混淆注解解釋 …

電腦商城--用戶收貨管理

新增收貨地址 1 新增收貨地址-創建數據表 1.使用use命令先選中store數據庫。 USE store; 2.在store數據庫中創建t_address用戶數據表。 CREATE TABLE t_address (aid INT AUTO_INCREMENT COMMENT 收貨地址id,uid INT COMMENT 歸屬的用戶id,name VARCHAR(20) COMMENT 收貨人姓…

開發者避坑:接入Flux-Kontext API實現文生圖、圖生圖功能

在數字化浪潮背景下&#xff0c;人工智能&#xff08;Artificial Intelligence, AI&#xff09;技術正加速重塑圖像創作領域。智創聚合API平臺近日宣布整合Flux-Kontext系列模型&#xff0c;通過API接口支持圖生圖和文生圖功能&#xff0c;為開發者及創作者提供高效解決方案。此…

.Net Core 獲取與bin目錄相同文件路徑的文件

在 .NET Core 中&#xff0c;您可以使用以下方法來獲取與 bin 目錄相同的文件路徑。通常&#xff0c;bin 目錄是應用程序編譯后生成的輸出目錄&#xff0c;您可以使用 AppContext.BaseDirectory 或 Directory.GetCurrentDirectory() 來獲取該目錄的路徑。 以下是一些常用的方法…

RN(React Native)技術應用中常出現的錯誤及解決辦法

React Native 作為跨平臺開發框架&#xff0c;在實際應用中可能會遇到一些常見的錯誤。以下是React Native 技術應用中常出現的錯誤及解決辦法&#xff1a; 1. 網絡請求失敗&#xff08;Network Request Failed&#xff09; 原因&#xff1a; 請求地址不正確網絡權限未配置i…

Java 21 的虛擬線程與橋接模式:構建高性能并發系統

Java 21 的虛擬線程與橋接模式&#xff1a;構建高性能并發系統 &#x1f31f; 嗨&#xff0c;我是IRpickstars&#xff01; &#x1f30c; 總有一行代碼&#xff0c;能點亮萬千星辰。 &#x1f50d; 在技術的宇宙中&#xff0c;我愿做永不停歇的探索者。 ? 用代碼丈量世界&…