【大模型推理】PD分離場景下decoder負載均衡,如何選取decoder

https://mp.weixin.qq.com/s?__biz=Mzg4NTczNzg2OA==&mid=2247507420&idx=1&sn=4b32726abd205c7f94144bcb9105330f&chksm=ce64b9fc7f1d8de04a40b0153302dee52262c6f104c67195e2586e75c8093b8be493f252c8a3#rd
在非 Local 場景下,Prefill 定時獲取 Decode 的節點狀態信息并進行檢測,保證健康節點的服務,提供底線容災能力,并基于此實現了 Prefill-Decode 之間的負載均衡。目前 Prefill 選取 Decode 的負載均衡支持兩種:

RR 策略,Round Robin 的方式輪詢 Decode 節點。

WRR 策略,加權 RR 策略,根據 Decode 剩余可用顯存分配權重,在動態變化的負載環境下維持系統的高穩定性和響應速度。

負載均衡
在逐步增大流量規模的時候,我們發現有時候 Decode 會突然出現爆顯存的問題。這是因為在一個短暫的時間內,可能存在一個長請求將 Decode 顯存占滿的情況。Prefill 節點訪問哪臺 Decode 節點:我們初期采用的是 RR(Round Robin)的策略,這個策略面對突發情況無能為力。

在這里插入圖片描述

基于這個觀察,我們開發了 WRR(加權 Round Robin),Prefill 實時獲取 Decode 的剩余顯存,動態決定負載均衡。這個方法進一步提高了系統的魯棒性。
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85383.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85383.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85383.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【IP地址】IP應用場景的使用方向

網絡安全領域 通過IP地址查詢,安全系統能夠實時監控網絡流量,識別異常訪問行為。例如,當某個IP地址在短時間內頻繁發起大量請求,且訪問模式與正常用戶存在明顯差異時,系統可將其標記為可疑IP,觸發風險預警…

3-18 WPS JS宏 顏色設置實例應用(按條件設置單元格顏色)學習筆記

前面講解了關于單元格的一些格式的設置,本節課再講解一下各種清除方法。 1.函數解析與用法 Range().clear()//清除全部 Range().Value2null //清除內容 Range().ClearContents()//清除內容 Range().ClearFormats()//清除格式 Range().EntireRow.Range()//以Ra…

從零開始的云計算生活——第二十天,腳踏實地,SSH與Rsync服務

目錄 一.故事背景 二.SSH帶外管理 1.概述 2. 配置文件 3.命令解析 4.登錄方式配置 a.用戶名密碼登錄 b.公鑰驗證登錄 5.實操生成密鑰對 三.Rsyncsersync實現數據實時同步 1.rsync概述 2.rsync運行原理 3.rsync部署 4.備份測試 配置備份目錄 5.rsyncsersync 實現…

SpringAI + DeepSeek大模型應用開發 - 初識篇

一、認識AI 1. AI的發展 AI,人工智能(Artificial Intelligence),使機器能像人類一樣思考、學習和解決問題的技術。 2. 大模型及其原理 在自然語言處理(Natural Language Processing, NLP)中,…

c++第八天-多態

虛函數虛析構函數純虛函數與抽象類 多態實現的條件:(1)公有繼承 (2)派生類重寫基類虛函數 (3)基類指針/引用指向派生類對象 虛函數不能是構造函數,不能是靜態函數,不能…

全景圖渲染Vue3+TS使用Photo Sphere Viewer插件實現

1.Photo Sphere Viewer插件安裝: title=插件安裝 體驗AI代碼助手 代碼解讀復制代碼npm install photo-sphere-viewer -S 或 yarn add photo-sphere-viewer -S 2.原始全景圖展示 初始化標簽容器 體驗AI代碼助手 代碼解讀復制代碼 // 全景圖的根節點必須要具備寬高 TS引用,創建…

Redis之分布式鎖(3)

這篇文章我們來詳細介紹一下如何正確地基于Redis實現分布式鎖。 基于Redis的分布式鎖實現 組件依賴 首先通過Maven引入Jedis開源組件&#xff0c;在pom.xml文件加入下面的代碼&#xff1a; <dependency><groupId>redis.clients</groupId><artifactId&g…

Java課堂筆記11

三個修飾符 一、abstract&#xff08;抽象&#xff09; 1.抽象方法只能在抽象的類里&#xff0c;只有方法的聲明&#xff0c;沒有方法的實現。&#xff08;沒有{}直接&#xff1b;結尾&#xff09;。 2.abstract修飾的類稱為抽象類。 注意&#xff1a;&#xff08;1&#x…

Linux 核心知識點整理(高頻考點版)

一、編譯與工具鏈 GCC 編譯流程 四階段&#xff1a;預處理&#xff08;-E&#xff0c;處理頭文件 / 宏&#xff09;→ 編譯&#xff08;-S&#xff0c;生成匯編&#xff09;→ 匯編&#xff08;-c&#xff0c;生成目標文件&#xff09;→ 鏈接&#xff08;生成可執行程序&…

輕量化社交管理方案:Skout與云手機的巧妙搭配

在移動社交時代&#xff0c;許多用戶開始嘗試通過多賬號管理來拓展社交圈層。近期測試了Skout社交平臺與亞矩陣云手機的搭配使用&#xff0c;發現這個組合為輕量級社交賬號管理提供了一個值得關注的解決方案。 基礎功能介紹 這套組合的核心優勢在于&#xff1a; 通過云手機實…

ETL連接器好用嗎?如何實現ETL連接?

目錄 一、ETL連接器的功能和優勢 1. 數據抽取能力 2. 數據轉換功能 3. 數據加載功能 4. 優勢總結 二、實現ETL連接的步驟 1. 需求分析 2. 選擇合適的ETL連接器 3. 配置數據源和目標系統 4. 設計ETL流程 5. 開發和測試ETL任務 6. 部署和監控ETL任務 三、ETL連接器在…

uniapp實現聊天中的接發消息自動滾動、消息定位和回到底部

前言 前言無需多言&#xff0c;想必大家對聊天軟件的功能已經很熟悉&#xff0c; 這里不做過多贅述&#xff0c;筆者通過uniapp實現聊天中的接發消息自動滾動、消息定位和回到底部。 代碼實現 <template><view class"chat-container"><!-- 消息列表…

MyBatisMyBatis plus

整合 MyBatis 到 Spring 或 Spring Boot 項目中&#xff0c;可以極大地簡化開發流程&#xff0c;尤其是當使用 Spring Boot 時&#xff0c;它提供了自動配置功能&#xff0c;使得集成更加簡便。 在 Spring Boot 中整合 MyBatis 1. 添加依賴 首先&#xff0c;在 pom.xml 文件中…

Stable Diffusion 實戰-手機壁紙制作 第二篇:優化那些“崩臉”和“馬賽克”問題,讓圖像更加完美!

歡迎回來!在《StableDiffusion實戰-手機壁紙制作》系列的第一篇中,我們成功完成了基礎操作,制作出了令人炫目的手機壁紙。 今天,我們將進入一個更高階的領域——優化處理。因為誰不想讓生成的藝術品更完美呢?尤其是避免“崩臉”和“馬賽克”這種讓人抓狂的問題! 創作的路…

408第一季 - 數據結構 - B樹與B+樹

B樹 性質 可以看見一個節點可以有多個數字了 然后也滿足左小右大的特征 然后所有的葉子節點都在同一層&#xff0c;然后2個數字的節點就可以有3個分支 然后呢&#xff0c;每個節點里面到底有幾個數字是有規定的公式的 就這個公式&#xff0c;m是5階的&#xff0c;算出來是2和…

SSRF5 Gopher 協議對內網 Web 服務進行 sql 注入 GET 類型和POST類型

實驗環境&#xff1b; Centos7.6上同時安裝sqli-lib和pikachu 一.Gopher 協議對內網 Web 服務進行 sql 注入 GET 類型 我們先訪問sqli-lib第1關 然后我們構造URL&#xff1a; http://192.168.112.12/pikachu-master/vul/ssrf/ssrf_curl.php?urlhttp://192.168.112.12/sql…

Python打卡DAY31

DAY31&#xff1a;文件的規范拆分和寫法 恩師浙大疏錦行 知識點&#xff1a; 規范的文件命名規范的文件夾管理機器學習項目的拆分編碼格式和類型注解 一、機器學習項目流程&#xff1a; 1、數據加載&#xff1a;從文件、數據庫、API 等獲取原始數據。 - 命名參考&#xff1a;…

字符串大數 -減法

描述 以字符串的形式讀入兩個數字&#xff0c;編寫一個函數計算它們的和&#xff0c;以字符串形式返回。 代碼實現 大小判斷&#xff1a;a - b 與 b - a 的絕對值相等將大的數放前面&#xff0c;抽離出結果的符號 import random s, t str(random.randint(1000, 9999)), s…

android google tts如何不聯網內部預置多國語音包

在內置Google GMS服務的設備中&#xff0c;可以正常使用TTS&#xff0c;并且可以聯網下載多國的語音包。然而&#xff0c;對于未通過GMS認證&#xff0c;只能使用基礎的TTS英語播報&#xff0c;而且聯網后是無法下載語音包的&#xff0c;會提示需要google service。本文基于以上…

Java 全棧開發學習:從后端基石到前端靈動的成長之路

目錄 一、開篇&#xff1a;與 Java 全棧的初遇 二、后端學習&#xff1a;SpringBoot 構建穩健基石 &#xff08;一&#xff09;SpringBoot3 入門&#xff1a;簡約而不簡單的啟程 &#xff08;二&#xff09;Spring Boot Web 應用開發&#xff1a;構建交互橋梁 &#xff08;…