Vllm-0.10.1:通過vllm bench serve測試TTFT、TPOT、ITL、E2EL四個指標

一、KVM 虛擬機環境

GPU:4張英偉達A6000(48G)

內存:128G

海光Cpu:128核

大模型:DeepSeek-R1-Distill-Qwen-32B

推理框架Vllm:0.10.1

二、四個性能指標介紹

2.1、TTFT:Time to First token

首次生成token時間(ms),TTFT 越短,用戶體驗越好,TTFT 受 prompt 長度影響很大,如果輸入的prompt越長,TTFT就越長。

2.2、TPOT:Time per output token

除首token之后,每個 token 的平均生成時間(ms),TPOT 反映模型的解碼速度,受 GPU 性能、KV Cache、batch size 影響。

2.3、ITL:Inter-Token Latency

兩個連續 token 之間的實際時間間隔(ms),如果 ITL 波動大,說明生成不平穩

2.4、E2EL:End-to-End Latency

從首token到最后token完成的全部時間(ms)

E2EL=TTFT + TPOT × 輸出長度

2.5舉個例子

假設你問模型:“請寫一篇 1000 字的作文。”

TTFT:800ms(你等了 0.8 秒看到第一個字)

TPOT:60ms(每個字平均 60 毫秒)

ITL:[58, 62, 59, 70, 57, ...](有時快,有時慢)

E2EL:800 + 60 × 999 ≈ 60.74 秒

→ 你等了 1 分鐘才看到完整答案。

2.6、優化目標

想優化

關注指標

方法

讓模型“更快響應”

TTFT

減少 prompt 長度、啟用 chunked prefill、優化 KV Cache

讓回答“說得更流暢”

TPOT

升級 GPU、使用 vLLM、減少 batch size

讓生成“更穩定”

?ITL

避免資源爭搶、使用 PagedAttention

讓整體“更快完成”

?E2EL

降低 TTFT 和 TPOT,或減少輸出長度

三、測試過程

3.1、啟動命令

vllm serve "/mnt/data/models/DeepSeek-R1-Distill-Qwen-32B" \--host "127.0.0.1" \--port 9400 \--gpu-memory-utilization 0.7 \--served-model-name "qwen32b" \--tensor-parallel-size 4 \--chat-template "/mnt/data/models/qwen32_nonthinking.jinja" \--chat-template-content-format "string" \--enable-chunked-prefill \--max-model-len 65536?\--max-num-seqs 32 \--max-num-batched-tokens 131072?\--block-size 32 \--disable-log-requests

3.1.1、如何設置max-model-len?

max-model-len最大可以設置為131072(對應config.json的max_position_embeddings)。

哪max-model-len到底設置多大合適呢?

場景

推薦?max-model-len

普通對話、摘要

32768

長文檔處理

65536

超長上下文(如整本書)

131072

我的應用牽涉長文檔處理,所以我采用65536。

3.1.2、如何設置max-num-batched-tokens?

max-num-batched-tokens 占用顯存,利用下面的公式來計算max-num-batched-tokens設置多大合適?
KV Cache Size (bytes)=2×num_layers×num_kv_heads×head_dim×dtype_size*max-num-batched-tokens
=2*64*8*128*2*131072
=32 GB
大概每張GPU有8G顯存用戶kv緩存。

剩余:48*0.7-16-8=9.6G(用于其他,如調度開銷)

參數

含義

范圍

--max-model-len

單個請求的最大 token 數(prompt + 生成)

單 sequence

--max-num-batched-tokens

所有并發請求的 token 總數上限(用于批處理調度)

整個 batch

3.2、測試命令(sharegpt

vllm bench serve \--backend vllm \--base_url  http://127.0.0.1:9400 \--model qwen32b \--tokenizer /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B \--endpoint-type openai-chat \--endpoint /v1/chat/completions \--dataset-name sharegpt \--dataset-path /mnt/data/tools/vllm/ShareGPT_V3_unfiltered_cleaned_split.json \--sharegpt-output-len 1024 \--percentile-metrics ttft,tpot,itl,e2el \--metric-percentiles 95,99 \--num-prompts 16 \--request-rate 8

我的應用要求輸出token都比較大,所以我設置成1024。

注:sharegpt-output-len不要設置2048及以上,否則報
Token indices sequence length is longer than the specified maximum sequence length for this model (29557 > 16384). Running this sequence through the model will result in indexing errors

3.2、測試結果

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98177.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98177.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98177.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

邏輯回歸基礎

昨天一直在復盤梯度下降,都沒咋預習邏輯回歸,好在不是很難,來捋捋邏輯回歸簡介邏輯回歸是解決分類問題數學基礎-sigmoid函數還要回顧一下概率論極大似然估計再來看一下對數邏輯回歸原理邏輯回歸的損失函數例子:分類問題評估混淆矩…

STM32----W25QXX

W25QXX款圖W25QXX存儲解讀塊--->扇-->頁塊分成128塊一塊64kb一塊分成16扇一扇4kb一個扇區分成16頁,頁的大小是256個字節 當數據傳入W25QXX最小的擦除單元是扇區當已經輸入了一頁的數據,這時RAM的數據會轉存進FLASH,這時會置一個標志位&…

【Kafka】Kafka使用場景用例Kafka用例圖

【Kafka】Kafka使用場景用例&Kafka用例圖一、Kafka用例總圖二、Kafka用例圖示三、Kafka場景案例圖一、Kafka用例總圖 二、Kafka用例圖示 三、Kafka場景案例圖 注:以上圖片來源于網絡,如有不妥請私信刪除!

Altium Designer(AD24)集成開發環境簡介

??《專欄目錄》 目錄 1,概述 2,界面介紹 2,搜索功能簡介 1,概述 Altium Designer 24的原理圖,PCB等設計工作都是在集成開發環境中進行的,本文簡單介紹集成開發環境界面。 2,界面介紹 如下圖所示,Altium Designer 24的集成開發環境,包括: 標題欄:目前設計中文件的…

[論文閱讀] 軟件工程 | 告別“線程安全玄學”:基于JMM的Java類靜態分析,CodeQL3分鐘掃遍GitHub千倉錯誤

告別“線程安全玄學”:基于JMM的Java類靜態分析,CodeQL3分鐘掃遍GitHub千倉錯誤 論文信息類別詳情論文原標題Scalable Thread-Safety Analysis of Java Classes with CodeQL主要作者及機構1. Bjrnar Haugstad Jatten(哥本哈根IT大學&#xff…

jQuery.ajax() 方法核心參數詳解

大家好,歡迎來到程序視點!我是你們的老朋友.小二!jQuery.ajax() 方法核心參數詳解基礎參數url類型:String功能:請求地址,默認當前頁地址。type類型:String(get/post為主,…

LCR 175. 計算二叉樹的深度【簡單】

LCR 175. 計算二叉樹的深度【簡單】 題目描述 某公司架構以二叉樹形式記錄,請返回該公司的層級數。 示例 1:輸入:root [1, 2, 2, 3, null, null, 5, 4, null, null, 4] 輸出: 4 解釋: 上面示例中的二叉樹的最大深度是 4,沿著路…

AI驅動健康升級:新零售企業從“賣產品”到“賣健康”的轉型路徑

隨著健康意識的不斷提升,健康管理增值服務正逐漸成為零售企業的核心競爭力。消費者對“產品服務”的需求激增,企業亟需構建覆蓋健康評估、干預到跟蹤的營養健康管理體系,通過數據化手段提升用戶粘性。在此背景下,AI技術正推動健康…

2025年最新三維WebGIS開發學習路線圖深度解析

地信小白為何學習webgis?我們在后臺經常收到同學們關于地信測繪等專業的吐槽,總結后主要分為以下幾類:第一種吐槽學校理論與實踐脫節的,學校課程偏重理論,缺乏企業級真實項目經驗,導致同學們簡歷空洞、單一…

15-Java-面向對象-標準JavaBean類

文章目錄標準JavaBean類標準JavaBean類 類名需要見名知意成員變量使用private修飾提供至少兩個構造方法 無參構造方法帶全部參數的構造方法 成員方法 提供每一個成員變量對應的setXxx()/getXxx()如果還有其他行為,也需…

AI大模型應用研發工程師面試知識準備目錄

一、大模型核心基礎理論 大模型核心架構:Transformer(Encoder/Decoder結構、自注意力機制、多頭注意力)、GPT系列(Decoder-only)、BERT系列(Encoder-only)的差異與適用場景關鍵技術原理&#xf…

基于單片機汽車防撞系統設計

傳送門 👉👉👉👉單片機作品題目速選一覽表🚀 👉👉👉👉單片機作品題目功能速覽🚀 🔥更多文章戳👉小新單片機-CSDN博客&#x1f68…

《Java線程池面試全解析:從原理到實踐的高頻問題匯總》

線程池作為Java并發編程的核心組件,是面試中的必考知識點。無論是初級開發崗還是資深架構崗,對線程池的理解深度往往能反映候選人的并發編程能力。本文匯總了線程池相關的高頻面試題,并提供清晰、深入的解答,助你輕松應對各類面試…

波特率vs比特率

一、核心定義1. 波特率(Baud Rate)定義:單位時間內傳輸的 “信號符號(Symbol)” 數量,單位為 “波特(Baud)”。這里的 “符號” 是通信中的基本信號單元,指信號在物理層的…

AI 生成式藝術重塑動漫角色創作:從技術邏輯到多元可能性(一)

當《蜘蛛俠:縱橫宇宙》中風格迥異的角色群像驚艷銀幕,當《鬼滅之刃》的 “柱” 系列角色憑借鮮明人設圈粉無數,動漫角色早已超越 “故事載體” 的屬性,成為承載世界觀、傳遞情感的核心符號。傳統動漫角色創作往往依賴團隊數月甚至…

npm install 報錯問題解決 npm install --ignore-scripts

為避免惡意依賴包中的病毒,推薦使用npm命令時添加–ignore-scripts參數,以禁用第三方依賴包的預安裝或安裝后腳本。然而,某些依賴包需這些腳本才能正常工作。# 原 報錯 npm install # 改為 npm install --ignore-scripts我遇到的以下2種報錯都…

四個關于云屬性的四個衛星數據集的介紹

一、前言 Himawari-8/9 (AHI)、Meteosat (SEVIRI)、GOES (ABI)、CLAAS-3,四個數據集/傳感器,它們其實都屬于靜止氣象衛星(GEO)云和輻射產品,在降水、云屬性和能量收支研究中應用很廣,AHI(亞太&a…

browser use完整梳理

brower use完整邏輯梳理 browser use的完整一次運行過程 INFO [service] Using anonymized telemetry, see https://docs.browser-use.com/development/telemetry. WARNING [Agent] ?? DeepSeek models do not support use_visionTrue yet. Setting use_visionFalse for…

C/C++ 與 Lua 互相調用詳解

Lua 是一門輕量級、嵌入式的腳本語言,常常與 C/C 結合使用。通過嵌入 Lua,可以讓應用程序獲得靈活的配置、腳本化邏輯和可擴展性。本文將介紹如何在 C/C 調用 Lua 函數,以及如何讓 Lua 調用 C/C 函數。最后給出一個 完整的示例工程&#xff0…

2025-09-04 HTML2——常用標簽與屬性

文章目錄1 文本標簽1.1 標題 (<h1> - <h6>)1.2 段落 (<p>)1.3 文本格式化1.4 列表1.4.1 無序列表 (<ul>)1.4.2 有序列表 (<ol>)1.5 表格 (<table>)2 屬性2.1 屬性值2.2 全局屬性2.3 特定元素的屬性2.4 布爾屬性2.5 自定義屬性2.6 事件處理…