【VLLM】VLLM使用

一 、安裝

二、啟動入口

VLLM 提供了多種入口方式啟動模型,以適應不同的使用場景(如命令行交互、API 服務、自定義集成等)。除了最常用的 openai.api_server(OpenAI 兼容 API 服務),還有以下主要入口:

1. cli:命令行交互式推理

適合快速測試模型,直接在終端進行對話交互。

python -m vllm.entrypoints.cli \--model lmsys/vicuna-7b-v1.5 \--tensor-parallel-size 1 \--max-model-len 2048

特點:

  • 啟動后進入交互式命令行,可直接輸入 prompt 與模型對話
  • 支持設置采樣參數(如 --temperature、–top-p 等)
  • 適合用于快速驗證模型功能或調試
2.api_server:通用 RESTful API 服務
python -m vllm.entrypoints.api_server \--model facebook/opt-13b \--port 8000 \--tensor-parallel-size 2

特點:

  • 提供 /generate 和 /generate_stream 接口,支持同步和流式輸出
  • 請求 / 響應格式為 VLLM 自定義結構(與 OpenAI API 不同)
  • 適合需要輕量 API 服務的場景,無需兼容 OpenAI 格式
3. grpc_server:GRPC 服務

通過 GRPC 協議提供高性能的模型推理服務,適合低延遲、高并發的后端集成。

python -m vllm.entrypoints.grpc_server \--model meta-llama/Llama-2-70b-chat-hf \--tensor-parallel-size 4 \--port 50051

特點:

  • 基于 GRPC 協議,比 REST API 具有更低的序列化開銷
  • 需配合 VLLM 定義的 .proto 協議文件開發客戶端
  • 適合高性能、分布式系統中的服務間調用
4. controller 與 worker:分布式部署入口

用于大規模分布式部署,支持多 worker 節點協同工作,由 controller 負責負載均衡。

(1)啟動 controller
python -m vllm.entrypoints.controller \--host 0.0.0.0 \--port 8000
(2)啟動 worker(需指定 controller 地址)
python -m vllm.entrypoints.worker \--model bigscience/bloom \--controller http://localhost:8000 \--worker http://localhost:8001 \--tensor-parallel-size 2
(3)啟動 api_server 連接分布式集群
python -m vllm.entrypoints.openai.api_server \--served-model-name bloom \--controller http://localhost:8000 \--port 8002

特點:

  • 支持橫向擴展(增加 worker 節點提升吞吐量)
  • 適合生產環境中大規模部署,支持動態擴縮容
  • 需要 controller 協調多個 worker 節點的任務分配

可通過 python -m vllm.entrypoints.<入口名> --help 查看各入口的具體參數(如 python -m vllm.entrypoints.cli --help)。

三、openai.api_server入口啟動參數

1.常用啟動腳本
CUDA_VISIBLE_DEVICES=4,5  nohup python -m vllm.entrypoints.openai.api_server --model /data/models/Qwen3-32B --trust-remote-code --served-model-name Qwen3-32B  --tensor-parallel-size 2  --gpu-memory-utilization 0.9 --max-model-len 32768  --port 40113 --swap-space 16  --disable-log-requests --enable-chunked-prefill --enable-prefix-caching  >> startQwen32B.log 2>&1 &
2.常見參數

VLLM 啟動模型時的主要可選參數分類及說明(以最常用的 openai.api_server 入口為例):

(1).模型與權重配置
  • model MODEL_PATH
    必選參數,指定模型權重路徑(本地路徑或 Hugging Face Hub 模型名,如 lmsys/vicuna-7b-v1.5)。
  • trust-remote-code
    允許加載模型中定義的遠程代碼(適用于自定義模型結構,如 Qwen、LLaMA 等)。
  • revision REVISION
    指定模型在 Hugging Face Hub 上的版本(分支名或 commit hash)。
  • code-path CODE_PATH
    自定義模型代碼的本地路徑(當 trust_remote_code 不適用時)。
  • tokenizer TOKENIZER_PATH
    自定義分詞器路徑(默認與模型路徑相同)。
  • tokenizer-mode {auto,slow}
    分詞器模式,slow 用于不支持快速分詞的模型。
(2).并行與硬件配置
  • tensor-parallel-size N
    張量并行的 GPU 數量(需與可用 GPU 數量匹配,如 --tensor-parallel-size 2 表示用 2 張卡并行)。
  • gpu-memory-utilization RATIO
    GPU 內存利用率上限(0~1 之間,如 0.9 表示使用 90% 的 GPU 內存)。
  • cpu-offloading
    啟用 CPU 卸載(將部分層轉移到 CPU 內存,緩解 GPU 內存壓力,速度會降低)。
  • disable-custom-all-reduce
    禁用自定義的 all-reduce 通信優化(適用于某些不兼容的 GPU 環境)。
  • pipeline-parallel-size N
    流水線并行的 GPU 數量(較少使用,通常與張量并行配合)。
(3).推理性能與緩存配置
  • max-model-len LENGTH
    模型支持的最大序列長度(輸入 + 輸出,如 32768 表示 32k 長度)。
  • swap-space SWAP_SIZE
    CPU 交換空間大小(GB),用于臨時存儲超出 GPU 內存的 KV 緩存(如 16 表示 16GB)。
  • enable-chunked-prefill
    啟用分塊預填充(將長輸入的 Prefill 階段分塊處理,減少峰值內存占用)。
  • enable-prefix-caching
    啟用前綴緩存(復用相同 prompt 前綴的 KV 緩存,加速重復請求)。
  • kv-cache-dtype {fp8,fp16,bf16,auto}
    KV 緩存的數據類型(如 fp8 可減少內存占用,需 GPU 支持)。
  • max-num-batched-tokens NUM
    批處理中允許的最大 token 總數(控制單批處理量,影響吞吐量)。
  • max-num-seqs NUM
    批處理中允許的最大序列數(并發請求數上限)。
(4).API 服務配置(OpenAI 兼容接口)
  • host HOST
    服務綁定的 IP 地址(默認 0.0.0.0,允許外部訪問)。
  • port PORT
    服務監聽的端口(如 8000)。
  • served-model-name NAME
    對外暴露的模型名稱(API 調用時使用,默認與模型名相同)。
  • allow-credentials
    允許跨域請求攜帶 credentials(用于前端跨域調用)。
  • allowed-origins ORIGINS
    允許的跨域來源(如 http://localhost:3000,多個用逗號分隔)。
  • allowed-methods METHODS
    允許的 HTTP 方法(默認 GET,POST,OPTIONS)。
    -allowed-headers HEADERS
    允許的 HTTP 頭(默認 *)。
(5).日志與調試配置
  • log-level {debug,info,warn,error}
    日志級別(默認 info)。
  • disable-log-requests
    禁用請求日志(不記錄 API 調用詳情)。
  • debug
    啟用調試模式(輸出更詳細的日志)。
(6).其他高級配置
  • seed SEED
    隨機種子(確保推理結果可復現)。
  • temperature TEMPERATURE
    采樣溫度(默認 1.0,值越低輸出越確定)。
  • top-p TOP_P
    核采樣參數(默認 1.0,控制輸出多樣性)。
  • max-log-probs MAX_LOG_PROBS
    返回的最大對數概率數量(用于 token 概率分析)。
  • quantization {awq,gptq,sq,int4,int8}
    啟用模型量化(如 awq 或 gptq,減少內存占用)。
  • rope-scaling {linear,dynamic}
    RoPE 縮放方式(用于擴展模型的上下文長度)。
  • rope-factor FACTOR
    RoPE 縮放因子(配合 rope-scaling 使用)。
3.參數查詢方式

python -m vllm.entrypoints.openai.api_server --help

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91264.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91264.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91264.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

為Github Copilot創建自定義指令/說明/注意事項

GitHub Copilot 是一個強大的 AI 編程助手&#xff0c;通過合理配置自定義指令&#xff0c;可以讓它更好地理解和遵循項目特定的編碼規范&#xff0c;省的每次提問時輸入重復提示語。 目錄 方法一&#xff1a;項目級別指令文件&#xff08;推薦&#xff09;方法二&#xff1a…

信創厚知聯盟會長兼創始人蒞臨綠算技術

2025年7月29日&#xff0c;信創厚知聯盟會長兼創始人王杲一行考察廣東省綠算技術有限公司&#xff0c;重點調研其在智算中心存儲與AI算力協同領域的創新成果。此次交流標志著雙方在信創產業生態合作上邁出重要一步&#xff0c;為國產高端高性能全閃存存儲與智算基礎設施的融合發…

RAG面試內容整理-Prompt Engineering 在 RAG 中的作用

Prompt Engineering(提示工程)指為生成模型精心設計輸入提示,以引導模型產生所需的輸出。在RAG系統中,prompt設計對充分利用檢索到的知識至關重要。因為生成器(通常是LLM)接收到的不僅有用戶問題,還有檢索的文檔內容,我們需要通過提示明確告訴模型如何使用這些信息。例…

【計算機網絡】5傳輸層

傳輸層是面向通信的最高層&#xff0c;也是用戶功能的最底層。 傳輸層僅存在于主機中&#xff0c;路由器等中間設備只用到下三層&#xff08;無傳輸層&#xff09;。傳輸層對上層應用隱藏了底層網絡的復雜細節&#xff08;比如數據怎么路由、網絡怎么連接等&#xff09;。對應用…

SecureCRT連接密鑰交換失敗

SecureCRT連接密鑰交換失敗問題描述&#xff1a;問題分析&#xff1a;解決方案&#xff1a;問題描述&#xff1a; SecureCRT6.7連接銀河麒麟操作系統v10版本&#xff0c;報錯如下&#xff1a; key exchange failed 密鑰交換失敗 no compatible key exchange method. The serv…

2021-05-10 求出這十個數據的平均值,并輸入高于平均值的所有元素值及下標求出這十個數據的平均值,并輸入高于平均值的所有元素值及下標

緣由C語言向一維數組a[10]中輸入10個數據&#xff1a;12&#xff0c;15&#xff0c;18&#xff0c;21&#xff0c;24&#xff0c;32&#xff0c;34&#xff0c;36&#xff0c;38&#xff0c;4-其他-CSDN問答 double a[10000]{}, j 0; int n 0;while (n < 10000){std::cin …

WordPress與主流CMS拿Webshell實戰

一、wordpress安裝環境首先我們在vulhub中啟動我們wordpress的doaker容器然后去訪問我們的80端口然后選擇簡體中文進行安裝然后就可以登錄到我們的后臺界面了后臺修改模板拿webshell進入后臺&#xff0c;我們修改一下404頁面的代碼&#xff0c;添加我們的一句話木馬然后保存&am…

指針的運算與數組

一、指針的運算1.1加法對指針可以進行加法運算&#xff0c;即p n或者p - n。其結果依舊是一個是一個指針&#xff0c;新的指針是在原來的地址值基礎上加上/減去n *(sizeof(指針指向的數據類型)&#xff09;個字節。 指針也可以進行自增&#xff0c;即*&#xff08;p &#xf…

【PostgreSQL內核學習:WindowAgg 幀優化與節點去重】

PostgreSQL內核學習&#xff1a;WindowAgg 幀優化與節點去重背景關鍵詞解釋本優化主要修改內容描述提交信息提交描述源碼解讀optimize_window_clauses 函數核心邏輯拆解函數時序圖新增結構體類型 SupportRequestOptimizeWindowClause優化后的效果幀優化 sql 用例查詢計劃輸出節…

行業要聞|正式落地!新思科技宣布完成對Ansys的收購

2025年7月17日——新思科技&#xff08;Synopsys, Inc.&#xff0c;納斯達克股票代碼&#xff1a;SNPS&#xff09;宣布完成對Ansys的收購。該交易旨在整合芯片設計、IP核以及仿真與分析領域的領先企業&#xff0c;助力開發者快速創新AI驅動的產品。在擴大至310億美元的總潛在市…

Elasticsearch 基礎速成 5 步跑通索引、文檔、映射與查詢

1 準備工作運行環境 curl -fsSL https://elastic.co/start-local | sh # 一條命令拉起本地單節點集群 # 瀏覽器打開 http://localhost:5601 進入 Kibana → DevTools → Console已有云端或 Serverless 集群可以直接跳到第 2 步。操作界面 以下所有請求均可在 Kibana → DevT…

語音表示學習論文總結

語音表示學習&#xff08;Speech Representation Learning&#xff09;是語音信號處理與機器學習交叉領域的核心技術&#xff0c;其目標是通過數據驅動的方式&#xff0c;從原始語音信號中自動提取具有判別性、魯棒性和泛化能力的特征表示&#xff0c;以替代傳統手工設計的聲學…

國產芯+單北斗防爆終端:W5-D防爆智能手機,助力工業安全通信升級

在石油石化、煤礦開采、電力檢修等高危行業&#xff0c;防爆設備的定位精度、通信可靠性及供應鏈安全性直接決定作業安全與生產效率。傳統防爆手機依賴GPS定位與進口芯片&#xff0c;存在信號盲區、數據泄露風險及斷供隱患。針對此&#xff0c;我們推出W5-D防爆智能終端&#x…

Kafka簡述及學習課程

Kafka是由Apache軟件基金會開發的一個開源流處理平臺&#xff0c;由Scala和Java編寫。Kafka是一種高吞吐量的分布式發布訂閱消息系統&#xff0c;它可以處理消費者在網站中的所有動作流數據。 這種動作&#xff08;網頁瀏覽&#xff0c;搜索和其他用戶的行動&#xff09;是在現…

BLE PHY 幀結構

BLE&#xff08;低功耗藍牙&#xff09;的 PHY&#xff08;物理層&#xff09;幀結構根據傳輸模式&#xff08;廣播、數據&#xff09;和 PHY 類型&#xff08;1M、2M、Coded PHY&#xff09;有所差異&#xff0c;但基本框架一致。以下是 BLE PHY 幀的通用結構及各部分含義&…

海外貨運 app 系統架構分析

一、引言海外貨運業務涉及眾多復雜環節&#xff0c;從貨物攬收、倉儲管理、運輸調度到最后交付&#xff0c;需要一個高效、穩定且功能全面的 APP 系統來協調各方資源&#xff0c;提升物流效率&#xff0c;保障貨物安全準確送達。本文將對海外貨運 APP 系統架構進行詳細剖析&…

【硬件-筆試面試題】硬件/電子工程師,筆試面試題-52,(知識點:簡單一階低通濾波器的設計,RC濾波電路,截止頻率)

目錄 1、題目 2、解答 3、相關知識點 一、一階低通濾波器的核心原理 1. 電路結構 2. 關鍵特性參數 二、一階低通濾波器的設計步驟&#xff08;以 RC 電路為例&#xff09; 1. 確定截止頻率\(f_c\) 2. 選擇電阻 R 的阻值 3. 計算電容 C 的容值 4. 驗證與調整 三、典…

防火墻安全實驗

一、實驗拓補圖二、實驗需求1、VLAN 2屬于辦公區;VLAN 3屬于生產區2、辦公區PC在工作日時間(周一至周五&#xff0c;早8到晚6)可以正常訪OA Server&#xff0c;其他時間不允許3、辦公區PC可以在任意時刻訪問Web server4、生產區PC可以在任意時刻訪問OA Server&#xff0c;但是不…

TOC-Transformer-LSTM-ABKDE,計算機一區算法龍卷風優化算法應用到概率區間預測!Matlab實現

TOC算法概述 文獻《Tornado optimizer with Coriolis force: a novel bio-inspired meta-heuristic algorithm》核心解讀&#xff1a;科里奧利力的龍卷風優化算法&#xff08;Tornado optimizer with Coriolis force&#xff0c;TOC&#xff09;對龍卷風循環過程的觀察以及雷暴…

Adobe Illustrator安裝下載教程(附安裝包)Illustrator2025

文章目錄一、Illustrator2025 下載鏈接二、Illustrator2025 安裝步驟三、Illustrator 2025 軟件介紹一、Illustrator2025 下載鏈接 夸克下載鏈接&#xff1a;https://pan.quark.cn/s/b990bac7107c 二、Illustrator2025 安裝步驟 1.將安裝包下載并解壓&#xff0c;雙擊打開&am…