vLLM 是一個針對大語言模型(LLMs)優化的高效推理和服務庫。以下是 vLLM 命令行工具的詳細使用方法解析,涵蓋常見場景和參數配置:
一、核心命令行工具
vLLM 提供兩個主要的命令行入口:
-
啟動 API 服務器
用于部署 HTTP/OpenAI 兼容的 API 服務:python -m vllm.entrypoints.api_server \--model <model_path_or_name> \[--host 0.0.0.0] \[--port 8000] \[--tensor-parallel-size 1] \[--gpu-memory-utilization 0.9] \[--max-num-seqs 256] \[--max-num-batched-tokens 2048]
-
離線批量推理
用于直接處理輸入文件并生成結果:python -m vllm.entrypoints.offline_inference \--model <model_path_or_name> \--input-path prompts.json \--output-path outputs.json \[--temperature 0.8] \[--max-to