vLLM 提供了一個 HTTP 服務器,能夠實現 OpenAI 的 Completions API、Chat API 等功能!
您可以通過 vllm serve
命令啟動服務器,或者通過 Docker 啟動:
vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123
要調用服務器,您可以使用官方的 OpenAI Python 客戶端,或任何其他 HTTP 客戶端。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1"