vLLM(3)vllm在線啟動集成openweb-ui

文章目錄

      • **步驟 1: 啟動 vLLM 服務**
        • **方式 1: 直接命令行啟動**
        • **方式 2: Docker 啟動**
      • **步驟 2: 配置 Open WebUI 連接 vLLM**
        • **方法 1: 修改 Open WebUI 環境變量**
        • **方法 2: 通過 `docker-compose.yml` 部署**
      • **步驟 3: 在 Open WebUI 中添加模型**
      • **驗證是否成功**
      • **常見問題解決**
      • **性能優化建議**

要將 vLLM 集成到 Open WebUI 中,可以通過以下步驟實現。vLLM 提供高性能的 LLM 推理服務,而 Open WebUI 則是一個可擴展的 Web 前端。集成核心是通過 vLLM 的 OpenAI 兼容 API 與 Open WebUI 連接。


在前面兩個章節,我們介紹了如何在線啟動vllm服務,下面將vllm集成到openweb-ui中


步驟 1: 啟動 vLLM 服務

首先啟動 vLLM 服務,暴露 OpenAI 兼容的 API 接口(默認端口 9898)。

方式 1: 直接命令行啟動
conda activate vLLM_cuda128_env_python312
cd /home/vLLM/models/Qwen
vllm serve Qwen3-0.6B --served-model-name Qwen3-0.6B --api_key hhh6688 --host 192.168.11.103 --port 9898 --trust_remote_code --tensor_parallel_size 4  --gpu_memory_utilization 0.8
方式 2: Docker 啟動
docker run -d \--gpus all \-p 8000:8000 \--name vllm-server \vllm/vllm-openai:latest \--model meta-llama/Meta-Llama-3-8B-Instruct

步驟 2: 配置 Open WebUI 連接 vLLM

修改 Open WebUI 的配置,指向 vLLM 的 API 地址。

方法 1: 修改 Open WebUI 環境變量

在啟動 Open WebUI 時,添加以下環境變量:

docker run -d \-p 3000:8080 \-e OPENAI_API_BASE_URL=http://vllm-server:9898/v1 \-e OPENAI_API_KEY=hhh6688 \  # vLLM 無需驗證-e WEBUI_SECRET_KEY=my-secret \--name openwebui \--link vllm-server \  # 如果 vLLM 和 Open WebUI 在同一臺機器ghcr.io/open-webui/open-webui:main
方法 2: 通過 docker-compose.yml 部署
version: '3.8'services:vllm:image: vllm/vllm-openai:latestcommand: --model meta-llama/Meta-Llama-3-8B-Instructports:- "8000:8000"deploy:resources:reservations:devices:- driver: nvidiacount: 2  # 使用 2 個 GPUopenwebui:image: ghcr.io/open-webui/open-webui:mainports:- "3000:8080"environment:- OPENAI_API_BASE_URL=http://vllm:9898/v1- OPENAI_API_KEY=hhh6688 - WEBUI_SECRET_KEY=my-secretdepends_on:- vllm

運行:

docker-compose up -d

步驟 3: 在 Open WebUI 中添加模型

  1. 訪問 Open WebUI 的 Web 界面:http://localhost:3000
  2. 登錄后進入 Settings → Model Provider
  3. 選擇 OpenAI 作為提供商。
  4. 填寫:
    • Model Name: 任意名稱(如 Llama-3-8B-vLLM
    • API Base URL: http://vllm:8000/v1(或你的 vLLM 地址)
    • API Key: EMPTY
  5. 保存后,在聊天界面選擇該模型即可使用。

在這里插入圖片描述

驗證是否成功

  • 檢查 vLLM 日志
    docker logs vllm-server
    
    出現類似日志表示請求成功:
    INFO:     127.0.0.1:12345 - "POST /v1/chat/completions HTTP/1.1" 200 OK
    
  • 在 Open WebUI 中發送測試消息,觀察響應速度和輸出內容。

常見問題解決

  1. 連接失敗

    • 確保 OPENAI_API_BASE_URL 正確(一般為 http://<vllm-ip>:8000/v1)。
    • 如果使用 Docker,確保容器在同一網絡(或通過 --link 連接)。
  2. GPU 資源不足

    • 減少 --tensor-parallel-size(如從 2 改為 1)。
    • 使用量化模型(如 --quantization awq)。
  3. 模型加載失敗

    • 檢查模型路徑是否正確(HuggingFace 模型需提前下載或確認有訪問權限)。
    • 使用離線模型時掛載本地目錄:
      docker run -v /path/to/models:/models vllm/vllm-openai:latest --model /models/llama-3-8b
      
  4. Open WebUI 無法識別模型

    • Model Provider 中檢查是否選擇 OpenAI 類型。
    • 確保 OPENAI_API_KEY 設置為 EMPTY(vLLM 無需密鑰)。

性能優化建議

  • 批處理:啟動 vLLM 時添加 --max-num-batched-tokens 4096 提高吞吐量。
  • 量化:添加 --quantization awq 減少顯存占用(需模型支持)。
  • 多 GPU:增加 --tensor-parallel-size 加速推理。

通過以上步驟,即可將 vLLM 的高性能推理能力無縫集成到 Open WebUI 的交互界面中。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91305.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91305.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91305.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python----大模型(基于Agent的私人AI助理項目)

開發一個智能的問答系統&#xff0c;該系統支持用戶聊天&#xff0c;傳輸文件。通過自然語言處理技術&#xff0c;機器人能夠理解用戶的意圖。機器人將利用互聯網搜索引擎來補充信息&#xff0c;確保用戶能夠獲得全面且準確的回答。 一、web ui界面 我們采用gradio來編寫的ui界…

Python爬蟲實戰:研究scrapely庫相關技術構建電商數據提取系統

1. 引言 在當今數字化時代,網絡上蘊含著海量的有價值信息。如何從這些非結構化的網頁中自動提取出結構化的數據,成為了數據挖掘和信息檢索領域的重要研究課題。網絡爬蟲作為一種自動獲取網頁內容的技術,被廣泛應用于信息收集、數據分析等領域。然而,網頁結構的多樣性和復雜…

Orange的運維學習日記--18.Linux sshd安全實踐

Orange的運維學習日記–18.Linux sshd安全實踐 文章目錄Orange的運維學習日記--18.Linux sshd安全實踐場景模擬sshd配置需求&#xff1a;參數表格&#xff1a;MOTD警告定期備份SSH密鑰與配置登錄防護&#xff1a;fail2ban測試與日志場景模擬 你是某金融科技公司的Linux運維工程…

聚觀早報 | 德賽電池自主研發主動安全AI電芯;華為首展線下昇騰384超節點;蔚來純電小車螢火蟲已交付一萬輛

聚觀早報每日整理最值得關注的行業重點事件&#xff0c;幫助大家及時了解最新行業動態&#xff0c;每日讀報&#xff0c;就讀聚觀365資訊簡報。整理丨肖羽7月28日消息德賽電池自主研發主動安全AI電芯華為首展線下昇騰384超節點蔚來純電小車螢火蟲已交付一萬輛京東已成立智能機器…

python可視化:按序號展示社團星級分布 - 熱力圖樣式

目錄 關鍵代碼&#xff1a; 運行結果&#xff1a; 關鍵代碼&#xff1a; # 4. 按序號展示社團星級分布 - 熱力圖樣式 plt.subplot(2, 2, 4) # 創建星級映射為數值 star_mapping {五星:4, 四星:3, 三星:2, 星級入圍:1} star_values df[答辯結果].map(star_mapping) plt.s…

智能家居平臺服務端安裝教程——東方仙盟部署

1. 準備工作 登錄阿里云服務器&#xff1a;使用 SSH 工具&#xff08;如 ssh 命令&#xff09;登錄到你的阿里云 Linux 服務器。確保服務器已安裝并能正常運行&#xff0c;且網絡連接正常。更新系統軟件包&#xff1a;執行以下命令更新系統軟件包到最新版本。 bash sudo apt …

360環視技術推薦的硬件平臺:支持多攝像頭與三屏異顯的理想選擇

在智能硬件不斷升級的今天&#xff0c;360環視技術早已不只是豪華車型的專屬。通過布置多路攝像頭&#xff0c;并將其圖像進行融合處理&#xff0c;360環視可以為系統提供車輛或設備周圍的完整視野。 它不僅能夠消除盲區&#xff0c;還能通過AI識別實現物體檢測、避障判斷、自動…

FFmpeg:因碼流采集與封裝不同步導致錄制出來的MP4文件會出現黑屏、綠屏的問題

項目要求實時播放視頻&#xff0c;并且需要支持播放中途可以錄制視頻。但是錄制出來的文件會黑屏&#xff0c;過一段時間后正常顯示。即&#xff1a;碼流采集—>播放—>&#xff08;一段時間后&#xff09;錄制MP4&#xff0c;黑屏出現的時間就在采集到錄制之前。黑屏現象…

C 語言與 C++、Java、Python 等編程語言的區別

C 語言與 C、Java、Python 等編程語言在設計理念、特性和應用場景上存在顯著差異&#xff0c;以下從核心區別、特性對比和適用場景三個維度詳細解析&#xff1a;一、C 語言與 C 的核心區別C 是在 C 語言基礎上發展而來&#xff08;最初名為 “C with Classes”&#xff09;&…

Apache Ignite 的分布式鎖Distributed Locks的介紹

以下這段內容是關于 Apache Ignite 的分布式鎖&#xff08;Distributed Locks&#xff09; 的介紹。這是一個非常重要的功能&#xff0c;用于在分布式系統中協調多個節點對共享資源的并發訪問。 下面我們來一步步深入理解它。&#x1f3af; 一、一句話理解&#xff1a;什么是 I…

第十二天:C++ 標準庫函數分類總結

C 標準庫函數分類總結 數學函數&#xff08;<cmath>&#xff09; 基本運算函數 abs(x)&#xff1a;返回整數或浮點數的絕對值。int a abs(-5); // 返回 5fabs(x)&#xff1a;返回浮點數的絕對值。double b fabs(-3.14); // 返回 3.14fmod(x, y)&#xff1a;計算 x 除以…

Unity Standard Shader 解析(四)之ForwardAdd(簡化版)

一、ForwardAdd// Additive forward pass (one light per pass)Pass{Name "FORWARD_DELTA"Tags { "LightMode" "ForwardAdd" }Blend [_SrcBlend] OneFog { Color (0,0,0,0) } // in additive pass fog should be blackZWrite OffZTest LEqualC…

第十九周-文檔數據庫MongoDB、消息隊列和微服務

1. 完成redis單機安裝&#xff0c;哨兵模式安裝&#xff0c;主從安裝&#xff0c;集群安裝單機安裝#安裝依賴包 [rootcentos8~]#yum -y install gcc make jemalloc-devel #如果支持systemd需要安裝下面包 [rootubuntu2204 ~]#apt update && apt -y install make gcc li…

C++中sizeof運算符全面詳解和代碼示例

sizeof 是 C 中的一個編譯時運算符&#xff0c;用于獲取對象或類型所占的字節數&#xff08;以 size_t 返回&#xff09;。它是掌握底層內存模型、結構體對齊、數組大小計算等的重要工具。1. 基本語法 sizeof(type) // 獲取類型的大小 sizeof expression // 獲取表達式結果…

內容中臺:在一個地方管理多渠道內容

在數字化競爭愈演愈烈的今天&#xff0c;企業官網、社交平臺、移動應用、郵件營銷等渠道已成為品牌觸達用戶的關鍵接口。內容仍是連接企業與客戶的核心資產。然而&#xff0c;內容創作與分發的復雜性持續攀升&#xff0c;多平臺運營面臨重復維護、更新不一致、資源冗余等諸多挑…

【刷題】東方博宜oj 1307 - 數的計數

樣例輸入&#xff1a; 6輸出&#xff1a; 16 26 126 36 136原版是直接輸出總數量&#xff0c;但我修改了一些&#xff0c;輸出所有的新數。 #include <iostream> #include <vector> #include <string> using namespace std; //int c; void g(int num, string…

阿里云AI代碼助手通義靈碼開發指導

與阿里云一起輕松實現數智化讓算力成為公共服務&#xff1a;用大規模的通用計算&#xff0c;幫助客戶做從前不能做的事情&#xff0c;做從前做不到的規模。讓數據成為生產資料&#xff1a;用數據的實時在線&#xff0c;幫助客戶以數據為中心改變生產生活方式創造新的價值。智能…

設計模式(二十三)行為型:模板方法模式詳解

設計模式&#xff08;二十三&#xff09;行為型&#xff1a;模板方法模式詳解模板方法模式&#xff08;Template Method Pattern&#xff09;是 GoF 23 種設計模式中的行為型模式之一&#xff0c;其核心價值在于定義一個操作中的算法骨架&#xff0c;而將一些步驟延遲到子類中實…

Postgresql 查詢使用正則

今天接到任務&#xff0c;要從數據庫中查詢數據&#xff0c;對于postgresql 我并不熟悉&#xff0c;問了百度&#xff0c;問了通義千問。發現Postgresql 在寫query sql 的時候&#xff0c;可以使用正則匹配&#xff0c;不單是使用like 這種關鍵字。我像發現了新大陸一樣的興奮。…

【WRF-Chem Emissions教程第八期】轉換實用程序

轉換實用程序 8.1 將中間二進制文件轉換為 WRF-Chem 數據文件 文件命名規范與風格 8.2 Binary data file format(中間二進制排放數據文件的格式和結構) FORTRAN 示例程序說明 8.3 Building the WRF-Chemistry emissions conversion code 編譯步驟 驗證編譯結果 8.4 Namelist …