【GPT入門】第46課 vllm安裝、部署與使用

【GPT入門】第46課 vllm安裝、部署與使用

  • 1.準備服務器
  • 2. 安裝 conda環境,隔離base環境
  • 3. vllm使用
    • 3.1 在線推理, openai兼容服務器
    • 3.2 模型離線調用
  • 4. 沒有使用GPU問題分析

1.準備服務器

cuda 版本選12.1
vllm官網介紹:在這里插入圖片描述

https://vllm.hyper.ai/docs/getting-started/installation/gpu
在這里插入圖片描述

2. 安裝 conda環境,隔離base環境

為了實現高性能,vLLM 需要編譯多個 cuda 內核。然而,這一編譯過程會導致與其他 CUDA 版本和 PyTorch 版本的二進制不兼容問題。即便是在相同版本的 PyTorch 中,不同的構建配置也可能引發此類不兼容性。

因此,建議使用全新的 conda 環境安裝 vLLM。如果您有不同的 CUDA 版本,或者想要使用現有的 PyTorch 安裝,則需要從源代碼構建 vLLM。更多說明請參閱下文。

conda create -n vllm python=3.10 -y
conda activate vllmpip install vllm

3. vllm使用

3.1 在線推理, openai兼容服務器

vLLM 可以部署為實現 OpenAI API 協議的服務器。這使得 vLLM 可以作為使用 OpenAI API 的應用程序的直接替代品。默認情況下,服務器在 http://localhost:8000 啟動。您可以使用 --host 和 --port 參數指定地址。服務器目前 1 次托管 1 個模型,并實現了諸如:列出模型、創建聊天補全和創建補全等端點。

  • 運行以下命令以啟動 vLLM 服務器并使用 Qwen2.5-0.5B-Instruct 模型:
    使用Qwen2.5模型
    pip install model_scope
from modelscope import snapshot_downloadmodel_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct',cache_dir='/root/autodl-tmp/models')
print(model_dir)
  • 啟動服務
vllm serve /root/autodl-tmp/models/Qwen/Qwen2.5-0.5B-Instruct

在這里插入圖片描述
在這里插入圖片描述

列出模型

curl http://localh

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92988.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92988.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92988.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【從網絡基礎到實戰】理解TCP/IP協議體系的核心要點(包含ARP協議等其他協議介紹)

前言: 學習計算機網絡不僅是軟件開發的基礎功,更是成為一名合格后端工程師、網絡工程師的重要門檻。本文將基于 TCP/IP 協議體系,系統梳理網絡層、數據鏈路層、以及相關協議的核心知識,并結合實際案例與代碼示例幫助理解。一、網絡…

Python 元類基礎:從理解到應用的深度解析

在 Python 的高級編程中,元類(metaclass) 無疑是最神秘又最強大的特性之一。它不僅是構建類的“工廠”,更是 Python 靈活對象模型的體現。本文將帶你從基礎概念入手,深入理解元類的本質、工作機制以及實際應用&#xf…

Nginx 配置代理服務器的詳細方法

一、什么是代理服務器? 類型說明正向代理客戶端通過代理訪問目標服務器(隱藏客戶端身份)反向代理客戶端訪問代理服務器,由代理服務器請求后端服務器(隱藏后端服務器) 二、Nginx 反向代理配置方法&#xff…

Lombok插件介紹及安裝(Eclipse)

一、Lombok 的用途 Lombok是一個 Java 庫,通過注解的方式簡化 Java 代碼的編寫。它能夠自動生成常見的代碼,如getter、setter、toString、equals、hashCode等方法,從而減少樣板代碼,使代碼更加簡潔、易讀。 Lombok 通過添加**Dat…

硬核操作!Go 語言生成 “會爬墻的清潔機器人”,玻璃外墻自己擦

本文聚焦于利用 Go 語言開發 “會爬墻的清潔機器人” 這一硬核技術,圍繞該機器人如何實現玻璃外墻自主清潔展開。首先介紹開發背景與需求,接著闡述 Go 語言在其中的優勢,詳細講解機器人的核心技術,包括吸附系統、運動控制、清潔機…

Qt——實現”Hello World“、認識對象樹與Qt坐標系

在創建項目時,使用的基類Base Class為QWidget 1. 使用圖形化界面的方式實現“Hello World” 雙擊文件:widget.ui,進入designer模式:在“控件盒子”的“Display Widgets”中找到“Label”,并拖放到白板中雙擊剛剛拖放到…

智能合約開發全流程實戰指南

目錄 靈感探索與概念驗證合約開發常見問題 Hardhat 初始化項目問題合約編譯錯誤處理智能合約設計缺陷 合約測試最佳實踐 單元測試環境配置測試用例編寫技巧測試覆蓋率和策略常見測試失敗原因 合約部署實戰指南 部署到不同網絡部署前準備事項部署后驗證方法部署費用和Gas優化 合…

IPA1299至為芯替代TI ADS1299的腦機接口芯片

在腦機接口、神經科學研究和醫療電子設備領域,腦電信號采集芯片是連接生物電信號與數字世界的重要組件。目前,TI等國際廠商憑借技術優勢占據市場主要份額,國內廠商在成本控制、供貨周期和技術自主性方面面臨挑戰。英集芯推出的IPA1299低噪聲多…

「數據獲取」《中國海洋生態環境狀況公報》(2001-2023年)(獲取方式看綁定的資源)

01、數據簡介在 2023 年的海洋環境監測工作中,監測范圍廣泛且細致。全年對 1359 個海洋環境質量國家控制點位進行了水質監測,這些點位分布在我國管轄的各大海域,能夠全面反映海洋整體水質狀況;對 230 個入海河流國家控制斷面開展監…

通過限制網絡訪問來降低服務器被攻擊風險的方法

限制網絡訪問是降低服務器被攻擊風險的核心思路之一,因為絕大多數入侵都是從開放的網絡入口開始的。思路是“減少暴露面 精確授權”,讓服務器只對必要的人、必要的業務開放。我給你分成幾個層次來說明,從最外層網絡入口到最內層系統配置都涉…

python與JavaScript的區別

Python 與 JavaScript 的主要區別(按常用維度劃分)維度PythonJavaScript誕生時間 / 背景1991 年,由 Guido van Rossum 設計,目標是“一種易讀、易寫的通用腳本語言”。1995 年,由 Brendan Eich 為 Netscape 瀏覽器誕生…

Java 比較器解析

一、比較器的核心作用與應用場景在 Java 編程中&#xff0c;數據比較是一個基礎但重要的操作。對于基本數據類型&#xff08;如 int、double、boolean、char 等&#xff09;&#xff0c;Java 語言本身就提供了完整的比較運算符&#xff08;>、<、、>、<、!&#xf…

Java學習第一百二十一部分——HTTP

目錄 一、前言簡介 二、核心特性 三、通信基礎結構 四、關鍵組件詳解 五、性能演進——版本對比 六、開發者建議 七、總結歸納 一、前言簡介 HTTP&#xff08;“H”yper“t”ext “T”ransfer “P”rotocol&#xff0c;超文本傳輸協議&#xff09;是互聯網上應用最廣泛…

記錄RK3588的docker中啟動rviz2報錯

安裝好rk3588 的docker&#xff0c;pull了ros的完整鏡像后&#xff0c;想要啟動rviz但是報錯&#xff0c;下面是我的踩坑記錄 0.原始的啟動鏡像的腳本&#xff1a; sudo docker run -it --rm --privileged --nethost -e DISPLAY$DISPLAY --namemy_image_name \-e DISPLAY$DIS…

ThingJS 新手學習技巧

一、ThingJS 基礎認知 1.1 ThingJS 是什么 ThingJS 是一款基于 WebGL 技術的 3D 可視化開發平臺&#xff0c;它為開發者提供了簡單易用的 API 和豐富的 3D 場景組件&#xff0c;讓開發者能夠快速構建出高質量的 3D 可視化應用。無論是智慧園區、智慧樓宇、智慧交通還是工業監…

【軟考架構】需求工程中,系統分析與設計的結構化方法

結構化方法誕生于20世紀70年代&#xff0c;是為了應對當時日益復雜的軟件系統開發挑戰&#xff08;如“軟件危機”&#xff09;而提出的。它強調系統性、規范性、分解和抽象&#xff0c;目標是提高軟件開發的效率、質量和可維護性&#xff0c;降低復雜性。 核心思想&#xff1a…

FPGA常用資源之IO概述

目錄 一、前言 二、I/O資源 2.1 I/O端口資源 2.1.1 IOB 2.1.2 ILOGIC/OLOGIC 2.2 ZHOLD 2.3 IDDR/ODDR 2.4 IDELAY 2.5 ISERDES/OSERDES 2.6 IO Logic Resource連接 2.7 Device示意圖 三、工程示例 3.1 工程代碼 3.2 Device結果 一、前言 FPGA芯片從內部結構看主…

密集遮擋場景識別率↑31%!陌訊輕量化部署方案在智慧零售的實戰解析

一、零售業痛點&#xff1a;當技術遇上客流洪流據《2024智慧零售技術白皮書》統計&#xff0c;高峰期超市顧客密度超3人/㎡時&#xff0c;??目標漏檢率高達48%??。核心挑戰包括&#xff1a;??動態遮擋??&#xff1a;購物車/貨架造成的持續性目標截斷??計算瓶頸??&a…

力扣(O(1) 時間插入、刪除和獲取隨機元素)

一、題目分析&#xff08;一&#xff09;功能需求 我們需要實現 RandomizedSet 類&#xff0c;包含以下功能&#xff1a; RandomizedSet()&#xff1a;初始化數據結構。bool insert(int val)&#xff1a;當元素 val 不存在時&#xff0c;插入該元素并返回 true&#xff1b;若已…

前端開發的面試自我介紹與準備

前端面試自我介紹不知道怎么說的&#xff0c;直接參考下面的模板&#xff0c;然后換成你的經歷 自我介紹控制在1分鐘左右&#xff0c;千萬不要說的太久&#xff0c;面試官會煩的&#xff0c;但是又不好意思打斷你 切記面試是人和人面對面的交流&#xff0c;要有&#xff0c;面試…