一文從零部署vLLM+qwen0.5b(mac本地版,不可以實操GPU單元)

第一步:下載anaconda for mac
https://zhuanlan.zhihu.com/p/350828057 知乎保姆級教程
https://www.anaconda.com/docs/getting-started/anaconda/install#macos-linux-installation 下載地址

第二步:部署vllm的虛擬環境
https://www.53ai.com/news/OpenSourceLLM/2025040116542.html

注意?? vllm不支持python 3.13及以上版本,所以配置時得指定
https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html
conda create -n usingvllm python=3.10 jupyter
conda activate usingvllm
git clone https://github.com/vllm-project/vllm.git 已經clone
pip install torch torchvision
一次性安裝所有 vLLM 的依賴
pip install -e .
如果報了error可能是沒有install成功。

檢查
du -sh ~/.cache/huggingface/hub/models–tiiuae–falcon-7b-instruct
刪除
rm -rf ~/.cache/huggingface/hub/models–tiiuae–falcon-7b-instruct

第三步:從offline_inference+qwen3入手
快速開始:本地推理從examples/offline_inference/basic/basic.py開始
● LLM 是用于運行 vLLM 引擎離線推理的主類。
● SamplingParams 指定了采樣過程的參數。
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
● 采樣溫度(輸出的隨機程度):越小越保守(0.1),越高越創造性(1.0-1.2)
● 核心采樣概率top_p(nucleus sampling):采樣時候選詞概率總和,表示模型會從累計概率為前 95% 的候選詞中選一個(對比top-k 選前k個詞)
llm = LLM(model=“facebook/opt-125m”)
● 模型從https://huggingface.co/Qwen/Qwen3-0.6B

在線服務從examples/online_serving/openai_completion_client.py開始
第四步:本地跑serve出錯及解決

Load and run the model:

vllm serve “Qwen/Qwen3-0.6B”

● 解決——不選擇默認的=4,調整最大maxlen:
export VLLM_CPU_KVCACHE_SPACE=8
vllm serve “Qwen/Qwen3-0.6B” --max-model-len 2048

已上在vsc部署成功(約等于把自己電腦當成服務器了)

另起終端
//Call the server using curl:
curl -X POST “http://localhost:8000/v1/chat/completions”
-H “Content-Type: application/json”
–data ‘{
“model”: “Qwen/Qwen3-0.6B”,
“messages”: [
{
“role”: “user”,
“content”: “What is the capital of France?”
}
]
}’
輸出:

對應“服務器”輸出:即為部署成功。

分析:

  1. WARNING [cpu.py:248] Pin memory is not supported on CPU.使用的是 CPU 環境(Mac M3 Pro 無 CUDA),這個警告是預期的,不會影響結果,只是說不能做 pinned memory 提速(只有 GPU 可用)。
  2. INFO [metrics.py:417] Avg prompt throughput: 3.0 tokens/s
    INFO [metrics.py:417] Avg generation throughput: 10.5 tokens/s
    模型每秒處理平均 3 個 prompt token,生成 token 平均 10.5 個/s,對于 Mac CPU 跑的模型來說,這個速度是完全合理的(0.6B 的 Qwen 模型)
  3. INFO: 127.0.0.1:58210 - “POST /v1/chat/completions HTTP/1.1” 200 OK
    響應狀態碼 200,說明接口調用完全成功,用 curl 或 Python requests.post() 調用的 API 得到了返回結果

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/95570.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/95570.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/95570.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Go語言Range用法全解析

引言Go 語言中的 range 關鍵字是集合遍歷的核心語法結構,它提供了一種高效且類型安全的方式來迭代各種數據結構。range 的設計完美體現了 Go 語言的工程哲學 - 通過最小化的語法提供最大化的功能。標準庫中的許多關鍵組件(如 sync.Map、bufio.Scanner 等…

mysql進階語法(視圖)

1、視圖概念 是從一個或多個表中導出來的表,它是一種虛擬存在的表,表的結構和數據都依賴于基本表 應用場景: 多個地方用到同樣的查詢結果該查詢結果用到復雜的select語句 視圖優點: 簡化查詢語句:簡化用戶的查詢操作&a…

編程范式:提升抽象能力的思維工具

這是一個編程中的核心概念,它代表了編寫程序的一套基本風格、方法論和哲學。學習不同的編程范式,就像學習用不同的工具和思維方式來解決問題,能極大地提升你作為程序員的抽象能力和解決問題的能力。一、什么是編程范式?編程范式 是…

阿里云-基于通義靈碼實現高效 AI 編碼 | 1 | 在 Visual Studio Code 中安裝和使用靈碼

文章目錄一、在 Visual Studio Code 中安裝和使用靈碼1.1 準備工作1.2 在 Visual Studio Code 安裝通義靈碼1.3 登錄阿里云賬號免費個人運維知識庫,歡迎您的訂閱:literator_ray.flowus.cn 一、在 Visual Studio Code 中安裝和使用靈碼 本安裝步驟適用于…

WordPress搭建個人網站(Linux版)

WordPress搭建個人網站,使用Linux系統。我需要詳細說明整個過程,包括環境準備、安裝步驟、配置優化等。首先,用戶可能對Linux不太熟悉,所以需要從基礎開始,比如選擇合適的Linux發行版,如Ubuntu或CentOS。然…

ES模塊(ESM)、CommonJS(CJS)和UMD三種格式

vite的build.lib配置生成了三種格式:ES模塊(ESM)、CommonJS(CJS)和UMD。它們的主要區別和適用場景如下: ES模塊(.mjs): 使用現代JavaScript的模塊語法(import…

2026屆IC秋招聯蕓科技IC面經(完整面試題)

聯蕓科技2026屆數字IC后端面經數字后端培訓實戰項目六大典型后端實現案例 首先是自我介紹。這個每家公司必備環節。這部分內容需要自己提前準備,避免太過緊張影響發揮。 數字IC后端經典筆試題IC秋招筆試題之時序報告解析 1)拿到netlist和sdc后你會如何…

一維水動力模型有限體積法(四):高級實現——平衡源項、邊界條件與算法總成

引言 成功實現一個穩定且精確的水動力學模型,關鍵在于妥善處理源項和邊界條件。這兩個環節是數值格式產生非物理振蕩和誤差的主要來源。本章將詳細介紹“守恒-平衡”(well-balanced)格式的核心技術,以及通過“虛擬單元”實現各類物…

VAE(變分自動編碼器)技術解析

VAE(Variational Auto-Encoder, 變分自動編碼器)1、VAE的結構為什么使用重參數化?2、VAE的代碼實現1.重構損失(Reconstruction Loss)2.KL散度(Kullback-Leibler Divergence Loss)1)E…

嵌入式單片機---串口通信及相關通信技術

一、通信方式分類(一)按數據傳輸線路數量劃分:串行通信與并行通信類別定義特點并行通信多個比特同時通過并行線進行傳輸優點:傳輸速率較高;缺點:占用大量芯片資源串行通信將數據拆分成一個個比特&#xff0…

Elasticsearch面試精講 Day 8:聚合分析與統計查詢

【Elasticsearch面試精講 Day 8】聚合分析與統計查詢 文章標簽:Elasticsearch, 聚合查詢, 統計分析, Aggregations, 面試, 大數據, 搜索引擎, 后端開發, 數據分析 文章簡述: 本文是“Elasticsearch面試精講”系列的第8天,聚焦聚合分析與統計…

HTML HTML基礎(2)

1.開發者文檔W3C官網: www.w3c.org W3School: www.w3school.com.cn MDN: developer.mozilla.org —— 推薦。2.排版標簽標簽名標簽含義單 / 雙 標簽h1 ~ h6標題雙p段落雙div沒有任何含義,用于整體布局雙(1). h1 最好寫一個&#x…

spring.profiles.active配置的作用

1. spring.profiles (或文件名中的 ?):定義配置的名稱這是聲明一段配置屬于哪個 Profile。在同一個 application.yml 中:使用 spring.profiles 鍵來為一個配置段打上標簽。yamlspring:profiles: dev # 【定義】這個配置段的名稱是‘dev’ server:port: …

【開題答辯全過程】以 高校教室管理系統為例,包含答辯的問題和答案

個人簡介一名14年經驗的資深畢設內行人,語言擅長Java、php、微信小程序、Python、Golang、安卓Android等開發項目包括大數據、深度學習、網站、小程序、安卓、算法。平常會做一些項目定制化開發、代碼講解、答辯教學、文檔編寫、也懂一些降重方面的技巧。感謝大家的…

Aurobay EDI 需求分析:OFTP2 與 EDIFACT 驅動的汽車供應鏈數字化

Aurobay 是由吉利汽車集團與沃爾沃汽車集團合資成立的動力系統公司,總部位于瑞典哥德堡。其供應鏈系統廣泛采用 EDI(電子數據交換)技術進行標準化通信與業務協作。通過嚴謹的 EDI 傳輸規范,其與供應商之間構建了高效、安全的數據交…

yolov8環境配置:從安裝到卸載,從入門到放棄。

yolov8環境配置:從安裝到卸載,從入門到放棄。 先講安裝再到刪除。 前置環境安裝:Conda 這里我選用MiniConda 使用清華的鏡像安裝:https://mirror.tuna.tsinghua.edu.cn/anaconda/miniconda/ 直接安裝到C盤(免得后續…

神馬 M63S+ 438T礦機評測:SHA-256算法高效能挖礦利器

在加密貨幣的挖礦世界里,硬件設備的性能直接影響著礦工的挖礦效率與收益。而對于選擇比特幣(BTC)與比特幣現金(BCH)等基于SHA-256算法的礦工來說,礦機的算力、功耗、能效比等參數無疑是至關重要的。在這篇文…

vue2滑塊驗證

純 Vue 2 實現的滑塊拖動驗證組件效果說明拖動滑塊到最右側判定為驗證成功支持自定義寬度、高度、顏色、提示文字可擴展軌跡分析或后端驗證邏輯Vue 2 滑塊驗證組件代碼SliderVerify.vue注意&#xff1a;icon圖標使用的是Element ui圖標<template><div class"slid…

74、在昇騰服務器 800I A2上遷移伏羲1.0/2.0大模型,并對比cpu和npu的精度

基本思想&#xff1a;在昇騰服務器上遷移github公開鏈接的的伏羲1.0/2.0大模型&#xff0c;但是由于伏羲2.0模型沒有權重&#xff0c;這里使用自己造的的權重進行推理模型測試&#xff0c;在之前遷移過這個網站問海大模型和問天大模型人工智能天氣預報模型示范計劃AIM-FDP支撐平…

如何高效比對不同合同版本差異,避免法律風險?

智能文檔比對系統通過自動化、高精度的差異比對與結構化報告&#xff0c;鎖定合同修改、防止核心條款誤刪并實現版本清晰追溯&#xff0c;解決證券基金公司在合同范本管理中的操作風險、審核效率與歸檔難題。 如何防止業務人員誤改或誤刪合同條款&#xff1f; 這是一個典型的操…