本地部署大模型性能測試,DeepSeek-R1-0528-Qwen-8B 依然是我的不二之選


大家好,我是 ai 學習的老章

介紹一個大模型并發性能測試工具

看一下我高頻使用的,在2*4090顯卡上部署的 DeepSeek-R1-0528-Qwen-8B 性能如何

_我_特別喜歡的三個DeepSeek版本

DeepSeek-R1-0528 蒸餾 Qwen3:8B 大模型,雙 4090 本地部署,深得我心

LLM-Benchmark 項目簡介

項目地址:https://github.com/lework/llm-benchmark

LLM-Benchmark 是一個專為大語言模型(LLM)設計的并發性能測試工具,旨在為模型開發者和運維人員提供自動化壓力測試和性能報告生成能力。通過該工具,用戶可以在不同并發場景下全面評估 LLM 服務的響應能力與穩定性,為模型部署和優化提供數據支持。

主要功能

  1. 多階段并發測試
    LLM-Benchmark 支持從低并發到高并發的多階段壓力測試,幫助用戶了解模型在不同負載下的表現,定位性能瓶頸。
  2. 自動化測試數據收集與分析
    工具自動采集每輪測試的詳細數據,包括響應時間、吞吐量、錯誤率等,極大提升測試效率和數據準確性。
  3. 性能指標統計與可視化報告
    LLM-Benchmark 能生成詳細的性能報告,支持可視化展示,方便用戶直觀分析測試結果。
  4. 短文本與長文本場景支持
    針對不同應用需求,工具支持短文本和長文本兩種測試模式,覆蓋更廣泛的真實使用環境。
  5. 靈活的配置選項
    用戶可通過命令行參數靈活配置測試目標、模型類型、并發數、請求數等關鍵參數,適應多種測試需求。
  6. JSON 輸出支持
    測試結果可輸出為 JSON 格式,便于后續數據分析或與其他工具集成。

適用場景

  • LLM 服務上線前的性能評估與優化
  • 不同模型、不同部署方式的橫向對比
  • 長文本與短文本場景下的極限壓力測試
  • 自動化回歸測試與性能監控

核心文件包括

  • ??run_benchmarks.py?:自動化測試腳本,負責執行多輪壓力測試、自動調整并發配置(1-300 并發)、收集和匯總測試數據,并生成美觀的性能報告。
  • ??llm_benchmark.py?:并發測試的核心實現,負責管理并發請求、連接池,收集詳細性能指標,并支持流式響應測試。
  • ??assets/?:資源文件夾,用于存儲測試所需的輔助資源。
  • ??README.md?:項目文檔,介紹工具用法和參數說明。

使用方法

1. 運行全套性能測試

通過 ??run_benchmarks.py? 腳本,可以自動完成多輪不同并發量的壓力測試,適合全面評估 LLM 服務性能:

python run_benchmarks.py \--llm_url "http://your-llm-server" \--api_key "your-api-key" \--model "your-model-name" \--use_long_context

參數說明:

  • ??–llm_url?:待測 LLM 服務的 URL(必填)
  • ??–api_key?:API 密鑰(可選)
  • ??–model?:模型名稱(默認 deepseek-r1)
  • ??–use_long_context?:啟用長文本測試(默認 False)

2. 運行單次并發測試

如需針對特定并發量進行單輪測試,可使用 ??llm_benchmark.py? 腳本:python llm_benchmark.py \

python llm_benchmark.py \--llm_url "http://your-llm-server" \--api_key "your-api-key" \--model "your-model-name" \--num_requests 100 \--concurrency 10

參數說明:

  • ??–num_requests?:總請求數(必填)
  • ??–concurrency?:并發數(必填)
  • 其他參數與上文類似,還可配置輸出 token 數、請求超時、輸出格式等。

性能報告與輸出

我測試的是全套性能,使用了長上下文模式

python run_benchmarks.py \--llm_url "http://localhost:8001/v1" \--api_key "123" \--model "R1-0528-Qwen3-8B" \--use_long_context

結果如下:

返回性能測試指標的概念說明:

  • 1. RPS(每秒請求數,Requests Per Second)
    RPS 表示系統每秒能夠處理的請求數量,是衡量系統吞吐能力的核心指標。反映模型或服務的并發處理能力,RPS 越高,說明系統單位時間內能服務更多用戶,適合高并發場景。

  • 2. 平均延遲(秒,Average Latency)
    平均延遲指所有請求從發出到收到響應的平均耗時,衡量用戶實際體驗的響應速度,平均延遲越低,用戶等待時間越短,體驗越好。

  • 3. P99延遲(秒,P99 Latency)
    指 99% 的請求響應時間低于該值,只有 1% 的請求耗時更長。反映極端情況下的響應速度,衡量系統在高負載或偶發異常時的表現,適合評估服務的穩定性和最差體驗。

  • 4. 平均TPS(Transactions Per Second)
    平均 TPS 表示每秒生成的 token 數量(在大模型場景下,通常指每秒生成的文本 token 數),衡量模型的實際生成速度,TPS 越高,說明模型生成文本的效率越高,適合需要快速輸出的業務場景。

  • 5. 首Token延遲(秒,First Token Latency)
    首 Token 延遲是指從請求發出到生成第一個 token 的耗時,反映模型首次響應的啟動速度,首 Token 延遲越低,用戶首次看到回復的速度越快,提升交互體驗。

這個結果還是不錯的,50個并發情況下,平均延遲2.4
秒,平均TPS 42.44

  1. 吞吐量(RPS)提升明顯
    隨著并發數提升,RPS 從單并發的 0.91 快速提升到 300 并發下的 43.53,說明模型具備很強的高并發處理能力。
  2. 響應速度與延遲變化
    并發數提升帶來平均延遲的增加,單并發下平均延遲僅 1.098 秒,300 并發時增至 12.62 秒,P99 延遲也有類似趨勢。高并發下部分請求耗時顯著增加。
  3. Token 延遲
    首 Token 延遲在低并發時極低(0.035 秒),但在 200/300 并發時升至 2.849 秒,說明高并發下模型啟動響應速度有所下降。
  4. 平均 TPS 下降
    隨著并發提升,平均 TPS 從 90.89 逐步下降到 12.62,反映高負載時單請求生成 token 的速度受到影響。
  5. 成功率始終 100%
    各并發場景下無失敗請求,模型穩定性表現優秀。

作為對比,我讓豆包幫我找了一下市面上主流平臺DeepSeek API的生成速度

  • DeepSeek:DeepSeek-V3 的文本生成速度官方宣稱是 60 tokens 每秒。但據一些測試數據顯示,通過 API 向 DeepSeek-R1 模型服務器發送請求時,其生成速度有所波動,如 Content 部分 118 tokens,用時 3.12 秒,生成速度 37.76 tokens/s;總體生成 436 tokens,總用時 13.21 秒,平均速度 33.01 tokens/s 等。在深圳本地對 DeepSeek - R1 API 服務測試中,DeepSeek 官方的生成速度為 37.117 tokens/s,推理速度為 25.378 tokens/s。
  • 其他平臺
    • 火山引擎:在深圳本地測試中,生成速度可達 65.673 tokens/s,在成都測試中生成速度高達 72.276 tokens/s。在對六家主流平臺的 API 版本評測中,火山引擎平臺的回復速度均值達到 32tokens/s,推理速度均值達到 29tokens/s,其在深度推理效率與系統穩定性方面優勢顯著。
    • 硅基流動:在深圳本地測試中,生成速度為 16.966 tokens/s。
    • 阿里云百煉:在深圳本地測試中,生成速度為 11.813 tokens/s,且呈現出明顯的時段性波動特征。
    • 訊飛開放平臺:在六家主流平臺 API 版本評測中,推理速度均值為 1.2tokens/s,總平均速度表現較差。
    • Meta 的 Llama API:Cerebras 宣稱其 Llama 4 Cerebras 模型的 tokens 生成速度高達 2600 tokens/s,Groq 提供的 Llama 4 Scout 模型速度為 460 tokens/s。

總結:資源有限DeepSeek-R1-0528-Qwen-8B 是你的不二之選

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個🌟,謝謝你看我的文章,我們下篇再見!

搭建完美的寫作環境:工具篇(12 章)
圖解機器學習 - 中文版(72 張 PNG)
ChatGPT、大模型系列研究報告(50 個 PDF)
108 頁 PDF 小冊子:搭建機器學習開發環境及 Python 基礎
116 頁 PDF 小冊子:機器學習中的概率論、統計學、線性代數
史上最全!371 張速查表,涵蓋 AI、ChatGPT、Python、R、深度學習、機器學習等

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/86100.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86100.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/86100.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

華為云Flexus+DeepSeek征文|華為云 Dify 高可用部署教程:CCE 容器集群一鍵構建企業級智能應用

前言 在數字化轉型加速的企業級應用場景中,構建高可用智能平臺已成為業務創新的核心驅動力。本文深度解析基于華為云CCE容器服務的Dify智能應用部署實踐,揭示如何通過云原生架構與AI技術的深度融合,實現企業知識管理、智能客服等場景的敏捷落…

Linux 多進程間通信(IPC)詳解

在 Linux 系統中,多進程通信(Inter-Process Communication, IPC) 是實現多個進程之間數據交換和同步的重要機制。由于每個進程擁有獨立的地址空間,因此需要借助特定的系統機制來實現信息共享。 ?? Linux 下常見的 6 種進程間通信方式 管道(Pipe)命名管道(FIFO)消息隊…

服務器數據恢復——異常斷電導致服務器故障的數據恢復案例

服務器數據恢復環境: 某服務器上有一組由12塊硬盤組建的raid5磁盤陣列。 機房供電不穩定導致機房中該服務器非正常斷電,重啟服務器后管理員發現服務器無法正常使用。 意外斷電可能會導致服務器上的raid模塊損壞。 服務器數據恢復過程: 1、將故…

微信小程序中 rpx與px的區別

在微信小程序中的rpx比px方便的多 <!--pages/welcome/welcome.wxml--> <!--rpx替換px--> <image style"width:200rpx;height: 200rpx"src"/images/avatar/3.png"></image> <text>你好&#xff0c;凍梨</text> <but…

python3實現QQ官方機器人回調驗證

考慮到第三方的機器人現在越來越難維持了&#xff0c;來搗鼓一下官方的機器人。雖然官方藏著掖著不肯開放很多功能&#xff0c;但起碼能用。官方機器人的優點是穩定&#xff0c;只要申請成功&#xff0c;且你自己不亂搞&#xff0c;基本不存在被封的可能&#xff0c;缺點是藤子…

基于Vue3+TS的自定義指令開發與業務場景應用

文章目錄 1. 前言2. 基礎概念與優勢?3. Vue3TS自定義指令的創建與注冊?3.1. 創建自定義指令?3.2. 注冊自定義指令? 4. 實際場景示例?4.1. 權限指令控制?4.2. 圖片懶加載指令? 5. 優化與注意事項? 1. 前言 在 Vue3 的開發生態中&#xff0c;自定義指令是一項極為靈活且…

Elasticsearch 索引文檔的流程

Elasticsearch 索引文檔的流程是一個分布式、多階段的過程&#xff0c;涉及客戶端請求、路由、主副本同步及持久化等步驟&#xff0c;具體流程如下&#xff1a; 一、客戶端請求與路由 1.1 文檔接收與路由計算? 客戶端通過 REST API 發送文檔寫入請求&#xff0c;需指…

【unity】批量剔除圖片四周空白像素的工具

摘要&#xff1a;Unity圖片空白像素批量處理工具 該工具提供兩種方式批量剔除圖片空白像素&#xff1a; 靜態處理類&#xff1a;提供TrimTexture方法&#xff0c;可讀取紋理像素數據&#xff0c;計算非透明區域邊界&#xff0c;生成裁剪后的新紋理&#xff1b;SaveTexture方法…

可編輯64頁PPT | 基于DeepSeek的數據治理方案

薦言摘要&#xff1a;在數據量爆炸式增長且業務需求日益復雜的當下&#xff0c;企業數據治理面臨著數據分散、標準混亂、價值挖掘難等諸多挑戰。我們基于DeepSeek強大的智能能力&#xff0c;為企業量身打造創新數據治理方案。 DeepSeek憑借其卓越的自然語言處理和深度學習技術…

啟用AWS VPC流日志保存到CloudWatch日志組

目標 啟用VPC流日志 啟用流日志 選擇vpc&#xff0c;開始啟用流日志&#xff0c;如下圖&#xff1a; 設置名稱和日志組&#xff0c;創建流日志&#xff0c;如下圖&#xff1a; 參考 AWS云中的VPC啟用流日志保存S3&#xff08;AWS中國云&#xff09;創建發布到 CloudWatc…

游戲引擎學習路徑與技術棧指南

游戲引擎架構全景圖&#xff08;基于GAMES104 V2.2思維導圖&#xff09; graph TDA[基礎架構] --> A1[面向數據管理]A --> A2[任務系統]A1 --> A11[ECS架構]A1 --> A12[內存優化]A2 --> A21[Job System]A2 --> A22[依賴調度]B[工具鏈] --> B1[編輯器框架]…

預訓練大語言模型

Encoder-only model&#xff08;Autoencoding model&#xff09; 使用掩碼語言模型&#xff08;Masked Language Modeling, MLM&#xff09;進行預訓練輸入原始語句和掩碼&#xff0c;訓練目標是預測掩碼標記&#xff0c;一遍重建原始句子->也稱為降噪目標&#xff08;deno…

C++信奧賽闖關題目1

1閏年 輸入一個年份,輸出它是否為閏年 閏年的規則: 描述:能被4整除,并且不能被100整除的,再加上可以被400整除的 版本一:原始版 #include <iostream> #include <cmath> using namespace std; int main() {int y;cin>>y;bool x = y%4==0&&y…

Qt+OPC開發筆記(三):OPC客戶端訂閱特點消息的Demo

若該文為原創文章&#xff0c;轉載請注明原文出處 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/148868209 長沙紅胖子Qt&#xff08;長沙創微智科&#xff09;博文大全&#xff1a;開發技術集合&#xff08;包含Qt實用技術、樹莓派、三維、OpenCV…

嵌入式開發學習日志Day8(ARM體系架構——按鍵、蜂鳴器及中斷)

一、蜂鳴器學習 代碼實現&#xff1a; 二、BSP工程管理及Makefile 1、BSP工程管理 利用BSP工程管理&#xff0c;使文檔顯示不雜亂&#xff1b; 將這些文件分為4類&#xff0c;并保存到4個不同的文件夾里。 首先在新的工程文件夾里創建一個之后我們編寫的類似led驅動&#xff0…

Linux部署Sonic前后端(詳細版)(騰訊云)

系統用的是Ubuntu 22.04 LTS 1、安裝Docker sudo apt update sudo apt install -y docker.io docker-compose sudo systemctl start docker sudo systemctl enable docker# 如果不想每次用 sudo&#xff0c;可以加權限 sudo usermod -aG docker $USER 2、安裝 docker-compose…

騰訊云CBS:企業級云存儲的性能與可靠性重構

摘要 根據Forrester 2025年網絡分析與可見性&#xff08;NAV&#xff09;報告&#xff0c;東西向流量安全與加密威脅檢測成為企業核心痛點&#xff08;誤報率降低需求↑40%&#xff09;。騰訊云CBS作為底層存儲支柱&#xff0c;通過三副本跨可用區冗余架構與毫秒級故障切換能力…

ubuntu 22.04 更換阿里源 (wsl2 參照)

步驟 1: 備份當前源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 步驟 2: 編輯源列表文件 sudo nano /etc/apt/sources.list 步驟 3: 添加阿里云鏡像源 ubuntu 阿里源地址可以在這查看 ubuntu鏡像_ubuntu下載地址_ubuntu安裝教程-阿里巴巴開源鏡像站 …

idea中push拒絕,merge,rebase的區別

在 IntelliJ IDEA 中進行 Git 操作時&#xff0c;Push 拒絕&#xff08;Push Rejected&#xff09;、Merge 和 Rebase 是常見的沖突解決方式。它們有不同的適用場景和影響&#xff0c;下面詳細說明它們的區別&#xff0c;并附上流程圖幫助理解。 1. Push 拒絕&#xff08;Push …

輕松實現PDF局部擦除的技術級解決方案

在處理PDF文檔時&#xff0c;我們常常會遇到這樣的場景&#xff1a;想要刪除某段文字、擦除一張圖片&#xff0c;或者對頁面內容進行局部調整。但很多編輯工具要么操作繁瑣&#xff0c;要么功能受限&#xff0c;甚至還需要付費解鎖核心功能。 這是一款輕便又實用的PDF編輯工具…