Ollama高并發測試

本文主要來測試一下ollama的高并發能力。
具體配置如下:
在這里插入圖片描述

一、Ollama默認參數執行

我們打開4個窗口,然后分別讓DeepSeek “給我講一個笑話” ,看下不同窗口的答題順序。
在這里插入圖片描述
通過答題順序可以看到,在不進行參數設置時,模型是一個一個執行。這樣就說明,默認參數下,Ollama并不支持高并發,它會逐個回復我們的請求。

二、調整Ollama高并發參數

ollama內,有兩個參數與高并發有關分別是:
OLLAMA_MAX_LOADED_MODELS:每個模型將同時處理的最大并行請求數,也就是能同時響應幾個LLM
至于應用場景的話,就是我們可以同時在聊天頁面調用兩個LLM同時聊天,看看不同的LLM會有怎樣不同的響應。
當然,這樣設置后,不同的用戶也可以在同一時間請求不同的模型。
OLLAMA_NUM_PARALLEL:每個模型將同時處理的最大并行請求數,也就是能同時回復多少個LLM
這個參數對于高并發非常重要,如果你部署好了Ollama,假如有10個人同時請求了你的LLM,如果一個一個回答,每個模型回復10秒鐘,那輪到第10個人將會在1分多種后,對于第10個人來說是不可接受的。
以上兩個參數應根據自己的硬件條件自行設置。
高并發測試:
我們將以上兩個參數添加到電腦的環境變量內,均設置為4。
在這里插入圖片描述

OLLAMA_MAX_LOADED_MODELS  4
OLLAMA_NUM_PARALLEL 4

設置好后,確認環境變量并重啟Ollama,我們來看一下效果。
在這里插入圖片描述
可以看到,在設置并發數為4之后,模型就能同時響應4個用戶的請求。
一般來說,對于中小型的部署,可以采用Ollam當作底座,只需要部署多個服務器,通過反向代理與負載均衡即可實現。
如果要面對更多的并發請求,不建議使用Ollama當作底座,應采用VLLM進行部署。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/77106.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/77106.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/77106.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

資源管理與HPA:讓Kubernetes應用自動伸縮

引言:從“手動擋”到“自動駕駛” 想象我們駕駛一輛汽車,手動調節油門和換擋不僅費力,還難以應對突發狀況。我們的應用服務也一樣,在面對突然的流量增長,內存使用暴漲該如何應對。HPA(Horizontal Pod Auto…

Windows 下 MongoDB ZIP 版本安裝指南

在開發和生產環境中,MongoDB 是一種非常流行的 NoSQL 數據庫,以其靈活性和高性能而受到開發者的青睞。對于 Windows 用戶來說,MongoDB 提供了多種安裝方式,其中 ZIP 版本因其靈活性和輕量級的特點,成為很多開發者的首選…

【Linux網絡與網絡編程】11.數據鏈路層mac幀協議ARP協議

前面在介紹網絡層時我們提出來過一個問題:主機是怎么把數據交給路由器的?那里我們說這是由數據鏈路層來做的。 網絡上的報文在物理結構上是以mac幀的形式流動的,但在邏輯上是以IP流動的,IP的流動是需要mac幀支持的。 數據鏈路層解…

多模態思維鏈AI醫療編程:從計算可持續性到開放域推理的系統性解決方案

多模態思維鏈AI醫療編程:從計算可持續性到開放域推理的系統性解決方案 醫療AI領域的多模態思維鏈技術正在重塑臨床決策支持、醫學影像分析和醫療流程優化的范式。本指南從計算可持續性、錯誤傳播控制、倫理安全防護和通用性擴展四大維度,系統解析醫療大模型落地落地的關鍵要…

代理模式深度解析

目錄 一 靜態代理 1.1 優點 1.2 缺點 1.3 適用場景 二 JDK動態代理 1 JDK動態代理的工作原理 1.1 創建代理類 1.2 加載代理類 1.3 實現方法調用 2. Proxy.newProxyInstance() 的核心工作流程 方法簽名 工作步驟 3. 代理類的生成與加載 3.1 代理類生成的關鍵方法 …

Spring Cache與Redis集成原理

一、核心架構圖解 #mermaid-svg-aiWGQLhmWx7kOfLz {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-aiWGQLhmWx7kOfLz .error-icon{fill:#552222;}#mermaid-svg-aiWGQLhmWx7kOfLz .error-text{fill:#552222;stroke:#5…

編程技能:調試02,設置斷點與刪除斷點

專欄導航 本節文章分別屬于《Win32 學習筆記》和《MFC 學習筆記》兩個專欄,故劃分為兩個專欄導航。讀者可以自行選擇前往哪個專欄。 (一)WIn32 專欄導航 上一篇:編程技能:調試01,調試介紹 回到目錄 下…

flink寫doris時的優化

1.概念 doris并不擅長高頻、小量數據的導入; 因為doris每一次數據導入都會在be節點上生成數據文件;如果高頻導入小量數據,就會在存儲層產生大量的小文件(必然會影響到后續的查詢效率,也會對系統產生更多的compaction…

ElementNotInteractableException原因及解決辦法

在自動化測試中,ElementNotInteractableException是一個常見的異常,它通常發生在嘗試與網頁上的某個元素進行交互(例如點擊、輸入等操作)時,但由于該元素當前不可交互。這可能由多種原因引起,以下是一些常見的原因及其解決方法: 元素未完全加載 如果嘗試與頁面上的元素交…

如何從 GitHub 鏡像倉庫到極狐GitLab?

最近 GitHub 封禁中國用戶的事情鬧得沸沸揚揚,雖然官方發布的報道說中國用戶被限制登錄是因為配置錯誤導致,已經撤回了更新,中國用戶已經可以正常使用。但是這就像橫在國內開發者和企業頭上的“達摩克利斯之劍”。為了避免 GitHub 不可用而帶來的影響,國內開發者和企業可以…

服務器安裝nacos

1.下載依賴 docker pull nacos/nacos-server:v2.4.3安裝 docker run -d --name nacos-server -p 8848:8848 -e MODEstandalone nacos/nacos-server:v2.4.3把nacos中的data 文件和conf 文件copy到自己服務的文件夾 docker cp nacos-server:/home/nacos/data /home/admin1/…

Matter協議暗戰:蘋果、谷歌、亞馬遜的智能家居霸權爭奪

原文地址:Matter協議暗戰:蘋果、谷歌、亞馬遜的智能家居霸權爭奪 一、Matter 協議:巨頭聯手打造的 “智能家居聯合國” 1.1 從 CHIP 到 Matter:標準統一的十年長跑 智能家居發展多年,卻始終被 “孤島效應” 困擾。各…

軟件設計師2009-2022歷年真題與答案解析(附pdf下載)

軟考在即,現在給大家分享一下軟件設計師2009-2022真題與答案解析 pdf全套,文末提供大家免費下載,大家都知道在軟考備考過程中,擁有一套全面且實用的考試資料對于考生來說至關重要。目錄如下: 歷年真題及詳解2004-2019 …

基于EasyX庫開發的球球大作戰游戲

目錄 球球大作戰 一、開發環境 二、流程圖預覽 三、代碼邏輯 1、初始化時間 2、設置開始界面大小 3、設置開始界面 4、讓玩家選擇速度 5、設置玩家小球、人機小球、食物的屬性 6、一次性把圖繪制到界面里 7、進入死循環 8、移動玩家小球 9、移動人機 10、食物刷新…

aslist和list的區別

?Arrays.asList和List的主要區別在于它們的固定長度和不可變性、與原始數組的關系、性能以及使用場景。 一、固定長度和不可變性 ?Arrays.asList?:通過Arrays.asList方法創建的List是一個固定長度的List,其長度與原始數組相同。這意味著你不能通過添…

大模型預標注和自動化標注在OCR標注場景的應用

OCR,即光學字符識別,簡單來說就是利用光學設備去捕獲圖像并識別文字,最終將圖片中的文字轉換為可編輯和可搜索的文本。在數字化時代,OCR(光學字符識別)技術作為處理圖像中文字信息的關鍵手段,其…

stm32工程,拷貝到另一臺電腦編譯,錯誤提示頭文件找不到cannot open source input file “core_cm4.h”

提示 cannot open source input file “core_cm4.h” ,找不到 [ core_cm4.h ] 這個頭文件 . 于是我在原電腦工程文件里找也沒有找到這個頭文件 接下來查看原電腦keil的頭文件引入配置,發現只引入了工程文件下的頭文件, 那么core_cm4.h到底哪里來的? (到現在我也不清楚怎…

STM32 模塊化開發指南 · 第 2 篇 如何編寫高復用的外設驅動模塊(以 UART 為例)

本文是《STM32 模塊化開發實戰指南》的第 2 篇,聚焦于“串口驅動模塊的設計與封裝”。我們將從一個最基礎的裸機 UART 初始化開始,逐步實現:中斷支持、環形緩沖收發、模塊接口抽象與測試策略,構建一個可移植、可擴展、可復用的 UART 驅動模塊。 一、模塊化 UART 的設計目標…

【NLP 59、大模型應用 —— 字節對編碼 bpe 算法】

目錄 一、詞表的構造問題 二、bpe(byte pair encoding) 壓縮算法 算法步驟 示例: 步驟 1:初始化符號表和頻率統計 步驟 2:統計相鄰符號對的頻率 步驟 3:合并最高頻的符號對 步驟 4:重復合并直至終止條件 三、bpe在NLP中…

TMS320F28P550SJ9學習筆記15:Lin通信SCI模式結構體寄存器

今日初步認識與配置使用Lin通信SCI模式,用結構體寄存器的方式編程 文章提供完整工程下載、測試效果圖 我的單片機平臺是這個: LIN通信引腳: LIN通信PIE中斷: 這個 PIE Vector Table 表在手冊111頁: 這是提到LINa的PI…