OpenShift AI - 用 ModelCar 構建容器化模型,提升模型彈性擴展速度

《OpenShift / RHEL / DevSecOps 匯總目錄》
說明:本文已經在 OpenShift 4.18 + OpenShift AI 2.19 的環境中驗證

文章目錄

  • 什么是 ModelCar
  • 構建模型鏡像
  • 在 OpenShift AI 使用模型鏡像
    • 部署模型
    • 擴展速度對比
  • 參考

什么是 ModelCar

KServe 典型的模型初始化方法是從 S3 Bucket 獲取模型。由于每次初始化都要下載模型文件,這一過程對于小型模型來說是可行的,但對于大型模型來說就成了性能瓶頸,因為在自動擴展的過程中會大大延遲啟動時間。

ModelCar 是 KServe 為應對這一問題的方案,它具備以下突出優勢:

  • 模型文件已放在容器鏡像中,當鏡像在節點中已被緩存的時候,可避免重復下載模型文件,從而可顯著減少模型啟動的延遲。
  • 因為在節點上運行相同模型的 pod 將訪問同一鏡像,無需在每個 pod 中下載模型數據,因此可減少本地磁盤空間的使用。

構建模型鏡像

  1. 創建下載模型的文件 download_model.py。
$ cat > download_model.py << EOF
from huggingface_hub import snapshot_download# Specify the Hugging Face repository containing the model
model_repo = "Qwen/Qwen2.5-0.5B-Instruct"
snapshot_download(repo_id=model_repo,local_dir="/models",allow_patterns=["*.safetensors", "*.json", "*.txt"],
)
EOF
  1. 創建構建鏡像的文件 Containerfile。
$ cat > Containerfile << EOF
FROM registry.access.redhat.com/ubi9/python-311:latest as baseUSER rootRUN pip install huggingface-hub# Download the model file from hugging face
COPY download_model.py .RUN python download_model.py # Final image containing only the essential model files
FROM registry.access.redhat.com/ubi9/ubi-micro:9.4# Copy the model files from the base container
COPY --from=base /models /modelsUSER 1001
EOF
  1. 構建包含模型的鏡像。
podman build . -t modelcar-example:latest --platform linux/amd64
  1. 將鏡像推送到 Registry。
$ podman images localhost/modelcar-example
REPOSITORY                  TAG         IMAGE ID      CREATED         SIZE
localhost/modelcar-example  latest      ae4aac72bb2c  59 minutes ago  1.02 GB$ podman push localhost/modelcar-example quay.io/your-registry/modelcar-example:latest

在 OpenShift AI 使用模型鏡像

部署模型

  1. 按下圖創建一個使用鏡像作為源的 connection。
    在這里插入圖片描述
  2. 使用以上 connection 部署模型。將 Deployment mode 設為 Advanced,即使用 Serverless 運行模型;Number of model server replicas to deploy 設為 0,即初始運行副本數為零。
    在這里插入圖片描述

擴展速度對比

結合《OpenShift AI - 在 OpenShift 和 OpenShift AI 上運行 LLM》中基于 S3 的模型部署模式,在同一環境中對 ModelCar 和 S3 方式運行的 ibm-granite/granite-3.2-2b-instruct 模型進行同時擴展。測試結果:

  • ModelCar 模式的擴展時間:1分12秒,明顯快。
  • S3 模式的擴展時間:2分22秒。

參考

https://developers.redhat.com/articles/2025/01/30/build-and-deploy-modelcar-container-openshift-ai#modelcar_containers_pros_and_cons
https://github.com/redhat-ai-services/modelcar-catalog
https://opendatahub.io/docs/serving-models/
https://github.com/redhat-ai-services/modelcar-catalog/tree/main/modelcar-images/qwen2.5-0.5b-instruc

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/905672.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/905672.shtml
英文地址,請注明出處:http://en.pswp.cn/news/905672.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C#+WPF+prism+materialdesign創建工具主界面框架

代碼使用C#WPFprismmaterialdesign創建工具主界面框架 主界面截圖&#xff1a;

在選擇合適的實驗室鐵地板和鑄鐵試驗平板,幫分析?

鑄鐵測試底板是一種采用鑄鐵材料經過加工制成的基準測量工具&#xff0c;主要用于工業檢測、機械加工和實驗室等高精度要求的場合。其核心功能是為各類測量、檢驗、裝配工作提供穩定的水平基準面&#xff0c;確保測量數據的準確性和一致性。 一、鑄鐵測試底板的基本特性 1.材質…

C++匿名函數

C 中的匿名函數&#xff08;Lambda 表達式&#xff09;是 C11 引入的一項重要特性&#xff0c;它允許你在需要的地方定義一個臨時的、無名的函數對象&#xff0c;使代碼更加簡潔和靈活。 1. 基本語法 Lambda 表達式的基本結構&#xff1a; [capture list](parameter list) -…

LabVIEW機械振動信號分析與故障診斷

利用 LabVIEW 開發機械振動信號分析與故障診斷系統&#xff0c;融合小波變換、時頻分布、高階統計量&#xff08;雙譜&#xff09;等先進信號處理技術&#xff0c;實現對齒輪、發動機等機械部件的非平穩非高斯振動信號的特征提取與故障診斷。系統通過虛擬儀器技術將理論算法轉化…

湖北理元理律師事務所:債務優化如何實現“減負不降質”?

在債務壓力普遍加劇的背景下&#xff0c;如何平衡債務清償與生活質量&#xff0c;成為個人及企業關注的焦點。湖北理元理律師事務所基于多年實務經驗&#xff0c;總結出一套“法律財務”雙軌制債務優化模型&#xff0c;其核心在于通過科學規劃&#xff0c;幫助債務人在法律框架…

多鏈互操作性標準解析:構建下一代區塊鏈互聯生態

引言 在區塊鏈技術快速演進的今天&#xff0c;“多鏈宇宙”已成為不可逆的趨勢。然而&#xff0c;鏈與鏈之間的孤立性導致流動性割裂、開發成本高昂和用戶體驗碎片化。互操作性標準的制定&#xff0c;正是打破這一僵局的核心鑰匙。本文將深入探討主流互操作性協議的技術架構、…

電腦開機提示按f1原因分析及解決方法(6種解決方法)

經常有網友問到一個問題,我電腦開機后提示按f1怎么解決?不管理是臺式電腦,還是筆記本,都有可能會遇到開機需要按F1,才能進入系統的問題,引起這個問題的原因比較多,今天小編在這里給大家列舉了比較常見的幾種電腦開機提示按f1的解決方法。 電腦開機提示按f1原因分析及解決…

講講git 和svn

講講git 和svn 目錄Git到底是什么&#xff1f;它該怎末用&#xff1f;核心概念基礎操作1. 倉庫的創建2. 文件的提交工作流程3. 分支管理4. 遠程倉庫操作 進階操作實際應用建議**基本用法****常用命令的幫助示例****幫助文檔的結構****替代方法****練習建議****核心概念****與Gi…

【行為型之中介者模式】游戲開發實戰——Unity復雜系統協調與通信架構的核心秘訣

文章目錄 &#x1f54a;? 中介者模式&#xff08;Mediator Pattern&#xff09;深度解析一、模式本質與核心價值二、經典UML結構三、Unity實戰代碼&#xff08;成就系統協調&#xff09;1. 定義中介者接口與同事基類2. 實現具體同事類3. 實現具體中介者4. 客戶端使用 四、模式…

【網工第6版】第10章 網絡規劃和設計②

目錄 ■ 網絡分析與設計 ◆ 網絡規劃設計模型 ◆ 網絡設計的約束因素 ◆ 技術評價 ■ 網絡結構與功能 ◆ 局域網結構類型 ■ 網絡冗余設計 ◆ 網絡冗余設計-備用路徑 ◆ 網絡冗余設計-負載分擔 ■ 廣域網接入技術 ◆ 廣域網接入技術 ◆ 接入和終結設備 ■ 網絡分析…

PowerBI鏈接EXCEL實現自動化報表

PowerBI鏈接EXCEL實現自動化報表 曾經我將工作中一天的工作縮短至2個小時&#xff0c;其中最關鍵的一步就是使用PowerBI鏈接Excel做成一個自動化報表&#xff0c;PowerBI更新源數據&#xff0c;Excel更新報表并且保留報表格式。 以制作一個超市銷售報表為例&#xff0c;簡單敘…

C#.NET 或 VB.NET Windows 窗體中的 DataGridView – 技巧、竅門和常見問題

DataGridView 控件是一個 Windows 窗體控件&#xff0c;它允許您自定義和編輯表格數據。它提供了許多屬性、方法和事件來自定義其外觀和行為。在本文中&#xff0c;我們將討論一些常見問題及其解決方案。這些問題來自各種來源&#xff0c;包括一些新聞組、MSDN 網站以及一些由我…

表記錄的檢索

1.select語句的語法格式 select 字段列表 from 表名 where 條件表達式 group by 分組字段 [having 條件表達式] order by 排序字段 [asc|desc];說明&#xff1a; from 子句用于指定檢索的數據源 where子句用于指定記錄的過濾條件 group by 子句用于對檢索的數據進行分組 ha…

能源設備數據采集

在全球可持續發展目標與環境保護理念日益深入人心的時代背景下&#xff0c;有效管理和優化能源使用已成為企業實現綠色轉型、提升競爭力的關鍵路徑。能源設備數據采集系統&#xff0c;作為能源管理的核心技術支撐&#xff0c;通過對各類能源生產設備運行數據的全面收集、深度分…

【鴻蒙開發】性能優化

語言層面的優化 使用明確的數據類型&#xff0c;避免使用模糊的數據類型&#xff0c;例如ESObject。 使用AOT模式 AOT就是提前編譯&#xff0c;將字節碼提前編譯成機器碼&#xff0c;這樣可以充分優化&#xff0c;從而加快執行速度。 未啟用AOT時&#xff0c;一邊運行一邊進…

群暉NAS部署PlaylistDL音樂下載器結合cpolar搭建私有云音樂庫

文章目錄 前言1.關于PlaylistDL音樂下載器2.Docker部署3.PlaylistDL簡單使用4.群暉安裝Cpolar工具5.創建PlaylistDL音樂下載器的公網地址6.配置固定公網地址總結 前言 各位小伙伴們&#xff0c;你們是不是經常為了聽幾首歌而開通各種平臺的VIP&#xff1f;或者為了下載無損音質…

REST架構風格介紹

一.REST&#xff08;表述性狀態轉移&#xff09; 1.定義 REST&#xff08;Representational State Transfer&#xff09;是由 Roy Fielding 在 2000 年提出的一種軟件架構風格&#xff0c;用于設計網絡應用的通信模式。它基于 HTTP 協議&#xff0c;強調通過統一的接口&#…

計算機視覺----基于錨點的車道線檢測、從Line-CNN到CLRNet到CLRKDNet 本文所提算法Line-CNN 后續會更新以下全部算法

本文所提算法如下&#xff1a; 敘述按時間順序 你也可以把本文當作快速閱讀這幾篇文獻的一個途徑 所有重要的部分我都已經標注并弄懂其原理 方便自己也是方便大家 Line-CNN&#xff1a;基于線提議單元的端到端交通線檢測 摘要 交通線檢測是一項基礎且具有挑戰性的任務。以往的…

一.android Studio開發系統應用——導入TvSettings源碼

目標 最終效果如上,實現在AS中編輯源碼后一鍵在真機中運行。達到和普通應用開發一樣的調試和編碼過程。這種方法可以大幅度提升開發速度,但是導入過程確實相對繁瑣和消耗時間。適合需要精細或者頻繁改動的系統app源碼。 一、新建項目 包名:com.android.tv.settings 版本:…

20250515讓飛凌的OK3588-C的核心板在Linux R4下適配以太網RTL8211F-CG為4線百兆時的接線圖

20250515讓飛凌的OK3588-C的核心板在Linux R4下適配以太網RTL8211F-CG為4線百兆時的接線圖 2025/5/15 20:19 緣起&#xff1a;以前做的網線找不到了&#xff0c;那就再來一條吧。 引腳定義要從頭來過&#xff1f;還好找到了一條。 開干&#xff01; 萬用表一對/點&#xff0c;幾…