【GPT入門】第67課 多模態模型實踐: 本地部署文生視頻模型和圖片推理模型

【GPT入門】第67課 多模態模型實踐: 本地部署文生視頻模型和圖片推理模型

  • 1. 文生視頻模型CogVideoX-5b 本地部署
    • 1.1 模型介紹
    • 1.2 環境安裝
    • 1.3 模型下載
    • 1.4 測試
  • 2.ollama部署圖片推理模型 llama3.2-vision
    • 2.1 模型介紹
    • 2.2 安裝ollama
    • 2.3 下載模型
    • 2.4 測試模型
    • 2.5 測試

1. 文生視頻模型CogVideoX-5b 本地部署

https://www.modelscope.cn/models/ZhipuAI/CogVideoX-5b/summary

1.1 模型介紹

https://www.modelscope.cn/models/ZhipuAI/CogVideoX-5b/summary

1.2 環境安裝

下載 安裝conda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

conda create --prefix /root/autodl-tmp/xxzhenv/video python=3.10 -y

conda create --name video python=3.10

 pip install --upgrade transformers accelerate diffusers imageio-ffmpeg 

1.3 模型下載

modelscope download --model ZhipuAI/CogVideoX-5b   --local_dir /root/autodl-tmp/models_xxzh/ZhipuAI/CogVideoX-5b  

1.4 測試

import torch
from modelscope import CogVideoXPipeline
from diffusers.utils import export_to_videoprompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."pipe = CogVideoXPipeline.from_pretrained("/root/autodl-tmp/models_xxzh/ZhipuAI/CogVideoX-5b",torch_dtype=torch.bfloat16
)pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()video = pipe(prompt=prompt,num_videos_per_prompt=1,num_inference_steps=50,num_frames=49,guidance_scale=6,generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]export_to_video(video, "output.mp4", fps=8)

2.ollama部署圖片推理模型 llama3.2-vision

2.1 模型介紹

官網: https://ollama.com/library/llama3.2-vision

Llama 3.2-Vision 多模態大型語言模型(LLM)系列,是包含 110 億參數和 900 億參數兩種規模的指令微調型圖像推理生成模型集合,支持 “輸入文本 + 圖像 / 輸出文本” 的交互模式。
經過指令微調的 Llama 3.2-Vision 模型,在視覺識別、圖像推理、圖像描述生成,以及回答與圖像相關的通用問題等任務上進行了優化。在行業常用基準測試中,該系列模型的性能優于多款已有的開源及閉源多模態模型。

支持語言

  • 純文本任務:官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語共 8 種語言。此外,Llama 3.2 的訓練數據涵蓋了比這 8 種官方支持語言更廣泛的語種范圍。
  • 圖像 + 文本任務:需注意,目前僅支持英語。

2.2 安裝ollama

curl -fsSL https://ollama.com/install.sh | sh

2.3 下載模型

ollama pull llama3.2-vision

在這里插入圖片描述

2.4 測試模型

conda create --prefix /root/autodl-tmp/xxzhenv/ollama python=3.10 -y
conda activate ollama
pip install ollama

2.5 測試

放一個圖片在這里插入圖片描述

import ollamaresponse = ollama.chat(model='llama3.2-vision',messages=[{'role': 'user','content': 'What is in this image?','images': ['image.jpeg']}]
)print(response)

回復:

(/root/autodl-tmp/xxzhenv/ollama) root@autodl-container-b197439d52-c6eeee38:~/autodl-tmp/xxzh# python test01.py 
model='llama3.2-vision' created_at='2025-09-12T07:40:47.282497498Z' done=True done_reason='stop' total_duration=9314004386 load_duration=6304258184 prompt_eval_count=16 prompt_eval_duration=1965372891 eval_count=74 eval_duration=1036467359 message=Message(role='assistant', content='The image is a painting of a starry night sky with a village below, featuring a large cypress tree and a bright crescent moon. The painting is called "The Starry Night" and was created by Vincent van Gogh in 1889. It is one of his most famous works and is widely considered a masterpiece of Post-Impressionism.', thinking=None, images=None, tool_name=None, tool_calls=None)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98965.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98965.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98965.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++初階(6)類和對象(下)

1. 再談構造函數(構造函數的2個深入使用技巧) 1.1 構造函數體賦值 在創建對象時,編譯器通過調用構造函數,給對象中各個成員變量一個合適的初始值。 雖然上述構造函數調用之后,對象中已經有了一個初始值,…

容器文件描述符熱遷移在云服務器高可用架構的實施標準

在云計算環境中,容器文件描述符熱遷移技術正成為保障業務連續性的關鍵解決方案。本文將深入解析該技術在云服務器高可用架構中的實施標準,涵蓋技術原理、實現路徑、性能優化等核心維度,為構建穩定可靠的容器化基礎設施提供系統化指導。 容器文…

毫米波雷達液位計如何遠程監控水位?

引言毫米波雷達液位計作為一種高精度、非接觸式的水位監測設備,正逐漸成為智慧水務、環境監測等領域的關鍵工具。其通過先進的調頻連續波(FMCW)技術,實現5mm的測量精度,并支持多種遠程通信方式,使用戶能夠實…

關于 C++ 編程語言常見問題及技術要點的說明

關于 C 編程語言常見問題及技術要點的說明C 作為一門兼具高效性與靈活性的靜態編譯型編程語言,自 1985 年正式發布以來,始終在系統開發、游戲引擎、嵌入式設備、高性能計算等領域占據核心地位。隨著 C 標準(如 C11、C17、C20)的持…

【Qt QSS樣式設置】

Qt中的QSS樣式設置流程 Qt Style Sheets (QSS) 是Qt框架中用于自定義控件外觀的樣式表語言,其語法類似于CSS。以下是QSS的設置流程和示例。 QSS設置流程 1. 創建QSS樣式表文件或字符串 首先,需要創建QSS樣式表,可以是一個單獨的.qss文件&…

使用 Apollo TransformWrapper 生成相機到各坐標系的變換矩陣

使用 Apollo TransformWrapper 生成相機到各坐標系的變換矩陣一、背景二、原理1、什么是變換矩陣?2、為什么需要變換矩陣?3、Apollo 中的坐標系4、Apollo TransformWrapper三、操作步驟1. 設置車輛參數2. 啟動靜態變換發布3. 查看變換信息4. 播放記錄數據…

硬件(十)IMX6ULL 中斷與時鐘配置

一、OCP 原則(開閉原則)對代碼擴展是開放的,允許通過新增代碼來擴展功能;對代碼的修改是關閉的,盡量避免直接修改已有穩定運行的代碼,以此保障代碼的穩定性與可維護性。二、中斷處理(一&#xf…

打工人日報#20250913

打工人日報#20250913 周六,回杭州了,這邊居然下雨。 閱讀 《小米創業思考》 第七章 技術為本 其中的技術介紹算是比較詳細的,架構也很清晰,有一種對自己家產品如數家珍的感覺,對于架構也是經常思考的感覺感恩 和namwei…

【面試題】RAG核心痛點

1. 文檔切分粒度不好把控,既擔心噪聲太多又擔心語義信息丟失 這是一個經典難題。切分粒度過大,單個chunk包含過多無關信息(噪聲),會干擾LLM理解核心內容;切分過小,則可能割裂句子或段落的完整語…

網絡安全與iptables防火墻配置

iptables基本概念iptables是Linux系統中強大的防火墻工具,它工作在用戶空間,通過命令行界面與內核空間的netfilter框架交互,實現數據包過濾、網絡地址轉換(NAT)等功能。Web服務器防火墻配置實例以下是針對Web服務器的iptables配置步驟&#x…

qt中給QListWidget添加上下文菜單(快捷菜單)

步驟 添加customContextMenuRequested信號的槽函數,添加后,在QListWidget上單擊右鍵,無法響應,還必須執行下面操作;設置QListWidget上下文菜單策略為Qt::CustomContextMenu 如下:

一款好看的jQuery前端框架-HisUI

HisUI:一款基于EasyUI的前端組件類庫,讓web開發更迅速、簡單。 HisUI官網文檔

【Docker】P3 入門指南:運維與開發雙重視角

目錄Docker入門:運維與開發運維視角Docker 架構概述Docker 鏡像鏡像概念理解查看和管理鏡像拉取鏡像鏡像標識容器管理啟動容器容器內操作容器的后臺運行多容器管理重新進入運行中的容器容器生命周期管理開發視角容器化思維示例:基于 Nginx 鏡像構建簡單 …

第六屆大數據、人工智能與物聯網工程國際會議(ICBAIE 2025)

重要信息 時間:2025年10月17-19日 地點:中國上海 官網:www.icbaie.net 征稿主題 1. 大數據與云計算 2. 人工智能技術與應用 3. 機器人科學與工程 4. 物聯網與傳感器技術 5. 其他 大數據、人工智能與物聯網 引言 在數字化轉型的時代…

Docker存儲卷(Volume)核心概念、類型與操作指南

文章目錄一、存儲卷概念二、存儲卷分類2.1 管理卷2.2 綁定數據卷2.3 臨時數據卷三、MySQL災難恢復四、存儲卷的局限性一、存儲卷概念 什么是存儲卷? ??Docker 存儲卷 是 Docker 容器中用于持久化存儲數據的獨立文件系統區域。它獨立于容器的聯合文件系統&#xf…

Electron 原生模塊集成:使用 N-API

引言:原生模塊集成在 Electron 開發中的 N-API 核心作用與必要性 在 Electron 框架的擴展開發中,原生模塊集成是提升應用性能和功能邊界的關鍵技術,特別是使用 N-API(Node-API)編寫和集成 C 原生模塊,更是 …

android組包時會把從maven私服獲取的包下載到本地嗎

Android項目在構建(組包)時,Gradle會自動將從Maven私服(或任何配置的倉庫)獲取的依賴包(AAR、JAR等)下載到本地的Gradle緩存目錄中。 下面詳細解釋這個過程和相關的概念: 詳細過程聲…

【應用筆記】構建具有增強識別、防欺騙和說話人識別功能的高級語音用戶界面--瑞薩電子

Suad Jusuf(Director Product Marketing and Strategy, Renesas AI Center of Excellence):語音用戶界面(VUI)正在徹底改變我們與技術交互的方式,實現免提、無縫的通信。通過整合先進語音命令識別功能&…

DAY 26 函數專題1:函數定義與參數-2025.9.13

DAY 26 函數專題1:函數定義與參數 知識點回顧: 函數的定義變量作用域:局部變量和全局變量函數的參數類型:位置參數、默認參數、不定參數傳遞參數的手段:關鍵詞參數傳遞參數的順序:同時出現三種參數類型時…

芯昇XS9922C可替代TP9932和TP9930:國產四核高清解碼芯片,開啟車載視覺處理新紀元 ——從像素級解析到全鏈路集成,重新定義智能駕駛感知核心

引言:車載視覺的“芯”革命 在智能駕駛技術飛速演進的今天,高清視頻采集與實時處理已成為車輛環境感知的“神經中樞”。傳統解碼方案面臨傳輸距離有限、多芯片集成度低、音視頻同步難等痛點,制約著車載環視、盲區檢測等關鍵功能的性能突破。X…