多模態大模型 Qwen2.5-VL 的學習之旅

Qwen-VL 是阿里云研發的大規模視覺語言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以圖像、文本、檢測框作為輸入,并以文本和檢測框作為輸出。Qwen-VL 系列模型性能強大,具備多語言對話、多圖交錯對話等能力,并支持中文開放域定位和細粒度圖像識別與理解。

https://github.com/QwenLM/Qwen2.5-VL

安裝方法

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]

模型硬件要求:

PrecisionQwen2.5-VL-3BQwen2.5-VL-7BQwen2.5-VL-72B
FP3211.5 GB26.34 GB266.21 GB
BF165.75 GB13.17 GB133.11 GB
INT82.87 GB6.59 GB66.5 GB
INT41.44 GB3.29 GB33.28 GB

模型特性

  • 強大的文檔解析能力:將文本識別升級為全文檔解析,擅長處理多場景、多語言以及包含各種內置元素(手寫文字、表格、圖表、化學公式和樂譜)的文檔。
  • 精準的對象定位跨格式支持:提升了檢測、指向和計數對象的準確性,支持絕對坐標和JSON格式,以實現高級空間推理。
  • 超長視頻理解和細粒度視頻定位:將原生動態分辨率擴展到時間維度,增強對時長數小時的視頻的理解能力,同時能夠在秒級提取事件片段。
  • 增強的計算機和移動設備代理功能:借助先進的定位、推理和決策能力,為模型賦予智能手機和計算機上更出色的代理功能。

使用案例

基礎圖文問答

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_infomodel = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
)# 傳入文本、圖像或視頻
messages = [{"role": "user","content": [{"type": "image","image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",},{"type": "text", "text": "Describe this image."},],}
]# Preparation for inference
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text],images=image_inputs,videos=video_inputs,padding=True,return_tensors="pt",
)
inputs = inputs.to(model.device)# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

多圖輸入

messages = [{"role": "user","content": [{"type": "image", "image": "file:///path/to/image1.jpg"},{"type": "image", "image": "file:///path/to/image2.jpg"},{"type": "text", "text": "Identify the similarities between these images."},],}
]

視頻理解

  • Messages containing a images list as a video and a text query
messages = [{"role": "user","content": [{"type": "video","video": ["file:///path/to/frame1.jpg","file:///path/to/frame2.jpg","file:///path/to/frame3.jpg","file:///path/to/frame4.jpg",],},{"type": "text", "text": "Describe this video."},],}
]
  • Messages containing a local video path and a text query
messages = [{"role": "user","content": [{"type": "video","video": "file:///path/to/video1.mp4","max_pixels": 360 * 420,"fps": 1.0,},{"type": "text", "text": "Describe this video."},],}
]
  • Messages containing a video url and a text query
messages = [{"role": "user","content": [{"type": "video","video": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-VL/space_woaudio.mp4","min_pixels": 4 * 28 * 28,"max_pixels": 256 * 28 * 28,"total_pixels": 20480 * 28 * 28,},{"type": "text", "text": "Describe this video."},],}
]

物體檢測

  • 定位最右上角的棕色蛋糕,以JSON格式輸出其bbox坐標

在這里插入圖片描述

  • 請以JSON格式輸出圖中所有物體bbox的坐標以及它們的名字,然后基于檢測結果回答以下問題:圖中物體的數目是多少?

在這里插入圖片描述

圖文解析OCR

  • 請識別出圖中所有的文字

在這里插入圖片描述

  • Spotting all the text in the image with line-level, and output in JSON format.

在這里插入圖片描述

  • 提取圖中的:[‘發票代碼’,‘發票號碼’,‘到站’,‘燃油費’,‘票價’,‘乘車日期’,‘開車時間’,‘車次’,‘座號’],并且按照json格式輸出。

在這里插入圖片描述

Agent & Computer Use

The user query:在盒馬中,打開購物車,結算(到付款頁面即可) (You have done the following operation on the current device):

在這里插入圖片描述

編輯推薦

系統地介紹大語言模型的提示詞工程以及AI Agent的基本概念和設計方法論。許多用戶在使用ChatGPT等AI工具時,常常感到困惑:為什么有時候能得到滿意的回答,有時候卻答非所問?通過本書,讀者將學習如何構建有效的AI提示詞,以及如何設計合理的對話流程,從而更好地駕馭AI工具。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76964.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76964.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76964.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Redis 與 Memcache 全面對比:功能、性能與應用場景解析

Redis 和 Memcache 都是常用的內存數據庫,以下是它們在多個方面的能力比較: 一、數據類型 Redis:支持豐富的數據類型,如字符串(String)、哈希(Hash)、列表(List&#x…

Oracle--PL/SQL編程

前言:本博客僅作記錄學習使用,部分圖片出自網絡,如有侵犯您的權益,請聯系刪除 PL/SQL(Procedural Language/SQL)是Oracle數據庫中的一種過程化編程語言,構建于SQL之上,允許編寫包含S…

新增優惠券

文章目錄 概要整體架構流程技術細節小結 概要 接口分析 一個基本的新增接口,按照Restful風格設計即可,關鍵是請求參數。之前表分析時已經詳細介紹過這個頁面及其中的字段,這里不再贅述。 需要特別注意的是,如果優惠券限定了使…

力扣面試經典150題(第二十三題)- KMP算法

問題 給你兩個字符串 haystack 和 needle ,請你在 haystack 字符串中找出 needle 字符串的第一個匹配項的下標(下標從 0 開始)。如果 needle 不是 haystack 的一部分,則返回 -1 。 示例 1: 輸入:haysta…

PostgreSQL 的 MVCC 機制了解

PostgreSQL 的 MVCC 機制了解 PostgreSQL 使用多版本并發控制(MVCC)作為其核心并發控制機制,這是它與許多其他數據庫系統的關鍵區別之一。MVCC 允許讀操作不阻塞寫操作,寫操作也不阻塞讀操作,從而提供高度并發性。 一 MVCC 基本原理 1.1 M…

互聯網大廠Java面試:RocketMQ、RabbitMQ與Kafka的深度解析

互聯網大廠Java面試:RocketMQ、RabbitMQ與Kafka的深度解析 面試場景 面試官:馬架構,您好!歡迎參加我們的面試。今天我們將圍繞消息中間件展開討論,尤其是RocketMQ、RabbitMQ和Kafka。您有十年的Java研發和架構設計經…

《巧用DeepSeek快速搞定數據分析》書籍分享

文章目錄 前言內容簡介作者簡介購書鏈接書籍目錄 前言 隨著大數據時代的到來,數據分析和人工智能技術正迅速改變著各行各業的運作方式。DeepSeek作為先進的人工智能模型,不僅在自然語言處理領域具有廣泛應用,還在數據分析、圖像識別、推薦系…

4.Three.js 中 Camera 攝像機詳解

一、什么是 Camera? 在 Three.js 中,Camera(攝像機)決定了我們如何觀察三維場景。 你可以把它理解為我們“眼睛”的位置和方向,場景中的物體再復雜,如果沒有攝像機,就沒有“觀察角度”&#x…

gem5-gpu教程03 當前的gem5-gpu軟件架構(因為涉及太多專業名詞所以用英語表達)

Current gem5-gpu Software Architecture 這是當前gem5-gpu軟件架構的示意圖。 Ruby是在gem5-gpu上下文中用于處理CPU和GPU之間內存訪問的高度可配置的內存系統 CudaCore (src/gpu/gpgpu-sim/cuda_core.*, src/gpu/gpgpu-sim/CudaCore.py) Wrapper for GPGPU-Sim shader_cor…

負載均衡的實現方式有哪些?

負載均衡實現方式常見的有: 軟件負載均衡、硬件負載均衡、DNS負載均衡 擴展 二層負載均衡:在數據鏈路層,基于MAC地址進行流量分發,較少見于實際應用中 三層負載均衡:在網絡層,基于IP地址來分配流量,例如某…

MyBatis 和 MyBatis-Plus 在 Spring Boot 中的配置、功能對比及 SQL 日志輸出的詳細說明,重點對比日志輸出的配置差異

以下是 MyBatis 和 MyBatis-Plus 在 Spring Boot 中的配置、功能對比及 SQL 日志輸出的詳細說明,重點對比日志輸出的配置差異: 1. MyBatis 和 MyBatis-Plus 核心對比 特性MyBatisMyBatis-Plus定位基礎持久層框架MyBatis 的增強版,提供代碼生…

《數據結構世界的樂高積木:順序表的奇幻旅程》

目錄 1. 線性表 2. 順序表 2.1 概念與結構 2.2 分類 2.2.1 靜態順序表 2.2.2 動態順序表 2.3 動態順序表的實現 1. 線性表 線性表(linear list)是n個具有相同特性的數據元素的有限序列。線性表是?種在實際中?泛使?的數據結構,常?的…

RHCE 練習二:通過 ssh 實現兩臺主機免密登錄以及 nginx 服務通過多 IP 區分多網站

一、題目要求 1.配置ssh實現A,B主機互相免密登錄 2.配置nginx服務,通過多ip區分多網站 二、實驗 實驗開始前需準備兩臺 linux 主機便于充當服務端以及客戶端,兩臺主機 IP 如下圖: 實驗1:配置 ssh 實現 A&#xff0…

第十五屆藍橋杯 2024 C/C++組 好數

題目: 題目描述: 題目鏈接: 好數 思路: 第一種思路詳解: 因為每次檢查數都是從個位開始,所以對于每一個數都是先檢查奇數位再檢查偶數位,即存在先檢查奇數位再檢查偶數位的循環。注意一次完…

展銳Android13狀態欄默認顯示電池電量百分比

展銳Android13電池狀態默認不顯示電池電量百分比&#xff0c;打開 /frameworks/base/packages/SettingsProvider/res/values/defaults.xml 在xml的文件最后&#xff0c;增加一項配置def_show_battery_percent&#xff1a; <?xml version"1.0" encoding"u…

OpenCV 高斯模糊 cv2.GaussianBlur

OpenCV 高斯模糊 cv2.GaussianBlur flyfish cv2.GaussianBlur 是 OpenCV 庫中用于對圖像進行高斯模糊處理的函數。 高斯模糊的含義 高斯模糊是一種常見的圖像濾波技術&#xff0c;它可以對圖像進行平滑處理&#xff0c;減少圖像中的噪聲和細節&#xff0c;使得圖像看起來更…

[密碼學基礎]密碼學發展簡史:從古典藝術到量子安全的演進

密碼學發展簡史&#xff1a;從古典藝術到量子安全的演進 密碼學作為信息安全的基石&#xff0c;其發展貫穿人類文明史&#xff0c;從最初的文字游戲到量子時代的數學博弈&#xff0c;每一次變革都深刻影響著政治、軍事、科技乃至日常生活。本文將以技術演進為主線&#xff0c;…

PostgreSQL認證培訓推薦機構

首先來看一張2025年4月份db-engines上的數據庫排行情況&#xff0c;前三名是雷打不動的Oracle、MySQL、Microsoft SQL Server&#xff0c;排名第四的就是我們今天的主角 - PostgreSQL數據庫&#xff0c;從這張圖上可以看出&#xff0c;PostgreSQL數據庫的上升超非常明顯&#x…

STM32 CubeMx下載及安裝(一)

CubeMx及Java下載安裝&#xff08;一&#xff09; 1 背景1.1 基本介紹1.2 主要特點1.3 相關準備 2 軟件下載2.1 Java 官網下載2.2 CubeMx官網下載2.4 CubeMX網盤下載 3 軟件安裝3.1 Java 軟件安裝3.1.1 安裝過程 3.2 CubeMx軟件安裝 總結 1 背景 1.1 基本介紹 STM32CubeMX&am…

Spring Boot 應用優雅關閉

寫這篇文章是因為看到 “線程池在使用結束后應該正確關閉.” 那么如果我們的 Spring 應用都無法正確關閉, 那么線程池肯定也無從保障 1. 優雅關閉 kill with pid, without -9 大多數情況下無須在意這個問題, 正確使用 kill 命令關閉就行 (注意不能使用 kill -9) kill $(cat …