BM1684X平臺:Qwen-2-5-VL圖像/視頻識別應用

一、 簡介

Qwen-2-5-VL 是阿里巴巴通義千問團隊推出的多模態大語言模型(MLLM),屬于 Qwen-2 系列模型的一部分,支持視覺(Vision)與語言(Language)的多模態交互。

1、特性

  • 動態分辨率處理:自適應調整圖像分辨率以平衡精度與計算效率。
  • 跨模態對齊:通過對比學習對齊視覺-語言特征空間,提升模態交互能力。
  • 低資源適配:支持量化、LoRA微調等輕量化部署方案。

2、工程目錄

    Qwen2-5-VL├── datasets│   ├──images                        # 默認為一張panda.jpg的圖片│   └──videos                        # 默認為一段carvana_video.mp4的視頻├── models│   └── BM1684X│       └── qwen2.5-vl-3b_bm1684x_w4bf16_seq2048.bmodel    # BM1684X qwen2.5-vl-3b模型├── python│   ├── __pycache__│   ├── configs                       # 配置文件│   ├── qwen2_5_vl.py                 # 啟動程序│   ├── README.md                     # 說明文檔│   ├── vision_process.py             # 視覺數據預處理文件│   └── requirements.txt              # python依賴├── scripts│   ├── compile.sh│   ├── datasets.zip│   ├── download_bm1684x_bmodel.sh       # 1684X盒子模型下載腳本│   ├── download_bm1688_bmodel.sh        # 1688盒子模型下載腳本│   └── download_datasets.sh             # 數據集下載腳本└── tools                              # 工具包

二、運行步驟

1、準備Python環境、數據與模型

1.1 首先升級python版本為3.10
    sudo add-apt-repository ppa:deadsnakes/ppasudo apt updatesudo apt install python3.10 python3.10-dev# 創建虛擬環境(不含pip包),以后每次運行都要按照步驟切換虛擬環境cd /data# 創建虛擬環境(不包含 pip)python3.10 -m venv --without-pip myenv# 進入虛擬環境source myenv/bin/activate# 手動安裝 pipcurl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypython get-pip.pyrm get-pip.py# 安裝依賴庫pip3 install torchvision pillow qwen_vl_utils transformers --upgrade
1.2 復制算能官方的Qwen2-5-VL工程目錄(或者復制后將Qwen2_5-VL上傳到盒子中的/data下)
    git clone https://github.com/sophgo/sophon-demo.gitcd sophon-demo/sample/Qwen2_5-VLcd /data/Qwen2_5-VL  ##如果只上傳了LLM_api_server,則只需進入此目錄下操作
1.3 準備運行環境

在PCIe上無需修改內存,以下為soc模式相關:

對于1684X系列設備(如SE7/SM7),都可以通過這種方式完成環境準備,使其滿足Qwen2.5-VL運行條件。

首先,確保使用V24.04.01 SDK,可以通過bm_version命令檢查SDK版本,如需要升級,可從sophgo.com獲取v24.04.01版本SDK,刷機包位于sophon-img-xxx/sdcard.tgz中,參考對應的產品手冊進行刷機。

確保SDK版本后,在1684x SoC環境上,參考如下命令修改設備內存

    cd /data/mkdir memedit && cd memeditwget -nd https://sophon-file.sophon.cn/sophon-prod-s3/drive/23/09/11/13/DeviceMemoryModificationKit.tgztar xvf DeviceMemoryModificationKit.tgzcd DeviceMemoryModificationKittar xvf memory_edit_{vx.x}.tar.xz #vx.x是版本號cd memory_edit./memory_edit.sh -p #這個命令會打印當前的內存布局信息./memory_edit.sh -c -npu 7615 -vpu 2048 -vpp 2048 #如果是在1688平臺上請修改為:./memory_edit.sh -c -npu 10240 -vpu 0 -vpp 3072sudo cp /data/memedit/DeviceMemoryModificationKit/memory_edit/emmcboot.itb /boot/emmcboot.itb && syncsudo reboot
1.4 安裝unzip以及測試數據集準備
    sudo apt install unzipchmod -R +x scripts/./scripts/download_bm1684x_bmodel.sh  ##下載模型文件./scripts/download_datasets.sh  ##下載數據集

2、python例程

2.1 環境準備
    # 此外您可能還需要安裝其他庫cd /data/Qwen2_5-VL/pythonpip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple --upgradepip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple# 您需要安裝SILK2.Tools.loggerpython3 -m dfss --url=open@sophgo.com:tools/silk2/silk2.tools.logger-1.0.2-py3-none-any.whlpip3 install silk2.tools.logger-1.0.2-py3-none-any.whl --force-reinstallrm -f silk2.tools.logger-1.0.2-py3-none-any.whl# 本例程依賴sophon-sail,可直接安裝sophon-sail,執行如下命令:pip3 install dfss --upgradepython3 -m dfss --install sail# 需要下載運行配置文件,執行如下命令python3 -m dfss --url=open@sophgo.com:sophon-demo/Qwen2_5_VL/configs.zipunzip configs.ziprm configs.zip
2.2 啟動測試
參數說明

可以通過修改qwen2_5_vl.py中的內容進行測試運行。內容如圖:

TOOL

需要將其中896行的bmodel默認路徑改為:../models/BM1684X/qwen2.5-vl-3b_bm1684x_w4bf16_seq2048.bmodel

使用方式
    # 視頻識別python3 qwen2_5_vl.py --vision_inputs="[{\"type\":\"video_url\",\"video_url\":{\"url\": \"../datasets/videos/carvana_video.mp4\"},\"resized_height\":420,\"resized_width\":630,\"nframes\":2}]"# 圖片識別python3 qwen2_5_vl.py --vision_inputs="[{\"type\":\"image_url\",\"image_url\":{\"url\": \"../datasets/images/panda.jpg\"}, \"max_side\":420}]"# 同時python3 qwen2_5_vl.py --vision_inputs="[{\"type\":\"video_url\",\"video_url\":{\"url\": \"../datasets/videos/carvana_video.mp4\"},\"resized_height\":420,\"resized_width\":630,\"nframes\":2},{\"type\":\"image_url\",\"image_url\":{\"url\": \"../datasets/images/panda.jpg\"}, \"max_side\":840}]"# 純文本對話python3 qwen2_5_vl.py --vision_inputs=""
使用效果

TOOL

TOOL

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/92163.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/92163.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/92163.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端項目工程化配置webpack與vite

webpack與vite一、了解 webpack入口(entry)輸出(output)loader插件(plugin)模式(mode)二、項目中使用webpackvue項目react項目三、了解vite構建選項(build)模塊解析(Resolve)模塊處理(Module)服務器選項&am…

機器學習(3):KNN算法-分類

一、KNN算法 K-近鄰算法(K-Nearest Neighbors,簡稱KNN),根據K個鄰居樣本的類別來判斷當前樣本的類別;如果一個樣本在特征空間中的k個最相似(最鄰近)樣本中的大多數屬于某個類別,則該類本也屬于這個類別。一些距離&…

Redis Windows遷移方案與測試

我想將開源軟件Redis的主程序和附屬程序遷移到Windows平臺,目前它只能在Linux上運行,讓它可以在Windows 11和Windows Server 2025上運行,這需要考慮Linux操作系統和Windows操作系統的差異,請列舉出將Redis在Linux系統上運行的GCC的…

信息安全概述--實驗總結

數據鏈路層--ARP欺騙ARP欺騙原理XP2要與XP3通信,要發送ARP請求,詢問XP3的MAC地址kali冒充XP3持續給XP2發送ARP應答,XP2會以為收到的MAC地址是XP3的,實際是kali的之后XP2發送的數據都是發給kali的如果說XP2需要想要訪問互聯網&…

【Electron】打包后圖標不變問題,圖標問題

windows上圖標未更換。圖標已經換了,但新打出的包或是安裝后的 exe 圖標沒有更換。這個時候可以右擊你的exe或是安裝包點屬性,看看圖標是否正常,如果這里的圖標正常,那其實就是成功的了。主要原因是因為 windows 圖標緩存機制導致…

單詞拆分 II

題目&#xff1a;思考&#xff1a; 本質上和單詞拆分1沒什么區別單詞拆分1是問能不能拆單詞拆分2是問把所有拆的方案列出來要列出所有方案&#xff0c;采用字典樹回溯 實現&#xff1a; class Node { public:vector<Node*> check;bool isEnd;Node(int num){for (int i0;i…

國產三防平板電腦是什么?三防平板推薦

國產三防平板電腦&#xff0c;專為應對極端工作環境而生。這類設備集防水、防塵、防摔三大防護性能于一體&#xff0c;通過IP67/IP68防護認證及MIL-STD-810軍規標準測試&#xff0c;能在建筑工地、油田勘探、應急救援等惡劣場景中穩定運行。其核心價值在于將消費級平板的智能體…

優思學院|什么是精益生產管理?原則與方法詳述

在企業經營中&#xff0c;「利潤&#xff1d;價格&#xff0d;成本」這條公式可謂家喻戶曉。傳統的成本思維通常認為價格由公司設定&#xff0c;而成本則是難以撼動的既定事實。然而&#xff0c;隨著市場經濟與自由定價機制的成熟&#xff0c;企業逐漸意識到——價格其實是由市…

【銀行測試】銀行票據項目業務+票據測試點分析(四)

目錄&#xff1a;導讀 前言一、Python編程入門到精通二、接口自動化項目實戰三、Web自動化項目實戰四、App自動化項目實戰五、一線大廠簡歷六、測試開發DevOps體系七、常用自動化測試工具八、JMeter性能測試九、總結&#xff08;尾部小驚喜&#xff09; 前言 1、提示付款 功能…

基于華為開發者空間的Open WebUI數據分析與可視化實戰

1 概述 1.1 案例介紹 本案例演示如何在華為開發者空間云主機上搭建Open WebUI環境&#xff0c;結合DeepSeek-R1模型進行數據分析、統計建模、數據可視化和業務洞察挖掘等實際數據科學任務。 1.2 適用對象 數據分析師業務分析師數據科學工程師市場研究人員統計學專業學生 1…

【HZ-T536開發板免費體驗】Cangjie Magic調用視覺語言大模型(VLM)真香,是不是可以沒有YOLO和OCR了?

目錄 引言 編寫視覺語言大模型&#xff08;VLM&#xff09;程序 交叉編譯Cangjie Magic到T536開發板 對cjpm.toml文件的修改 stdx庫的配置 拷貝libsecurec.so到cangjie的庫文件中 開始交叉編譯 部署到開發板 拷貝所需要的庫文件 安裝curl 運行程序 結束語 本文首發…

最長連續序列(每天刷力扣hot100系列)

目錄 題目介紹&#xff1a; 哈希表法&#xff1a; 復雜度分析&#xff1a; 思路分析&#xff1a; unordered_set 和 unordered_map的比較&#xff1a; 1. 核心區別 2. 使用場景 3. 在本題中的選擇 4. 性能對比 5. 成員函數差異 unordered_table.begin()函數是返回的鍵…

國標渠道研究:專業為渠道策略提供數據支持(渠道調研)

北京國標市場調查有限公司是一家專業的市場調查公司&#xff0c;&#xff08;線上問卷調查&#xff09;&#xff08;第三方市場咨詢&#xff09;&#xff08;消費者調查研究&#xff09;專注于為企業提供全方位的渠道研究服務。服務范圍包括渠道策略研究、渠道銷售數據分析和渠…

深入理解 C 語言中的拷貝函數

目錄1. C 語言中的主要拷貝函數2. strcpy&#xff1a;字符串拷貝函數簽名示例局限性3. strncpy&#xff1a;指定長度的字符串拷貝函數簽名示例局限性4. memcpy&#xff1a;通用內存拷貝函數簽名示例優勢局限性5. memmove&#xff1a;支持重疊內存拷貝函數簽名示例優勢局限性6. …

主數據變更流程

主數據&#xff08;如客戶、供應商、產品等&#xff09;的變更流程&#xff08;新增、更新、停用等&#xff09;是主數據管理&#xff08;MDM&#xff09;的核心環節&#xff0c;其設計需兼顧數據質量&#xff08;準確性、一致性&#xff09;、業務合規&#xff08;審批權限、審…

VUE2 學習筆記 合集

???????VUE2 學習筆記1 VUE特點、開發者工具、入門Demo-CSDN博客 VUE2 學習筆記2 數據綁定、數據代理、MVVM_vue2的數據綁定-CSDN博客 VUE2 學習筆記3 v-on、事件修飾符、鍵盤事件_vue2組件 點擊事件-CSDN博客 VU2 學習筆記4 計算屬性、監視屬性-CSDN博客 VUE2 學習…

【motion】HumanML3D 的安裝1:環境搭建

https://github.com/EricGuo5513/HumanML3D/issues/10 (base) root@k8s-master-pfsrv:/home/zhangbin/perfwork/01_ai/15_HumanML3D# conda env create -f environment.yaml Retrieving notices: ...working... done Channels:- defaults Platform: linux-64 Collecting

Pig Cloud遇到websocket不能實現同一個用戶不同瀏覽器接受到廣播的消息解決方案

自定義SecuritySessionKeyGenerator類,為每個客戶端連接建立唯一的keypackage com.pig4cloud.plugin.websocket.custom;import com.pig4cloud.plugin.websocket.holder.SessionKeyGenerator; import org.springframework.web.socket.WebSocketSession;import java.util.UUID; p…

藍訊hifi添加自定義算法

總結 自己定義算法要添加在hifi工程里 hifi工程在wiki上可以下載,名字叫做project 在main.c里添加了自己的算法,算法的執行涉及到通道與effect_id 編譯hifi項目需要安裝 XtensaTool 與hifi4 configuration file 編譯成功后移植bin文件 通過hifi4_effect_audio_process調用hifi…

【軟考中級網絡工程師】知識點之 STP 協議,網絡的 “交通協管員”

目錄一、STP 協議初相識二、STP 協議登場&#xff0c;網絡環路難題迎刃而解2.1 網絡環路困境2.2 STP 協議閃亮登場三、STP 協議核心探秘&#xff1a;生成樹算法3.1 選舉根網橋3.2 確定根端口3.3 選定指定端口四、STP 協議端口狀態解析4.1 阻塞狀態4.2 監聽狀態4.3 學習狀態4.4 …