演示視頻
香橙派RK3588部署千問大模型Qwen2-VL-2B推理視頻
一、場景假設
視頻輸入為一條網絡流,利用大模型對視頻中的圖像幀進行推理。由于大模型推理耗時長,無法對每幀都進行推理,因此采用跳幀推理的方式:當推理完一幀后,期間會跳過若干幀,然后立即推理最新的一幀。
二、處理流程
1. 拉流
-
使用 ffmpeg 拉取 rtsp 流,進行解封裝得到 h264。
-
為保證傳輸穩定,配置為 rtsp over tcp。
2. 視頻解碼
通過 mpp 解碼 h264,得到 nv12 圖像。
3. 圖像轉換
利用 rga 將 nv12 圖像進行放縮和轉 rgb 操作,此過程采用 letterbox 方式,主要目的是保持寬高等比放縮。
4. 圖像編碼
使用 rknn 將 rgb 圖像編碼成大模型能夠理解圖像所用的圖像向量。
5. 推理
借助 rknn 將提示詞和圖像向量輸入大模型進行推理,推理結果直接打印出來。
6. 渲染
將用于推理的圖像(即圖像編碼前的圖像),通過 qt 適配 qwidget 和 opengles 的方式進行渲染。
三、使用模型
-
Qwen2-VL-2B_llm_w8a8_rk3588.rkllm
-
Qwen2-VL-2B_vision_rk3588.rknn
四、主要耗時
-
圖像編碼模型加載:5s
-
大模型加載:7s
-
圖像編碼:3s
-
大模型推理:5s
注意:模型加載僅在程序開始時進行一次即可。
五、資源占用
-
CPU:145%(滿載 800%)
-
內存:5GB
-
NPU:50%~99%
-
溫度:69℃