貓頭虎AI分享|字節開源了一款具備長期記憶能力的多模態智能體:M3-Agent
近年來,多模態大模型的發展迅猛,但如何賦予智能體類似人類的長期記憶能力,一直是研究中的核心挑戰。字節跳動開源的 M3-Agent,正是面向這一問題提出的創新解決方案。本文將從系統原理、技術特點、基準測試結果以及本地運行方式等方面,為大家詳細解讀。
貓頭虎開源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent
文章目錄
- 貓頭虎AI分享|字節開源了一款具備長期記憶能力的多模態智能體:M3-Agent
- 一、M3-Agent 簡介
- 二、系統原理
- 三、M3-Bench:長視頻問答基準
- 四、實驗與結果
- 五、本地運行指南
- 環境配置
- 視頻切分(示例)
- 生成記憶圖譜
- 可視化
- 六、總結
一、M3-Agent 簡介
M3-Agent 是一款具備長期記憶能力的多模態智能體,能夠實時處理視覺與聽覺輸入,并將其轉化為長期記憶。它不僅可以存儲情景記憶,還能進一步抽取和積累語義記憶,從而逐步形成世界知識。
其核心創新在于:記憶系統以實體為中心。這意味著與某個實體相關的多模態信息(例如一個人的面部、聲音、相關知識)會被統一組織成圖譜結構,幫助模型實現更深入和一致的環境理解。
主要能力包括:
- 實時多模態輸入:處理視頻、音頻等流數據。
- 長期記憶:支持情景記憶與語義記憶的積累。
- 跨模態推理:利用實體中心圖譜進行多輪迭代推理。
- 任務執行:從長期記憶中檢索相關信息,輔助完成復雜任務。
二、系統原理
M3-Agent 的系統由兩個并行過程組成:
-
Memorization(記憶生成)
- 實時處理視頻與音頻流,生成情景記憶。
- 在此基礎上提煉出語義記憶,構建長期圖譜。
-
Control(推理與執行)
- 接收指令后,迭代思考并從長期記憶中檢索信息。
- 基于記憶與推理結果,生成最終行動或回答。

這種 多模態圖譜化的記憶結構,讓 M3-Agent 更接近人類的認知模式。
三、M3-Bench:長視頻問答基準
為評估多模態智能體的記憶與推理能力,M3-Agent 團隊構建了 M3-Bench 基準數據集,包括兩個子集:
- M3-Bench-robot:100 個真實機器人視角的長視頻。
- M3-Bench-web:920 個來自網絡的多樣化視頻。
這些數據配套有開放式問答標注,用于考察智能體的人類理解、知識抽取、跨模態推理等關鍵能力。

實驗表明,M3-Agent 在 M3-Bench 和 VideoMME-long 等任務上顯著優于基線模型,尤其在需要長期記憶的場景中表現突出。

四、實驗與結果
在與強基線模型(Gemini-1.5-pro 和 GPT-4o 提示式代理)對比中,M3-Agent 在多個測試集上均取得領先:
- M3-Bench-robot:+8.2%
- M3-Bench-web:+7.7%
- VideoMME-long:+5.3%
這些結果證明了長期記憶與跨模態圖譜推理的有效性。
五、本地運行指南
M3-Agent 提供了完整的開源代碼,研究者可在本地運行。以下是主要步驟:
環境配置
bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4
視頻切分(示例)
#!/bin/bash
video="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); dostart=$((i * 30))output="data/clips/$video/$i.mp4"ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done
生成記憶圖譜
python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl
可視化
python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id 1
更多運行與訓練說明,請參考 官方倉庫。
六、總結
M3-Agent 展示了具備長期記憶的多模態智能體的可行路徑。其核心亮點在于:
- 實體為中心的多模態記憶圖譜,保證了理解的一致性與深度。
- 支持情景與語義記憶,逐步積累長期知識。
- 基于記憶的迭代推理,在跨模態任務中表現卓越。
這一框架不僅推動了多模態智能體研究,更為未來人機交互和智能助手的發展提供了重要參考。
貓頭虎開源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent