字節開源了一款具備長期記憶能力的多模態智能體：M3-Agent

貓頭虎AI分享｜字節開源了一款具備長期記憶能力的多模態智能體：M3-Agent

近年來，多模態大模型的發展迅猛，但如何賦予智能體類似人類的長期記憶能力，一直是研究中的核心挑戰。字節跳動開源的 M3-Agent，正是面向這一問題提出的創新解決方案。本文將從系統原理、技術特點、基準測試結果以及本地運行方式等方面，為大家詳細解讀。

貓頭虎開源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent

文章目錄

貓頭虎AI分享｜字節開源了一款具備長期記憶能力的多模態智能體：M3-Agent
- 一、M3-Agent 簡介
- 二、系統原理
- 三、M3-Bench：長視頻問答基準
- 四、實驗與結果
- 五、本地運行指南
- - 環境配置
  - 視頻切分（示例）
  - 生成記憶圖譜
  - 可視化
- 六、總結

一、M3-Agent 簡介

M3-Agent 是一款具備長期記憶能力的多模態智能體，能夠實時處理視覺與聽覺輸入，并將其轉化為長期記憶。它不僅可以存儲情景記憶，還能進一步抽取和積累語義記憶，從而逐步形成世界知識。

其核心創新在于：記憶系統以實體為中心。這意味著與某個實體相關的多模態信息（例如一個人的面部、聲音、相關知識）會被統一組織成圖譜結構，幫助模型實現更深入和一致的環境理解。

主要能力包括：

實時多模態輸入：處理視頻、音頻等流數據。
長期記憶：支持情景記憶與語義記憶的積累。
跨模態推理：利用實體中心圖譜進行多輪迭代推理。
任務執行：從長期記憶中檢索相關信息，輔助完成復雜任務。

二、系統原理

M3-Agent 的系統由兩個并行過程組成：

Memorization（記憶生成）
- 實時處理視頻與音頻流，生成情景記憶。
- 在此基礎上提煉出語義記憶，構建長期圖譜。
Control（推理與執行）
- 接收指令后，迭代思考并從長期記憶中檢索信息。
- 基于記憶與推理結果，生成最終行動或回答。

M3-Agent Architecture

這種 多模態圖譜化的記憶結構，讓 M3-Agent 更接近人類的認知模式。

三、M3-Bench：長視頻問答基準

為評估多模態智能體的記憶與推理能力，M3-Agent 團隊構建了 M3-Bench 基準數據集，包括兩個子集：

M3-Bench-robot：100 個真實機器人視角的長視頻。
M3-Bench-web：920 個來自網絡的多樣化視頻。

這些數據配套有開放式問答標注，用于考察智能體的人類理解、知識抽取、跨模態推理等關鍵能力。

M3-Bench

實驗表明，M3-Agent 在 M3-Bench 和 VideoMME-long 等任務上顯著優于基線模型，尤其在需要長期記憶的場景中表現突出。

Benchmark Results

四、實驗與結果

在與強基線模型（Gemini-1.5-pro 和 GPT-4o 提示式代理）對比中，M3-Agent 在多個測試集上均取得領先：

M3-Bench-robot：+8.2%
M3-Bench-web：+7.7%
VideoMME-long：+5.3%

這些結果證明了長期記憶與跨模態圖譜推理的有效性。

五、本地運行指南

M3-Agent 提供了完整的開源代碼，研究者可在本地運行。以下是主要步驟：

環境配置

bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4

視頻切分（示例）

#!/bin/bash
video="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); dostart=$((i * 30))output="data/clips/$video/$i.mp4"ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done

生成記憶圖譜

python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl

可視化

python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id 1

更多運行與訓練說明，請參考官方倉庫。

六、總結

M3-Agent 展示了具備長期記憶的多模態智能體的可行路徑。其核心亮點在于：

實體為中心的多模態記憶圖譜，保證了理解的一致性與深度。
支持情景與語義記憶，逐步積累長期知識。
基于記憶的迭代推理，在跨模態任務中表現卓越。

這一框架不僅推動了多模態智能體研究，更為未來人機交互和智能助手的發展提供了重要參考。

貓頭虎開源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/93690.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/93690.shtml
英文地址，請注明出處：http://en.pswp.cn/web/93690.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！