字節開源了一款具備長期記憶能力的多模態智能體:M3-Agent

貓頭虎AI分享|字節開源了一款具備長期記憶能力的多模態智能體:M3-Agent

近年來,多模態大模型的發展迅猛,但如何賦予智能體類似人類的長期記憶能力,一直是研究中的核心挑戰。字節跳動開源的 M3-Agent,正是面向這一問題提出的創新解決方案。本文將從系統原理、技術特點、基準測試結果以及本地運行方式等方面,為大家詳細解讀。

貓頭虎開源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent


文章目錄

  • 貓頭虎AI分享|字節開源了一款具備長期記憶能力的多模態智能體:M3-Agent
    • 一、M3-Agent 簡介
    • 二、系統原理
    • 三、M3-Bench:長視頻問答基準
    • 四、實驗與結果
    • 五、本地運行指南
      • 環境配置
      • 視頻切分(示例)
      • 生成記憶圖譜
      • 可視化
    • 六、總結

一、M3-Agent 簡介

M3-Agent 是一款具備長期記憶能力的多模態智能體,能夠實時處理視覺與聽覺輸入,并將其轉化為長期記憶。它不僅可以存儲情景記憶,還能進一步抽取和積累語義記憶,從而逐步形成世界知識。

其核心創新在于:記憶系統以實體為中心。這意味著與某個實體相關的多模態信息(例如一個人的面部、聲音、相關知識)會被統一組織成圖譜結構,幫助模型實現更深入和一致的環境理解。

主要能力包括:

  • 實時多模態輸入:處理視頻、音頻等流數據。
  • 長期記憶:支持情景記憶與語義記憶的積累。
  • 跨模態推理:利用實體中心圖譜進行多輪迭代推理。
  • 任務執行:從長期記憶中檢索相關信息,輔助完成復雜任務。

二、系統原理

M3-Agent 的系統由兩個并行過程組成:

  1. Memorization(記憶生成)

    • 實時處理視頻與音頻流,生成情景記憶。
    • 在此基礎上提煉出語義記憶,構建長期圖譜。
  2. Control(推理與執行)

    • 接收指令后,迭代思考并從長期記憶中檢索信息。
    • 基于記憶與推理結果,生成最終行動或回答。

M3-Agent Architecture

這種 多模態圖譜化的記憶結構,讓 M3-Agent 更接近人類的認知模式。


三、M3-Bench:長視頻問答基準

為評估多模態智能體的記憶與推理能力,M3-Agent 團隊構建了 M3-Bench 基準數據集,包括兩個子集:

  • M3-Bench-robot:100 個真實機器人視角的長視頻。
  • M3-Bench-web:920 個來自網絡的多樣化視頻。

這些數據配套有開放式問答標注,用于考察智能體的人類理解、知識抽取、跨模態推理等關鍵能力。

M3-Bench

實驗表明,M3-Agent 在 M3-Bench 和 VideoMME-long 等任務上顯著優于基線模型,尤其在需要長期記憶的場景中表現突出。

Benchmark Results


四、實驗與結果

在與強基線模型(Gemini-1.5-pro 和 GPT-4o 提示式代理)對比中,M3-Agent 在多個測試集上均取得領先:

  • M3-Bench-robot:+8.2%
  • M3-Bench-web:+7.7%
  • VideoMME-long:+5.3%

這些結果證明了長期記憶與跨模態圖譜推理的有效性。


五、本地運行指南

M3-Agent 提供了完整的開源代碼,研究者可在本地運行。以下是主要步驟:

環境配置

bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4

視頻切分(示例)

#!/bin/bash
video="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); dostart=$((i * 30))output="data/clips/$video/$i.mp4"ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done

生成記憶圖譜

python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl

可視化

python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id 1

更多運行與訓練說明,請參考 官方倉庫。


六、總結

M3-Agent 展示了具備長期記憶的多模態智能體的可行路徑。其核心亮點在于:

  • 實體為中心的多模態記憶圖譜,保證了理解的一致性與深度。
  • 支持情景與語義記憶,逐步積累長期知識。
  • 基于記憶的迭代推理,在跨模態任務中表現卓越。

這一框架不僅推動了多模態智能體研究,更為未來人機交互和智能助手的發展提供了重要參考。

貓頭虎開源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/93690.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/93690.shtml
英文地址,請注明出處:http://en.pswp.cn/web/93690.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第十六屆藍橋杯青少組C++省賽[2025.8.10]第二部分編程題(6、魔術撲克牌排列)

參考程序&#xff1a;#include<bits/stdc.h> using namespace std; long long dp[105]; long long c(int n) {dp[0] 1;for(int i1; i< n; i){for(int j0; j<i; j){dp[i] dp[j] * dp[i -1-j];}}return dp[n]; } int main() {int n;cin >> n;cout <<c(n…

【實時Linux實戰系列】實時平臺下的圖像識別技術

在當今數字化時代&#xff0c;圖像識別技術已經廣泛應用于各個領域&#xff0c;如自動駕駛、安防監控、智能醫療等。它通過計算機對圖像進行分析和處理&#xff0c;從而實現對物體、場景或人的識別。實時Linux作為一種高效的實時操作系統&#xff0c;為圖像識別技術提供了強大的…

IPD流程執行檢查表

IPD流程執行檢查表 稽查

Jmeter的安裝與使用教程

基于jdk1.8版本的Jmeter的下載與安裝和使用教程。 一.安裝jmeter 官網下載就行下載壓縮包解壓就行 Jmeter下載官網&#xff1a;http://jmeter.apache.org/download_jmeter.cgi找到安裝包的下載位置&#xff0c;解壓進入文件夾的bin文件夾下jmeter.bat。二.配置環境變量 1、“此…

docker 數據卷、自定義鏡像操作演示分享(第二期)

數據卷1.1、背景前面有個docker go web demo應用示例&#xff0c;每次為了部署go_web_demo工程&#xff0c; 需要將使用到的cp的命令將宿主主機內的go_web_demo目錄下的代碼文件&#xff08;一般是編譯后的二進制執行文件&#xff09;復制到容器內部。 數據卷&#xff1a;將宿主…

Pandas 入門到實踐:核心數據結構與基礎操作全解析(Day1 學習筆記)

目錄 一、Pandas 概述 1. 什么是 Pandas 二、核心數據結構 1. Series 索引 顯示索引 隱式索引 創建方式 屬性與方法 數據訪問 索引訪問 切片訪問 布爾索引 2. DataFrame 創建方式 屬性與數據訪問 數據修改 三、索引操作 1. 索引類型 2. 核心索引方法 3. 切…

hadoop技術棧(九)Hbase替代方案

一、 核心替代方向 ?云原生托管NoSQL服務&#xff1a;? ?Google Cloud Bigtable&#xff1a;? 這是HBase在云端的“官方”替代品&#xff0c;兼容HBase API&#xff0c;底層存儲和架構高度優化&#xff0c;提供高吞吐、低延遲、無縫擴展、完全托管的服務。?如果追求兼容性…

深度解析 DDoS 攻擊:運作機制與防御體系構建?

在網絡安全領域&#xff0c;DDoS&#xff08;分布式拒絕服務&#xff09;攻擊始終是企業與機構的 “心腹大患”。它通過操控大量 “傀儡主機” 發起海量請求&#xff0c;直接癱瘓目標服務器或網絡鏈路&#xff0c;導致業務中斷、用戶流失甚至品牌聲譽受損。今天&#xff0c;我們…

在linux系統中下載Andconda

下載前的準備工作 在開始下載 Anaconda 之前&#xff0c;做好充分的準備工作能避免后續出現不必要的麻煩&#xff0c;讓整個過程更加順暢。 確認系統架構 Linux 系統有 32 位和 64 位之分&#xff0c;不同架構對應的 Anaconda 安裝包不同。你可以通過以下命令查看系統架構&a…

學習threejs,使用EffectComposer后期處理組合器(采用RenderPass、UnrealBloomPass、FilmPass渲染通道),實現交互式 3D blob

&#x1f468;??? 主頁&#xff1a; gis分享者 &#x1f468;??? 感謝各位大佬 點贊&#x1f44d; 收藏? 留言&#x1f4dd; 加關注?! &#x1f468;??? 收錄于專欄&#xff1a;threejs gis工程師 文章目錄一、&#x1f340;前言1.1 ??THREE.EffectComposer 后期處…

LLM - windows下的Dify離線部署:從鏡像打包到無網環境部署(親測,包含插件部署)

一、離線部署原理 通過Docker的save/load機制實現鏡像的物理介質遷移,配合Docker Compose編排文件的環境適配能力,可在完全斷網的環境中快速部署復雜應用。整個過程分為在線環境準備和離線環境還原兩個階段。 二、在線環境操作 1. 環境準備 在線環境:一臺可以訪問互聯網的…

前端學習之后端小白java的一些理論知識(框架)

一、Spring Framework 和 Spring boot的區別 核心定位 Spring Framework&#xff1a;一個全面的Java應用開發框架&#xff0c;提供核心功能如IoC容器、AOP等Spring Boot&#xff1a;Spring Framework的擴展&#xff0c;專注于簡化Spring應用的初始搭建和開發過程 配置方式 Spri…

K8S的ingress

一。ingress的介紹對于NodePort和LoadBalance&#xff0c;這兩種方法&#xff0c;都有缺點&#xff1a;1.NodePort方式缺點會占用很多集群的端口&#xff0c;當集群服務變多的時候&#xff0c;缺點更加顯著2.LB的缺點就是每一個service都需要一個LB&#xff0c;浪費&#xff0c…

實現自己的AI視頻監控系統-序章

目錄簡介視頻監控系統是什么&#xff1f;該系列課程你會學到什么&#xff1f;需要準備哪些工具&#xff1f;下期預告簡介 在當今快速發展的科技時代&#xff0c;人工智能&#xff08;AI&#xff09;已經深入到我們生活的方方面面。其中&#xff0c;AI視頻監控系統作為安防領域…

Pytorch GPU版本安裝保姆級教程

本文將介紹在anaconda環境下安裝pytorch的詳細步驟。 Anaconda安裝教程參考Anaconda安裝保姆級教程。 目錄 一、工具安裝 二、創建虛擬環境 三、安裝Pytorch CUDA Toolkit安裝 Pytorch安裝 總結 一、工具安裝 點擊鏈接官網codetou.com&#xff0c;下載安裝最新版即可&…

重學React(六):脫圍機制二

背景&#xff1a; 話不多說&#xff0c;繼續學習&#xff0c;現在是Effect時間。 前期回顧&#xff1a; 重學React&#xff08;一&#xff09;&#xff1a;描述UI 重學React&#xff08;二&#xff09;&#xff1a;添加交互 重學React&#xff08;三&#xff09;&#xff1a;狀…

【MySQL】索引(B+樹詳解)

MySQL(五)索引 一、索引的減I/O設計 1.讀取量 2.搜索樹 2.1方向 2.2有序 3.分多叉 3.1B樹 弊端: 3.2B樹 3.2.1非葉子-搜索字段 3.2.1.1海量分叉 3.2.1.1.1最大式 3.2.1.1.2最快式 3.2.1.2緩存內存 3.2.1.2.1字段總量小 3.2.1.2.2時間復雜度 3.2.1.3區間搜索向…

GPT-5博士級AI使用教程及國內平替方案

GPT-5博士級AI使用教程及國內平替方案一、GPT-5核心升級&#xff1a;到底強在哪里&#xff1f;1. **統一入口自動思考模式**2. **256K上下文40萬漢字記憶**3. **人格系統長期記憶**4. **編程能力史詩級增強**二、注冊與訪問&#xff1a;國內用戶也能免費上車1.官方渠道&#xf…

云計算-多服務集群部署實戰指南:從JumpServer到Kafka、ZooKeeper 集群部署實操流程

簡介圍繞企業級服務部署與集群搭建&#xff0c;基于 OpenStack 私有云平臺&#xff0c;介紹了一系列關鍵服務的實操過程。內容涵蓋使用 CentOS7 系統部署 JumpServer 堡壘機并對接 controller 與 compute 節點&#xff0c;構建 RabbitMQ 集群&#xff08;含磁盤節點與內存節點配…

深入剖析Spring IOC容器——原理、源碼與實踐全解析

&#x1f31f; 你好&#xff0c;我是 勵志成為糕手 &#xff01; &#x1f30c; 在代碼的宇宙中&#xff0c;我是那個追逐優雅與性能的星際旅人。 ? 每一行代碼都是我種下的星光&#xff0c;在邏輯的土壤里生長成璀璨的銀河&#xff1b; &#x1f6e0;? 每一個算法都是我繪制…