CVPR講座總結(二)-探索圖像生成基礎模型的最新進展探索多模態代理的最新進展:從視頻理解到可操作代理

引言

在CVPR24上的教程中,微軟高級研究員Linjie Li為我們帶來了多模態代理的深入探索。這些代理通過整合多模態專家和大語言模型(LLM)來增強感知、理解和生成能力。本文總結了Linjie Li的講座內容,重點介紹了多模態記憶、可操作代理、反饋代理的設計及其應用。
在這里插入圖片描述

多模態記憶的代理

視頻理解中的挑戰

為了全面理解視頻中的視覺信號,需要密集采樣幀,這會導致長序列輸入和高推理成本。因此,我們需要多模態記憶來處理這些復雜的任務,特別是在需要長時間上下文理解的情況下。例如,音頻描述任務需要記憶之前提到的內容,并且需要在不與視頻中的語音信號重疊的情況下進行描述。

多模態記憶的實際應用

在MM Narrator中,我們設計了一種用于長視頻敘述的代理,該代理具有短期和長期記憶。短期記憶包含最近的預測,長期記憶包含所有先前的幀和預測。通過計算當前幀與之前幀的相似性,可以檢索相關的預測,并作為多模態上下文示例來生成當前的描述。

可操作代理

圖形用戶界面(GUI)導航中的應用

在GUI導航任務中,代理需要與交互環境進行動態交互,這比靜態輸入操作更為復雜。例如,在MM Navigator中,我們利用分割模型標記屏幕上的重要對象,并將這些標記與GPT-4的輸出連接起來,使代理能夠精確地點擊屏幕上的指定位置。

案例演示

MM Navigator的一個演示展示了如何在手機上執行一系列操作,從打開Amazon應用到購買一個指定價格范圍內的牛奶起泡器。代理能夠正確識別并執行多個步驟,展示了在復雜環境中的操作能力。

反饋代理

為什么需要反饋代理

在探索未知環境時,代理需要不斷自我優化和調整。這種迭代自我優化的過程可以幫助代理在視覺設計和創建任務中生成更高質量的結果。例如,Idea2Img代理通過接收環境反饋,逐步改進生成的圖像,最終生成符合用戶需求的高質量視覺設計。

實例對比

通過對比單輪人類提示與Idea2Img的迭代優化,我們可以看到,Idea2Img能夠生成更高視覺質量和語義對齊的圖像。例如,針對一個會議標志的生成任務,Idea2Img在多輪優化后能夠生成更加準確和詳細的標志設計。

總結

多模態代理在過去一年中取得了顯著進展,從視頻理解到GUI導航,再到視覺設計和創建,這些代理展示了其在復雜任務中的潛力。盡管目前的單一大語言模型或大多模態模型仍然無法完全解決這些任務,多模態代理通過引入記憶、反饋和動態交互,為解決這些復雜任務提供了新的思路。

未來,多模態代理的研究將繼續推動大模型的進步,同時在系統優化、隱私保護和實際應用中發揮重要作用。隨著這些代理技術的不斷發展,我們可以期待它們在更多實際應用中的廣泛應用和進一步提升。

講座視頻:https://www.bilibili.com/video/BV1gM4m1U7i6/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/35313.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/35313.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/35313.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

供應鏈攻擊是什么?

隨著企業對技術和連接性的依賴日益增加,以及對第三方的普遍依賴,供應鏈攻擊變得越來越普遍。這些攻擊旨在通過供應商和商業伙伴損害企業。 供應鏈攻擊可能對企業和組織構成重大威脅,因為它們可能危及它們的安全以及向客戶提供的產品和服務的…

GPT-5或于一年半后發布?淺談智能的飛躍與未來

一、前言 IT之家6月22日消息,在美國達特茅斯工程學院周四公布的采訪中,OpenAI首席技術官米拉穆拉蒂被問及GPT-5是否會在明年發布,給出了肯定答案并表示將在一年半后發布。 技術的風暴從未停止,人工智能作為這場風暴中的旋風&…

ant-design-vue:Button的樣式不是藍色

ant-design-vue中a-button&#xff0c;設置的樣式是“primary”。但不是藍色。 解決方法&#xff1a;重新自定義樣式 參考鏈接&#xff1a; https://www.jianshu.com/p/0b2fde46c761 HTML&#xff1a; <a-buttonclass"c-button-primary"type"primary&quo…

《昇思25天學習打卡營第2天 | 張量 Tensor》

《昇思25天學習打卡營第2天 | 張量 Tensor》 《昇思25天學習打卡營第2天 | 張量 Tensor》 《昇思25天學習打卡營第2天 | 張量 Tensor》什么是張量&#xff08;Tensor&#xff09;張量的創建方式根據數據直接生成從NumPy數組生成使用init初始化器構造張量繼承另一個張量的屬性&a…

unity 導入的模型設置講解

咱們先講Model這一欄 Model Scene&#xff1a;場景級屬性&#xff0c;例如是否導入燈光和照相機&#xff0c;以及使用什么比例因子。 Scale Factor&#xff1a;縮放因子&#xff08;也就是模型導入后大小如果小了或者大了在這里直接改是相當于該模型的大小的&#xff0c;而且在…

瀏覽器擴展V3開發系列之 chrome.runtime 的用法和案例

【作者主頁】&#xff1a;小魚神1024 【擅長領域】&#xff1a;JS逆向、小程序逆向、AST還原、驗證碼突防、Python開發、瀏覽器插件開發、React前端開發、NestJS后端開發等等 chrome.runtime API 提供了一系列的方法和事件&#xff0c;可以通過它來管理和維護 Chrome 擴展的生命…

讓GNSSRTK不再難【第14講-第二部分】

14.1.2 多個系統多個頻率 在 10.3 節中,我們介紹了衛星碼偏差產生原因,信號發出的是天線相位中心,而不是信號發生器。同樣的,對于接收機也存在相同的問題,即從模擬機的天線相位中心到內部信號跟蹤環路這段的時延我們是無法知曉的。 如果多個系統僅僅使用一個地點進行定位…

什么!你還不會Redis?跟著我講透Redis【上篇之初識與安裝】

1 NoSQL是什么 1.1 NoSQL數據庫概述 NoSQL(NoSQL Not Only SQL )&#xff0c;意即”不僅僅是SQL“&#xff0c;泛指非關系型的數據庫。 NoSQL 不依賴業務邏輯方式存儲&#xff0c;而以簡單的key-value模式存儲。因此大大的增加了數據庫的擴展能力。 不遵循SQL標準。不支持A…

PKG打包sqlite3項目,如何添加node_sqlite3.node依賴

項目地址&#xff1a;https://github.com/helson-lin/pkg_sqlite 在ffandown項目內&#xff0c;由于項目使用了sqlite3&#xff0c;在跨平臺打包的時候&#xff0c;除了本機外其他平臺打包之后運行缺少node_sqlite3.node依賴。 為了解決問題&#xff0c;百度了很久&#xff0c…

構建RESTful API:PHP框架中的實踐與策略

隨著Web服務的興起&#xff0c;RESTful API成為前后端分離架構中的關鍵組件。PHP作為一種廣泛使用的服務器端腳本語言&#xff0c;通過各種現代框架提供了構建RESTful API的強大工具和靈活性。本文將詳細介紹如何在PHP框架中實現RESTful API&#xff0c;探討設計原則、實現步驟…

NLP 相關知識

NLP 相關知識 NLPLLMPrompt ChainingLangChain NLP NLP&#xff08;Natuarl Language Processing&#xff09;是人工智能的一個分支&#xff0c;中文名自然語言處理&#xff0c;專注于處理和理解人類使用的自然語言。它涵蓋了多個子領域&#xff0c;如文本分類、情感分析、機器…

思維導圖麒麟liunx系統

系統管理與計劃任 ” 使用at命令提交任務。 6.2.1 at任務概述 6.1.4 定時任務的使用場景 at任務是指使用at命令安排的&#xff0c;只執行一次的任務它允許用戶指定在未來某個特定時間執行命令或腳本定時更新系統軟件包。定時清理系統臨時文件。自動備份文件和數據庫。 at:用于一…

pytorch 源碼閱讀(2)——torch._dynamo.optimize

0 torch._dynamo.optimize(backend, *, nopython, guard_export_fn, guard_fail_fn, disable, dynamic)&#xff0c;TorchDynamo 的主入口點 1 參數說明 backend&#xff0c;一般有兩種情況&#xff1a; 一個包含 torch.fx.GraphModule 和 example_inputs&#xff0c;返回一個…

【websocket】websocket網課視頻記錄

僅個人方便回顧。 【WebSocket入門與案例實戰-嗶哩嗶哩】 https://b23.tv/2p1f9t2 課程對應代碼倉庫: https://gitee.com/duoli-java/websocket-demo.git

C++編程(二)引用

文章目錄 一、C中的引用&#xff08;一&#xff09;引用1. 語法格式2. 作用3. 注意事項 &#xff08;二&#xff09;常引用2. 其他場景 &#xff08;三&#xff09;引用和函數結合使用1. 引用可以作為函數的參數2. 引用可以作為函數的返回值 &#xff08;四&#xff09;引用和指…

在 C/C++ 中使用 popen去執行linux命令樣例,失敗場景

在 C/C 中使用 popen 函數去執行 Linux 命令是一種常見的方式&#xff0c;但確實存在多種可能導致失敗的場景。以下是一些可能導致 popen 失敗的常見原因和樣例&#xff1a; 命令不存在或路徑錯誤&#xff1a; 如果你嘗試執行的命令不存在于系統的 PATH 環境變量中&#xff0c;…

記因hive配置文件參數運用不當導致 sqoop MySQL導入數據到hive 失敗的案例

sqoop MySQL導入數據到hive報錯 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 64 報錯解釋&#xff1a; 這個錯誤表明Sqoop在嘗試導入數據到Hive時遇到了問題&#xff0c;導致Hive進程異常退出。狀態碼…

HarmonyOS Next開發學習手冊——通過startAbility拉起文件處理類應用

使用場景 開發者可以通過調用startAbility接口&#xff0c;由系統從已安裝的應用中尋找符合要求的應用來實現打開特定文件的意圖&#xff0c;例如&#xff1a;瀏覽器下應用下載PDF文件&#xff0c;可以調用此接口選擇文件處理應用打開此PDF文件。開發者需要在請求中設置待打開…

三個方法計算兩張圖片的相似度

import cv2 import numpy as np from skimage.metrics import structural_similarity as ssim import osdef is_similar(image1, image2, threshold0.95):對圖像的顏色信息敏感&#xff0c;能快速計算。對圖像的旋轉、縮放等幾何變換不敏感。缺點:對圖像的結構、紋理等信息不敏…

0625_ARM2

練習&#xff1a; 匯編實現1-100累加&#xff0c;結果保存在r0 .text .global _start start:mov r0,#0mov r1,#1b loop loop:add r0,r0,r1add r1,r1,#1cmp r1,#101bne loop .end思維導圖&#xff1a;