CVPR講座總結(二)-探索圖像生成基礎模型的最新進展探索多模態代理的最新進展：從視頻理解到可操作代理

在CVPR24上的教程中，微軟高級研究員Linjie Li為我們帶來了多模態代理的深入探索。這些代理通過整合多模態專家和大語言模型（LLM）來增強感知、理解和生成能力。本文總結了Linjie Li的講座內容，重點介紹了多模態記憶、可操作代理、反饋代理的設計及其應用。
在這里插入圖片描述

為了全面理解視頻中的視覺信號，需要密集采樣幀，這會導致長序列輸入和高推理成本。因此，我們需要多模態記憶來處理這些復雜的任務，特別是在需要長時間上下文理解的情況下。例如，音頻描述任務需要記憶之前提到的內容，并且需要在不與視頻中的語音信號重疊的情況下進行描述。

在MM Narrator中，我們設計了一種用于長視頻敘述的代理，該代理具有短期和長期記憶。短期記憶包含最近的預測，長期記憶包含所有先前的幀和預測。通過計算當前幀與之前幀的相似性，可以檢索相關的預測，并作為多模態上下文示例來生成當前的描述。

在GUI導航任務中，代理需要與交互環境進行動態交互，這比靜態輸入操作更為復雜。例如，在MM Navigator中，我們利用分割模型標記屏幕上的重要對象，并將這些標記與GPT-4的輸出連接起來，使代理能夠精確地點擊屏幕上的指定位置。

MM Navigator的一個演示展示了如何在手機上執行一系列操作，從打開Amazon應用到購買一個指定價格范圍內的牛奶起泡器。代理能夠正確識別并執行多個步驟，展示了在復雜環境中的操作能力。

在探索未知環境時，代理需要不斷自我優化和調整。這種迭代自我優化的過程可以幫助代理在視覺設計和創建任務中生成更高質量的結果。例如，Idea2Img代理通過接收環境反饋，逐步改進生成的圖像，最終生成符合用戶需求的高質量視覺設計。

通過對比單輪人類提示與Idea2Img的迭代優化，我們可以看到，Idea2Img能夠生成更高視覺質量和語義對齊的圖像。例如，針對一個會議標志的生成任務，Idea2Img在多輪優化后能夠生成更加準確和詳細的標志設計。

多模態代理在過去一年中取得了顯著進展，從視頻理解到GUI導航，再到視覺設計和創建，這些代理展示了其在復雜任務中的潛力。盡管目前的單一大語言模型或大多模態模型仍然無法完全解決這些任務，多模態代理通過引入記憶、反饋和動態交互，為解決這些復雜任務提供了新的思路。

未來，多模態代理的研究將繼續推動大模型的進步，同時在系統優化、隱私保護和實際應用中發揮重要作用。隨著這些代理技術的不斷發展，我們可以期待它們在更多實際應用中的廣泛應用和進一步提升。

講座視頻：https://www.bilibili.com/video/BV1gM4m1U7i6/

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/35313.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/35313.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/35313.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！