引言
在CVPR24上的教程中,微軟高級研究員Linjie Li為我們帶來了多模態代理的深入探索。這些代理通過整合多模態專家和大語言模型(LLM)來增強感知、理解和生成能力。本文總結了Linjie Li的講座內容,重點介紹了多模態記憶、可操作代理、反饋代理的設計及其應用。
多模態記憶的代理
視頻理解中的挑戰
為了全面理解視頻中的視覺信號,需要密集采樣幀,這會導致長序列輸入和高推理成本。因此,我們需要多模態記憶來處理這些復雜的任務,特別是在需要長時間上下文理解的情況下。例如,音頻描述任務需要記憶之前提到的內容,并且需要在不與視頻中的語音信號重疊的情況下進行描述。
多模態記憶的實際應用
在MM Narrator中,我們設計了一種用于長視頻敘述的代理,該代理具有短期和長期記憶。短期記憶包含最近的預測,長期記憶包含所有先前的幀和預測。通過計算當前幀與之前幀的相似性,可以檢索相關的預測,并作為多模態上下文示例來生成當前的描述。
可操作代理
圖形用戶界面(GUI)導航中的應用
在GUI導航任務中,代理需要與交互環境進行動態交互,這比靜態輸入操作更為復雜。例如,在MM Navigator中,我們利用分割模型標記屏幕上的重要對象,并將這些標記與GPT-4的輸出連接起來,使代理能夠精確地點擊屏幕上的指定位置。
案例演示
MM Navigator的一個演示展示了如何在手機上執行一系列操作,從打開Amazon應用到購買一個指定價格范圍內的牛奶起泡器。代理能夠正確識別并執行多個步驟,展示了在復雜環境中的操作能力。
反饋代理
為什么需要反饋代理
在探索未知環境時,代理需要不斷自我優化和調整。這種迭代自我優化的過程可以幫助代理在視覺設計和創建任務中生成更高質量的結果。例如,Idea2Img代理通過接收環境反饋,逐步改進生成的圖像,最終生成符合用戶需求的高質量視覺設計。
實例對比
通過對比單輪人類提示與Idea2Img的迭代優化,我們可以看到,Idea2Img能夠生成更高視覺質量和語義對齊的圖像。例如,針對一個會議標志的生成任務,Idea2Img在多輪優化后能夠生成更加準確和詳細的標志設計。
總結
多模態代理在過去一年中取得了顯著進展,從視頻理解到GUI導航,再到視覺設計和創建,這些代理展示了其在復雜任務中的潛力。盡管目前的單一大語言模型或大多模態模型仍然無法完全解決這些任務,多模態代理通過引入記憶、反饋和動態交互,為解決這些復雜任務提供了新的思路。
未來,多模態代理的研究將繼續推動大模型的進步,同時在系統優化、隱私保護和實際應用中發揮重要作用。隨著這些代理技術的不斷發展,我們可以期待它們在更多實際應用中的廣泛應用和進一步提升。
講座視頻:https://www.bilibili.com/video/BV1gM4m1U7i6/