Agent S: An Open Agentic Framework that Uses Computers Like a Human
?? 論文標題:Agent S: An Open Agentic Framework that Uses Computers Like a Human
?? 論文作者:Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
?? 研究機構: Simular Research
?? 問題背景:當前的自動化GUI代理在處理復雜的多步驟任務時面臨三大挑戰:獲取特定領域的知識、進行長期任務規劃、以及處理動態的非均勻界面。這些問題限制了代理在不同操作系統和應用中的通用性和效率。
?? 研究動機:為了克服上述挑戰,研究團隊開發了Agent S,一個開放的代理框架,旨在通過圖形用戶界面(GUI)實現與計算機的自主交互,從而自動化復雜的多步驟任務。Agent S通過整合經驗增強的層次規劃、自我監督的持續記憶更新和代理-計算機接口(ACI),提高了代理在執行任務時的效率和適應性。
?? 方法簡介:研究團隊提出了經驗增強的層次規劃方法,該方法利用外部網絡知識和代理的內部記憶,將復雜的長期任務分解為可執行的子任務。此外,團隊還擴展了ACI的概念,允許基于多模態大語言模型(MLLMs)的代理更精確地操作計算機,使用一組高級預定義的原始動作。ACI通過視覺增強的可訪問性樹觀察和有界的動作空間,確保了代理的精確感知和行動。
?? 實驗設計:研究團隊在OSWorld基準上進行了實驗,該基準測試了多模態代理在真實計算機環境中執行廣泛計算機任務的能力。實驗涵蓋了操作系統、辦公軟件、日常應用、專業軟件和工作流程等多個類別。此外,團隊還在WindowsAgentArena基準上評估了Agent S的性能,以驗證其在不同操作系統上的通用性。實驗結果表明,Agent S在OSWorld上的成功率提高了83.6%,并在WindowsAgentArena上也表現出顯著的性能提升。
Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
?? 論文標題:Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
?? 論文作者:Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng
?? 研究機構: University of Electronic Science and Technology of China、Southern University of Science and Technology, China、University of Birmingham、The University of Hong Kong
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在各種任務中展現了顯著的進步,但它們在可信度方面仍面臨重大問題,如幻覺(hallucination)和生成偏差。這些問題導致了非事實信息和有偏見的生成,引發了社會對基礎模型在面向消費者應用中可靠部署的擔憂。現有的不確定性估計方法雖然提供了有價值的見解,但無法保證錯誤率,且在動態、開放的環境中適應性較差。
?? 研究動機:為了應對這些挑戰,研究團隊開發了一個兩步框架TRON,用于風險控制和評估,適用于支持采樣的任何MLLM,無論是開放性任務還是封閉性任務。TRON通過引入新的符合性評分和非符合性評分,解決了現有方法的局限性,如依賴內部模型logits或僅限于多項選擇設置。此外,研究團隊還首次探討了開放性任務中預測集的語義冗余對風險評估的影響。
?? 方法簡介:TRON框架包含兩個主要部分:(1)一種新的符合性評分,用于確定最小響應樣本數量,以控制錯誤率;(2)一種非符合性評分,基于自一致性理論,用于識別高質量響應,控制兩個特定風險水平下的錯誤率。此外,研究團隊還探討了預測集在開放性任務中的語義冗余對風險評估的影響,發現去重后的預測集大小可以更穩定地估計模型的不確定性。
?? 實驗設計:研究團隊在四個視頻問答(VideoQA)數據集上進行了實驗,包括兩個封閉性任務數據集(Video-MME和NExT-QA)和兩個開放性任務數據集(MUSIC-AVQA和MSVD),使用了五個開源MLLMs和三個閉源MLLMs。實驗結果表明,TRON能夠在不同用戶指定的風險水平下保證錯誤率,并且去重后的平均預測集大小提供了穩定的不確定性估計,適用于不同風險水平下的MLLM評估。此外,研究團隊還探討了音頻模態對MLLM性能的影響,發現引入音頻信息可以提高模型的準確性并降低不確定性。
Baichuan-Omni Technical Report
?? 論文標題:Baichuan-Omni Technical Report
?? 論文作者:Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
?? 研究機構: Baichuan Inc., Westlake University, Zhejiang University
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理和分析圖像、視頻、音頻和文本等多模態數據方面展現出了顯著的能力,但開源解決方案在多模態能力和用戶體驗質量方面仍存在明顯不足。這些不足限制了模型在自然語言處理、計算機視覺等領域的廣泛應用。
?? 研究動機:為了解決現有開源多模態模型的不足,研究團隊開發了Baichuan-omni,這是一個開源的7B多模態大語言模型,能夠同時處理文本、圖像、視頻和音頻輸入,并提供先進的多模態交互體驗。研究旨在通過提供一個強大的開源基線模型,促進多模態理解和實時交互的發展。
?? 方法簡介:研究團隊提出了一種有效的多模態訓練方案,包括三個核心階段:1) 高質量多模態數據的構建,2) 多模態對齊預訓練,3) 多模態監督微調。該方案利用了大量的高質量多模態數據,通過圖像-語言、視頻-語言和音頻-語言分支的訓練,使模型能夠有效地處理視覺和音頻數據。
?? 實驗設計:在多個公開數據集上進行了實驗,包括圖像、視頻和音頻模態的基準測試。實驗設計了多種任務,如視覺-語言理解、視頻問答、音頻識別等,以全面評估模型在不同模態下的性能。此外,還通過多任務微調進一步增強了模型的多模態指令跟隨能力。
Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking
?? 論文標題:Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking
?? 論文作者:Wei Zhang, Pengfei Li, Junli Wang, Bingchuan Sun, Qihao Jin, Guangjun Bao, Shibo Rui, Yang Yu, Wenchao Ding, Peng Li, Yilun Chen
?? 研究機構: Tsinghua University, Lenovo Research, Harbin Institute of Technology, University of Chinese Academy of Sciences, Fudan University
?? 問題背景:自動緊急制動(AEB)系統是自動駕駛車輛中的關鍵安全功能,旨在通過自動激活剎車來減輕或防止碰撞。傳統的AEB系統主要依賴于封閉集感知模塊來識別交通狀況和評估碰撞風險。然而,這些系統在處理復雜駕駛情況時的能力有限,因為缺乏對場景的全面理解。
?? 研究動機:為了提高AEB系統在開放場景中的適應性,研究團隊提出了Dual-AEB系統,該系統結合了先進的多模態大語言模型(MLLM)以實現對駕駛環境的深入理解,并結合傳統的基于規則的快速AEB模塊以確保快速響應時間。這是首次將MLLMs整合到AEB系統中的嘗試,旨在通過全面的場景理解來改善制動決策。
?? 方法簡介:Dual-AEB系統由兩個主要組件組成:快速模塊(基于規則的AEB)和慢速模塊(MLLM驅動的AEB)。快速模塊負責初始決策,當觸發時,將此初始決策打包成文本(AEB-Prompt),并發送給慢速模塊。慢速模塊利用MLLM分析接收到的信息,做出最終決策,確認或調整快速模塊的初始決策。
?? 實驗設計:研究團隊在兩個數據集上進行了實驗,包括開放環路評估和閉合環路評估。開放環路評估使用了MM-AU和Bench2Drive數據集,閉合環路評估則使用了Bench2Drive基準。實驗評估了模型預測的制動信號的準確性和生成文本的質量,以及模型的整體駕駛性能。主要指標包括精度(Precision)、召回率(Recall)、駕駛得分(Driving Score)、成功率(Success Rate)和碰撞率(Collision Rate)。實驗結果表明,Dual-AEB系統在提高駕駛性能和減少碰撞率方面表現出色。
Skipping Computations in Multimodal LLMs
?? 論文標題:Skipping Computations in Multimodal LLMs
?? 論文作者:Mustafa Shukor, Matthieu Cord
?? 研究機構: Sorbonne University, Valeo.ai
?? 問題背景:大型語言模型(LLMs)在文本和多模態領域取得了顯著的成功,但這種成功往往伴隨著處理長序列多模態輸入時的大量計算成本。這引發了對提高訓練和推理效率的眾多研究。本研究探討了多模態大型語言模型(MLLMs)在推理過程中的計算冗余,并提出了不同的方法來跳過計算,如跳過整個塊、前饋網絡(FFN)或自注意力(SA)層,以及并行化某些層,如FFN和SA層。
?? 研究動機:現有的研究已經表明,LLMs在處理多模態任務時存在大量的計算冗余。為了進一步驗證這一點,并探索減少計算成本的方法,研究團隊通過實驗驗證了在推理過程中跳過計算的可能性,特別是在視覺問答(VQA)等任務中。研究還探討了在訓練過程中跳過計算,以同時減少訓練和推理成本。
?? 方法簡介:研究團隊提出了一種框架,用于研究和比較不同的任務無關壓縮方法,適用于圖像、視頻和音頻語言任務。該框架包括凍結的LLM、可訓練的映射模塊(C)和凍結的感知編碼器(EM),用于處理不同模態的輸入。研究團隊通過實驗驗證了跳過計算和并行化計算的效果,包括跳過整個塊、FFN或SA層,以及并行化FFN和SA層。
?? 實驗設計:實驗在多個公開數據集上進行,包括視覺問答(VQA)和圖像、視頻、音頻的描述任務。實驗設計了不同的跳過策略,如跳過整個塊、FFN或SA層,以及并行化FFN和SA層,以評估模型在不同條件下的性能變化。實驗結果表明,跳過計算可以在保持性能的同時顯著減少計算成本,特別是在VQA任務中。此外,研究還探討了使用更小的LLMs進行訓練的可能性,結果顯示,適當訓練的小型LLMs可以達到與大型LLMs相當的性能。