多模態大語言模型arxiv論文略讀(135)

在這里插入圖片描述

Agent S: An Open Agentic Framework that Uses Computers Like a Human

?? 論文標題:Agent S: An Open Agentic Framework that Uses Computers Like a Human
?? 論文作者:Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
?? 研究機構: Simular Research
?? 問題背景:當前的自動化GUI代理在處理復雜的多步驟任務時面臨三大挑戰:獲取特定領域的知識、進行長期任務規劃、以及處理動態的非均勻界面。這些問題限制了代理在不同操作系統和應用中的通用性和效率。
?? 研究動機:為了克服上述挑戰,研究團隊開發了Agent S,一個開放的代理框架,旨在通過圖形用戶界面(GUI)實現與計算機的自主交互,從而自動化復雜的多步驟任務。Agent S通過整合經驗增強的層次規劃、自我監督的持續記憶更新和代理-計算機接口(ACI),提高了代理在執行任務時的效率和適應性。
?? 方法簡介:研究團隊提出了經驗增強的層次規劃方法,該方法利用外部網絡知識和代理的內部記憶,將復雜的長期任務分解為可執行的子任務。此外,團隊還擴展了ACI的概念,允許基于多模態大語言模型(MLLMs)的代理更精確地操作計算機,使用一組高級預定義的原始動作。ACI通過視覺增強的可訪問性樹觀察和有界的動作空間,確保了代理的精確感知和行動。
?? 實驗設計:研究團隊在OSWorld基準上進行了實驗,該基準測試了多模態代理在真實計算機環境中執行廣泛計算機任務的能力。實驗涵蓋了操作系統、辦公軟件、日常應用、專業軟件和工作流程等多個類別。此外,團隊還在WindowsAgentArena基準上評估了Agent S的性能,以驗證其在不同操作系統上的通用性。實驗結果表明,Agent S在OSWorld上的成功率提高了83.6%,并在WindowsAgentArena上也表現出顯著的性能提升。

Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

?? 論文標題:Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models
?? 論文作者:Qingni Wang, Tiantian Geng, Zhiyuan Wang, Teng Wang, Bo Fu, Feng Zheng
?? 研究機構: University of Electronic Science and Technology of China、Southern University of Science and Technology, China、University of Birmingham、The University of Hong Kong
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在各種任務中展現了顯著的進步,但它們在可信度方面仍面臨重大問題,如幻覺(hallucination)和生成偏差。這些問題導致了非事實信息和有偏見的生成,引發了社會對基礎模型在面向消費者應用中可靠部署的擔憂。現有的不確定性估計方法雖然提供了有價值的見解,但無法保證錯誤率,且在動態、開放的環境中適應性較差。
?? 研究動機:為了應對這些挑戰,研究團隊開發了一個兩步框架TRON,用于風險控制和評估,適用于支持采樣的任何MLLM,無論是開放性任務還是封閉性任務。TRON通過引入新的符合性評分和非符合性評分,解決了現有方法的局限性,如依賴內部模型logits或僅限于多項選擇設置。此外,研究團隊還首次探討了開放性任務中預測集的語義冗余對風險評估的影響。
?? 方法簡介:TRON框架包含兩個主要部分:(1)一種新的符合性評分,用于確定最小響應樣本數量,以控制錯誤率;(2)一種非符合性評分,基于自一致性理論,用于識別高質量響應,控制兩個特定風險水平下的錯誤率。此外,研究團隊還探討了預測集在開放性任務中的語義冗余對風險評估的影響,發現去重后的預測集大小可以更穩定地估計模型的不確定性。
?? 實驗設計:研究團隊在四個視頻問答(VideoQA)數據集上進行了實驗,包括兩個封閉性任務數據集(Video-MME和NExT-QA)和兩個開放性任務數據集(MUSIC-AVQA和MSVD),使用了五個開源MLLMs和三個閉源MLLMs。實驗結果表明,TRON能夠在不同用戶指定的風險水平下保證錯誤率,并且去重后的平均預測集大小提供了穩定的不確定性估計,適用于不同風險水平下的MLLM評估。此外,研究團隊還探討了音頻模態對MLLM性能的影響,發現引入音頻信息可以提高模型的準確性并降低不確定性。

Baichuan-Omni Technical Report

?? 論文標題:Baichuan-Omni Technical Report
?? 論文作者:Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
?? 研究機構: Baichuan Inc., Westlake University, Zhejiang University
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理和分析圖像、視頻、音頻和文本等多模態數據方面展現出了顯著的能力,但開源解決方案在多模態能力和用戶體驗質量方面仍存在明顯不足。這些不足限制了模型在自然語言處理、計算機視覺等領域的廣泛應用。
?? 研究動機:為了解決現有開源多模態模型的不足,研究團隊開發了Baichuan-omni,這是一個開源的7B多模態大語言模型,能夠同時處理文本、圖像、視頻和音頻輸入,并提供先進的多模態交互體驗。研究旨在通過提供一個強大的開源基線模型,促進多模態理解和實時交互的發展。
?? 方法簡介:研究團隊提出了一種有效的多模態訓練方案,包括三個核心階段:1) 高質量多模態數據的構建,2) 多模態對齊預訓練,3) 多模態監督微調。該方案利用了大量的高質量多模態數據,通過圖像-語言、視頻-語言和音頻-語言分支的訓練,使模型能夠有效地處理視覺和音頻數據。
?? 實驗設計:在多個公開數據集上進行了實驗,包括圖像、視頻和音頻模態的基準測試。實驗設計了多種任務,如視覺-語言理解、視頻問答、音頻識別等,以全面評估模型在不同模態下的性能。此外,還通過多任務微調進一步增強了模型的多模態指令跟隨能力。

Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking

?? 論文標題:Dual-AEB: Synergizing Rule-Based and Multimodal Large Language Models for Effective Emergency Braking
?? 論文作者:Wei Zhang, Pengfei Li, Junli Wang, Bingchuan Sun, Qihao Jin, Guangjun Bao, Shibo Rui, Yang Yu, Wenchao Ding, Peng Li, Yilun Chen
?? 研究機構: Tsinghua University, Lenovo Research, Harbin Institute of Technology, University of Chinese Academy of Sciences, Fudan University
?? 問題背景:自動緊急制動(AEB)系統是自動駕駛車輛中的關鍵安全功能,旨在通過自動激活剎車來減輕或防止碰撞。傳統的AEB系統主要依賴于封閉集感知模塊來識別交通狀況和評估碰撞風險。然而,這些系統在處理復雜駕駛情況時的能力有限,因為缺乏對場景的全面理解。
?? 研究動機:為了提高AEB系統在開放場景中的適應性,研究團隊提出了Dual-AEB系統,該系統結合了先進的多模態大語言模型(MLLM)以實現對駕駛環境的深入理解,并結合傳統的基于規則的快速AEB模塊以確保快速響應時間。這是首次將MLLMs整合到AEB系統中的嘗試,旨在通過全面的場景理解來改善制動決策。
?? 方法簡介:Dual-AEB系統由兩個主要組件組成:快速模塊(基于規則的AEB)和慢速模塊(MLLM驅動的AEB)。快速模塊負責初始決策,當觸發時,將此初始決策打包成文本(AEB-Prompt),并發送給慢速模塊。慢速模塊利用MLLM分析接收到的信息,做出最終決策,確認或調整快速模塊的初始決策。
?? 實驗設計:研究團隊在兩個數據集上進行了實驗,包括開放環路評估和閉合環路評估。開放環路評估使用了MM-AU和Bench2Drive數據集,閉合環路評估則使用了Bench2Drive基準。實驗評估了模型預測的制動信號的準確性和生成文本的質量,以及模型的整體駕駛性能。主要指標包括精度(Precision)、召回率(Recall)、駕駛得分(Driving Score)、成功率(Success Rate)和碰撞率(Collision Rate)。實驗結果表明,Dual-AEB系統在提高駕駛性能和減少碰撞率方面表現出色。

Skipping Computations in Multimodal LLMs

?? 論文標題:Skipping Computations in Multimodal LLMs
?? 論文作者:Mustafa Shukor, Matthieu Cord
?? 研究機構: Sorbonne University, Valeo.ai
?? 問題背景:大型語言模型(LLMs)在文本和多模態領域取得了顯著的成功,但這種成功往往伴隨著處理長序列多模態輸入時的大量計算成本。這引發了對提高訓練和推理效率的眾多研究。本研究探討了多模態大型語言模型(MLLMs)在推理過程中的計算冗余,并提出了不同的方法來跳過計算,如跳過整個塊、前饋網絡(FFN)或自注意力(SA)層,以及并行化某些層,如FFN和SA層。
?? 研究動機:現有的研究已經表明,LLMs在處理多模態任務時存在大量的計算冗余。為了進一步驗證這一點,并探索減少計算成本的方法,研究團隊通過實驗驗證了在推理過程中跳過計算的可能性,特別是在視覺問答(VQA)等任務中。研究還探討了在訓練過程中跳過計算,以同時減少訓練和推理成本。
?? 方法簡介:研究團隊提出了一種框架,用于研究和比較不同的任務無關壓縮方法,適用于圖像、視頻和音頻語言任務。該框架包括凍結的LLM、可訓練的映射模塊(C)和凍結的感知編碼器(EM),用于處理不同模態的輸入。研究團隊通過實驗驗證了跳過計算和并行化計算的效果,包括跳過整個塊、FFN或SA層,以及并行化FFN和SA層。
?? 實驗設計:實驗在多個公開數據集上進行,包括視覺問答(VQA)和圖像、視頻、音頻的描述任務。實驗設計了不同的跳過策略,如跳過整個塊、FFN或SA層,以及并行化FFN和SA層,以評估模型在不同條件下的性能變化。實驗結果表明,跳過計算可以在保持性能的同時顯著減少計算成本,特別是在VQA任務中。此外,研究還探討了使用更小的LLMs進行訓練的可能性,結果顯示,適當訓練的小型LLMs可以達到與大型LLMs相當的性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/911837.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/911837.shtml
英文地址,請注明出處:http://en.pswp.cn/news/911837.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

wpa_supplicant連接到了路由,但是 udhcpc會分配到不同網段的ip,路由器ip為192.168.0網段,板子分配ip為192.168.1的網段

wpa_supplicant連接到了路由,但是 udhcpc會分配到不同網段的ip,路由器ip為192.168.0網段,板子分配ip為192.168.1的網段 你提到的情況: 使用 wpa_supplicant 成功連接到路由器; 然后通過 udhcpc(DHCP客戶端&#xff09…

[Hestia]開源網絡服務器控制面板,快速、可靠、開源

測評介紹 本期測評試用一下Hestia這款面板。Hestia是一個由國際社區支持開發的開源項目,2019年正式發布,目前已積累1.1萬余次代碼提交,幾乎每周都有十多次的代碼提交,更新熱度很高。僅支持比較新的debian和ubuntu,對于…

Windows 安裝 Redis8.0.2

1.下載 Releases redis-windows/redis-windowshttps://github.com/redis-windows/redis-windows/releases 下載后直接解壓到想要的安裝目錄就行了,啟動Redis直接雙擊 redis-server.exe 文件就行了,Redis啟動后雙擊 redis-cli.exe 就可以直接連接到Redi…

GitHub中openmmlab和Detectron2的區別

MMDetection 和 Detectron2 都是計算機視覺領域中流行的開源目標檢測框架,它們有許多相似之處,但也存在一些關鍵差異。以下是兩者的主要區別: 1. 開發團隊與社區 MMDetection 由中國開源組織 OpenMMLab 開發維護,社區以中文用戶為…

開疆智能CCLinkIE轉ModbusTCP網關連接施耐德TCP從站配置案例

本案例是三菱PLC通過CCLinkIE轉ModbusTCP網關連接施耐德Modicon M262 Logic/Motion Controller的配置案例 配置方法: 首先設置Modicon M262 Logic/Motion Controller Modbus TCP 從站設備 I/O 映射選項卡 I/O 以如下方式從主站視角映射到 Modbus 寄存器&#xff1…

【源碼】Reactive 源碼

前言 用了很長時間的 componsition-api 了,最近想看看源碼,抱著單純的學習心態先從 reactive 開始吧。 個人習慣: 看代碼要帶著問題去看,不要盲目的去看問題就是這次看源碼的主線,要圍繞著主線去展開,過…

銀河麒麟 | ubuntu 安裝國產達夢DM8數據庫(安裝+外網通+IDEA連接)

目錄 官網下載安裝 下載安裝包 創建安裝用戶組dinstall 創建安裝用戶dmdba并指定組 創建DM8軟件安裝目錄修改權限 檢查、修改系統資源限制 解壓.zip的壓縮包 安裝mount數據庫 圖形化安裝 清除之前的掛載 開啟Disql服務 修改dmdba的環境變量 檢查狀態 進入數據庫 …

MySQL與Oracle視圖:深入解析與全面對比

視圖概念 視圖在 MySQL 與Oracle中本質上是一種虛擬表,其數據并非實際存儲,而是基于一個或多個基礎表的查詢結果動態生成。它像是對復雜查詢的一種封裝,極大地簡化了數據的查詢操作。例如,當我們需要頻繁從多個關聯表中獲取特定數…

uniapp通過webview套h5時使用plus調取藍牙/usb打印

安卓使用usb調取打印機 /*** 安卓usb調取打印機*param { string | bytes[] } html 傳入的打印內容*傳入一段文本或一個bytes數組* returns*/ export const printUsb (html) > {return new Promise((resolve, reject) > {if (!window.plus) return reject(new Error(&qu…

吃透 Golang 基礎:基于共享變量的并發

文章目錄 sync.Mutex 互斥鎖sync.RWMutex 讀寫鎖sync.Once 惰性初始化Goroutine 與線程動態棧Goroutine 調度GOMAXPROCSGoroutine 沒有 ID 號 上一篇文章當中我們已經系統性地回顧了在 Go 當中基于 Goroutine 和 Channel 進行并發控制的方法,Goroutine 指的是 Golan…

智紳科技丨如何選擇一家好的養老機構?

居家養老、社區養老和機構養老是我們在養老相關消息中常常聽到的3個詞。在地方文件中,居家養老和社區養老還經常被統稱為居家社區養老或 社區居家養老。那么,這三者之間到底有什么不同呢? 居家養老服務涵蓋生活照料、家政服務、康復護理、醫…

【支持向量機】SVM線性支持向量機學習算法——軟間隔最大化支持向量機

支特向量機(support vector machines, SVM)是一種二類分類模型。它的基本模型是定義在特征空間上的間隔最大的線性分類器。包含線性可分支持向量機、 線性支持向量機、非線性支持向量機。 當訓練數據近似線性可分時,通過軟間隔最大化學習線性分類器, 即為…

面試 — 預準備 — 面試前準備攻略

好記憶不如爛筆頭,能記下點東西,就記下點,有時間拿出來看看,也會發覺不一樣的感受. 只講干貨,不羅里吧嗦! 作為一個軟件從業者,在面試前的準備工作至關重要,能大幅提升你的求職成功…

Oracle停庫shutdown長時間無反應

Oracle停庫shutdown長時間無反應 現象:Oracle停庫卡住,長時間沒有反應。 SQL> shutdown immediate;注:此時切記不可Ctrl+C直接取消!切記不可Ctrl+C直接取消!切記不可Ctrl+C直接取消! 檢查alert_SID.log日志看是哪些會話進程導致的: Shutting down instance (immed…

使用ZYNQ芯片和LVGL框架實現用戶高刷新UI設計系列教程(第十八講

列表部件基本上是一個采用垂直布局的矩形,可向其中添加按鈕和文本。 部件包含: LV_PART_MAIN - 主要的屬性,大部分是這個部件。 LV_PART_SCROLLBAR - 滾動條的屬性。 (1) 添加文本 lv_obj_t * lv_list_add_text(lv_o…

Android Navigation 原理解析

1. nav_graph.xml 如何生成路由表 NavGraph 解析流程與原理 關鍵技術點&#xff1a; XML 解析&#xff1a; 使用 XmlResourceParser 解析 XML 文件 遍歷所有節點&#xff08;<fragment>, <activity>, <navigation>等&#xff09; Destination 創建&#…

HarmonyOS 應用權限管控流程

HarmonyOS 應用權限管控流程詳解 一、權限管控概述 HarmonyOS 通過多層次的安全機制保護用戶數據和系統資源&#xff0c;其中應用權限管控是核心組成部分。系統通過以下機制實現權限管控&#xff1a; 應用沙箱&#xff1a;每個應用運行在獨立沙箱中&#xff0c;通過TokenID識…

Python訓練營-Day33

import torch torch.cudaimport torch# 檢查CUDA是否可用 if torch.cuda.is_available():print("CUDA可用&#xff01;")# 獲取可用的CUDA設備數量device_count torch.cuda.device_count()print(f"可用的CUDA設備數量: {device_count}")# 獲取當前使用的C…

【STM32】中斷優先級管理 NVIC

這篇文章是對 Cortex-M3 內核中斷系統 和 STM32F1 系列 NVIC(嵌套向量中斷控制器) 的解析說明。我將從結構清晰、層次分明的角度,對 NVIC 中斷優先級分組的概念和 STM32F103 的實際情況做一個系統性的總結與敘述。 參考資料: STM32F1xx官方資料:《STM32中文參考手冊V10》…

Angular2--高級特性(TODO)

1 基礎 關于Angular的基礎部分&#xff0c;幾個核心部分和框架&#xff0c;在之前都寫過了。Angular1--Hello-CSDN博客 Angular的幾個核心部分和框架&#xff1a; 模板就是組件中的template&#xff0c;對應MVC的V。 組件類就是Component類&#xff0c;對應對應MVC的C。 服…