充分利用視覺信息多問多答合成數據,提升多模態大模型數學推理能力

0d2a8842b417ffe7b2cda7976b202e99.gif

?PaperWeekly 原創 ·?作者 |?史文浩

單位 |?電子科技大學

43c75b04762a5210867c3fdf778f1c74.png

論文題目:

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

論文鏈接:

https://arxiv.org/abs/2406.17294

開源鏈接:

https://github.com/HZQ950419/Math-LLaVA

0f132edd9ee9d183c8b7a36cb678cb38.png

動機和背景

近年來,大語言模型在數學推理中取得優異的表現,隨著多模態大模型的發展,模型能夠處理視覺語言輸入進行多模態數學推理。然而,現有的視覺指令數據集中,每張圖像對應有限的問題答案數據對,沒有充分利用視覺信息來增強多模態大模型的數學推理能力。

為此,我們從多種數據集中收集 4 萬張高質量圖像和問答數據對。通過對圖像各部分視覺信息充分提問,以及對問題數據進行增強,構建了一個高質量、多樣化的合成多模態問答數據集,從而增強多模態大模型數學推理的能力。本項工作強調合成高質量的多模態問答數據集在提高多模態大模型數學推理能力方面的重要性。

f8c35c747aed96784ffdc578e6fc98ca.png

e64721c4a4edf4924bd2da0eb24c5b61.png

數據集合成

2.1 源數據收集

我們針對五種需要高水平推理能力的問題任務類型收集了 24 個多模態視覺問答和數學推理源數據集,任務類型包括 Figure Question Answering(FQA),Geometry Problem Solving(GPS),Math Word Problem(MWP),Textbook Question Answering(TQA),Visual Question Answering(VQA)。

在獲取源數據集后,我們根據圖像清晰質量和理解復雜度從中挑選高質量,理解難度分布合適的圖像集。具體地,我們使用 GPT4-V 對隨機均勻采樣的 1 萬張圖像的清晰度和理解復雜度進行標注,對于圖像清晰度,標簽 0 表示圖像模糊質量差,標簽 1 表示圖像清晰質量好。

圖像理解復雜度取決于物體數量、位置關系、細節程度、紋理、材料屬性以及是否涉及數學計算,分值設為 0 到 3 分。之后根據圖像標注數據微調圖像分類器,分別對源數據集的圖像清晰度和理解復雜度進行打分。如下表所示,包含每個源數據集的任務類型、視覺背景以及圖像清晰度和理解復雜度的分布。

4369cff06911864cc185bbac22d0d0a8.png

我們過濾掉低質量的圖像,按圖像理解復雜度從簡單到復雜漸進地采樣,由于分值為 3 的圖像數量最少,因此收集全部。最終我們根據復雜度 2:3:4:1 的比例均勻選取 4 萬張圖像,這些數據的圖像信息多樣且難度逐步遞增。

2.2 數據增強

在收集的多模態問答數據中,每個圖像對應有限的問題,沒有充分利用圖像的視覺信息。因此,我們使用 GPT-4V 以 few-shot 的方式為每幅圖像生成更多問題答案對。具體地,對于屬于某任務類別的圖像,首先將屬于該類別的每個源數據集內部的問題進行聚類,再從每個源數據集的每個聚類中隨機采樣一個問題來共同構建注釋參考。以此,GPT-4V 新合成與原始問題分布接近,多樣的 20 萬個問答數據對。

我們再使用 GPT-4V 對原始問題進行增強,生成了 4 萬個更復雜的問題,4 萬個簡化的問題和 4 萬個邏輯一致的問題,以進一步提高模型的推理能力和魯棒性。最終我們構建了 36 萬高質量、多樣化的合成多模態問答數據集 MathV360K.

f85a51997fef751e15552632ae35b815.png

實驗結果

我們使用 MathV360K 對 LLaVA-1.5-13B 進行微調得到我們的模型 Math-LLaVA,并在 MathVista 和 MATH-Vision 數據集上進行了測試。其中 Math-LLaVA 在 MathVista minitest 中達到了46.6%,相對于 base model 提升了 19 個百分點。此外,在更困難的 MATH-Vision 數據集上達到 15.69%,超過了 Qwen-VL-Max(15.59%)。

MathVista minitest 數據集上不同方法模型的測試結果如下:

ffe93206bed3fb019518376d0d456436.png

為了驗證 Math-LLaVA 的泛化性以及使用我們的合成數據微調不會削弱模型在其他領域的推理能力,我們在 MMMU 數據集上進行驗證。MMMU validation 數據集上不同方法模型的測試結果如下:

0069e368a45a0a94856898296f13267a.png

我們對數據收集和增強方式進行消融實驗,結果如下,說明我們的數據收集和不同增強方法都能提高多模態大模型的數學推理能力。

a606b842b6902c1b65a9e1bded282b26.png

此外,為了探究對每種任務類型的源數據進行增強的有效性,結果如下:

174018666baab9a4254ec71d5851b148.png

520302d772bcaccadf05598e173727b0.png

總結

我們構建了一個高質量和多樣化的多模態問答數據集 MathV360K,可供社區在多模態大模型上使用,我們的合成數據集充分利用了圖像的視覺信息進行提問并對原始問題進行增強,提高了多模態數學問題的廣度和深度,可進一步提高多模態數學推理能力和模型魯棒性。

通過使用 MathV360K,我們對 LLaVA-1.5 進行微調得到 Math-LLaVA,顯著提高了其多模態數學推理能力,在 MathVista testmini 上取得 46.6% 的準確率,比基礎模型提高了 19%。在 MATH-Vision 數據集上達到 15.69%,超過了Qwen-VL-Max 的 15.59%。此外,Math-LLaVA 還在 MMMU 數據集上展現了一定的泛化性。對于未來的工作,我們將引入帶注釋的中間步驟,構建更全面、更高質量的數據集,進一步增強多模態大模型的推理能力。

更多閱讀

8cfe98012ef144eefa9b554cdba4c103.png

b71ceb9b29193a28cb760d1083c046c9.png

8b0afd38ec16e79d49396440674e8bc4.png

3799d76f167d80c934c3610f03e3585b.gif

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

2b121f76d509d105565900015910eff3.png

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

·

·

9d3204a5379afbd139080569df086e42.jpeg

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/43352.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/43352.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/43352.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

最新國內免費使用GPT4o、4.0、3.5 的方法

為了方便大家對GPT有更好的了解,這里特地整理了一個表格做對比 這些模型展示了OpenAI在自然語言處理領域的持續進步,每一代模型都在理解和生成能力、效率和適用性方面進行了顯著提升。 網站匯總 這里順便給大家匯總一下國內同類型的網站,有…

物聯網設計競賽_10_Jetson Nano中文轉漢語語音

在windows中pyttsx3可以讓漢字文本輸出中文語音,但是在jetson上只能用英文說話 import pyttsx3def hanyu(test):engine pyttsx3.init()rate engine.getProperty(rate)engine.setProperty(rate,125)engine.say(test)engine.runAndWait() hanyu(你好) #engine.save…

qt 按鈕鏈接一個槽函數

在Qt中,按鈕(比如QPushButton)可以通過信號和槽的機制來連接到一個槽函數。這樣,當按鈕被點擊時,槽函數就會被執行。下面是如何將一個按鈕鏈接到一個槽函數的基本步驟: 創建按鈕和槽函數: 創建…

每日一練全新考試模式解鎖|考試升級

🙋頻繁有小伙伴咨詢:我想舉辦一場歷時一個月的答題活動,學生可以每天打開答題,活動完結后可以導出每天的答題成績 此前我們都會讓小伙伴創建30場考試,然后使用批量分享功能組合起來,對外分享一個鏈接就可以…

【chatgpt消費者偏好】是什么驅動了游客持續旅游意愿?推文分享—2024-07-08

今天推文的主題是【chatgpt&消費者意愿】 第一篇:文章主要研究了什么因素驅動旅游者繼續使用ChatGPT進行旅行服務,并從人類擬態的角度探討了旅游者對ChatGPT的感知和使用意圖。第二篇:本文探討了ChatGPT-4在生成針對TripAdvisor上發布的…

速盾:cdn防御cc

CDN(Content Delivery Network)是指在分布式網絡中分布服務器群,通過就近訪問用戶、提供快速可靠的內容傳輸與加速服務。而CC(Challenge Collapsar)攻擊則是一種常見的網絡攻擊手段,通過發送大量的請求來超…

基于門控循環單元 GRU 實現股票單變量時間序列預測(PyTorch版)

前言 系列專欄:【深度學習:算法項目實戰】?? 涉及醫療健康、財經金融、商業零售、食品飲料、運動健身、交通運輸、環境科學、社交媒體以及文本和圖像處理等諸多領域,討論了各種復雜的深度神經網絡思想,如卷積神經網絡、循環神經網絡、生成對…

GEE代碼實例教程詳解:地形分析

簡介 在本篇博客中,我們將使用Google Earth Engine (GEE) 對特定區域內的地形進行分析。我們將使用SRTM(Shuttle Radar Topography Mission)數據集獲取高程信息,并計算坡度、坡向等地形屬性。此外,我們還將使用ALOS&a…

# 昇思25天學習打卡營第10天 | 使用靜態圖加速

昇思25天學習打卡營第10天 | 使用靜態圖加速 文章目錄 昇思25天學習打卡營第10天 | 使用靜態圖加速動態圖的開啟方式靜態圖的開啟方式基于全局context的開啟方式基于修飾器的開啟方式 總結打卡 AI編譯框架分為兩種運行模式: 動態圖模式: 計算圖的構建和計…

讀人工智能全傳07智能體

1. 布魯克斯革命 1.1. 隨著科學認知的發展,有時候舊有科學體系會面臨全盤崩潰的危機,新的科學體系誕生,取代傳統的、既定的科學體系,這就意味著科學的范式將發生變化 1.2. 澳大利亞機器人學家羅德尼布魯克斯(Rodney Brooks)&…

DS1302實時時鐘芯片_讀寫時間實現電子鐘功能

一、前言 1.1 功能說明 本項目以STC90C51單片機為核心,結合DS1302實時時鐘芯片和IIC協議的OLED顯示屏,設計了一款功能豐富、操作簡便的電子時鐘。 【1】項目目標 實現高精度的時間顯示,包括時、分、秒。提供按鍵調整時間的功能&#xff0…

fatal error: NvInfer.h: No such file or directory 的參考解決方法

文章目錄 寫在前面一、問題描述二、解決方法參考鏈接 寫在前面 自己的測試環境&#xff1a; Ubuntu20.04 一、問題描述 編譯調用 tensorrt 的程序時&#xff0c;出現如下報錯&#xff1a; fatal error: NvInfer.h: No such file or directory7 | #include <NvInfer.h>…

sublime使用

快速格式化&#xff1a;control command j&#xff08;前提是安裝了Pretty JSON 插件&#xff09; 選中多行編輯&#xff1a;option command直接移動bar選中 多光標編輯功能對所有行進行相同的操作。以下是一些常用的方法&#xff1a; 1. 使用鼠標和鍵盤選擇多行 按住 Ctrl&am…

[Java]Swing版坦克大戰小游戲項目開發(1)——new出一個窗口

highlight: xcode theme: vuepress 前言 本系列文章帶領 Java 初學者學習使用 Java 語言結合 Swing 技術以及設計模式開發一款經典小游戲——坦克大戰。通過這個小游戲&#xff0c;你可以學會很多實用的設計模式思想&#xff0c;并且提高你的編碼水平。 熟悉Frame Frame 類是 J…

【java計算機畢設】基于java的奶茶店管理系統的設計與實現MySQL ssm JSP maven項目代碼源碼+文檔

目錄 1項目功能 2項目介紹 3項目地址 1項目功能 【java計算機畢設】奶茶店管理系統java MySQL ssm JSP maven項目源碼代碼萬字文檔 小組設計 2項目介紹 系統功能&#xff1a; 奶茶店管理系統包括管理員、用戶倆種角色。 管理員功能包括個人中心模塊用于修改個人信息和密碼、…

如何在 Ubuntu 14.04 上安裝和配置 Syncthing 來同步目錄

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到網站。 介紹 有許多程序可以在不同計算機之間同步文件。Syncthing 是一個引人注目的新選擇&#xff0c;它跨平臺、完全開源、非常靈活且易于使…

UDP通訊實現

服務器端&#xff1a; 1.獲取套接字 int fd;fdsocket(AF_INET,SOCK_DGRAM,0);if(fd<0){perror("socket");exit(0);} #include <sys/types.h> #include <sys/socket.h> int socket(int domain, int type, int protocol); -domain: 指定通信域&…

Elasticsearch 面試題指南

Elasticsearch 面試題指南 本文檔提供了一份詳細的 Elasticsearch 面試題指南&#xff0c;涵蓋了 Elasticsearch 的核心概念、架構、配置、操作和實際應用場景等方面的內容。希望通過這份指南能夠幫助你在 Elasticsearch 面試中取得成功。 目錄 Elasticsearch 基礎知識 什么…

Retrofit框架源碼深度剖析【Android熱門框架分析第二彈】

Android熱門框架解析&#xff0c;你確定不來看看嗎&#xff1f; OkHttp框架源碼深度剖析【Android熱門框架分析第一彈】 Retrofit框架源碼深度剖析【Android熱門框架分析第二彈】 什么是Retrofit&#xff1f; 準確來說&#xff0c;Retrofit 是一個 RESTful 的 HTTP 網絡請求…

網絡編程:數據包的封裝----libnet庫

使用libnet庫封裝數據包 安裝庫sudo apt-get install libnet-dev 1、數據包內存初始化 libnet_t *libnet_init(int injection_type, char *device, char *err_buf) 2、構造數據包&#xff0c; 由應用層UDP/TCP到MAC層的順序構造 封裝udp數據包的函數 libnet_ptag_t libnet_bui…