谷歌創新框架:從非結構化數據,實現多模態學習

看、聽、說的多模態已成為主流大模型的重要功能之一。但在數據爆炸時代,大模型學習文本類的結構化數據相對還好一些,但要去學習視頻、音頻、圖片等非結構化數據非常困難。

目前,從結構化和非結構化數據實現多模態學習,會隨著模態數量、輸入大小和數據異構性的增加,深度神經網絡會變過擬合和泛化效果不佳。

尤其是當在規模有限的數據集上訓練時,這一狀況就越發明顯,例如,經常表現出非平穩行為的時間序列數據。因此,谷歌提出了創新框架LANISTR來解決這些難題。

論文地址:https://arxiv.org/pdf/2305.16556

圖片

LANISTR是一個基于注意力機制的框架,其核心思想是在單模態和多模態層面上應用基于掩碼的訓練。

還特別引入了一種新的基于相似度的多模態掩碼損失,使其能夠從存在缺失模態的大型多模態數據中學習跨模態之間的關系。

多模態融合編碼器

現實數據經常以復合形式存在,單一模態的數據往往不足以捕捉事件的全貌。例如,在醫療診斷中,臨床報告和MRI掃描圖像才能展現患者狀況的全面視圖;而在電子商務中,商品描述與銷售歷史(時間序列)相結合才能更好地預測市場需求。

因此,一個好用的多模態大模型,必須具備將這些分散信息源綜合的能力。為了實現這一目標,LANISTR采用了基于Transformer架構的交叉注意力機制。

圖片

多模態融合編碼器可將來自各模態的嵌入向量首先被串聯起來,然后通過一系列的Transformer層進行處理

在這些層中,交叉注意力機制發揮了重要作用,允許模型在不同的模態表示之間自由“詢問”和“回答”,使每個模態的特征都能關注其他模態的特征,并根據它們的相關性和重要性進行加權整合。

這一流程與人腦思考有些類似,可根據上下文和情境在不同感官信號間切換注意力,從而實現信息的高效整合。

4種編碼器介紹

LANISTR中的多模態融合編碼器一共由文本、圖像、表格和時間序列4種編碼器組成,每種模態都有其獨特的表達方式和信息結構。這種機制不僅增強了對單個模態特征的理解,還促進了模態間的交互學習,從而對整個場景有了更加全面的認識。

圖片

文本編碼器:基于Transformer架構主要處理文本數據。通過掩碼語言方法進行預訓練,隨機掩蓋文本中的部分詞匯,讓模型學習預測這些被掩蓋詞的能力。這種機制促使模型理解詞語間的依賴關系和語境含義,從而提取出豐富的語言特征。

圖像編碼器:采用Vision Transformer架構用于處理視覺數據。可將圖像分割成多個小塊,并將這些塊視為序列輸入到Transformer中,通過自注意力機制學習圖像的高層次特征,還會使用掩碼圖像建模方法,通過重建被掩碼的像素或特征來訓練,以提取圖像的視覺特征。

圖片

表格編碼器:使用了定制的神經網絡結構,針對分類特征的嵌入層來編碼每一列數據的特征。考慮到表格數據的稀疏性和多樣性,了集成特征選擇或降維技術,以聚焦于最有信息量的特征。

時間序列編碼器:由于大模型需要捕捉隨時間變化的動態模式,時間序列編碼器使用了循環神經網絡方法,長短時記憶網絡和門控循環單元。通過對序列進行建模提取出時間序列的模式和趨勢,為后續的多模態融合準備數據。

研究人員在兩個數據集上測試了LANISTR的性能,在MIMIC-IV數據集上,當僅使用0.1%的有標簽數據進行微調時,模型的AUROC相比最先進的方法提高了6.6%。

在亞馬遜產品評論數據集中,僅使用0.01%的有標簽數據,模型的準確率提升了14%。值得一提的是,這些改進是在高達35.7%和99.8%的樣本存在模態缺失的情況下完成的,這更加證明了LANISTR的多模態學習能力。

本文素材來源LANISTR論文,如有侵權請聯系刪除

END

圖片

圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/21959.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/21959.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/21959.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

RK3588 VOP圖層分配介紹

RK3588 VOP圖層分配介紹 RK3588圖層介紹 RK3588有8個圖層,分別是Custer 0/1/2/3 和Esmart 0/1/2/3,兩種圖層的能力不一樣,具體如下: Custer 分辨率:最大分辨率包括兩種合并集群和單集群,分別為7680x432…

QT_UI設計

mainwindow.h #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow>QT_BEGIN_NAMESPACE //命名空間 namespace Ui { class MainWindow; } //ui_MainWindow文件里定義的類&#xff0c;外部聲明 QT_END_NAMESPACEclass MainWindow : public QMainWindow {Q_O…

AccessibilityEvent的生成和處理

在 Android 框架層&#xff0c;AccessibilityEvent 的生成和處理是通過系統的 UI 框架和輔助功能服務框架密切協作來實現的。這個機制涉及幾個關鍵的部分&#xff1a;UI 組件、輔助功能服務、事件監聽和事件分發。以下是對這些部分和它們如何協同工作的詳細解釋&#xff1a; 1…

httprunner接口自動化測試框架使用說明【保姆級教程】

背景介紹&#xff1a; httprunner是國內開源的一個接口自動化框架&#xff0c;已經有部分公司開始使用這種框架來完成自己公司的接口自動化編寫&#xff0c;本文主要是從簡單的流程上去講解咋使用的&#xff08;PS&#xff1a;開發者本尊的官網教程寫的是真的爛。。。&#xf…

JVM調優實戰

如果老年代能回收掉大部分&#xff0c;說明年輕代太小了&#xff0c;放不下 OOM 1數據量一次性申請的內存過多&#xff0c;比如數據庫查詢返回值大多&#xff0c;所以做個分頁 2.并發過高的情況下&#xff0c;一些連接未釋放 3.堆內存不夠

DP-Kmaens密度峰值聚類算法

我有個問題 關于 [密度值>密度閾值] 的判定這里&#xff0c;新進來的新數據怎么確定他的密度值&#xff1f;密度閾值又是怎樣確定的呢&#xff1f;

正則表達式 0.1v

正則表達式 擴展 --> :% s/\///g //文件里面所有的 / 去掉 * 通配符 \ //轉義&#xff0c;讓字符變成原本的意思 ^ //行首 $ //行尾 [0-9] //數字 [a-z] //小寫字母 [A-Z] //大寫字母 把文件的小寫字母替換為大寫字母&#xff1f; 固定寫法 :% s/[a-…

Vscode git 插件

超好用的git記錄 軟件 安裝之后&#xff0c;鼠標在哪一行就可以看最新一次是誰提交的&#xff0c;真的超好用&#xff01;&#xff01;&#xff01;

43頁 | 2024年企業級BI平臺白皮書(免費下載)

【1】關注本公眾號&#xff0c;轉發當前文章到微信朋友圈 【2】私信發送 2024年企業級BI平臺白皮書 【3】獲取本方案PDF下載鏈接&#xff0c;直接下載即可。 誠摯邀請您微信掃碼加入以下方案驛站知識星球&#xff0c;獲取上萬份PPT/WORD解決方案&#xff01;&#xff01;&…

【NOI】C++程序結構入門之循環結構二-for循環

文章目錄 前言一、for循環1.導入2.語法3.使用場景4.條件控制5.小結 二、例題講解問題&#xff1a;1264 - 4位反序數問題&#xff1a;1085 - 尋找雷劈數問題&#xff1a;1057 - 能被5整除且至少有一位數字是5的所有整數的個數問題&#xff1a;1392 - 回文偶數&#xff1f;問題&a…

Linux命令 netstat -anp | grep 的用法

文章目錄 1、第一種解釋2、第二種解釋3、第三種解釋4、第四種解釋5、第五種解釋6、netstat --help 在Windows中&#xff0c;殺死端口占用的博客鏈接 1、第一種解釋 在Unix和Linux系統中&#xff0c;netstat -anp 命令用于顯示所有的網絡連接&#xff08; -a 表示所有&#xff…

文件md5加密

使用場景&#xff1a;為了避免上傳資源空間的浪費&#xff0c;通過對文件進行md5摘要加密獲取唯一的值&#xff0c;從數據庫中查詢是否已有該md5碼存在&#xff0c;不存在的就上傳&#xff0c;存在的話使用之前已存儲的文件信息。 如何加密 下載插件browser-md5-file 【之前有…

maridb10.4.30數據庫數據遷移

1.新建數據存儲文件夾&#xff0c;例如E:\maridb_data 2.修改原數據所在目錄的my.ini文件&#xff0c;例如D:\Program Files\MariaDB 10.4\data\my.ini 3.剪切除my.ini文件外的其他所有文件到遷移目的地文件(E:\maridb_data) 結果如下&#xff1a; 原數據文件目錄&#xff1a…

聊聊限流的一些事兒

一、背景 最近幾年&#xff0c;隨著微服務的流行&#xff0c;服務與服務之間依賴越來越強&#xff0c;調用也越來越復雜&#xff0c;服務間的穩定性變突顯出來。特別是在遇到突發請求時&#xff0c;常常需要通過緩存、限流、熔斷降級、負載均衡等多種方式保證服務的穩定性。其…

C++命名空間(詳解)

C基礎語法 C基于C語言的改進&#xff1a;c在C語言的基礎上引入并擴充了面向對象的概念 C基礎概念&#xff1a;C是基于C語言而產生的,它即可以進行C語言的過程化程序設計,又可以進行以抽象數據類型為特點的基于對象的程序設計,還可以進行面向對象的程序設計 在1998年 出現C98…

愛普生差分晶振在光模塊中的重要角色

光模塊是現代通信設備中的重要組成部分&#xff0c;主要用于實現光電轉換和信號傳輸&#xff0c;它是一種將光信號轉換為電信號&#xff0c;或者將電信號轉換為光信號的設備。在光纖通信中&#xff0c;光模塊扮演著至關重要的角色。 光模塊的主要組成部分包括光源、光接收器、…

OSPF學習筆記(狀態機)

1、鄰居關系 OSPF設備啟動后&#xff0c;會通過OSPF接口向外發送Hello報文&#xff0c;收到Hello報文的OSPF設備會檢查報文中所定義的參數&#xff0c;如果雙方一致就會形成鄰居關系&#xff0c;兩端設備互為鄰居 2、鄰接關系 形成鄰居關系后&#xff0c;如果兩端設備成功交…

【代碼隨想錄】【算法訓練營】【第27天】 [39]組合總和 [40] 組合總和II [131]分割回文串

前言 思路及算法思維&#xff0c;指路 代碼隨想錄。 題目來自 LeetCode。 day26&#xff0c; 休息的周末~ day 27&#xff0c;周一&#xff0c;庫存沒了&#xff0c;哭死~ 題目詳情 [39] 組合總和 題目描述 39 組合總和 解題思路 前提&#xff1a;組合的子集問題&…

C# :IQueryable IEnumerable

文章目錄 1. IEnumerable2. IQueryable3. LINQ to SQL4. IEnumerable & IQueryable4.1 Expression4.2 Provider 1. IEnumerable namespace System.Collections: public interface IEnumerable {public IEnumerator GetEnumerator (); }public interface IEnumerator {pubi…

氣泡式水位計施工技術要求

1、氣泡式水位計壓力氣管出氣口應安裝并固定在最低水位處&#xff0c;其壓力氣管也應固定&#xff0c;有條件的可用金屬管或塑料管保護。氣泡式水位計安裝示意圖見附圖。 2、安裝要求 1&#xff09;檢查氣泡式水位計氣管外觀有無破損及變形&#xff1b; 2&#xff09;旋開帶有…