? 傳知代碼 ? 輔助任務改進社交帖子多模態分類

💛前情提要💛

本文是傳知代碼平臺中的相關前沿知識與技術的分享~

接下來我們即將進入一個全新的空間,對技術有一個全新的視角~

本文所涉及所有資源均在傳知代碼平臺可獲取

以下的內容一定會讓你對AI 賦能時代有一個顛覆性的認識哦!!!

以下內容干貨滿滿,跟上步伐吧~


📌導航小助手📌

  • 💡本章重點
  • 🍞一. 概述
  • 🍞二. 主要貢獻
  • 🍞三. 技術細節
  • 🍞四. 實驗結果
  • 🫓總結


💡本章重點

  • 輔助任務改進社交帖子多模態分類

🍞一. 概述

  1. 這篇文章的主要內容是關于如何通過利用圖像-文本輔助任務來提高社交媒體帖子的多模態分類效果。研究者們在多模態模型微調過程中聯合使用了兩種輔助損失:圖像-文本對比(Image-Text Contrastive, ITC)和圖像-文本匹配(Image-Text Matching, ITM)。ITC 旨在最小化帖子內部圖像和文本表示之間的距離,從而有效地彌合圖像在傳達帖子意義中扮演重要角色時的鴻溝。ITM 則增強了模型理解圖像和文本之間語義關系的能力,提高了處理模糊或關系不緊密模態的能力。

  2. 研究者們結合了五種多模態模型,并在五個不同的社交媒體數據集上進行了實驗,展示了使用這兩種輔助任務可以一致性地提高模型性能,最高可提升 2.6 的 F1 分數。文章還提供了詳盡的分析,展示了在特定場景下每種輔助任務最有效。

  3. 此外,文章還介紹了實驗設置、使用的數據集、單模態方法、多模態模型、評估方法和結果。研究者們使用了不同的預訓練模型,包括 BERT、Bernice、ResNet152 和 ViT,并在不同的社交媒體任務上進行了實驗,如文本-圖像關系分類、情感分析、仇恨言論分類、諷刺檢測和商業影響力內容檢測等。

  4. 最后,文章討論了研究的局限性,包括目前實驗僅使用英文數據集,以及輔助任務的加入可能會增加訓練時間。盡管如此,作者認為這些額外的時間與大型語言模型的預訓練時間相比是相對較小的


🍞二. 主要貢獻

文章的主要貢獻可以總結為以下幾點:

  1. 多模態模型微調的輔助任務研究: 文章提出了一個廣泛的研究,比較了在微調過程中聯合使用圖像-文本對比(ITC)和圖像-文本匹配(ITM)兩種輔助損失的多模態模型。

  2. 性能提升: 展示了在五個不同的多模態社交媒體數據集上,使用ITC和ITM作為輔助損失的模型一致性地提高了性能,最高可提升2.6 F1分數。

  3. 具體場景分析: 提供了詳盡的分析,揭示了在不同類型的圖像-文本關系中,個別輔助任務及其組合的有效性。

  4. 模型和數據集的多樣性: 研究涵蓋了五種不同的多模態模型,并在五個不同的社交媒體數據集上進行了實驗,這表明了方法的通用性和適應性。

  5. 對低資源場景的探討: 文章還探討了在不同數量的訓練樣本下模型的泛化能力和數據效率,這對于資源受限的情況特別重要。

  6. 對模型有效性的深入理解: 通過分析Ber-ViT-Att模型在TIR數據集上的預測,文章幫助理解在不同圖像-文本關系類型下,輔助任務如何受益。

這些貢獻為社交媒體帖子的多模態內容分類提供了新的視角和方法,有助于提高自動檢測情感、諷刺和仇恨言論等下游任務的準確性。


🍞三. 技術細節

Image-Text Contrastive (ITC)

在這里插入圖片描述

ITC就是使用對比學習的方法讓圖像和文本的特征對齊。

因為多模態數據集一個文本對應一個圖片,那么通過對比學習的方式,讓對應的這組文本和圖像的相似度更大,也就是特征更加相似,從而完成特征的對齊。

因此損失函數由兩部分構成:

  • 一個是為了讓配對的文本-圖像距離盡可能近而離另外的文本盡可能遠。
  • 一個是為了讓配對的文本-圖像距離盡可能近而離另外的圖像盡可能遠。

Image-Text Matching (ITM)

在社交媒體帖子中,不相關或弱相關的文本-圖像對很常見,僅僅用ITC,可能圖像和文本表面上看上去確實沒有關聯,但是可能有著深層次的關聯,使用這個任務可以幫助模型挖掘這深層次的關系。

這個輔助任務也很簡單,就是50%的概率隨機替換文本-圖像對中的圖像數據,如果被替換了,那么文本和圖像就是不匹配的,如果沒有替換,文本和圖像就是匹配的,這時可以讓模型去預測,文本和圖像當前到底匹不匹配,從而轉化成一個二分類問題。

其損失函數如下:

在這里插入圖片描述
聯合微調目標

分類任務+輔助訓練任務,一起進行訓練,損失函數如下:

在這里插入圖片描述
其中CE就是cross-entropy classification loss,也就是模型最終分類預測結果的損失函數。


🍞四. 實驗結果

在這里插入圖片描述
其中:

  • +C就是加了ITC輔助任務

  • +M就是加了ITM輔助任務

可以看到,輔助任務確實可以優化模型的表現


🫓總結

綜上,我們基本了解了“一項全新的技術啦” 🍭 ~~

恭喜你的內功又雙叒叕得到了提高!!!

感謝你們的閱讀😆

后續還會繼續更新💓,歡迎持續關注📌喲~

💫如果有錯誤?,歡迎指正呀💫

?如果覺得收獲滿滿,可以點點贊👍支持一下喲~?

【傳知科技 – 了解更多新知識】

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/23403.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/23403.shtml
英文地址,請注明出處:http://en.pswp.cn/web/23403.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【自然語言處理】【Scaling Law】語言模型物理學 第3.3部分:知識容量Scaling Laws

語言模型物理學3.3:知識容量Scaling Laws 論文名稱:Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws 論文地址:https://arxiv.org/pdf/2404.05405 相關博客 【自然語言處理】【Scaling Law】Observational Scaling …

R語言探索與分析17-股票題目

Value at Risk(VaR)是一種統計技術,用于量化投資組合在正常市場條件下可能遭受的最大潛在損失。它是風險管理和金融領域中一個非常重要的概念。VaR通常以貨幣單位表示,用于估計在給定的置信水平和特定時間范圍內,投資組…

OpenCV的小部件最基本范例

OpenCV也有與PYQT類似的小部件,例如滑塊slider。OpenCV可以用與PYQT類似的“信號與槽”方法,也可以在函數中直接查詢小部件的值。 import cv2 import numpy as npcv2.namedWindow(Show1) image np.zeros((100, 400, 3), np.uint8) # 創建一個空白內容…

JavaScript基礎知識4(數組、函數、參數、作用域、具名和匿名函數、邏輯運算符短路、轉化布爾類型)

JavaScript基礎知識4(數組、函數、參數、作用域、具名和匿名函數、邏輯運算符短路、轉化布爾類型) 數組數組是什么?數組的基本使用定義數組和數組單元訪問數組和數組索引數據單元值類型數組長度屬性 操作數組 函數聲明和調用聲明(…

(面試官問我微服務與naocs的使用我回答了如下,面試官讓我回去等通知)微服務拆分與nacos的配置使用

微服務架構 正常的小項目就是所有的功能集成在一個模塊中,這樣代碼之間不僅非常耦合,而且修改處理的時候也非常的麻煩,應對高并發時也不好處理,所以 我們可以使用微服務架構,對項目進行模塊之間的拆分,每一…

前端傳參數后端變量類型能夠接受到List卻無法接收到值

問題描述 今天寫了個接口,下圖所示 ReqVO里是這樣的: 然后前端去請求,從請求結果中看發現這里值是在的(有經驗的可能就看出來了otherInfo.id: 這樣以參數后端是接收不到的,但是當時沒發現) 傳進來后端…

維納運動的概念

維納運動(Wiener Process),也稱為標準布朗運動,是一種重要的隨機過程,廣泛應用于數學、物理學和金融學等領域。它是一個連續時間的隨機過程,具有一些特殊的性質,使其成為描述隨機動態系統的經典…

GAT1399協議分析(8)--批量圖像查詢

一、請求消息定義 視頻圖像包含視頻片段、 圖像、 文件、 人員、 人臉、 機動車、 非機動車、 物品、 場景和視頻案事件、 視頻圖像標簽等對象 在消息體中,可以包含其中一種類,加上Data字段即可。 ImageInfo對象 二、請求消息實例 wireshark 抓包實例 請求: 文本化: /V…

制造執行MES系統在光伏行業的應用

全球對可再生能源的需求不斷增長,光伏能源作為一種清潔、可持續的能源形式,已經在廣泛應用中受到了廣泛關注。為滿足工業領域的光伏能源需求,光伏制造執行系統(MES)作為一種集成化的技術解決方案,提供了更高效、更可靠的解決方案。…

WPS的JSA算國產編程語言,IDE,腳本工具嗎?javascript代替VBA

現在wps用javascript代替VBA,應該算很成功了吧。 如果可以獨立出來變成一個腳本語言,簡單的IDE(本身也有類似VBA,不要寄宿在WPS里面運行,這樣就可以變成VBS一樣執行腳本了,用來開發按鍵精靈,LUA一樣的腳本很不錯 以下…

Activity->Activity中動態添加Fragment->Fragment回退棧BackStack

Fragment回退棧 Fragment回退棧用于管理Fragment的導航歷史(添加、刪除、替換)。每個Activity都有一個包含其所有Fragment的FragmentManager,調用其addToBackStack方法時,這個事務就會被添加到FragmentManager的回退棧中當用戶按下返回鍵時,…

MySQL報ERROR 2002 (HY000)解決

今天在連接客戶服務器時MySQL的時候報: ERROR 2002 (HY000): Can’t connect to local MySQL server through socket ‘/tmp/mysql/mysql.sock’ (2) [rootXXX ~]# mysql -uroot -p Enter password: ERROR 2002 (HY000): Can’t connect to local MySQL server through socket…

rman恢復后,少部分數據文件狀態為MISSING000**

客戶有套一體機,每天晚上21點開始做rman完全備份,大約第2天上午9點多完成備份,rman備份保留策略保留一份完全備份 6月1日晚21點自動發起備份,6月2日上午10點15分完成備份,并生成了一個控制文件備份 c-4063271871-2024…

前端圖片在切換暗黑模式時太亮該怎么辦?

通過css中的filter屬性來實現,進行圖片的色系反轉、亮度、對比度調整等 1、invert 反轉輸入圖像,值為 100% 則圖像完全反轉,值為 0% 則圖像無變化 filter: invert(1); 2、blur 給元素應用高斯模糊效果。 filter: blur(5px); 3、brightnes…

如何解決網絡問題?

組織和 IT 管理員盡其所能完善他們的網絡,但是,不同程度的網絡問題仍然可能出現,這些網絡問題需要立即響應和解決,如果這些問題在不合理的時間內得不到解決,網絡和組織的損害可能會付出高昂的代價。這就是為什么 IT 管…

【漏洞復現】銳捷校園網自助服務系統 login_judge.jsf 任意文件讀取漏洞(XVE-2024-2116)

0x01 產品簡介 銳捷校園網自助服務系統是銳捷網絡推出的一款面向學校和校園網絡管理的解決方案。該系統旨在提供便捷的網絡自助服務,使學生、教職員工和網絡管理員能夠更好地管理和利用校園網絡資源。 0x02 漏洞概述 校園網自助服務系統/selfservice/selfservice…

css移動端開發

1.視口 視口標簽 視口元標簽&#xff08;Viewport Meta Tag&#xff09;用于控制網頁在移動設備上的視口行為&#xff0c;確保頁面能夠正確縮放和調整。通常在HTML的<head>部分添加如下代碼&#xff1a; <meta name"viewport" content"widthdevice-…

《大道平淵》· 玖 —— 把高深的道理講的通俗,這是一門藝術。

《平淵》 玖 "化繁為簡, 點石成金。" 把高深的道理講得通俗&#xff0c;這是一門藝術&#xff01; 講述者能夠站在群眾的角度&#xff0c;用盡可能簡單通俗的語言來解釋復雜的概念。 講述者需要對概念有深刻的理解&#xff0c;還要有靈活的表達能力。 群眾愿意接受…

從當當網批量獲取圖書信息

爬取當當網圖書數據并保存到本地&#xff0c;使用request、lxml的etree模塊、pandas保存數據為excel到本地。 爬取網頁的url為&#xff1a; http://search.dangdang.com/?key{}&actinput&page_index{} 其中key為搜索關鍵字&#xff0c;page_index為頁碼。 爬取的數據…

15- Redis 中的 整數集合 數據結構

整數集合是 Set 對象的底層實現之一。當一個 Set 對象只包含整數值元素&#xff0c;并且元素數量不大時&#xff0c;就會使用整數集合這個數據結構作為底層實現。 1. 整數集合結構設計 整數集合本質上是一塊連續內存空間&#xff0c;它的結構定義如下&#xff1a; typedef s…