【噪聲學習】SELFIE:更新不干凈樣本的魯棒性深度學習

SELFIE: Refurbishing Unclean Samples for Robust Deep Learning

摘要:

        由于深度神經網絡具有極高的表達能力,其副作用是即使在標簽噪聲極高的情況下也能完全記住訓練數據。為了克服對噪聲標簽的過度擬合,我們提出了一種名為 SELFIE 的新型魯棒訓練方法。我們的主要想法是有選擇地翻新和利用可以高精度修正的不干凈樣本,從而逐步增加可用訓練樣本的數量。利用這一設計優勢,SELFIE 有效地防止了錯誤修正帶來的噪聲積累風險,并充分利用了訓練數據。為了驗證 SELFIE 的優越性,我們使用四個真實世界或合成數據集進行了大量實驗。結果表明,與兩種最先進的方法相比,SELFIE 顯著改善了絕對測試誤差。 

 介紹:

        隨著可用數據集規模的快速增長,深度神經網絡在圖像分類(Krizhevsky 等人,2012 年)和物體檢測(Redmon 等人,2016 年)等眾多機器學習任務中取得了不俗的表現。然而,由于神經網絡具有很強的適應任何噪聲標簽的能力,眾所周知,訓練數據中的一小部分錯誤標簽樣本會嚴重影響模型的性能。特別是,Zhang 等人(2017)的研究表明,標準卷積神經網絡可以以任意比例的噪聲標簽擬合整個訓練數據,并最終導致測試數據的泛化效果不佳。因此,問題的關鍵在于如何在訓練數據中存在錯誤標簽樣本的情況下仍能穩健地訓練深度神經網絡。 

        一種典型的方法是使用 "loss修正",根據估計的噪聲修正訓練樣本的loss過渡矩陣(Zhang 等人,2017;Goldberger & BenReuven,2017;Patrini 等人,2017;Chang 等人,2017)。如圖 1(a)所示,每個迷你批次中所有樣本的前向或后向損失都會被修正,隨后反向傳播以更新網絡。然而,由于噪聲轉換矩陣難以估計,網絡不可避免地會積累因錯誤校正而產生的誤差,尤其是在類數或誤標樣本數較多時(Jiang 等,2018;Han 等,2018)。

 

        為了擺脫錯誤修正,最近的許多研究都采用了 "樣本選擇",即從訓練數據中過濾出真實標簽樣本(Kumar 等,2010;Jiang 等,2018;Han 等,2018)。他們根據前向損失從迷你批次中識別出干凈樣本,并用它們來更新網絡,如圖 1(b) 所示。在實踐中,Han 等人(2018 年)的研究表明,在極高噪聲數據上,對干凈樣本進行訓練比校正整個樣本的性能要好得多。然而,專注于選定的干凈樣本會偏向于容易樣本,從而忽略大量有用的硬樣本,而這些樣本會使網絡更加準確和魯棒(Shrivastava 等人,2016 年;Chang 等人,2017 年;Lin 等人,2018 年)。因此,為了在有噪聲的標簽上進行更穩健的訓練,我們建議翻新不干凈的樣本?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/12553.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/12553.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/12553.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

俄羅斯方塊【python,小游戲】

俄羅斯方塊(Tetris)是一款經典的俄羅斯益智游戲,游戲的核心玩法是通過移動、旋轉和放置不同形狀的方塊,使它們在游戲界面的底部形成完整的水平線。一旦水平線填滿,就會被清除,為新的方塊騰出空間。 在 Pyt…

Python GUI開發- PyQt5 開發小工具環境入門

前言 常見的python開發gui的庫有 Tkinter, PyQt5, wxPython等。本教程是選擇PyQt5 開發桌面小工具。 環境準備 只需pip安裝即可快速準備好開發環境 pip install pyqt5快速開始 創建一個空的window窗口 Qapplication():每個GUI都必須包含…

【Linux】:文本編輯與輸出命令 輕松上手nano、echo和cat

🎥 嶼小夏 : 個人主頁 🔥個人專欄 : Linux深造日志 🌄 莫道桑榆晚,為霞尚滿天! 文章目錄 📑前言一、nano1.1 打開文件:1.2 常用快捷鍵:1.3 其他功能&#xff…

讀人工智能時代與人類未來筆記03_演變

1. 演變 1.1. 每個社會都找到了屬于自己的一套適應世界的方法 1.1.1. 適應的核心,是有關人類心智與現實之間關系的概念 1.1.2. 人類認識周圍環境的能力 1.1.2.1. 這種能力通過知識獲得,同時也受到知識…

【渲染數學-01】如何模擬靜態流(上)

文章目錄 一、說明二、摘要三、簡介四、穩定的納維-斯托克斯4.1 基本方程4.2 解決方法 一、說明 關于流體物質的仿真和模擬,需要流體理論方面的一般知識。我們這里從基本流體方程入手,詳細解釋如何實現流體仿真的每一個具體步驟。 二、摘要 構建類似流體…

C# 實現郵件推送功能

🏆作者:科技、互聯網行業優質創作者 🏆專注領域:.Net技術、軟件架構、人工智能、數字化轉型、DeveloperSharp、微服務、工業互聯網、智能制造 🏆歡迎關注我(Net數字智慧化基地),里面…

詳解pytorch中循環神經網絡(RNN、LSTM、GRU)的維度

詳解pytorch中循環神經網絡(RNN、LSTM、GRU)的維度 RNNtorch.nn.rnn詳解RNN輸入輸出維度 LSTMtorch.nn.LSTM詳解LSTM輸入輸出維度 GRUtorch.nn.GRU詳解GRU輸入輸出維度 三種RNN的示例 首先如果你對RNN、LSTM、GRU不太熟悉,可點擊查看。 RNN …

python數據可視化:層次聚類熱圖clustermap()

【小白從小學Python、C、Java】 【考研初試復試畢業設計】 【Python基礎AI數據分析】 python數據可視化: 層次聚類熱圖 clustermap() [太陽]選擇題 請問關于以下代碼表述錯誤的選項是? import seaborn as sns import matplotlib.pyplot as plt import n…

代碼隨想錄—— 填充每個節點的下一個右側節點指針(Leetcode116)

題目鏈接 層序遍歷 /* // Definition for a Node. class Node {public int val;public Node left;public Node right;public Node next;public Node() {}public Node(int _val) {val _val;}public Node(int _val, Node _left, Node _right, Node _next) {val _val;left _…

開源的全自動生成視頻文案、視頻素材、視頻字幕、視頻背景音樂的AI項目

網址 https://github.com/harry0703/MoneyPrinterTurbo 只需提供一個視頻 主題 或 關鍵詞 ,就可以全自動生成視頻文案、視頻素材、視頻字幕、視頻背景音樂,然后合成一個高清的短視頻。 如果用來做視頻,可以先收藏一下,值得本地…

51 單片機[2-1]:點亮一個LED

一、在 Keil5 中新建項目 打開 Keil5 ,點擊 Project —— new μVision Project 新建文件夾 KeilProject ,以后的項目都在這個文件夾下,再建一個文件夾 2-1 點亮一個LED。在該文件夾下創建名為 Project 的文件,并保存。推薦起這…

Python快速入門3:面向對象OOP(需要有編程基礎)

面向對象是什么: 面向對象編程(Object-Oriented Programming,OOP)是一種編程范式,它以對象為基礎,將數據和操作封裝在一起以創建可重用的代碼模塊。在面向對象編程中,對象是程序的基本單元&…

mysql實戰題目練習

1、創建和管理數據庫 創建一個名為school的數據庫。 列出所有的數據庫,并確認school數據庫已經創建。 如果school數據庫已經存在,刪除它并重新創建。 mysql> create database school; Query OK, 1 row affected (0.01 sec)mysql> mysql> sh…

Spring Boot:異常處理

Spring Boot 前言使用自定義錯誤頁面處理異常使用 ExceptionHandler 注解處理異常使用 ControllerAdvice 注解處理異常使用配置類處理異常使用自定義類處理異常 前言 在 Spring Boot 中,異常處理是一個重要的部分,可以允許開發者優雅地處理應用程序中可…

復利效應(應用于成長)

應用 每個人在智力、知識、經驗上,復利效應都一樣,只要能積累的東西,基本上最終都會產生復利效應。 再來看一下復利公式:FP*(1i)^n P本金;i利率;n持有期限。在使用時,一定要注意4個限定條件&a…

AI圖書推薦:ChatGPT等生成式AI在高等教育中的應用

自2022年11月以來,ChatGPT及其在高等教育各個層面的影響已成為所有教育對話的核心內容。Chan和Colloton所著的書籍是首批全面探討ChatGPT與生成式人工智能(GenAI)在高等教育中應用及影響的作品之一。 該書深入研究了針對專業環境定制的AI素養…

js中Array的2個容易被遺忘的函數some和array

Array.prototype.some() 和 Array.prototype.every() 是 JavaScript 中的兩個容易被遺忘的數組方法。它們都用于檢查數組中的元素是否滿足某個條件。 1. Array.prototype.some() some() 方法用于檢查數組中至少有一個元素滿足給定的條件。當找到滿足條件的元素時,…

基礎學習-Git(分布式版本控制系統)

學習視頻推薦 http://【黑馬程序員Git全套教程,完整的git項目管理工具教程,一套精通git】 https://www.bilibili.com/video/BV1MU4y1Y7h5/?p5&share_sourcecopy_web&vd_source2b85bd9be9213709642d908906c3d863 1、Git環境配置 安裝Git Git下…

wireshark_概念

ARP (Address Resolution Protocol)協議,即地址解析協議。該協議的功能就是將IP地址解析成MAC地址。 混雜模式 抓取經過網卡的所有數據包,包括發往本網卡和非發往本網卡的。 非混雜模式 只抓取目標地址是本網卡的數據包,對于發往…

《控制系統實驗與綜合設計》綜合四至六(含程序和題目)

1.電機模型辨識實驗 1.1 實驗目的 (1)掌握一階系統階躍響應的特點,通過實驗加深對直流電解模型的理解; (2)掌握系統建模過程中參數的整定,體會參數變化對系統的影響; &#xff0…