深度學習分類類別不平衡_「圖像分類」 關于圖像分類中類別不平衡那些事

作者&編輯 | 郭冰洋

1 簡介

小伙伴們在利用公共數據集動手搭建圖像分類模型時,有沒有注意到這樣一個問題呢——每個數據集不同類別的樣本數目幾乎都是一樣的。這是因為不同類別的樣例數目差異較小,對分類器的性能影響不大,可以在避免其他因素的影響下,充分反映分類模型的性能。反之,如果類別間的樣例數目相差過大,會對學習過程造成一定的影響,從而導致分類模型的性能變差。這就是本篇文章將要討論的類別不平衡問題(Class Imbalance)。

類別不平衡是指分類任務中不同類別的訓練樣本數目相差較大的情況,通常是由于樣本較難采集或樣本示例較少而引起的,經常出現在疾病類別診斷、欺詐類型判別等任務中。

盡管在傳統機器學習領域內,有關類別不平衡的問題已經得到了詳盡的研究,但在深度學習領域內,其相關探索隨著深度學習的發展,經歷了一個先抑后揚的過程。

在反向傳播算法誕生初期,有關深度學習的研究尚未成熟,但仍有相關科研人員研究過類別樣例的數目對梯度傳播的影響,并得出樣例數目較多的類別在反向傳播時對權重占主導地位。這一現象會使網絡訓練初期,快速的降低數目較多類別的錯誤率,但隨著訓練的迭代次數增加,數目較少類的錯誤率會隨之上升[1]。

隨后的十余年里,由于深度學習受到計算資源的限制、數據集采集的難度較大等影響,相關研究并沒有得到進一步的探索,直到近年來才大放異,而深度學習領域內的類別不平衡問題,也得到了更加深入的研究。

本篇文章將對目前涉及到的相關解決方案進行匯總,共分為數據層面、算法層面、數據和算法混合層面三個方面,僅列舉具有代表性的方案闡述,以供讀者參考。

2 方法匯總

1、基于數據層面的方法

基于數據層面的方法主要對參與訓練的數據集進行相應的處理,以減少類別不平衡帶來的影響。

Hensman等[2]提出了

提升樣本(over sampling)的方法,即對于類別數目較少的類別,從中隨機選擇一些圖片進行復制并添加至該類別包含的圖像內,直到這個類別的圖片數目和最大數目類的個數相等為止。通過實驗發現,這一方法對最終的分類結果有了非常大的提升。

Lee等[3]提出了一種

兩階段(two-phase)訓練法。首先根據數據集分布情況設置一個閾值N,通常為最少類別所包含樣例個數。隨后對樣例個數大于閾值的類別進行隨機抽取,直到達到閾值。此時根據閾值抽取的數據集作為第一階段的訓練樣本進行訓練,并保存模型參數。最后采用第一階段的模型作為預訓練數據,再在整個數據集上進行訓練,對最終的分類結果有了一定的提升.

Pouyanfar等[4]則提出了一種

動態采樣(dynamic sampling)的方法。該方法借鑒了提升樣本的思想,將根據訓練結果對數據集進行動態調整,對結果較好的類別進行隨機刪除樣本操作,對結果較差的類別進行隨機復制操作,以保證分類模型每次學習都能學到相關的信息。

2、基于算法層面的方法

基于算法層面的方法主要對現有的深度學習算法進行改進,通過修改損失函數或學習方式的方法來消除類別不平衡帶來的影響。

Wang等[5]提出

mean squared false error (MSFE) loss。這一新的損失函數是在mean false error (MFE) loss的基礎上進行改進,具體公式如下圖所示:

MSFE loss能夠很好地平衡正反例之間的關系,從而實現更好的優化結果。

Buda等[6]提出

輸出閾值(output thresholding)的方法,通過調整網絡結果的輸出閾值來改善類別不平衡的問題。模型設計者根據數據集的構成和輸出的概率值,人工設計一個合理的閾值,以降低樣本數目較少的類別的輸出要求,使得其預測結果更加合理。

3、基于數據和算法的混合方法

上述兩類層面的方法均能取得較好的改善結果,如果將兩種思想加以結合,能否有進一步的提升呢?

Huang等[7]提出

Large Margin Local Embedding (LMLE)的方法,采用五倍抽樣法(quintuplet sampling )和tripleheader hinge loss函數,可以更好地提取樣本特征,隨后將特征送入改進的K-NN分類模型,能夠實現更好的聚類效果。除此之外,Dong等[8]則融合了難例挖掘和類別修正損失函數的思想,同樣是在數據和損失函數進行改進。

由于篇幅和時間有限,本文只列取了每個類別的典型解決方案。同時也搜集了關于解決類別不平衡問題的相關綜述文獻,截圖如下:

具體名稱可以借鑒參考文獻[9]。

3 參考文獻

[1] Anand R, Mehrotra KG, Mohan CK, Ranka S. An improved algorithm for neural network classification of imbalanced training sets. IEEE Trans Neural Netw. 1993;4(6):962–9.

[2] Hensman P, Masko D. The impact of imbalanced training data for convolutional neural networks. 2015.

[3] Lee H, Park M, Kim J. Plankton classification on imbalanced large scale database via convolutional neural networks with transfer learning. In: 2016 IEEE international conference on image processing (ICIP). 2016. p. 3713–7.

[4] Pouyanfar S, Tao Y, Mohan A, Tian H, Kaseb AS, Gauen K, Dailey R, Aghajanzadeh S, Lu Y, Chen S, Shyu M. Dynamic sampling in convolutional neural networks for imbalanced data classification. In: 2018 IEEE conference on multimedia information processing and retrieval (MIPR). 2018. p. 112–7.

[5] Wang S, Liu W, Wu J, Cao L, Meng Q, Kennedy PJ. Training deep neural networks on imbalanced data sets. In: 2016 international joint conference on neural networks (IJCNN). 2016. p. 4368–74.

[6] Buda M, Maki A, Mazurowski MA. A systematic study of the class imbalance problem in convolutional neural

networks. Neural Netw. 2018;106:249–59.

[7] Huang C, Li Y, Loy CC, Tang X. Learning deep representation for imbalanced classification. In: 2016 IEEE conference on computer vision and pattern recognition (CVPR). 2016. p. 5375–84.

[8] Dong Q, Gong S, Zhu X. Imbalanced deep learning by minority class incremental rectification. In: IEEE transactions on pattern analysis and machine intelligence. 2018. p. 1–1

[9] Justin M. Johnson and Taghi M. Khoshgoftaar.Survey on deep learning with class imbalance.Johnson and Khoshgoftaar J Big Data.(2019) 6:27

總結

以上就是關于類別不平衡問題的相關解決方案,詳細內容可以閱讀參考文獻綜述9,相信通過更加詳細的文章閱讀,你會收獲更多的經驗!

https://www.toutiao.com/a6727841366342107655/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/534511.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/534511.shtml
英文地址,請注明出處:http://en.pswp.cn/news/534511.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

vue設置多選框默認勾選_Vue實現全選和反選即Vue復選框增加全選功能

導語:Vue中單選下拉框開發起來非常簡單,直接select包裹一個帶v-for的option即可但是當我們想做個帶多選的下拉框該怎么辦呢?最簡方法是什么?比如下面這個圖:如果網上搜的話,搜的是一堆帶children的 ,那種是遍歷tree的思想,和多選下拉框不是一回事,而且寫起來復雜看不懂源碼再…

pyqt5 下拉 多頁 點擊_PyQt5實戰——自定義翻頁控件實現

分頁控件效果圖一、環境要求python解釋器:python3.7.4依賴:PyQt5、sys模塊二、思路分析1、布局:”上一頁“、”下一頁“等button、edit及label控件采用水平布局,使用該布局填充主控件QWidget2、類繼承關系:主界面繼承自…

三種平攤分析的方法分別為_干貨|電工必須學會的三極管電路分析方法

三極管有靜態和動態兩種工作狀態。未加信號時三極管的直流工作狀態稱為靜態,此時各極電流稱為靜態電流,給三極管加入交流信號之后的工作電流稱為動態工作電流,這時三極管是交流工作狀態,即動態。一個完整的三極管電路分析有四步&a…

休眠后gpio狀態_淺談Digi XBee模塊的休眠模式

淺談Digi XBee模塊的休眠模式2020-3-25Digi XBee S2C模塊,如果僅連接電源線可以測得,在待機情況下,大約是10.5mA左右的電流,在休眠時的功耗可以低到0.5uA。可以知道,休眠幾乎不耗電。在Spec上標的待機功耗會比實測只接…

xodo上的筆記不見了_一起來“終極筆記名場面批發市場”進貨嗎

俗話說得好,誰都逃不過“真香定律”,三天不見小筆記,想他。不對,不應該叫小筆記,應該叫粉絲起的名字——“【瓶邪黑花】《終極筆記》(原著風/連載)”下面請接受來自粉絲的瘋狂打call~自上周《終極筆記》播出&#xff0…

python3學習筆記 雨痕_Python 3 學習筆記:數字和布爾

數字基本類型整數在 Python 編程中,整數就是數學意義上的整數,包括正整數、負整數和零,且它的位數是任意的。根據表示方法的不同,可以分為:二進制整數八進制整數十進制整數十六進制整數浮點數浮點數,即數學…

不越獄換壁紙_那些不舍得換的手機插畫壁紙,你還差幾張?

酷愛收藏美作的微課菌可以大展拳腳了!分享3位自己收藏的畫師作品,絕對每一張都讓你舍不得換,手機可以扔,壁紙得先拷貝存起來!開始吧!!多圖預警!NO.1:Atey Ghailan&#x…

程序員績效總結_年終總結怎么寫?

每年這時候,都有必要寫一下一年的個人工作總結。年終總結或工作總結是個挺重要的事。寫好的話,有助于說明自己的工作績效,績效好可以多拿年終獎,還有機會爭取晉升。另外,一年下來的個人生活也需要總結,這一…

線程停止繼續_線程不是你想中斷就能中斷

這是我2021年的第2篇原創文章,原汁原味的技術之路盡在Jerrycodes為什么不強制停止如何用 interrupt 停止線程sleep 期間能否感受到中斷停止線程的方式有幾種總結啟動線程需要調用 Thread 類的 start() 方法,并在 run() 方法中定義需要執行的任務。啟動一…

倒序查10條數據_10 | 怎么給字符串字段加索引?

現在,幾乎所有的系統都支持郵箱登錄,如何在郵箱這樣的字段上建立合理的索引,是我們今天要討論的問題。假設,你現在維護一個支持郵箱登錄的系統,用戶表是這么定義的:mysql> create table SUser( ID bigin…

保留小數點后三位_【Meta分析】Stata制作森林圖時,如何保留三位小數?

系統評價/Meta分析指全面收集所有相關研究并逐個進行嚴格評價和分析,再用定性或定量合成的方法對資料進行處理得出綜合結論的研究方法。在指導學員的過程中發現初學者在學習過程中常常會碰到許多共性問題,本公眾號特此開設專欄解答,希望能夠和…

android自動計步_Android計步模塊實例代碼(類似微信運動)

最近在項目中研究計步模塊,每天0點開始記錄當天的步數,類似微信運動。碰到了不少坑今天有時間整理出來給大家看看。做之前在google、baidu、github上搜了個遍沒找到好的,大多數都是需要在后臺存活,需要后臺Service。對于現在的各大…

python井字棋ai_實現AI下井字棋的alpha-beta剪枝算法(python實現)

代碼參考自中國大學mooc上人工智能與信息社會陳斌老師的算法,我在原來的基礎上增加了玩家輸入的異常捕獲 AlphaBeta剪枝算法是對Minimax方法的優化,能夠極大提高搜索樹的效率,如果對這個算法感興趣的可以去參考相關資料。 當正確理解AlphaBet…

Redis小計(2)

目錄 1.exists命令 2.del命令 3.expire/pexpire命令 4.ttl命令 5.redis對于key過期的刪除策略 1.exists命令 exists X1 X2 X3 X4:返回四個key存在的個數。 2.del命令 del X1 X2:刪除key。 3.expire/pexpire命令 給key設置超時時間。 expire key…

unity 彩帶粒子_iOS動畫開發----粒子系統---彩帶效果

參考博文地址:http://my.oschina.net/u/2340880/blog/485095?fromerrbgjLq4Mw一、粒子發射器iOS中的粒子效果有兩部分組成,一部分為發射器,設置例子發射的宏觀屬性,另一部分是粒子單元,用于設置相應的粒子屬性。粒子發射器是基于…

一秒執行一次_《一秒鐘》:一貫的粗曠式抓大放小,張藝謀的自命題作業總是要觀眾自己再做一遍...

還有不變的永遠在奔跑的大棉褲花棉襖的圓臉妮子,這是導演張藝謀最新作品《一秒鐘》的最直接觀感。張藝謀是個善于從普世情懷處挖掘題材的導演。之前諸多現實題材類型作品,諸如講父子和解的《千里走單騎》、夫妻愛情的《歸來》以及《我的父親母親》&#…

latex 作者加小標_Latex 寫期刊論文的小技巧

在不同文字處理系統(如 MiKTeX, TeX Live, CTeX, cwTex) 或 不同整合開發環境 ( 如Texstudio, WinEdt, TeXstudio, TeXmaker) 中,我用了 Miktex Texstudio 的常用組合 (win10環境中)。1: 先MiKTeX,后Texstudio ;2: 安裝包(packages);3&#…

unity 畸變_unity3d 幾種鏡頭畸變

1.Fisheye distortion 魚眼鏡頭解釋來自百度百科:魚眼鏡頭是一種焦距為16mm或更短的并且視角接近或等于180。 它是一種極端的廣角鏡頭,“魚眼鏡頭”是它的俗稱。為使鏡頭達到最大的攝影視角,這種攝影鏡頭的前鏡片直徑很短且呈拋物狀向鏡頭前…

restfull加簽_SpringBoot RestFull API簽名

一、需求如下對指定的API路徑進行簽名認證,對于沒有指定的無需認證,認證具體到方法。二、查閱資料與開發1.了解JWT,實際上用的開源jjwt2.編寫自定義注解3.編寫攔截器,主要是攔截特定的url進行簽名驗證,這里解析請求的h…

mysql 5.5.18下載_MySQL5.7.18下載和安裝過程圖文詳解

MySql下載1、打開官網找到下載路口,這里直接給出下載的地址2、選擇64位版本3、直接下載MySql5.7.18.1安裝過程1 、運行安裝軟件,接受協議2、選擇默認安裝3、下一步到檢查環境界面,點擊“Execute”執行檢查 (可以后面單獨下載插件安裝)&…