A Survey on Open-Set Image Recognition
Abstract
- 開集圖像識別(Open-set image recognition,OSR)旨在對測試集中已知類別的樣本進行分類,并識別未知類別的樣本,在許多實際應用中支持魯棒的分類器,如自動駕駛、醫療診斷、安全監控等。近年來,開集識別方法得到了越來越多的關注,因為通常很難獲得關于開放世界的整體信息用于模型訓練。鑒于近兩三年來OSR方法的快速發展,本文旨在總結其最新進展。具體來說,我們首先介紹了一個新的分類,在此分類下,我們全面回顧了現有的基于DNN的OSR方法。然后,在標準數據集和交叉數據集下,比較了一些典型的和最新的OSR方法在粗粒度數據集和細粒度數據集上的性能,并給出了比較分析。最后,我們討論了這個社區中一些開放的問題和可能的未來方向。
- 論文地址:[2312.15571] A Survey on Open-Set Image Recognition
- OSR 的核心任務是在測試時同時完成已知類樣本的分類和未知類樣本的識別。與封閉集識別不同,OSR 假設測試集中存在訓練時未接觸過的新類別,要求模型具備 “拒絕未知” 的能力。例如,在自動駕駛場景中,模型不僅需識別已知的車輛、行人等類別,還需對未訓練過的新型障礙物發出警告。
- 核心挑戰:語義偏移(Semantic Shift),訓練集僅包含已知類樣本,而測試集包含已知類與未知類,導致模型因深度神經網絡(DNN)的 “數據驅動” 特性,將未知類誤判為已知類。具體表現為決策邊界偏差:DNN 在封閉集訓練時傾向于壓縮已知類特征空間,擠占未知類空間。高置信度誤判:Softmax 層強制將未知類樣本映射到已知類,產生錯誤高置信度預測。
- OSR 方法體系與關鍵技術
-
歸納式方法(Inductive Methods),無需測試集參與訓練,是 OSR 的主流方案,分為三類:
- 判別模型(Discriminative Models),距離 - based 方法:通過約束特征距離(如 L2 距離、余弦距離)區分已知 / 未知類。例如,PMAL 算法通過原型挖掘策略為每個已知類生成多樣原型,增強類內緊湊性和類間區分度。分數校準方法:改進 Softmax 分數或引入輔助分數(如 EVT-based 分數),通過閾值拒絕未知類。OpenMax 首次將極值理論(EVT)用于建模特征距離的 Weibull 分布,設定拒絕閾值。重建方法:利用自編碼器(AE)的重建誤差區分樣本,已知類重建誤差通常低于未知類。C2AE 通過類條件自編碼器,結合重建誤差與分類分數識別未知類。
- 生成模型(Generative Models),GAN-based 方法:通過生成未知類樣本或特征,填充開放空間。OpenGAN 結合生成對抗網絡與異常暴露(Outlier Exposure),生成接近真實分布的未知類特征,優化決策邊界。AE-based 方法:顯式建模已知類分布,如 MoEP-AE 使用指數冪分布混合模型,更靈活地表示復雜特征分布。
- 因果模型(Causal Models),通過引入因果關系解耦特征中的混淆因素。例如,iCausalOSR 利用可逆因果模型,將特征分解為因果表示和非因果噪聲,提升未知類識別魯棒性。
-
轉導式方法(Transductive Methods),利用測試集未標注樣本輔助訓練,緩解分布偏移。例如,IT-OSR-TransP 通過雙空間一致采樣策略篩選可靠測試樣本,并結合條件生成網絡增強特征判別性,迭代優化模型。
-
INTRODUCTION
-
由于近年來深度學習技術的發展,閉集圖像識別任務已經取得了重大突破。然而,在許多真實場景中,通常存在一些新的對象,它們的類別不同于已知的訓練對象類別。現有的閉集識別方法不能有效地處理這種情況,因為它們不可避免地將未知類別的對象圖像預測為已知類別之一。這個問題鼓勵研究人員關注開集識別技術,該技術旨在對已知類別的圖像進行分類,并識別未知類別的圖像。閉集識別和開集識別之間的區別如圖1所示。
-
-
圖一:閉集識別與開集識別的比較(以MNIST數據集為例):閉集識別模型只需要對與訓練圖像具有相同標簽的測試圖像進行分類(例如,類“0”和“1”的圖像),而開集識別模型既需要對已知類別的圖像進行分類,測試集中的類別圖像,其標簽不屬于訓練類別(例如,類別“2”和“3”)。
-
-
分布偏移可分為兩類:(I)語義偏移,其中訓練集和測試集中的標簽不同,以及(ii)協變量偏移,其中訓練樣本和測試樣本之間的特征分布(如圖像樣式)不同。OSR任務中存在的主要挑戰是僅包含已知類樣本的訓練集和包含已知類和未知類樣本的測試集之間的語義偏移。由于DNNs(深度神經網絡)是數據驅動的模型,并且嚴重依賴于同分布假設,這種語義轉移問題將導致模型以高置信度將未知類別的測試樣本預測為已知類別之一。
-
為了解決上述問題,文獻中提出了很多 OSR 方法,特別是隨著深度學習技術的發展。必須指出的是,據作者所知,在 2021 年之前或前后,關于 OSR 任務的調查報告為數不多。然而,由于 OSR 技術適應現實場景,發展速度非常快,而且最近兩三年提出了各種基于 DNN 的新方法,因此總結該技術的最新發展情況將對該領域的研究人員有所幫助。因此,本文對現有的基于 DNN 的 OSR 方法進行了分類。然后,我們對最近的 OSR 作品進行了全面回顧,并對它們的性能進行了比較。此外,我們還討論了這一領域的一些未決問題和未來可能的發展方向。本文的主要貢獻如下:
- 我們對最新的基于 DNN 的 OSR 方法進行了分類和全面評述,提供了該領域的基本技術和最先進的處理方法。
- 為了方便讀者了解現有 OSR 方法的共同特點,我們比較分析了兩種數據集設置下典型 OSR 方法和最先進 OSR 方法在多個數據集上的模型性能。
- 我們對現有 OSR 方法中的未決問題以及處理 OSR 任務的未來研究方向提出了一些見解。
-
本文的其余部分安排如下。首先,我們在第二節中對現有的基于 DNN 的 OSR 方法提出了一個新的分類標準。然后,我們在第三節中介紹了 OSR 任務中常用的數據集和指標,以及一些基于 DNN 的代表性 OSR 方法的比較結果。接下來,我們將在第四部分介紹 OSR 的一些開放性問題和未來研究方向。最后,我們將在第五部分給出結論。
METHODOLOGIES
- 在本節中,我們首先描述用于對現有的基于DNN的OSR方法進行分類的分類法,如圖2所示。接下來,我們回顧基于分類法的基本任務中的OSR方法。這些方法大致可以分為兩類:歸納方法和直推方法,分別進行詳細介紹。最后,我們還介紹了幾個擴展任務,其中我們回顧了相應任務中的一些典型方法。
-
-
圖2:現有基于DNN的開集圖像識別方法的分類。
-
Taxonomy
- 根據最初的定義,OSR任務可以分為兩組:基本的OSR任務,其中模型只需要識別測試集中的已知和未知類別(即,對已知類別的測試樣本進行多類別分類,并將未知類別的測試樣本與已知類別的測試樣本區分開來),以及一些擴展任務,其中模型不僅需要滿足基本的OSR任務的要求,還需要處理真實場景中的各種情況。
- 根據測試樣本是否用于模型訓練,現有的基于DNN的處理基本OSR任務的方法通常可以分為兩組:歸納方法和直推方法,如圖2所示。這兩組方法將在下面的小節中討論。
Inductive Methods
-
歸納方法認為測試數據在訓練階段是不可用的。大多數現有的OSR方法是歸納方法,根據其主要使用的模型的不同,可以進一步分為三類:1)直接學習決策規則的判別模型,2)學習訓練數據分布的生成模型,以及3)將因果關系引入由DNNs懶惰學習的統計模型的因果模型。
- 1)鑒別模型:鑒別OSR模型直接學習鑒別特征表示或分類器,用于識別已知類別樣本和未知類別樣本。根據是否在訓練過程中引入未知類別信息,判別模型可以進一步分為兩組:(I)一組模型,旨在僅根據已知類別訓練樣本來學習已知類別判別表示,以及(ii)另一組模型,旨在引入未知類別信息以減少訓練類別和測試類別之間的差異
-
(i) 至于第一類學習已知類別判別表征的方法,現有的基于 DNN 的 OSR 方法大致可分為四類:基于分數的方法 、基于距離的方法、基于重構的方法,以及其他方法。
-
基于分數的方法。在 OSR 任務中,與傳統方法相比,DNN 更容易受到未知類別樣本的影響,這是因為 softmax 層的封閉集假設,該層通常用于獲取分類概率作為指示分數。從 softmax 層輸出的屬于所有已知類別的每個樣本的分數總和為 1,傳統分類方法將出現最大分數的指數作為預測標簽,因此不會考慮被排除在已知類別之外的未知類別。
-
為了解決這個問題,Bendale 和 Boult 將極值理論(EVT)引入到網絡倒數第二層輸出的訓練樣本的激活向量與每個已知類別的平均激活向量之間的距離分布建模中。具體來說,首先計算每個已知類別的上述距離,然后選擇最大值的部分距離擬合威布爾分布,作為相應已知類別的極值分布。在測試階段,根據激活向量與每個已知類別的平均激活向量之間的距離,計算測試樣本屬于每個已知類別的概率,并將其歸入相應類別的極值分布模型中,從而得到已知類別得分。此外,他們還根據已知類得分的加權組合和修正后的權重計算未知類得分。最后,如果測試樣本的最大得分出現在已知類得分處,且大于閾值,則被確定為已知類之一;否則,將被歸類為未知類。Weibull 分布常用來模擬極值分布,這種方法為后來的 OSR 方法擬合已知類特征分布并使用閾值區分未知類樣本和已知類樣本鋪平了道路。
-
然而,由于計算復雜,許多 OSR 方法逐漸放棄了基于 EVT 的分數,而結合比較閾值的簡單 softmax 分數仍被廣泛使用。最近,Dai 等人發現,在 OSR 任務中,原始 logit 向量比軟最大層額外計算的概率分數表現更好,因為輸入 logit 向量的翻譯不變性削弱了分數捕捉細粒度信息的能力。隨后,Vaze 等人也強調了基于 logit 的分數在提高模型性能方面的有效性。
-
基于 EVT 的分數也可以看作是基于距離的分數之一,因為分數是根據特定實例特征與特定類別原型之間的距離計算的。這種基于距離的分數可用于識別不同的類別,因為模型經過訓練后會縮小類內距離,擴大類間距離,這將在下文中詳細介紹。
-
-
基于距離的方法。與傳統封閉集分類方法的發展過程類似,從分類損失函數的研究中延伸出了一個研究分支,即研究基于距離的損失函數,對特征施加約束,以學習更緊湊、更具區分度的特征。這一研究分支對于 OSR 來說是合理的,因為造成未知類樣本識別困難的主要原因之一是已知類特征過度占據了本應留給未知類特征的空間,造成已知類特征和未知類特征之間的混淆。
-
基于距離的損失函數受到 Fisher’s criterion 的啟發,其目的是最小化類內差異,最大化類間差異。這種約束特征表征的思想現已形成一個研究方向,即表征學習。Hassen 和 Chan 應用了一種簡單的表示學習方法來處理 OSR 任務。他們將 logit 向量作為輸入圖像在不同空間(即 logit 空間)的特征表示,并通過每批訓練更新每個已知類別的平均向量。然后,結合交叉熵分類損失(傳統封閉集分類任務中常用的損失)和成對損失項來訓練網絡,成對損失項用于限制每個訓練樣本與相應的特定類別均值向量之間的 L2 距離(即歐氏距離)變小,成對損失項用于限制不同特定類別均值向量之間的歐氏距離變大。Jia 和 Chan將損失擴展為表征損失,提取網絡倒數第二層輸出的激活向量,形成表征矩陣,用于在訓練階段強調幅度最大的特征和幅度最小的特征,從而學習更具區分性的特征表征。
-
然而,固定的原型在約束特征鑒別方面的作用有限。因此,Xia等人提出了一個約束損失項,用于控制這些特征原型的空間位置,使其更具鑒別力。與已知類特征傾向于占據與未知類特征相同的特征空間中心部分的先前方法相比,該方法將已知類的原型限制在特征空間的邊緣區域,通過約束原型到特征空間中心距離的方差來實現,從而緩解了已知類特征與未知類特征的混淆。考慮到以前的方法中每個已知類都有一個原型表示,忽略了每個類內的特征多樣性,Lu等人在優化特征空間之前設計了一個原型挖掘策略,為每個已知類挖掘高質量和多樣性的原型。
-
對比損失作為自監督任務中通過數據增強來約束來自同一圖像或不同圖像的特征對之間距離的有效工具,近年來受到越來越多的關注。Kodama等人應用監督對比度損失來約束來自相同已知類或不同已知類的特征對,類似地,Xu等人也利用監督對比學習來提高學習的特征表示的質量。
-
此外,一些OSR方法旨在設計具有角度的特征表示或分類器,以改善類間相似性和類間差異。Park等人提出學習發散角度表示,這改善了全局方向特征變化。Cevikalp和Saglamlar 引入了準線性多面體圓錐分類器,其將已知類區域約束為 L1 或 L2球。
-
-
基于重構的方法。在OSR任務中存在一種觀點,即重構對于模型的可分辨性是有價值的,因為已知類樣本通常具有比模型從未見過的未知類樣本更小的重構誤差。遵循這一點,一些OSR方法利用重構網絡、重構樣本或重構誤差中的潛在特征來提高模型的可分辨性。
-
Yoshihashi等人 除了使用網絡預測進行分類外,還使用了重建網絡中的潛在特征表示。他們提出了一種特殊的自動編碼器,即深度分層重建網絡,用于提取每層的潛在特征。在訓練階段,通過聯合使用分類損失和重建損失來訓練網絡,其中分類損失使用基于EVT的分數。在測試階段,分類分數用于識別已知和未知類別的樣本。
-
Oza 和 Patel 將自動編碼器的整個訓練過程分為兩步。首先,他們通過傳統的交叉熵分類損失訓練編碼器和與潛在特征連接的分類器。然后,固定編碼器和分類器的權重,并通過精心設計的成對重建損失訓練解碼器。在這一步,輸入到解碼器的特征圖由兩部分控制:通過線性調制編碼特征和條件向量,從而獲得原始/重建圖像對。解碼器被訓練為最大化標簽不匹配對的重建誤差,同時最小化標簽匹配對的重建誤差。在測試階段,對測試圖像的編碼特征進行全類條件向量線性調制,得到所有已知類對應的重構誤差,并與閾值進行比較,確定預測標簽。
-
Huang et al 集成了原型學習和重構,他們提出重構特定于類的語義特征映射,而不是特定于實例的圖像,以提高模型的語義區分度。他們為潛在空間中的每個已知類建模了一個自動編碼器,該方法用于重建骨干編碼器從輸入圖像中提取的特征圖。該方法將智能重構誤差映射作為logit,通過softmax層和pooling層將其轉換為傳統的logit向量,在訓練階段,用分類損失約束logit向量進行訓練,在測試階段,利用所有類自編碼器對應的重構誤差進行辨識.
-
Perera等人發現了一種利用重建信息的新途徑,其中使用了重建圖像。他們首先訓練生成模型(例如vanilla自動編碼器,條件自動編碼器等)以獲得已知類別的重建圖像,然后通過將重建圖像作為學習分類器的新維度來擴展原始圖像。
-
-
一些方法旨在從數據增強、集體決策、多任務學習、梯度、空間變換、層次注意力中挖掘有區別的信息,甚至在視覺心理物理學的幫助下。
-
Perera 和 Patel 發現極端的幾何變換可能會導致不同的特征表示,因此,他們通過并行網絡分支傳遞與變換圖像對應的特征,并使用多數投票進行最終預測。
-
隨著網絡骨干的發展,視覺 Transformer 由于其更好的性能而得到越來越廣泛的應用。Azizmalayeri 和 Rohban 經驗觀察到,以視覺Transformer為骨干并使用softmax概率進行分類可以獲得比其他OSR方法更好的性能。此外,他們還發現,精心選擇的數據增強而不是標準的訓練增強有助于提高模型的可辨別性。
-
此外,Jang 和 Kim 提出集成多個 one-vs-rest 網絡作為特征提取器,并將多個決策組合起來用于對輸入圖像的最終決策得分進行建模。Oza和Patel 提出了一種OSR的多任務學習方法,該方法同時訓練潛在特征空間中的分類損失和自動編碼器末端的重建損失,Lee和AlRegib 利用基于梯度的特征表示進行識別,因為梯度包含關于模型需要更新多少才能正確表示已知類樣本的信息。Baghbaderani等人提出利用三個空間之間的變換(即,原始圖像空間、潛在特征空間和豐度空間),用于利用更多的判別信息。Liu等人提出了一種用于約束特征空間的定向優化策略和一種用于捕獲特征空間中的全局依賴關系的分層空間注意機制,進一步提高了特征的可區分性。Sun等人提出了一種用于學習細粒度已知類特征的分層注意力網絡,其逐漸聚合每個分層注意特征圖中的分層注意特征和上下文特征。Huang等人 OSR任務對計算機視覺算法具有挑戰性,而對人類來說很容易,這一事實受到啟發,他們將 psychophysical loss 和相應的網絡架構納入深度學習,這可以支持反應時間測量來模擬人類感知。
-
(ii)對于第二類將未知類信息引入模型訓練,現有的基于DNN的OSR方法根據未知類信息來源的不同,大致可以分為兩類:利用來自已知類樣本的未知類信息的方法,以及引入來自離群類樣本的未知類信息的方法的一個例子。
-
已知類利用。第一組OSR方法陷入瓶頸,因為僅旨在學習更具區分性的已知類特征或分類器不足以處理模型將在測試集中遇到的未知類。解決這個問題,一些方法旨在通過混合,增強,分裂等基于已知類圖像或特征利用未知類信息。
-
Mixup是一種數據增強策略,它線性混合來自兩個不同類別的圖像和相應的標簽。Vanilla mixup 通過使用線性插值在輸入空間中產生新樣本,而流形mixup 在潛在特征空間中產生新特征。Zhou等通過流形mixup產生新特征來學習未知類別的數據占位符,作為一個額外的類,與已知類樣本一起沿著用于訓練模型。通過生成未知類特征,約束已知類特征更加緊湊和具有區分力,從而緩解OSR任務的過度占用問題。此外,他們還提出學習分類器占位符,它代表了一個區分未知類樣本和已知類樣本的類特定閾值。具體來說,他們在分類器的輸出向量中為未知類提供了一個額外的維度,作為區分已知類和未知類的可學習閾值,這是通過將額外維度的值限制為所有維度中的第二大來進行的,因為可以區分目標類和非目標類的可學習閾值被認為具有區分已知類和未知類的能力。
-
此外,Wang等人提出了一種新的度量,通過關于已知類和未知類特征的成對公式化來耦合閉集和開集性能,并將該公式化轉化為最小化相應風險的優化問題。類似于,他們通過流形混合來生成未知類特征,Jiang等人通過混合它們來生成高質量的負圖像,這被證明可以降低封閉空間結構風險和開放空間風險。
-
-
除了 mixup 之外,一些方法使用基于增強的相似性學習,類內分裂或多類交互來基于已知類數據挖掘未知類信息。Esmaeilpour等人采用相似性損失來鼓勵模型學習如何區分已知類別和未知類別的樣本,其中未知類別的圖像是通過分布移位數據增強生成的。具體來說,他們對模型訓練進行了兩個步驟。在第一步,通過隨機旋轉原始圖像90°的倍數來生成未知類別的圖像。在第二步中,一個分類模型進行了訓練與已知類的訓練圖像和生成的 unknownclass 圖像,并施加兩個損失:一個交叉熵損失分類已知類的圖像和二進制交叉熵損失學習集群的已知類和unknownclass圖像通過相似性監督。
-
Schlachter等人利用已知類別訓練圖像中的未知類別信息。具體來說,他們通過閉集分類器將訓練圖像分成典型子集和非典型子集。然后,非典型子集作為未知類數據,作為第(C + 1)個樣本加入訓練集,(其中C是已知類的數量)類,用于訓練(C + 1)類分類模型。這兩種方法對于構建未知類數據相對直接和簡單。為了捕獲更精確的未知類信息,一些研究者探索了基于已知類特征學習未知類特征的可學習策略。
-
Chen等人定義了用于捕獲每個已知類別的未知類別信息的 discriminative reciprocal points,包含從其他已知類別提取的圖像特征和一組可學習的特征作為未知類別特征。在訓練過程中,從一個已知類中提取的特征被推到遠離相應已知類的倒數點,從而學習到的已知類特征位于特征空間的外圍,而未知類特征則被限制在特征空間中心的有界區域內。在這種情況下,未知空間被縮小并有界,這可以防止分類網絡對未知類別的測試樣本產生高置信度。
-
離群類介紹。利用已知類中未知類信息的方法仍然受到訓練集的限制。有時,當訓練集的分布明顯偏離測試集的分布時,或者當數據量很小時,原始訓練集不足以支持模型探索有效的未知類信息。在這種情況下,一些方法試圖將離群數據引入模型訓練。
-
離群數據的使用可以追溯到對象檢測任務,其中分類網絡也由指示在提議中沒有感興趣的對象的背景類來訓練。離群類樣本的引入可以防止網絡對未知類樣本輸出過度自信的錯誤預測。Dhamija等人借鑒了這一思想,他們將NIST字母數據集中某些類別的數字圖像作為已知類別樣本,而將NIST字母的其余類別圖像作為未知類別樣本進行測試,并將CIFAR10 和MNIST 的圖像作為異常樣本。他們首先發現未知類別的特征通常比已知類別的特征具有更低的特征量和更高的軟最大熵。基于這種默認觀察,他們設計了基于熵的損失和基于量級的損失,以約束模型訓練中的已知類樣本和離群樣本,從而增加這種分離,這提高了模型對訓練中不可用的未知類樣本的魯棒性。
-
這種在模型訓練中引入離群類樣本的操作也被用于分布外(OOD)檢測任務,其中模型拒絕未知類樣本的能力更受關注。然而,在開集方法或OOD檢測方法中,已知類樣本被歸類到離群類相關損失的一個組中,這可能會影響OSR任務中的閉集分類性能。此外,這些方法在不同數據集上的不同已知類和離群類之間采用相同的間隔,限制了開集識別性能。
-
為了解決上述問題,Cho和Choo 基于線性判別分析(LDA)的原理,而不是通常使用的SoftMax分類器,選擇了多個基于距離的分類器。此外,他們設計了一種類別包含損失,鼓勵每個離群樣本遠離最近的類別超球分類器,這進一步提高了模型的可分辨性。他們從ImageNet數據集中選擇圖像作為離群類樣本。除了上面介紹的鑒別方法,生成OSR方法也采用離群點暴露來增加訓練集,這將在下面的段落中介紹。
-
2)生成模型:隨著生成模型的發展,越來越多的OSR方法注重采用生成學習技術來提高模型的可分辨性。生成OSR模型 主要從已知類樣本中學習分布,在此基礎上建立如何識別未知類樣本和分類已知類樣本的判別標準。根據使用的具體生成模型,這些方法可以進一步分為三組:基于生成對抗網絡(GAN)的方法,基于自動編碼器(AE)的方法,以及其他方法。
-
基于GAN方法。考慮到GANs能夠生成各種新樣本,一些方法利用GANs生成未知類樣本來填充關于開放空間的缺失信息。他們通過對抗性訓練來隱式地對數據分布建模,而不是通過擬合特定的參數化分布來顯式地建模。大多數基于GAN的方法僅基于已知類訓練樣本生成未知類樣本或特征,并且尋求關于未知類樣本/特征的位置的不同假設以及利用所生成的未知類樣本/特征的不同策略。
-
Ge等人假設未知類別樣本位于已知類別分布的混合分布中。他們修改了條件GAN的訓練過程,其中混合了幾個先前已知的類分布。基于生成的未知類樣本,他們通過提供關于未知類的顯式概率估計來擴展OpenMax 。
-
Neal等人假設未知類別樣本位于特征空間中任何已知類別分布之外,但同時與像素空間中的已知類別圖像相似。每個未知類別樣本是基于編碼器-解碼器從已知類別訓練圖像生成的。具體地,它們最小化輸入已知類別圖像和生成圖像之間的重構誤差,以保證像素空間中的相似性,同時最小化生成圖像被分類到相應已知類別的分類概率。然后,將生成的圖像作為一個附加類來擴充訓練集,并用于訓練(C + 1)類(其中C是已知類的數量)分類器。
-
Jo等人假設未知類特征位于已知類的相鄰特征空間中。因此,他們將GAN中的生成與邊緣去噪自動編碼器相結合,以模擬遠離每個已知類別的分布。在生成未知類別特征的情況下,他們訓練了一個C類分類模型,該模型具有附加的基于熵的正則化損失,以鼓勵模型對未知類別特征具有高不確定性,這收緊了已知類別的決策邊界。
-
Chen等人 擴展了他們以前的判別性OSR方法,基于對抗性訓練策略生成混淆樣本,以提高模型的判別力。具體而言,生成的特征被約束為欺騙鑒別器,同時它們也被約束為通過最大化分類器的輸出熵來接近倒數點。此時,生成的混淆特征位于已知類特征和倒易點之間的邊界。在特征生成之后,他們為訓練分類模型設計了三個損失,包括兩個對比損失,這兩個損失都最大化每個倒易點與其對應的已知類原型的距離,并將距離限制在可學習的范圍內,以降低經驗分類風險和限制開放空間風險,以及一個基于距離的熵損失,約束生成的混淆特征位于倒易點附近,以進一步增強已知類和未知類之間的區分。
-
將已知類特征推到特征空間的邊緣,而將未知類特征限制在特征空間的中心,夏等人生成了未知類特征,這些特征位于已知類原型附近,但在已知類原型中心的可學習距離之外。他們還引入了對抗運動屬性,使距離邊緣的對抗運動成為可能,這進一步降低了經驗風險和開放空間風險。
-
然而,上述方法通常會產生決策邊界之外的未知類樣本,這些樣本容易被區分,并且忽略了對開集識別性能更重要的“硬否定”樣本。為了解決這個問題,Moon等人從分類器的角度考慮了生成未知類別樣本的不同難度。他們訓練了一個多組卷積分類網絡和一個復制的對應物,其層由基于多級知識提取的相同預定義標準分離,以生成難度或難度級別的特征,并與GAN連接以生成不同難度級別的多個特征。當最終訓練分類器時,生成的未知類別特征被賦予統一的概率作為標簽。
-
考慮到有時離群數據集是可用的,一些判別OSR方法引入了離群樣本來模擬未知類別樣本。然而,這種模型對不同的未知類樣本表現出較差的泛化能力,因為訓練中使用的離群樣本不能完全覆蓋開放空間。為了解決這個問題,Kong和Ramanan 提出了OpenGAN,它基于原始已知類訓練樣本和引入的離群類樣本訓練了一個與C-way分類器相結合的GAN,并在GAN中采用鑒別器來區分未知類樣本和已知類樣本。模型選擇也是基于離群驗證樣本來操作的,即使離群驗證樣本是稀疏的或有偏差的,這也被發現是有效的。
-
基于 AE 的方法。如前所述,一些基于重建的區別性OSR方法基于從自動編碼器輸出的差異重建誤差來區分未知類樣本和已知類樣本。近年來,一些生成OSR方法已經利用自動編碼器來顯式地對已知類分布建模,使得如果未知類樣本不屬于被建模的已知類分布之一,則未知類樣本可以被拒絕,并且已知類樣本也可以根據它屬于哪個已知類分布來分類。
-
作為一種典型的自動編碼器,變分自動編碼器(VAE) 已經廣泛應用于許多視覺任務,它將已知類樣本建模為標準高斯分布。然而,使用VAE將所有已知類別的特征分布建模為高斯分布會破壞兩個不同已知類別之間的可區分性。孫等將VAE擴展為基于概率梯形架構的分類識別自動編碼器。具體地,編碼器將每個圖像編碼成高斯分布的兩個分布參數(即,平均值和標準偏差)。由學習分布采樣的潛在特征被強制逼近相應已知類別的高斯分布,其標準偏差是單位矩陣,均值從獨熱標簽映射。在推理階段,未知類別圖像不僅可以根據其偏差分布來檢測,還可以根據其較高的重建誤差來檢測。隨后,他們還以類似的方式將對立自動編碼器(AAE) 擴展到另一個類別區分自動編碼器。
-
受上述方法的啟發,Guo等人用膠囊網絡取代了CNN主干,其中網絡中的每個潛在神經元輸出一個矢量而不是一個標量,這樣編碼的潛在特征可以表示更多樣的信息。他們沒有像中那樣使用額外的分類器來使潛在特征具有區分性,而是利用具有余量的對比損失來迫使編碼特征位于相應的已知類別區域,并保持不同的已知類別特征彼此遠離。
-
然而,將每個已知類特征分布建模為單個高斯分布不能很好地表示類內差異。為了解決這個問題,Li和Yang 假設每個已知類特征分布遵循高斯混合分布,它可以通過不同的高斯分量來表示類內差異。他們嵌入了神經高斯混合模型進入自動編碼器,將潛在特征映射到邊緣分布,該分布被稱為雙分布,因為可以從中推導出兩個相反的概率:i)潛在特征屬于已知類的概率,ii)潛在特征屬于未知類的概率,訓練模型編碼的已知類特征或未知類特征都可以形成一個分布峰值,因此,可以根據潛在空間中的分布峰值來識別測試樣本,一旦測試樣本靠近已知類峰值,它將被潛在空間中的已知類分類器進一步分類。
-
類似地,Cao等人也將每個已知類的特征分布建模為高斯混合,但他們直接修改了高斯混合VAE ,而不是嵌入神經高斯混合模型。結合條件VAE 和原型學習,將每個已知類的特征分布約束為多個高斯分布,也可以將其視為高斯混合分布,考慮到一些復雜的特征分布不能用單高斯或高斯混合來表示,(例如,亞高斯和超高斯),Sun等人基于新的重新參數化策略將指數冪分布的混合引入網絡,其通過指數冪分布的不一致混合來對來自不同已知類別的特征分布進行建模。
-
一般來說,這組OSR方法的主要研究方向是尋求更有效的顯式表示已知類的特征分布,以及研究如何更好地利用重構誤差來提高特征的可分辨性,其中第二個動機與基于重構的判別OSR方法相一致。
-
其他。除了基于GAN和基于AE的方法之外,還存在一些OSR方法,它們采用其他生成模型(例如,基于流的模型),或者僅采用編碼器來建模特征分布,或者生成用于轉移學習的實例權重。
-
基于流的生成模型生成質量與GAN相當的圖像或特征,但由于其可逆架構,可以顯式地對訓練分布進行建模,該模型還將潛在空間中的訓練類特征分布建模為標準高斯分布,正如VAE中所做的那樣。Zhang et al 將典型的流網絡Resflow 與潛在空間中的已知類分類器相結合。Resflow用作檢測未知類的密度估計器,而潛在分類器用于保持已知類分類精度。
-
考慮到基于AE的方法中的圖像級重建將考慮所有圖像像素,其中許多像素與類別無關甚至容易引起誤導,Sun等人去除了自動編碼器中的解碼器,并使用Kullback-Leibler(KL)發散損失來約束潛在特征,使得每個已知類別的特征分布被建模為單個高斯分布。他們設計了一種多尺度互信息最大化策略,用于建立輸入圖像與其潛在特征之間的相關性,這進一步提高了特征的可區分性。
-
另一種創新的生成式OSR方法是學習用于生成新樣本的中間向量,而不是直接生成圖像或特征,這是由Fang等人提出的。受遷移學習理論和可能的近似正確理論的啟發,他們將已知類別的樣本與輔助域中的樣本對齊通過這種實例加權策略,可以利用實例權值檢測未知類樣本。
-
3)因果模型:無論是上面提到的判別式模型還是生成式模型,它們都容易陷入懶惰學習的陷阱,因為一旦模型尋找到一組可以最小化損失函數的權重參數,這種懶惰的學習必然會導致模型學習到容易學習但相對脆弱的相關關系。為了解決這個問題,針對這個問題,人們提出了一些因果模型,旨在從訓練數據中尋找因果關系,從而以兩種方式減輕非因果OSR方法學習的特征中的混淆因素:從高度耦合的相關特征中解開魯棒表示,并基于反事實生成生成更可靠的已知類樣本。
- 因果解纏。Yang提出了一種用于開放集識別的可逆因果模型,該模型由可逆編碼器(此處使用 i-RevNet )和類函數組成,前者用于將圖像編碼為特征,后者用于提供屬于每個已知類的編碼特征的分布先驗。與將特征分布建模為顯式固定分布的基于 AE 的生成式 OSR 方法不同,這里的類函數是以結構因果模型(SCM) 的形式構建的,每個結構因果模型都是一個有向無環圖。在訓練階段,編碼特征受限于匹配相應的先驗類函數。在推理階段,與大多數基于 AE 的生成式 OSR 方法的推理策略類似,根據樣本屬于這些類函數的概率對樣本進行分類/檢測。
- 反事實生成。由于生成模型對已知類特征分布具有很強的建模能力,而訓練樣本在某些情況下可能不足,因此生成式 OSR 方法成為處理 OSR 任務的主流。然而,這些方法大多直接根據單點類標簽生成樣本或特征,忽略了滲透到不同已知類中的非因果混雜因素,導致生成的樣本或特征存在偏差。為了解決這個問題,一些方法采用了 counterfactual generation來生成更可靠的樣本或特征。
-
Yue等人[73]提出了一種基于 TF-VAEGAN 的反事實生成方法來處理OSR任務,該方法由一個將圖像編碼為潛在特征的編碼器、一個根據潛在特征和所提供的單擊標簽重建/生成反事實圖像的解碼器/生成器以及一個用于區分真實圖像(真)和反事實圖像(假)的判別器組成。他們用三種損失來訓練網絡:β-VAE 損失,用于將潛在特征分布建模為各向同性高斯分布;對比損失,用于最小化(或最大化)輸入圖像與其基于匹配(或不匹配)標簽重建的圖像之間的重建誤差;以及 GAN 損失,用于鼓勵生成的圖像欺騙判別器。在推理階段,將測試圖像與其根據 C 個單次熱已知類別標簽生成的 C 個反事實圖像之間的最小距離與檢測未知類別圖像的閾值進行比較。如果距離小于閾值,測試圖像就會被預測為與最小距離相對應的已知類別。Zhou 等人在處理開放集合成孔徑雷達(SAR)圖像目標識別任務時也采用了類似的方法,結果仍然優于其他 OSR 方法。
Transductive Methods
-
轉導式方法考慮到測試樣本在訓練階段就已存在,因此在模型訓練中同時使用有標記的訓練集和無標記的測試集。正如在其他視覺任務(如零/少樣本學習和域適應)中證明的那樣,轉導式學習能有效緩解分布偏移問題,這也啟發了兩種轉導式 OSR 方法。
-
Yang等人首次提出了轉導式OSR方法。首先,他們根據基于分數的策略從測試樣本中篩選出一些類外樣本,同時用基線分類模型對這些樣本進行偽標記。然后,利用原始訓練樣本和過濾出的偽標簽測試樣本共同更新模型。
-
盡管這種直推式學習方法提高了模型的性能,但仍然存在兩個問題:(1)樣本選擇問題:如何選擇偽標簽更可靠的測試樣本;(ii)已知/未知類別不平衡問題:已知類別樣本(包含原始訓練樣本和被偽標記為已知類別的選定測試樣本)的數量通常大于未知類別樣本(僅包含被偽標記為未知類別的選定測試樣本)的數量。
-
為了解決這兩個問題,Sun和Dong 在他們提出的迭代轉換OSR框架中設計了一種采樣策略和生成方法。具體來說,他們設計了一種用于樣本選擇的雙空間一致性采樣策略,該策略將不可靠的測試樣本從候選樣本中移除,這些樣本在輸出空間中分配的偽標簽與其在特征空間中的大多數鄰居不一致。此外,他們設計了一個用于特征生成的條件生成網絡,在網絡中增加了一個區分已知類特征和未知類特征的附加權值,以提高生成特征的可分辨性;然后,基于他們設計的采樣和生成方法,提出了一個迭代的直推OSR框架,該框架迭代地進行樣本選擇、特征生成和模型更新。
Extension Tasks
-
除了基本的OSR任務外,我們還介紹了一些擴展任務。在現實中,OSR任務部署在復雜多變的環境中。這里,我們簡要回顧了OSR任務7個典型擴展場景中的一些代表性方法:1)只有一個已知類可用的一類分類,2)訓練數據遞增的開放世界識別,3)開集長尾識別,其中數據分布呈現長尾分布,4)開集域自適應,其中數據分布也存在,5)少樣本開集識別,其中訓練數據非常充足,6)開集對抗防御,其中輸入圖像受到對抗攻擊,以及7)具有標簽噪聲的開集識別,其中標簽是有噪聲的或不準確的。
-
1)One-Class Classification: 在常見場景下,訓練集中存在不止一個已知類,訓練模型能夠區分不同的已知類也在一定程度上提高了模型區分未知類的能力。在極端場景下,只有一個已知類可用,稱為 One-Class Classification,其中依賴于提升已知類別特征可辨別性來改進OSR性能的一些辨別性OSR方法可能失敗。
- 為了解決這個問題,一些判別方法將單類支持向量機嵌入到損失函數中,或者應用特定的數據變換來捕獲已知類的唯一幾何結構信息。然而,由于在模型訓練中無法獲得負樣本,考慮到生成式模型能夠模擬已知類數據的分布,生成式方法被廣泛應用于一類分類任務,該方法根據未知類樣本的分布與已知類樣本分布的偏差來識別未知類樣本。此外,重建誤差仍然可以用來區分未知類樣本和已知類樣本。
-
2)開放世界識別: 在常見場景中,數據集通常是靜態和固定的,OSR模型僅在一個時間從現有數據集學習。然而,現實場景中的數據通常是動態呈現的,并且可以周期性地甚至連續地獲得新的數據。每次重新訓練模型的成本都很高。在這樣的應用需求下,一系列開放世界的識別方法被提出,這些方法旨在不斷地檢測和添加遇到的新類別。
- Bendale和Boult 首先提出了開放世界識別的概念,也將最近類均值分類器擴展到了開放世界識別任務中。Cao等人提出了一種漸進式直推方法,該方法選擇未標記的新樣本,并根據聚類結果為其提供偽標記,以更新特征原型。Wu等人回答了用于預測和利用新類別樣本的圖表示和學習,其中圖網絡用于根據特征級圖推斷從新數據提取的特征的嵌入,預測網絡用于預測新特征的偽標簽。通常,聚類和直推學習是處理開放世界識別任務的兩種常用工具。最近類均值可以被認為是一種聚類策略,因為它將樣本拉向其最近的鄰居。圖形網絡也是直推式學習的常用工具。通過直推式學習,模型可以逐步利用新樣本,即使它們的標簽不可用。通過聚類,可以用相對較小的成本更新模型。
-
3)開集長尾識別:OSR模型在現實場景中會遇到的另一個問題是數據具有長尾分布,該模型會偏好樣本數量占優勢的多數類,而忽略樣本明顯不足的少數類。長尾問題是階級不平衡問題的一個極端例子。有一些簡單的策略來減輕模型對多數類的偏差,例如,數據重采樣技術(包括從多數類的下采樣和從少數類的過采樣)和損失重加權(增加/減少少數/多數類樣本的損失權重)。
- 近年來,開集長尾識別任務受到越來越多的關注,如何在開集環境下的少數類中挖掘有效信息成為該任務的關鍵問題。劉等 首先形式化定義了開集長尾識別任務,并基于動態元嵌入機制對其進行處理。元嵌入機制將多數類視覺特征與少數類視覺特征相關聯,使模型對少數類具有魯棒性,并基于記憶庫中的視覺特征動態校準特征范數,以支持網格識別。蔡等人提出了一種分布敏感損失,當約束類內距離最小化時,該損失為少數類樣本提供了更大的權重。此外,他們設計了一種基于距離的度量標準,根據特征到聚類的距離進行識別。
-
4)開集域適配:如第節所述。第一,分布移位既包括普遍存在于OSR任務中的語義移位,也包括協變量移位。在[Open set domain adaptation]中首次提出的開集域適應任務中,語義移位和協變量移位同時存在。換句話說,未知類別的樣本將存在于測試集中,此外,訓練集和測試集中的已知類別的樣本位于不同的領域(即,分別是源領域和目標領域)。大多數現有的閉集域自適應方法旨在根據源域中已標記的已知類別樣本以及目標域中未標記(或部分標記)的樣本,將整個目標域與源域對齊。然而,在開集域適應任務中,目標域中的未知類樣本將與源域中的已知類樣本不正確地對齊,這將損害已知類和未知類之間的可區分性。
- 為了解決這個問題,Busto和Gall 在將目標域中的圖像分配給源域中的一些類別時,添加了隱式離群點檢測機制,因此不屬于已知類別的圖像可以在分配中被丟棄。為了將目標域中的未知類樣本與目標域中的已知類樣本分開,Saito等人在特征提取器和(C + 1)類分類器之間采用了對抗訓練,其中訓練分類器不僅對已知類源特征進行分類,而且根據第(C + 1)類的概率區分已知類和未知類,同時訓練特征提取器來欺騙分類器。Liu等人從目標域中的已知類樣本和源域中的已知類樣本之間的差距比目標域中的未知類樣本和源域中的已知類樣本之間的差距小得多的觀察中得到啟發。他們設計了一種從粗到細的加權機制,該機制迭代地操作兩個步驟:多二進制分類器訓練步驟,該步驟測量目標圖像與每個源已知類的相似性,以及二進制分類器學習步驟,該步驟基于通過與源類的高/低相似性選擇的已知/未知類目標樣本來訓練二進制分類器。
-
5)少量開集識別:常見的OSR任務部署在大規模數據集上。然而,在一些極端現實的場景中,每個已知類別中的訓練樣本數量非常少,這樣的任務稱為fewshot開集識別任務。
- 為了完成這項任務,劉等人【Few-shot open-set recognition using meta-learning】將閉集少樣本學習模型擴展到了開集環境。他們通過基于開集距離的損失項將一些偽未知樣本添加到模型訓練中。Jeong等人根據未知類樣本與轉換原型的較大差異來識別未知類樣本。王等提出了一個基于能量的模型,其中偏離少數已知類別樣本的類別特征或像素特征的樣本被賦予更大的能量分數。
-
6)開集對抗性防御:開集對抗性防御任務結合了開集識別任務和對抗性防御任務,開集識別任務的目的是在測試過程中對已知類別進行分類并識別未知類別,對抗性防御任務的目的是使網絡能夠防御不易察覺的對抗性干擾圖像。
- 為了處理這項任務,Shao等人提出了一個開集防御網絡,它由一個帶去噪層的編碼器和一個用于學習無噪聲特征的分類器組成。此外,他們結合了一個解碼器來重建干凈的圖像,增加了一個自我監督損失,以提高特征的可辨性,以及一個干凈-敵對的相互學習機制,其中另一個分類器(處理干凈的圖像)與原始分類器(處理敵對的圖像)相互學習,以促進特征去噪。
-
7)帶有標簽噪聲的OSR:在常見的OSR場景中,該模型嚴重依賴干凈的標簽。然而,向大規模數據集提供標簽成本很高且容易出錯,并且真實數據不可避免地包含有噪聲/不正確的標簽。
- Wang等人提出了一種迭代學習框架,該框架迭代地檢測噪聲標簽,擴大干凈標簽和噪聲標簽之間的差異,并應用重新加權模塊來鼓勵模型從干凈標簽而不是噪聲標簽學習更多。Sachideva等人利用了主觀邏輯損失,這可以在閉集噪聲樣本上產生較高的損失,而在開集樣本上產生較低的損失。與上述方法不同,Wei等人從經驗上證明了開集含噪標簽甚至有助于提高模型對含噪標簽的魯棒性,并將帶有動態含噪標簽的開集樣本作為正則項引入模型訓練。
DATASETS, METRICS, AND COMPARISON
Datasets
-
本節將介紹 OSR 任務中常用的多類數據集,包括粗粒度數據集和細粒度數據集。與粗粒度數據集相比,細粒度數據集中的圖像通常具有較高的類間相似性和較低的類內相似性。因此,在處理細粒度數據集時需要進行一些詳細的處理操作。
-
為了模擬開放集場景,有些類被選為已知類,有些類被選為未知類。根據類的來源,數據部署可分為兩類:標準數據集設置(已知類和未知類來自同一數據集)和跨數據集設置(已知類和未知類來自不同數據集)。
-
粗粒度數據集: 在標準數據集設置下使用了五個數據集:
-
MNIST: 該數據集包含 7 萬張 10 級手寫數字圖像(28×28),其中包括 6 萬張訓練圖像和 1 萬張測試圖像。隨機抽取 6 個類別作為已知類別,其余 4 個類別作為未知類別。
-
SVHN:該數據集的圖像來自街景門牌號碼(SVHN)數據集,其中包含 99289 個 10 類街景門牌號碼(32×32),包括 73257 個訓練圖像和 26032 個測試圖像。同樣,選擇 6 個類別作為已知類別,其余 4 個類別作為未知類別。
-
CIFAR10:該數據集的圖像來自 CIFAR10 數據集,其中包含 60000 張 10 類自然物體圖像(32×32),包括 50000 張訓練圖像和 10000 張測試圖像。同樣,選擇 6 個類別作為已知類別,其余 4 個類別作為未知類別。
-
CIFAR+10/+50:該數據集的圖像來自 CIFAR10 和 CIFAR100 數據集。與 CIFAR10 類似,CIFAR100 包含 60000 張 100 類自然物體圖像(32×32),其中包括 50000 張訓練圖像和 10000 張測試圖像。10 個已知類固定為 CIFAR10 數據集中的 10 個類,CIFAR+10 或 CIFAR+50 從 CIFAR100 數據集中隨機抽取 10 或 50 個類作為未知類。
-
TinyImageNet 該數據集是 ImageNet 數據集的一個 200 類子集,包含 120000 張自然物體圖像(64×64),其中包括 100000 張訓練圖像、10000 張評估圖像和 10000 張測試圖像。其中 20 個類別為已知類別,其余 180 個類別為未知類別。
-
在跨數據集設置下,10-class CIFAR10 數據集作為已知類數據集, 收集的四個數據集分別作為四個未知類數據集: ImageNet-crop、ImageNet-resize、LSUN-crop 和 LSUN-resize,它們是從 200 類別 TingImageNet 和 10 類別 LSUN 中裁剪或調整大小的圖像。
-
-
細粒度數據集: 在跨數據集設置下,使用了三個語義轉換數據集,分別包含鳥類、汽車和飛機等不同子類的高分辨率圖像:
-
CUB:該數據集的圖像來自加州理工學院-加州大學伯克利分校鳥類(CUB)數據集(CUB-200-2011),其中包含 11788 張帶標簽和屬性標記的 200 類鳥類圖像,包括 5994 張訓練圖像和 5794 張測試圖像,圖像大小各異。其中隨機抽取 100 個類別作為已知類別,其余 100 個類別則根據每個未知類別與整個已知類別的屬性相似度分為三組未知類別:“易 ”組包含 32 個與已知類別區別較大的類別,“難 ”組包含 34 個與已知類別較為相似的類別,“中 ”組包含其余 34 個類別。
-
FGVC-飛機: 在該數據集中,圖像來自 FGVC-Aircraft-2013b 數據集,該數據集同樣包含 10000 張帶標簽和屬性標記的 100 級汽車圖像,其中包括 6667 張訓練圖像和 3333 張測試圖像,圖像大小各不相同。隨機選取 50 個類別作為已知類別,其余 50 個類別也被分為與 CUB 類似的三個難度組:20 個 “簡單 ”組、13 個 “困難 ”組和 17 個 “中等 ”組。
-
斯坦福汽車 該數據集的圖像來自 Stanford-Cars 數據集,其中包含 16185 張帶標簽的 196 級飛機圖像,包括 8144 張訓練圖像和 8041 張測試圖像(360×240)。前 98 個類別被選為已知類別,其余 98 個類別被選為未知類別。
-
在跨數據集設置下,將 FGVC-Aircraft 中包含上述選定的 50 個已知類別的子集作為已知類別數據集,而將 200 個類別的 CUB 和 196 個類別的 Stanford-Cars 數據集分別作為兩個未知類別數據集: 飛機-CUB、飛機-斯坦福-汽車。
-
Metrics
-
在此,我們介紹 OSR 任務中常用的評估指標。OSR 任務的目標不僅是準確接受多類已知類測試樣本并對其進行分類,而且還需要對測試樣本進行分類、同時也能正確剔除未知類別的測試樣本。根據上述目標評價模型性能,ACC 和 AUROC 是標準數據集設置下最常用的兩個指標,適用于粗粒度和細粒度圖像。此外,在跨數據集設置下,宏-F1 分數也被用于衡量多類開放集分類性能。OSCR[Reducing network agnostophobia]也被用于同時測量細粒度數據集上的閉集分類性能和開集剔除性能。四種評價指標的詳情如下:
-
ACC: Top-1 準確率(ACC)是封閉集識別任務中常用的指標。在 OSR 任務中,該指標只考慮已知類測試樣本。其計算方法是正確分類的已知類測試樣本占整個已知類測試樣本的比例。
-
AUROC:接收者操作特征曲線(ROC)下面積(AUROC)是一個與閾值無關的指標。在 OSR 任務中,該指標將所有已知類別視為一類,而將所有未知類別視為另一類,并測量不同閾值設置下的二元分類性能。AUROC 顯示了模型能在多大程度上對兩個類別進行分類。ROC 曲線以假陽性率 (FPR) 為橫坐標,真陽性率 (TPR) 為縱坐標。TPR 和 FPR 的計算公式分別為
-
T P R = T P T P + F N F P R = F P F P + T N TPR=\frac{TP}{TP+FN}\\ FPR=\frac{FP}{FP+TN} TPR=TP+FNTP?FPR=FP+TNFP?
-
其中,TP 和 FN 表示已知類別測試樣本中被正確接受為已知類別和被錯誤剔除為未知類別的樣本數,FP 和 TN 表示未知類別測試樣本中被錯誤接受為已知類別和被正確剔除為未知類別的樣本數。
-
宏-F1: 宏-F1 分數是一個取決于閾值的指標,用于衡量多類分類性能。在 OSR 任務中,該指標將所有未知類別視為 C 個已知類別的附加類別,即第 (C + 1)- 個類別。它是根據平均精確度 Pmacro 和平均召回率 Rmacro 計算得出的,這兩個指標的計算公式分別為
-
P m a c r o = 1 C + 1 ∑ i = 1 C + 1 T P i T P i + F P i ( 3 ) R m a c r o = 1 C + 1 ∑ i = 1 C + 1 T P i T P i + F N i ( 3 ) P_{macro} =\frac 1 {C + 1}\sum ^{C+1}_{i=1}\frac {TP_i} {TP_i + FP_i} (3)\\ R_{macro} =\frac 1 {C + 1}\sum ^{C+1}_{i=1}\frac {TP_i} {TP_i + FN_i} (3) Pmacro?=C+11?i=1∑C+1?TPi?+FPi?TPi??(3)Rmacro?=C+11?i=1∑C+1?TPi?+FNi?TPi??(3)
-
其中 TPi , TNi , FPi , 和 FNi 分別表示第 i 個類別(i∈ {1, 2, …, C + 1})的真陽性、真陰性、假陽性和假陰性。因此,宏 F1 分數的計算公式為
-
F 1 _ m a c r o = 2 × P m a c r o × R m a c r o P m a c r o + R m a c r o ( 5 ) F_{1\_macro} = 2 ×\frac {P_{macro} × R_{macro}} {P_{macro} + R_{macro}} (5) F1_macro?=2×Pmacro?+Rmacro?Pmacro?×Rmacro??(5)
-
OSCR:開放集分類率(Open-Set Classification Rate,OSCR) 也是一個與閾值無關的指標,可同時衡量已知類測試樣本的 C 類分類性能,以及區分未知類和已知類的二元分類性能。與 AUROC 類似,它是另一條曲線下的面積,以正確分類率(CCR)為橫坐標,新定義的 FPR 為縱坐標。這里,CCR 表示已知類別測試樣本中被正確接受為已知類別以及被正確分類的比例,而新定義的 FPR 表示未知類別測試樣本中被錯誤接受為已知類別的比例。OSCR 越大,表明不僅在接受已知類樣本并將其分類方面,而且在拒絕未知類樣本方面都有更好的表現。
-
Comparison
-
在本小節中,我們將提供在上述兩種數據集設置下,一些具有代表性的 OSR 方法在粗粒度數據集和細粒度數據集上的比較結果。
-
粗粒度數據集比較: 表 I 和表 II 報告了 34 種代表性 OSR 方法的 ACC 和 AUROC 結果,這些方法都是在標準數據集設置下在粗粒度數據集上進行評估的,其中比較方法的結果引用了其原始論文或引用其的論文,并按照 TinyImageNet 上的年份和 AUROC 指標進行了排序。此外,表 III 還報告了跨數據集設置下相應的宏 F1 分數,其中某些方法的結果因未在任何地方報告而缺失。為保持一致性,宏 F1 結果也按照上述策略進行排序。
-
-
表 I: 標準數據集設置下粗粒度數據集的 ACC 結果。
-
-
表 II:標準數據集設置下粗粒度數據集的 AUROC 結果。
-
-
表 III:跨數據集設置下粗粒度數據集的 Macro-F1 結果。
-
-
為了更好地進行比較,還列出了骨干和網絡架構。“Convs”、‘ResNet’、“Wide-ResNet ”和 “Transformer ”分別表示相應的方法是基于普通 CNN、ResNets、Wide-ResNets 和視覺轉換器開發的。由于不同的方法通常采用不同的層配置,盡管使用的是同一組骨干,我們用 “*”表示涵蓋不同的配置。此外,骨干網項中的 “+‘和’/”分別表示該方法結合了兩個網絡作為骨干網,以及在不同數據集上采用了不同的骨干網。架構項中的 “E”、‘G’、“D ”和 “D*”分別表示編碼器、生成器、解碼器和鑒別器。
-
在細粒度數據集上的比較: 表 IV 和表 V 報告了一些 OSR 方法在標準數據集設置下對 CUB、FGVC-飛機和 Stanford-汽車的 ACC、AUROC 和 OSCR 結果。這些表格中的結果按年份和 CUB 的 OSCR 指標排序。E“、”M “和 ”H “分別表示 ‘簡單’、”中等 “和 ”困難 "難度級別。“中等 ”和 “困難 ”兩組合并報告,而不是在 CUB 上單獨報告。
-
-
表 IV:標準數據集設置下細粒度 CUB 數據集的 ACC、AUROC 和 OSCR 結果。
-
-
表 5:標準數據集設置下細粒度 FGVC-飛機和斯坦福-汽車數據集的 ACC、AUROC 和 OSCR 結果。
-
-
表 VI:在跨數據集設置下,對 Aircraft-CUB 和 Aircraft-Cars 這兩個細粒度數據集的 Macro-F1 結果。
-
-
比較結果總結與分析: 總之,根據上述比較,可以從這些表格中看出 8 點:
-
從表一和表二可以看出,大多數比較方法,無論是采用更強大的骨干網還是采用更簡單的架構,在大多數情況下都優于采用更輕量級骨干網的方法,這表明強大的骨干網有助于提高模型的可辨別性。 雖然更強大的骨干網通常會導致更高的模型復雜度,從而限制了架構的復雜性,但它仍然可以與一些精心設計的模塊相結合,如 H A N ? O S F G R 中的注意機制、 C r o s s ? E n t r o p y + 中的綜合數據增強、 C S S R 和 M o E P A E 中的輕量級重建、 P M A L 中的原型約束、 C l a s s ? i n c l u s i o n 中的離群值暴露、 O p e n G A N 和 I T ? O S R ? T r a n s P 中的特征生成等、以進一步提高模型性能 \textcolor{red}{雖然更強大的骨干網通常會導致更高的模型復雜度,從而限制了架構的復雜性,但它仍然可以與一些精心設計的模塊相結合,如 HAN-OSFGR 中的注意機制、Cross-Entropy+ 中的綜合數據增強、CSSR 和 MoEPAE 中的輕量級重建、PMAL 中的原型約束、Class-inclusion 中的離群值暴露、OpenGAN 和 IT-OSR-TransP 中的特征生成等、 以進一步提高模型性能} 雖然更強大的骨干網通常會導致更高的模型復雜度,從而限制了架構的復雜性,但它仍然可以與一些精心設計的模塊相結合,如HAN?OSFGR中的注意機制、Cross?Entropy+中的綜合數據增強、CSSR和MoEPAE中的輕量級重建、PMAL中的原型約束、Class?inclusion中的離群值暴露、OpenGAN和IT?OSR?TransP中的特征生成等、以進一步提高模型性能。
-
從表一和表二可以看出,如果一種方法的 ACC 值較高,則其 AUROC 值通常也較高。換句話說,在大多數比較方法中,封閉集分類性能越好,開放集檢測性能也就越好。不過,在成對比較時也有很多反例,即 AUROC 明顯較高對應的 ACC 相近甚至明顯較低,而 ACC 較好對應的 AUROC 較差。這主要是因為一些未知類樣本與一些已知類樣本相似,將這些未知類樣本從已知類中分離出來會損害已知類的分類準確性。因此,如何在開放集檢測性能和封閉集分類性能之間取得更好的平衡是 OSR 界的一個未決問題。
-
從表一至表三可以看出,交叉數據集下的結果普遍低于標準數據集下的結果,主要原因有兩個:(i) 除了語義偏移外,訓練樣本與未知類測試樣本之間還存在協變量偏移,這可能更容易造成類混淆。(ii) 宏 F1 指標同時考慮了封閉集分類性能和開放集檢測性能,模型不僅需要正確分類已知類樣本,還需要根據閾值將其識別為已知類。
-
從表 I 至表 III 可以看出,最近的 OSR 方法已經實現了接近飽和的性能,即接近或高于 95%,尤其是在 Transformer 骨干網方面。因此,有必要在更大規模、更高分辨率和更困難的數據集上進行評估。
-
從表 IV 中可以看出,“中等 ”和 “較難 ”組的結果普遍低于 “簡單 ”組,這主要是因為較難組中的未知類圖像通常與已知類圖像具有相似的外觀,只是在某些細粒度屬性上有所不同。此外,最近的模型性能在 “簡單 ”組中也達到或接近飽和,識別更難的未知類樣本主要會影響整體性能。因此,如何區分和利用較難識別的未知類樣本成為提高模型在細粒度數據集上可識別性的關鍵。對細粒度信息進行更有效的獲取和更細致的處理,或許有助于區分較難的未知類樣本,然后再利用一些無監督技術進行模型訓練。
-
從表四和表五可以看出,使用 ResNet* 主干網的方法通常比使用 Convs* 主干網的方法表現更好,而使用 Transformer* 主干網的方法通常比使用 ResNet* 主干網的方法表現更好。這主要是因為 ResNet 中的殘差連接加深了網絡,從而增強了網絡學習更復雜特征的能力,而變換器中的多重自關注操作則有助于捕捉圖像中語義對象的更細粒度關注。
-
從表 VI 可以看出,飛機-CUB 的結果明顯低于飛機-汽車的結果。這主要是因為 FGVC-Aircraft 與 CUB 之間的分布偏移大于 FGVC-Aircraft 與 Stanford-Cars 之間的分布偏移。結合前面的觀察,我們可以發現,無論是過大的分布偏移(如 CUB 上未知類樣本與 FGVC-Aircraft 上已知類樣本之間的分布),還是過小的分布偏移(如未知類樣本中的 “中+難 ”組與已知類樣本之間的細微差別),都會造成類混淆。由于分布偏移問題是 OSR 界固有的問題,因此遷移學習可能有助于緩解分布偏移問題。
-
從表 I-VI 可以看出,在標準數據集設置下和粗粒度數據集上,生成式 OSR 方法的性能普遍優于判別式 OSR 方法,這主要是因為生成式模型的學習不僅基于輸入和輸出之間的關系,還基于數據的內部分布結構。然而,無論是在跨數據集設置下還是在細粒度數據集上,這種現象都很難被觀察到,這主要是因為在跨數據集設置下,學習到的基于語義的分布無法適應協變量的變化,而在細粒度數據集上,從相似樣本中學習到的分布也會相似。因此,無論是在跨數據集環境下,還是在細粒度數據集上,采用各種策略提高特征可區分性的判別方法都會更加有效。
-
OPEN ISSUES AND FUTURE RESEARCH DIRECTIONS
Open Issues
-
在這里,我們提出了OSR任務中的一些開放問題。
-
1)語義轉換問題:OSR任務中的固有問題是語義轉移問題,在測試集中會遇到一些新類別的圖像。由于深度學習模型是數據驅動的模型,因此僅基于已知類別訓練模型會使模型更傾向于已知類別,即模型會錯誤地將未知類別的樣本預測為已知類別之一。現有的OSR方法大多是歸納方法,假設在模型訓練中只有已知類的樣本,雖然它們追求對已知類更具區分性的表示,希望未知類的樣本可以根據它們與已知類的偏差來識別,由于不存在真實的未知類,已知類和未知類之間的決策邊界的偏差仍然存在。然而,學習已經在其他任務和OSR任務中證明了它的有效性。到目前為止,只有兩種轉導OSR方法。此外,在現有的轉導OSR方法中也存在一些開放的子問題,如第II.B節所提到的。因此,如何有效地利用未標記的測試樣本仍然值得研究,特別是難以識別的測試樣本。
-
2)分類已知類和識別未知類之間的一致性問題:OSR任務旨在同時分類已知類樣本和識別未知類樣本。一個好的OSR模型需要同時產生高的閉集分類精度和已知類和未知類之間的高差異。然而,當特征空間中的未知類樣本與已知類樣本混淆時,這兩個目標有時可能不一致,在這種情況下,將這些未知類樣本與已知類樣本分離可能會損害不同已知類之間的區分度,這種現象在閉集識別任務中也可以觀察到,其中一部分類別的準確性差異可能導致其他類別之間的混淆,因此,另一個開放的問題是:如何實現一致的更好的性能或實現已知類別分類和未知類別識別之間的更好的平衡?挖掘和利用難以識別的混淆樣本可能是解決這一問題的一種方法。
-
3)區分已知類別和未知類別的閾值:由于在模型訓練中未知類樣本通常不可用,因此大多數現有的OSR方法首先訓練C路分類器,并通過將基于C類的識別分數與閾值進行比較來識別未知類樣本。閾值的選擇對于開集識別性能至關重要,現有的OSR方法大多根據經驗選擇閾值進行識別,Zhou等人提出了一種基于可學習策略的類特定閾值,為閾值的進一步研究奠定了基礎。
Future Research Directions
- 在這里,我們提供了一些未來的研究方向,以促進未來的工作在處理OSR任務。
- 1)人腦機制啟發的開集識別:在神經科學領域,人類大腦和動物大腦被證明具有快速識別新類別的能力。一些識別機制可以啟發未來的OSR方法。一些現有的OSR方法已經提供了實例。Yang等人設計了類-具體特征原型的靈感來自于人類大腦中不同類別的抽象記憶。Sun等人受大腦中時間注意機制的啟發,對分層注意特征進行時間聚合,因此從大腦中的識別機制借鑒是一個很有前途的未來研究方向。
- 2)多模態大模型引導開集識別:隨著數據量的快速膨脹和硬件性能的提高,深度神經網絡正在進入多模態大模型時代,最近,很多在多模態大規模數據集上預訓練的多模態大模型已經在輔助許多視覺任務方面展示了其泛化能力,例如少樣本和零樣本圖像識別任務。預訓練的大模型存儲了關于開放世界的豐富先驗信息,這是處理OSR任務的有前途的輔助工具。使用大模型的一個簡單方法是調整它們的提示,其提供關于輸入數據的上下文或參數信息,以幫助大型模型更好地理解和處理特定任務。
- 受預訓練大型模型令人印象深刻的生成能力的鼓舞,Qu等人合作了幾個大型模型(ChatGPT ,DALL-E ,CLIP 和DINO )以免訓練的方式利用豐富的內隱知識,以減少對虛假判別特征的依賴。他們的方法分兩個階段操作。在一個階段,在第二階段,基于生成的圖像和 CLIP 和 DINO 的已知類和虛擬未知類的擴展列表的兩個對齊來推斷測試圖像。雖然該方法直觀且不需要訓練,它在處理OSR任務時是有效的。
- 為了進一步利用大模型,Liao等人將開放詞和大模型上的快速調整結合起來處理OSR任務。開放詞取自WordNet ,而不是通過詢問ChatGPT生成,可學習提示提高了模型對下游任務的適應性。此外,對于較大規模數據集上的XXX,他們首先對較少類的組執行多個獨立的分組提示調優,然后基于最優子提示進行預測。此外,他們提出了新的基線,以便與基于大模型的OSR方法進行公平比較,如何更好地利用OSR的開放性,基于新的提示和調優策略來處理OSR任務的世界預訓練大型模型仍然值得研究。
CONCLUSION
- 本文對開集圖像識別進行了全面的綜述,首先對現有的基于DNN的方法進行了系統的分類,并對多數據集和兩種數據集部署下的典型和最先進的OSR方法進行了比較和分析。此外,我們討論了一些開放的問題和未來的發展方向在這個社區。
學習提示提高了模型對下游任務的適應性。此外,對于較大規模數據集上的XXX,他們首先對較少類的組執行多個獨立的分組提示調優,然后基于最優子提示進行預測。此外,他們提出了新的基線,以便與基于大模型的OSR方法進行公平比較,如何更好地利用OSR的開放性,基于新的提示和調優策略來處理OSR任務的世界預訓練大型模型仍然值得研究。
CONCLUSION
-
本文對開集圖像識別進行了全面的綜述,首先對現有的基于DNN的方法進行了系統的分類,并對多數據集和兩種數據集部署下的典型和最先進的OSR方法進行了比較和分析。此外,我們討論了一些開放的問題和未來的發展方向在這個社區。
-
小樣本開放集圖像識別(Few-Shot OSR)的挑戰與解決方案,數據稀缺性:每個已知類僅有少量樣本,難以學習穩健的特征表示,且未知類完全未見過,導致模型泛化能力不足。雙重任務沖突:需同時解決小樣本分類的 “快速適應” 和開放集識別的 “未知拒絕”,傳統方法易在兩者間失衡。