基礎CNN架構可通過多種方式進行組合和擴展,從而解決更多、更復雜的任務。
1. 分類和定位
在分類和定位任務中,你不僅需要說出在圖像中找到的物體的類別,而且還需指出物體顯現在圖像中的邊界框坐標。這類任務假設在圖像中只有一個物體實例。
這個任務可通過在典型的分類網絡上附加分類頭(classification head)和回歸頭(regression head)來實現。回想一下,在分類網絡中,卷積和池化操作的最終輸出稱為特征圖,它被饋送到一個全連接的網絡中,該網絡產生一個類別概率向量。這個全連接的網絡稱為分類頭,并用類別損失函數(Lc)(例如分類交叉熵)對其進行調整。
類似地,回歸頭是另一個全連接的網絡,該網絡接收特征圖,并輸出向量(x,y,w,h),表征邊界框左上角的x和y坐標以及寬度和高度。它用連續損失函數(Lr)進行調整,比如均方誤差。這樣,整個網絡將用兩個損失函數的線性組合來進行調整,即
式中,α是一個超參數,取值