文章目錄
- 1st solution(classification)
- 2nd place code, end to end whale Identification model
- 3rd place solution with code: ArcFace
- 4th Place Solution: SIFT + Siamese
- 5th solution blog post + code -Siamese
- 7th place Pure Magic thanks Radek solution: classification
- 9th place solution or how we spent last one and a half month
- 10th Place Solution: Metric Learning, Classification, Siamese, LGBM
- 15-th plcae solution: sphereface, image alignment and multi-layer fusion
- 24th place solution
- 25-th place solution: CosFace + ProtoNets
- 31st place solution + source code
主要是學會常見方法的實踐,解決工程問題;掌握每種方案的流程及思想。
1st solution(classification)
原文
code
方法介紹:采用SENet154作為基礎模型,采用了PCB對local特征進行監督,對局部和全局特征進行triplet loss監督。作者認為沒有triplet loss,精度也能達到 0.96。分類分支把數據看做5004類和new_whale類。關鍵是增加了掩膜輸入,使用了兩種損失函數。
概述:
0.8->0.96->0.973
在一開始,我們使用softmax +固定閾值(看代碼應該是指損失函數使用了margin)來訓練模型,但沒有得到好的結果(<0.9)。 為了在我們的網絡中使用new_whale圖像,我們決定對每個鯨魚類進行2分類(判斷是否是new_whale嗎?)。
經過幾周的實驗,senet154表現最好,我們得到了0.96(both public & private)結果(單一模型)。
為了進一步改進,我們添加了一些技巧(將在后面討論)并得到0.969,加上4倍交叉驗證和類平衡后處理以達到0.973。
我們還嘗試將se154與SE-Resnext101,DPN131等其他網絡組合,但沒有得到任何提升。
-
網絡輸入及訓練步驟:
輸入尺寸 (512, 256)
4通道輸入, RGB + masks (基于450 張已有標簽進行訓練)
Step 1: 訓練圖片數量 >10 的樣本(更容易收斂)
Step 2:訓練所有訓練集, 固定網絡除了最后兩個全連接層. -
圖片水平翻轉(+0.006)
翻轉圖片作為新的類別,沒有標簽的數據不處理 -
偽標簽 (+ 0.001)
在訓練集中添加了約2000張測試圖像(分類置信度> 0.96)。 -
標簽平衡 (+0.001 ~ 0.002)
在我們持續改進期間(從0.8+到0.96),我們發現標簽與分數相關。 因此,我們使用策略來進一步平衡我們的預測:
對于Top5預測中的類別class1到class5,如果:conf class1 - conf class 2 <0.3,并且class 2未在所有Top1預測中沒有出現過,而class 1已多次出現在top2中,我們切換class1和class2的位置。
2nd place code, end to end whale Identification model
code
原文
方法介紹:多網絡融合,多損失函數
模型
? 輸入: 256x512 or 512512 cropped images;
? 骨架網絡: resnet101, seresnet101, seresnext101;
? 損失函數: arcface loss + triplet loss + focal loss;
? 優化器: adam ,學習率熱身;
? 數據增強: blur,grayscale,noise,shear,rotate,perspective transform;
? 圖片翻轉 -> 50042
? 偽標簽
補充:
我的baseline模型僅在arcface上訓練(非新鯨圖像)。 為了推斷,我刪除了margin m并直接使用最后一個fc的softmax結果。 最后一個fc的L2范數權重矩陣接近于中心類特征。 我的arcface模型在public LB上可以達到0.930~940左右。 進一步的改進來自增加的具有focal loss的分類分支(在非新鯨圖像和新鯨圖像上)。 ID翻轉策略非常重要,它讓我獲得了最后的0.01提升。
3rd place solution with code: ArcFace
原文
code
方法介紹:使用了ArcLoss,訓練的時候,使用了多個檢測框,保存每個類的多張圖片的多部分的中心作為特征,測試的時候也是使用多個框的特征中心(估計是參考few-shot的思想)。其實有點類似考慮局部的特征。
解決方案摘要
數據集
?驗證集:隨機抽樣400個類,其中每類包含2個圖像+ 110個新鯨魚(= 400 * 0.276)。
?訓練集:除新鯨以外的所有圖像。
?水平翻轉將身份加倍。
模型
bounding box & landmark
?我使用了Paul Johnson和Radek Osmulski的標注。
?我制作了5交叉訓練,并使用它們訓練了5個模型。
?IOU:0.93
鯨魚識別器:
?使用ArcFace損失
?最后一次卷積后的層被替換為 flattening -> BN -> dropout -> FC -> BN。
?densenet121
?m = 0.5(論文默認值)
?weight decay 0.0005, droupout 0.5
數據增強
? average blur, motion blur
? add, multiply, grayscale
? scale, translate, shear, rotate
? align or no-align
訓練
?adam優化器
?學習率為0.00025 - > 0.000125 - > 0.0000625
測試
(1)獲取每張圖片的特征:
?對于每個圖像,我通過使用5個bounding boxes 和 landmarks, 獲得了多個特征向量。
?對于每個類,所有特征向量的中心用作最終特征。
(2)獲取測試圖像的特征
?對于每個圖像,生成多個特征向量,計算特征向量的中心。
(3)計算相似度
?上述兩個特征向量的余弦相似度用作相似性的度量。
(4)選擇閾值
?選擇新鯨魚的閾值約為0.276。
以下是最終方法的過程。
Without landmark
起初,我從訓練集中排除了只有一個圖像的和新鯨魚的圖片。為了推斷,使用訓練集的最相似圖像的身份作為預測身份。
Public LB: 0.90, Private LB: 0.90
在使用相同身份的所有特征向量的中心之后,我得到了:
Public LB: 0.942 / Private LB: 0.939
使用權重衰減weight decay 0.0005
Public LB: 0.946 / Private LB: 0.946
加入只有一張圖片的類到訓練集:
Public LB: 0.963 / Private LB: 0.961
with landmark
當我使用對齊圖像時,網絡訓練得更快但分數沒有提高
Public LB: 0.962 / Private LB: 0.959
一些圖像的bounding boxes和landmarks非常差,似乎無法提高分數。所以我也使用了非對齊圖像
Public LB: 0.965 / Private LB: 0.961
最后,我通過水平翻轉加倍了身份。翻轉的圖像具有不同的身份,但在視覺上非常相似。所以我將logit值平滑為零以防止梯度消失。
Public LB: 0.968 ~ 0.971 / Private LB: 0.965 ~ 0.968
4th Place Solution: SIFT + Siamese
原文
code
作者關注的重點是如何識別new_whale(N = 0)和N = 1個樣本。特別是如何識別盡可能多的N = 1個樣本。
我的流程有三個主要組成部分:
(1)關鍵點匹配 – 傳統方法和新tricks
(2)Siamese 網絡
(3)后處理
1.關鍵點匹配
這占我最終預測的80%以上,并且是經典的關鍵點匹配,是原始的low-shot方法之一。我嘗試過SIFT,ROOTSIFT和一系列binary descriptors和匹配器,不同技術之間沒有太大區別。
這里的數據集處于最佳位置,其中強力關鍵點匹配發揮作用。 7960個測試圖像與15,697個訓練圖像屬于合理范圍。我選擇了完全圖像分辨率的純蠻力方法,所有測試圖像與所有訓練圖像,沒有詞袋或關鍵點的knn聚類。我必須克服幾個重大挑戰:
1.速度。每個圖像的關鍵點描述符/匹配最多可能需要1-2秒,具體取決于您的硬件設置,但我使用了一些技巧,例如將所有關鍵點索引到hdf5文件,在匹配期間將所有關鍵點存儲到RAM中,以及使用偉大的faiss庫。在兩個系統中,我可以在大約12小時內完成整個數據集的強力運行。
2.誤報。在這個數據集上kp匹配的主要問題是誤報,它有兩個來源:背景海洋和鯨魚尾部的許多亮點。我通過使用unet僅分割鯨魚尾巴和單應矩陣的自定義xgboost模型來解決這個問題,以將圖像對之間的最終單應性分類為有效或無效。
最終的kp匹配流程:
從訓練集和測試集中提取所有kps(原始圖,全尺度)到hdf5文件,將關鍵點限制為unet預測的鯨魚吸蟲面具區域。從CLAHE預處理圖像中提取效果最佳。
匹配:
a.一種。循環遍歷所有測試/訓練對
b.使用faiss匹配關鍵點
c.關鍵點的雙重單應性過濾(LMEDS后跟RANSAC)
d. xgboost預測驗證單應矩陣
e.如果#匹配>閾值,則使用預測
2.Siamese網絡
這是我的管道中最弱的部分,還有其他帖子表明網絡比我使用的更強大。我稍微調整了Martin的代碼,并使用了InceptionResNetV2,InceptionV3和ResNet50的集合。我沒有使用任何數據增強并堅持使用灰度圖像。
為了幫助訓練更快一點,我在進入Siamese網絡之前做了大量的骨干網絡預訓練,這似乎有所幫助。
我的預訓練流程是:
? 前200類進行訓練分類
? 在N> 8(~576類)的所有類別上進行微調
? 對所有類別上進行微調
? 對所有類別上進行微調+混合+圖像大小384x384
3.后期處理
我發現這次比賽和Statoil Iceberg挑戰競賽之間的數據有一些相似之處,所以我能夠使用winning solution(https://www.kaggle.com/c/statoil-iceberg-classifier-challenge)的一些相同的技巧和我在那里的獲勝解決方案。
當從Siamese網絡分析得到的預測矩陣時,我注意到總是有一些相同的火車圖像不成比例地占據前5個位置。這讓我想到我需要找到一種方法來抑制支配預測,或者弄清楚如何讓N = 1類更加公平地升到預測結果的頂端。
我提出的想法非常簡單:我沒有用傳統的“哪種火車圖像最接近我的測試圖像”的方式查看預測矩陣,而是轉換矩陣現在看“哪個測試圖像最接近我的訓練圖像”圖片”。當我將轉置矩陣限制為N = 1個樣本時,我發現我可以沿著訓練軸使用N = 1個訓練樣本的新閾值。這在N = 1樣本中,我的top1預測會產生更多正確的結果。我相信有更好的方法可以實現同一個目標。
我對其他競爭對手發現的錯誤標簽的數量感到驚訝,并且感謝Alex Mokin和這篇文章的撰稿人,我相信多余的類有一定作用。
流程缺點:
再次,像贊助商一樣思考,他們可能不喜歡我的解決方案有以下幾個原因:
1.計算成本非常高,特別是關鍵點匹配了流程;
2. 將流程轉換為簡單的方法來進行單個圖像推斷在后期處理比較困難。
我可能會采取別人的siamese網絡作為一個純粹的替代品放入我的管道,這將需要重新調整后處理流程,但這是可能的。
流程優勢:
我認為關鍵點步驟非常強大,如果使用傳統的關鍵點算法,沒有足夠壓縮的空間。 將unet和xgb模型合并到流程中確實有助于將誤報減少到可以忽略不計。
5th solution blog post + code -Siamese
原文
code
博客:推薦詳細研究
方法介紹:流程如上圖,使用了DenseNet121作為骨架網絡,使用了類似VGG的網絡作為關鍵點提取,并獲得尾部的圖片。采用了困難樣本挖掘。
7th place Pure Magic thanks Radek solution: classification
原文
code
9th place solution or how we spent last one and a half month
原文
TL;DR Adam, Cosine with restarts, CosFace, ArcFace, High-resolution images, Weighted sampling, new_whale distillation, Pseudo labeled test, Resnet34, BNInception, Densenet121, AutoAugment, CoordConv, GAPNet
參考文獻
《Deep Face Recognition: A Survey》
損失函數:
《CosFace: Large Margin Cosine Loss for Deep Face Recognition》
《ArcFace: Additive Angular Margin Loss for Deep Face Recognition》
Cosface and Arcface parameters was optimised as well. Cosface: S = 32.0, M=0.35. Arcface: M1 = 1.0, M2 = 0.4, M3 = 0.15.
嘗試的優化器: Adam, AdamW, SGD, SGDW. 最好的是 Adam with Cosine annealing.
網絡結構:
CoordConv和 GapNet 有一些效果
《An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution》
《Human-level Protein Localization with Convolutional Neural Networks》
(https://openreview.net/forum?id=ryl5khRcKm)
Squeeze-and-Excitation, Convolutional Block Attention Module 沒有效果
數據增強:
對于 zero and few-shot learning,參考文獻進行增強
《AutoAugment: Learning Augmentation Policies from Data》
? HorizontalFlip
? Rotate with 16 degree limit
? ShiftScaleRotate with 16 degree limit
? RandomBrightnessContrast
? RandomGamma
? Blur
? Perspective transform: tile left, right and corner
? Shear
? MotionBlur
? GridDistortion
? ElasticTransform
? Cutout
相關實現代碼:
https://github.com/albu/albumentations
https://github.com/mdbloice/Augmentor
無效果:TTA和Mixed precision learning
測試時增強(test time augmentation, TTA)。這里會為原始圖像造出多個不同版本,包括不同區域裁剪和更改縮放程度等,并將它們輸入到模型中;然后對多個版本進行計算得到平均輸出,作為圖像的最終輸出分數,可調用learn.TTA()來使用該算法。
10th Place Solution: Metric Learning, Classification, Siamese, LGBM
原文
15-th plcae solution: sphereface, image alignment and multi-layer fusion
原文
24th place solution
原文
25-th place solution: CosFace + ProtoNets
原文
31st place solution + source code
原文