同學們,你們覺得視覺經典四個任務中哪個最難?我個人覺得是實例分割。
因為它既具備語義分割的特點,需要做到像素層面上的分類,也具備目標檢測的一部分特點,即需要定位出不同實例,即使它們是同一種類。
但盡管實例分割的復雜性和挑戰性較高,它仍然是計算機視覺領域一個很重要的研究主題,對地理信息系統、醫學影像、自動駕駛、機器人等領域有著很重要的應用技術支持作用。
為了幫助同學們學習這一重要主題,今天我就來和大家分享各大頂會中實例分割方向的12篇高分論文,包含今年最新的研究成果,希望能幫助同學們更輕松地理解并掌握實例分割。
論文原文及代碼需要的同學看文末
1.PatchDCT: Patch Refinement for High Quality Instance Segmentation 【ICLR2023】
PatchDCT:用于高質量實例分割的Patch細化
簡述:PatchDCT是一種用于高質量實例分割的方法,它通過將解碼自DCT向量的掩碼分解為多個補丁,并使用分類器和回歸器對每個補丁進行細化來提高分割質量。在實驗中,PatchDCT方法比Mask-RCNN和DCT-Mask方法表現更好,也與其他最先進的方法相當。
2.Recurrent Contour-based Instance Segmentation with Progressive Learning 【TPAMI2023】
漸進式學習的循環輪廓基礎實例分割
簡述:論文提出了一種名為PolySnake的新穎深度網絡架構,用于輪廓基礎實例分割。通過迭代和漸進式輪廓細化策略實現了卓越而穩健的分割性能。具體來說,PolySnake引入了循環更新操作符來迭代地估計物體輪廓,并逐漸將其變形朝向物體邊界。在每次迭代中,PolySnake為當前輪廓構建了一個語義豐富的表示形式,并將其輸入到循環操作符中進行進一步的輪廓調整。
3.Instance Segmentation in the Dark 【IJCV2023】
暗光實例分割
簡述:論文發現低光圖像中的噪聲會引入高頻率干擾到神經網絡的特征圖中,從而降低性能。為了解決這個問題,作者提出了一種新的學習方法,通過自適應加權下采樣層、平滑面向卷積塊和干擾抑制學習來減少特征噪聲。此外,作者還發現使用高比特深度RAW圖像可以更好地保留低光場景信息。通過采集現實世界的低光實例分割數據集并利用低光RAW合成管道生成逼真的低光數據,該方法在無需任何圖像預處理的情況下實現了令人滿意的性能。
4.OpenMask3D:Open-Vocabulary 3D Instance Segmentation 【NeurIPS2023】
開放詞匯表的3D實例分割
簡述:論文介紹了一種名為OpenMask3D的開放詞匯表的3D實例分割方法。現有的3D實例分割方法只能識別預先定義的封閉類別集合中的物體,而OpenMask3D通過學習場景中每個點的可查詢特征來解決這一問題。該方法使用基于CLIP的圖像嵌入的多視角融合來聚合每個掩碼的特征,并通過預測的類無關3D實例掩碼指導模型。實驗表明,OpenMask3D優于其他開放詞匯表方法,尤其是在長尾分布上。
5.ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution 【CVPR2023】
一種具有實例感知采樣和框感知動態卷積的3D點云實例分割網絡
簡述:該文介紹了一種新的無聚類3D實例分割方法ISBNet,它將實例表示為內核并通過動態卷積解碼實例掩碼。該方法采用實例感知最遠點采樣策略來高效地生成高召回率和有區別性的內核,并利用局部聚合層編碼候選特征。此外,作者還展示了在動態卷積中預測和利用3D軸對齊邊界框可以進一步提高性能。
6.Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation 【ICCV2023】
開放詞匯實例分割的聯合標題基礎和生成
簡述:作者提出了一種名為Caption Grounding and Generation(CGG)的框架,用于開放詞匯實例分割,以擴展分割模型來分類和分割新的實例級別類別。CGG通過僅關注匹配對象名詞的基礎損失函數提高學習效率,并引入標題生成頭提供額外的監督和上下文建模。實驗結果表明,基礎和生成組件相互補充,顯著提高了新類別的分割性能。
7.DVIS: Decoupled Video Instance Segmentation Framework 【ICCV2023】
解耦的視頻實例分割框架
簡述:論文介紹了一種名為DVIS的解耦視頻實例分割框架,將VIS分為三個子任務:分割、跟蹤和細化。作者引入了一個新穎的引用跟蹤器和時序細化器來構建DVIS框架,以解決現有方法在復雜和長視頻上表現不佳的問題。DVIS在VIS和VPS上都取得了新的最先進的性能,并具有輕量級的優點,允許在單個GPU上進行高效訓練和推理。
8.FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation 【CVPR2023】
一種用于實時實例分割的簡單查詢模型
簡述:論文提出了一種用于實時實例分割的簡單查詢模型框架FastInst,它可以在不使用非最大抑制(NMS)的情況下以端到端的方式執行,并在COCO測試集上達到超過40的AP和32.5 FPS的實時速度。作者提出了三個關鍵設計:實例激活引導查詢、雙路徑更新策略和真實掩碼引導學習,這些設計使得我們可以使用更輕量級的像素解碼器和更少的Transformer解碼器層,同時實現更好的性能。
9.E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation【CVPR2022】
一種基于端到端輪廓的高質量高速實例分割方法
簡述:E2EC是一種全新的端到端輪廓基礎的實例分割方法,它通過使用可學習的輪廓初始化、多方向對齊標簽采樣和動態匹配損失,實現了高質量的高速實例分割。在這種方法中,首先應用了一種新的可學習輪廓初始化架構來替代手動設計的輪廓初始化,該架構包括一個輪廓初始化模塊用于構建更明確的學習目標,以及一個全局輪廓變形模塊,可以更好地利用所有頂點的特征。其次,該方法還提出了一種名為多方向對齊的新型標簽采樣方案,以降低學習難度。最后,為了提高邊界細節的質量,動態匹配預測的地面真實頂點對,并提出了相應的動態匹配損失函數。
10.Mask Transfiner for High-Quality Instance Segmentation【CVPR2022】
基于Transformer的高質量實例分割方法
簡述:Mask Transfiner是一種用于高質量實例分割的方法,它將圖像區域表示為四叉樹,并使用Transformer處理易出錯的節點。該方法可以以低計算成本預測高度準確的實例掩碼,并在三個基準測試中優于當前實例分割方法。
11.SoftGroup for 3D Instance Segmentation on Point Clouds 【CVPR2022】
用于點云的三維實例分割SoftGroup
簡述:作者提出了一種新的三維實例分割方法SoftGroup,它通過自底向上的軟分組和自上而下的細化來解決現有方法中的問題。現有的最先進方法通常先進行語義分割,然后將每個點與單個類別相關聯,但這些硬預測在執行語義分割時會產生誤差,導致預測的實例與地面真實值之間的重疊度低,以及大量的誤報。SoftGroup允許每個點與多個類別相關聯,以減輕語義預測錯誤帶來的問題,并通過學習將誤報實例分類為背景來抑制誤報實例。
12.OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds 【NeurIPS2022】
基于點云剛體動力學的無監督三維物體分割
簡述:論文介紹了一種名為OGC的無監督三維物體分割方法,可以從原始點云中同時識別多個三維物體。該方法利用動態運動模式作為監督信號來自動發現剛體對象,不需要大量的人工注釋來進行完全監督。該方法由三個主要組件組成:對象分割網絡、輔助的自我監督場景流估計器和核心的對象幾何一致性組件。通過精心設計一系列損失函數,該方法有效地考慮了多對象剛體一致性和對象形狀不變性在時間和空間尺度上的影響。
關注下方《學姐帶你玩AI》🚀🚀🚀
回復“實例分割”領取論文原文及源碼
碼字不易,歡迎大家點贊評論收藏!