為了增強CLIP在圖像理解和編輯方面的能力,上海交通大學、復旦大學、香港中文大學、上海人工智能實驗室、澳門大學以及MThreads Inc.等知名機構共同合作推出了Alpha-CLIP。這一創新性的突破旨在克服CLIP的局限性,通過賦予其識別特定區域(由點、筆畫或掩碼定義)的能力。Alpha-CLIP不僅保留了CLIP的視覺識別能力,而且實現了對圖像內容強調的精確控制,使其在各種下游任務中表現出色。
Alpha-CLIP在精確的圖像理解和編輯方面取得了顯著的進展,能夠在不改變圖像內容的情況下識別特定區域。引入alpha通道的概念,該通道保留了上下文信息,使得Alpha-CLIP相對于其他區域感知方法更具優勢,提高了圖像識別的能力。
在注入區域感知到CLIP的過程中,論文探索了多種策略,如MaskCLIP、SAN、MaskAdaptedCLIP以及MaskQCLIP等,這些策略為Alpha-CLIP的發展做出了貢獻。ReCLIP和OvarNet通過裁剪或遮罩改變輸入圖像,提供了獨特的視角。Red-Circle和FGVP通過巧妙地使用圓圈或掩模輪廓引導CLIP的注意力。然而,這些方法有時會過于依賴CLIP的預訓練數據集,可能引入潛在的域差異。
Alpha-CLIP的獨特之處在于引入了額外的alpha通道,使其能夠在不改變圖像內容的情況下專注于指定區域。這一創新性的特征不僅保留了模型的泛化性能,還增強了模型的區域聚焦能力。這些特性的整合使得Alpha-CLIP在多個任務中表現卓越,包括圖像識別、多模態語言模型以及2D/3D生成。
alpha通道的引入確保了上下文信息的完整性,數據預處理涉及創建rgba區域文本對,這是訓練模型所必需的細致過程。論文還深入研究了分類數據對區域文本理解的深遠影響,并比較了單獨使用基礎數據預訓練的模型與使用分類和基礎數據聯合訓練的模型。消融研究進一步檢驗了數據量對模型穩健性的影響。在零樣本實驗中,Alpha-CLIP取代了CLIP,取得了在區域文本理解方面具有競爭力的結果。
Alpha-CLIP通過集中注意力于涉及點、掩碼的任務,不僅優于僅基于有監督的預訓練,而且將區域感知能力推向了新的高度。但是有監督的訓練仍然是必要的,因為像ImageNet這樣的大規模分類數據集對于Alpha-CLIP的卓越性能做出了重要貢獻。
論文地址:Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
https://avoid.overfit.cn/post/c9ff16d4e2c4443c9ebf44363dfc50ab