?語義分割(Semantic Segmentation)是圖像處理和機器視覺一個重要分支,其目標是精確理解圖像場景與內容。語義分割是在像素級別上的分類,屬于同一類的像素都要被歸為一類,因此語義分割是從像素級別來理解圖像的。如下如所示的照片,屬于人的像素部分劃分成一類,屬于摩托車的像素劃分成一類,背景像素劃分為一類。
在計算機視覺領域里,不僅有圖像分類的任務,有很多更復雜的任務,
比如對圖像中的目標進行檢測和識別,或對圖像進行實例分割和語義分割等。
其中在基于卷積神經網絡的深度學習算法出現后,圖像的語義分割和目標檢測的精度也有了質的提升。
本篇介紹幾種經典的圖像的語義分割和目標檢測網絡結構,
然后介紹在PyTorch中已經預訓練好的語義分割和目標檢測網絡的使用,并且以具體的數據集為例,介紹一種簡單的語義分割網絡的訓練和應用。
圖像語義分割是計算機視覺中像素級別的分類任務,旨在將圖像中的每個像素劃分到對應的語義類別?,實現對圖像內容的細致理解與劃分,廣泛應用于自動駕駛、醫學影像分析等領域。
?核心概念與原理?
圖像語義分割的核心是對圖像中每個像素進行分類,賦予其對應的語義標簽。例如,在城市街景圖像中,人物、車輛、道路等像素會被分別標記為不同類別,形成語義區域劃分。與圖像分類(整體類別判斷)和目標檢測(矩形框定位)相比,語義分割的精度更高,能實現像素級解析。????
?技術方法與應用?
- ?主流模型架構?:包括FCN(全卷積網絡)、SegNet、U-Net、PSPNet等,這些模型通過卷積神經網絡提取特征,并采用上采樣或跳躍連接恢復空間分辨率。??1
- ?弱監督學習?:通過減少標注成本(如僅使用圖像級標簽)提升分割效率,復旦大學張巍團隊曾開展相關研究。??2
- ?工業應用?:LED異形屏通過語義分割生成視覺關注度熱力圖,動態調節分辨率以優化顯示效果。??3
?與其他分割任務的區別?
任務類型 | 特點 |
---|---|
語義分割 | 僅區分類別(如所有"汽車"像素歸為一類) |
實例分割 | 區分同類個體(如不同車輛像素分開標記) |
全景分割 | 結合語義與實例分割,覆蓋所有目標并區分實例??4 |
語義分割 圖像分割級別可以分為語義級分割、實例級分割和全景分割。
- 語義分割(semantic segmentation):對圖像中的每個像素劃分到不同的類別;
- 實例分割(instance segmentation):對圖像中每個像素劃分到不同的個體(可以理解為目標檢測和語義分割的結合);
- 全景分割(panoptic segmentation):語義分割和實例分割的結合,即要對所有目標都檢測出來,又要區分出同個類別中的不同實例。
10.1常用的語義分割網絡
語義分割是對圖像在像素級別上進行分類的方法,在一張圖像中,屬于同一類的像素點都要被預測為相同的類,因此語義分割是從像素級別來理解圖像。但是需要正確區分語義分割和實例分割,雖然它們在名稱上很相似,但是它們屬于不同的計算機視覺任務。例如,一張照片中有多個人,針對語義分割任務,只需將所有人的像素都歸為一類即可,但是針對實例分割任務,則需要將不同人的像素歸為不同的類。簡單來說,實例分割會比語義分割所做的工作更進一步。隨著深度學習在計算機視覺領域的發展,提出了多種基于深度學習方法的圖像語義分割網絡,如FCN、U-Net、SegNet、DeepLab等。下面對FCN、U-Net、SegNet等網絡結構進行一些簡單的介紹,詳細的內容讀者可以閱讀相關論文。
1.FCN
FCN語義分割網絡是在圖像語義分割文章Fully Convolutional Networks forSemantic Segmentation中提出的全卷積網絡,該文章是基于深度網絡進行圖像語義分割的開山之作,而且是全卷積的網絡,可以輸入任意圖像尺寸。其網絡進行圖像語義分割的示意圖如圖10-1所示。
FCN的主要思想是:
(1)對于一般的CNN圖像分類網絡,如VGG和ResNet,在網絡的最后是通過全連接層,并經過softmax后進行分類。但這只能標識整個圖片的類別,不能標識每個像素點的類別,所以這種全連接方法不適用于圖像分割。因此FCN提出把網絡最后幾個全連接層都換成卷積操作,以獲得和輸人圖像尺寸相同的特征映射,然后通過softmax獲得每個像素點的分類信息,即可實現基于像素點分類的圖像分割。
(2)端到端像素級語義分割任務,需要輸出分類結果尺寸和輸入圖像尺寸一致,而基于卷積+池化的網絡結構,會縮小圖片尺寸。因此FCN引入反卷積(deconvolution,和轉置卷積的功能一致,也可稱為轉置卷積)操作,對縮小后的特征映射進行上采樣,從而滿足像素級的圖像分割要求。
(3)為了更有效地利用特征映射的信息,FCN提出一種跨層連接結構,將低層和高層的目標位置信息的特征映射進行融合,即將低層目標位置信息強但語義信息弱的特征映射與高層目標位置信息弱但語義信息強的特征映射進行融合,以此來提升網絡對圖像進行語義分割的性能。
圖10-1所示是圖像語義分割文章Fully Convolutional Networks for SemanticSegmentation中提出的全卷積網絡對圖像進行語義分割的網絡工作示意圖。
?3. SegNetSegNet的網絡結構借鑒了自編碼網絡的思想,網絡具有編碼器網絡和相應的解碼器網絡,最后通過softmax分類器對每個像素點進行分類。其網絡結構如
?
?
第10篇 圖像語義分割和目標檢測介紹 - txwtech - 博客園?
第10篇 圖像語義分割和目標檢測介紹2 - txwtech - 博客園?