算法面試（1）-----目標檢測和圖像分類、語義分割的區別

目標檢測（Object Detection）、圖像分類（Image Classification）、語義分割（Semantic Segmentation）是計算機視覺三大核心任務，它們在輸入、輸出、應用場景和算法思路上有本質區別。

下面我用通俗語言 + 技術對比 + 應用舉例 + 輸出形式圖示的方式，幫你徹底搞懂它們的區別。

任務	一句話解釋
圖像分類	“這張圖里是什么？” → 輸出一個標簽（如“貓”）
目標檢測	“這張圖里有什么，在哪？” → 輸出多個框 + 標簽（如“貓在左上角”）
語義分割	“這張圖里每個像素屬于什么？” → 輸出每個像素的類別（精細到像素級）

假設輸入是一張街景圖，包含：汽車、行人、交通燈。

任務	輸出形式
圖像分類	“街景” 或 “包含車輛和行人”（只有一個標簽）
目標檢測	三個框： – [汽車, (x1,y1,x2,y2)] – [行人, (x3,y3,x4,y4)] – [交通燈, (x5,y5,x6,y6)]
語義分割	一張和原圖一樣大小的彩色圖，每個像素被染色： – 紅色=汽車像素 – 藍色=行人像素 – 綠色=交通燈像素

💡 語義分割不區分“這是第幾輛汽車”，只關心“這些像素屬于汽車”。

圖像分類
- 核心思想：提取整張圖的全局特征 → 映射到類別
- 網絡結構：CNN → Global Average Pooling → FC → Softmax
- 代表模型：ResNet, VGG, MobileNet
目標檢測

常見誤區

誤區	正解
“目標檢測就是多個圖像分類”	? 錯！目標檢測需要同時預測位置和類別，且要處理重疊、尺度變化
“語義分割就是超精細的目標檢測”	? 錯！語義分割不區分實例（兩個挨著的汽車會被染成同一顏色）
“圖像分類不能用于多物體圖”	?? 不完全錯，但效果差。分類模型通常關注“最顯著物體”

? 如果你想區分“第一輛車”和“第二輛車”，需要用實例分割（Instance Segmentation），如 Mask R-CNN ——
它是目標檢測 + 語義分割的結合體。

圖像分類告訴你“是什么”，目標檢測告訴你“是什么+在哪里”，語義分割告訴你“每個像素是什么”。

掌握這三者的區別，是你理解計算機視覺任務體系的第一步，也是面試高頻考點！

📌 面試加分回答示例：

“圖像分類是整圖打標簽，目標檢測是畫框+分類，語義分割是像素級分類。我在工業項目中用目標檢測定位缺陷位置，因為需要知道缺陷坐標用于機械臂抓取；而在醫學圖像中用語義分割，因為醫生需要知道病灶的精確邊界。”

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/97959.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/97959.shtml
英文地址，請注明出處：http://en.pswp.cn/web/97959.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！