【基礎復習筆記】計算機視覺

一、計算機視覺基礎

1. 卷積神經網絡原理

2. 目標檢測系列?

二、算法與模型實現

1. 在PyTorch/TensorFlow中實現自定義損失函數或網絡層的步驟是什么？

2. 如何設計一個輕量級模型用于移動端的人臉識別？

3. 描述使用過的一種注意力機制（如SE Block、Transformer）及其應用場景。

4. 如何優化模型推理速度？是否使用過量化、剪枝或蒸餾技術？

5. 解釋數據增強在圖像任務中的作用，并舉出5種以上增強方法。

三、工程能力與編程

1. 用C++實現一個快速圖像邊緣檢測算法（如Sobel算子）。

2. Python中多線程與多進程的區別？如何解決GIL問題？

3. 如何部署一個深度學習模型到生產環境？

4. 使用Shell腳本批量處理圖像并生成特征文件的思路。

四、實際應用思路

1. 如果實際場景中模型準確率高但召回率低，如何調整策略？

2. 在跨攝像頭人員跟蹤任務中，如何處理遮擋和光線變化？

五、前沿技術與研究

1. 最近關注的計算機視覺論文是什么？其創新點對你有何啟發？

2. Vision Transformer與傳統CNN相比有哪些優勢和局限？

3. 如何將自監督學習應用到圖像搜索任務中？

4. 對比學習（Contrastive Learning）在無監督任務中的作用。

5. 對多模態模型（如圖像+文本）在工業界的應用有何看法？

6. Diffusion Model如何在CV中應用？

Diffusion Model在CV中的六大應用方向

一、計算機視覺基礎

1. 卷積神經網絡原理

? ? ? ? ① 解釋卷積神經網絡（CNN）的工作原理及其在圖像處理中的優勢。

原理：通過卷積核滑動提取局部特征（如邊緣、紋理），池化層降低空間維度，全連接層分類。

優勢：局部連接（減少參數量）、權值共享（平移不變性）、層次化特征提取（低級→高級語義）。
示例：在ResNet中，殘差塊緩解梯度消失，使網絡更深。

補充：?

????????池化操作：降采樣 + 平滑 ? 降低計算、增強魯棒

????????激活函數（ReLU/Leaky ReLU、Swish 等）提升非線性表達

? ? ? ? ②?列舉常見的圖像分割方法，并比較它們的優缺點。

例如Mask R-CNN 和 U-Net

Mask R-CNN：基于Faster R-CNN，增加掩膜分支，適合實例分割（如區分不同物體個體）。

U-Net：編碼-解碼結構，跳躍連接保留細節，適合醫學圖像分割（小樣本高精度）。
優化場景：U-Net在數據少時表現更好，Mask R-CNN更適合復雜場景多目標分割。

? ? ? ? ③?如何處理類別不均衡問題（如人臉識別中不同人種數據量差異）？

數據層面：過采樣少數類（如SMOTE）、欠采樣多數類。

損失函數：加權交叉熵（Weighted Cross-Entropy）、Focal Loss（抑制易分類樣本權重）。
示例：在人臉識別中，對罕見人種數據增強（旋轉、光照變換）并提高其損失權重。

? ? ? ? ④?什么是非極大值抑制（NMS）？如何優化其計算效率？

NMS作用：去除冗余檢測框（如YOLO中同一目標多個預測框）。
優化方法：Soft-NMS（加權降低重疊框分數）、GPU并行加速、IoU閾值動態調整。

示例代碼：

def nms(boxes, scores, threshold):"""非極大值抑制（Non-Maximum Suppression, NMS）Args:boxes (np.array): 邊界框坐標，形狀為 [N, 4]（格式通常為x1,y1,x2,y2）scores (np.array): 邊界框對應的置信度得分，形狀為 [N]threshold (float): IoU閾值，用于判斷是否抑制重疊框Returns:keep (list): 保留的邊界框索引列表"""keep = []# 按置信度得分從高到低排序，獲得索引（argsort默認升序，[::-1]反轉后為降序）order = scores.argsort()[::-1]while order.size > 0:# 取當前置信度最高的邊界框索引i = order[0]keep.append(i)# 計算當前框與剩余所有框的IoU（注意：bbox_iou需要提前實現）ious = bbox_iou(boxes[i], boxes[order[1:]])  # 比較當前框 vs 后續所有框# 找到IoU小于等于閾值的框索引（保留這些框，抑制重疊框）# np.where返回滿足條件的索引，[0]是因為返回的是元組格式idx = np.where(ious <= threshold)[0]# 更新待處理框列表：# 1. order[1:]跳過當前已處理的框# 2. idx+1 是因為order[1:]的索引比原order小1，需映射回原order的索引位置order = order[idx + 1]return keep

? ? ? ? ⑤?如何評估目標檢測模型的性能？mAP的計算邏輯是什么？

性能評估：精確率、召回率、F1分數、交并比、mAP

mAP的計算邏輯：先計算每個類別的AP（Average Precision），再對所有類別的AP取平均

精確率（Precision）

所有預測為正樣本的檢測框中，實際為正樣本的比例。

意義：衡量模型預測的“準確性”（避免誤檢）。

召回率（Recall）

所有真實正樣本中，被正確檢測出的比例。

意義：衡量模型檢測的“全面性”（避免漏檢）。

F1分數（F1-Score）

精確率和召回率的調和平均值，平衡兩者的重要性。

交并比（IoU, Intersection over Union）

預測框與真實框的重疊面積占兩者并集面積的比例。

作用：判斷檢測框是否有效（通常閾值設為0.5）。

平均精度均值（mAP, mean Average Precision）

核心指標：綜合所有類別和不同召回率下的平均精度，是目標檢測領域的“金標準”。

? ? ? ? ⑥?FCN、U-Net、DeepLabV3+ 的核心思想差異？

核心思想差異

FCN：全卷積 + 上采樣 → 粗分割

U-Net：編碼-解碼 + 跳躍連接 → 更細節保留

DeepLabV3+：空洞卷積（Atrous） + ASPP → 大感受野

2. 目標檢測系列?

? ? ? ? ① Faster R-CNN、YOLO、SSD 各自的網絡結構和優缺點？

特性	Faster R-CNN	SSD	YOLOv5/YOLOv8
檢測流程	two-stage（提議生成 + 分類回歸）	one-stage，多尺度特征圖	one-stage，端到端
精度	高，但速度較慢	平衡	更快，適合實時
小目標表現	較好	依賴多尺度設計	anchor-free 版本效果提升

? ? ? ? ?② 什么是自監督學習？

????????自監督學習（Self-Supervised Learning，簡稱 SSL）是一種介于有監督學習和無監督學習之間的學習范式。它的核心思想是在“無標簽”數據上自動構造“偽標簽”（pretext task），讓模型先通過解決這些輔助任務來學習數據的內在表示（representation），再將學到的表示用于下游的監督任務（如分類、檢測、分割等），通常能顯著提升數據利用效率，減少對人工標注的依賴。

核心思路

構造預訓練任務（Pretext Task）

在沒有人工標注的數據上，自動生成監督信號。例如：

圖像旋轉預測：隨機將一張圖像旋轉 0°/90°/180°/270°，讓網絡預測旋轉角度。

圖像拼圖（Jigsaw Puzzle）：將圖像切成若干塊打亂順序，讓網絡恢復原始拼圖布局。

像素填充（Inpainting）：隨機遮擋圖像一部分，讓網絡去重建被遮擋區域。

學習通用特征

通過完成預訓練任務，網絡在淺層到深層蒸餾出了圖像的紋理、邊緣、結構、語義等多層次信息。

由于預訓練任務本身不依賴人工標簽，海量“無標簽”圖像都可以拿來用。

遷移到下游任務

把預訓練好的網絡作為“特征提取器”或初始化權重，再用較少量的有標簽數據進行微調（fine-tuning）。

實驗表明，這種方式在數據稀缺或標簽昂貴的場景下，往往能超越從頭訓練或僅用無監督預訓練的方法。

典型方法

對比學習（Contrastive Learning）

SimCLR：對同一張圖像做兩種不同的數據增強（crop、color-jitter、Gaussian blur 等），生成一對“正樣本”；其它圖像增強結果構成“負樣本”。通過 InfoNCE 損失最大化正樣本特征相似度、最小化負樣本相似度。

MoCo：維護一個動態更新的“負樣本隊列”（memory bank），并使用動量更新（momentum update）的方式來穩定負樣本表示。

生成式方法（Generative Pretext）

Context Encoder：遮擋圖像中心塊，讓網絡生成該區域的像素；等同于一種條件生成對抗網絡（cGAN）。

Auto-Encoder / Masked Autoencoder (MAE)：隨機遮掉圖像的部分 Patch，模型通過 Transformer 或 Encoder-Decoder 架構去重建被遮掉的內容。

上下文預測（Context Prediction）

Jigsaw Puzzle：將圖像網格切塊并打亂順序，網絡要預測每塊在原圖中的位置。

有監督學習無監督學習自監督學習
數據需求大量帶標簽數據僅無標簽數據僅無標簽數據（自動生成偽標簽）
學習目標直接優化下游任務（如分類）學習數據分布（如聚類、降維）先解決預訓練任務，再遷移下游任務
應用優勢精度高，但標簽昂貴可用性廣，但表示質量有限平衡兩者：利用海量無標簽，學到更有辨識力的表示

	有監督學習	無監督學習	自監督學習
數據需求	大量帶標簽數據	僅無標簽數據	僅無標簽數據（自動生成偽標簽）
學習目標	直接優化下游任務（如分類）	學習數據分布（如聚類、降維）	先解決預訓練任務，再遷移下游任務
應用優勢	精度高，但標簽昂貴	可用性廣，但表示質量有限	平衡兩者：利用海量無標簽，學到更有辨識力的表示

二、算法與模型實現

1. 在PyTorch/TensorFlow中實現自定義損失函數或網絡層的步驟是什么？

? ? ? ? ①?PyTorch自定義損失函數

繼承nn.Module，重寫forward方法。

示例代碼：

class DiceLoss(nn.Module):def __init__(self):super().__init__()def forward(self, pred, target):smooth = 1e-6pred = pred.view(-1)target = target.view(-1)intersection = (pred * target).sum()return 1 - (2*intersection + smooth)/(pred.sum() + target.sum() + smooth)

?????????②?TensorFlow自定義損失函數

方法1：函數式定義（簡單場景）

適用于無復雜邏輯的損失函數，直接使用TensorFlow運算。

import tensorflow as tfdef custom_mse_loss(y_true, y_pred):"""自定義均方誤差損失，對高誤差樣本加權"""error = y_true - y_pred# 對誤差絕對值大于1的樣本賦予2倍權重weights = tf.where(tf.abs(error) > 1.0, 2.0, 1.0)return tf.reduce_mean(weights * tf.square(error))# 使用示例
model.compile(optimizer='adam', loss=custom_mse_loss)

方法2：繼承tf.keras.losses.Loss類（推薦）

需處理樣本加權、多任務損失等復雜場景時使用。

class FocalLoss(tf.keras.losses.Loss):def __init__(self, alpha=0.25, gamma=2.0, name="focal_loss"):super().__init__(name=name)self.alpha = alphaself.gamma = gammadef call(self, y_true, y_pred):# 計算交叉熵ce = tf.nn.sigmoid_cross_entropy_with_logits(labels=y_true, logits=y_pred)# 計算概率值p = tf.sigmoid(y_pred)# 計算調制因子modulating_factor = (1.0 - p)**self.gamma * y_true + p**self.gamma * (1.0 - y_true)# 組合損失loss = self.alpha * modulating_factor * cereturn tf.reduce_mean(loss)# 使用示例
model.compile(optimizer='adam', loss=FocalLoss(alpha=0.25, gamma=2))