深度學習：簡介與任務分類總覽

一、什么是深度學習？

1.1 深度學習的定義

深度學習（Deep Learning）是機器學習的一種特殊形式，它依賴于具有多層結構的神經網絡自動從數據中學習特征并完成任務，如圖像識別，語音識別，自然語言處理等。

深度學習常常被認為是“端到端學習”的典范：從原始數據輸入（如圖像像素，音頻波形，文本）直接學習到最終輸出（分類，生成，預測等）。

1.2深度學習與傳統機器學習對比

維度	傳統機器學習	深度學習
特征提取	人工設計（如顏色直方圖，詞袋模型）	自動學習特征
模型結構	淺層（SVM，決策樹，KNN）	多層神經網絡（DNN，CNN，Transformer）
表達能力	有限	強大，可逼近任意非線性函數
依賴數據量	少量數據即可訓練	通常需要大規模數據
計算資源	普通CPU即可運行	通常需要GPU，TPU
應用場景	小規模結構化數據	圖像，視頻，文本，音頻，大模型等

二、深度學習的核心組成模塊（以神經網絡為例）

2.1 網絡基本結構

組成部分	功能	示例
輸入層	接收原始數據（如圖像，音頻，文本）	224*224圖像，長度為128的句子
隱藏層（隱藏單元）	提取高階特征（可多個）	卷積層，全連接層，注意力層
輸出層	給出最終預測（分類，數值，掩碼等）	softmax輸出10類，回歸數值等

2.2 核心機制解釋

激活函數：使網絡具備非線性表達能力（ReLU，Sigmoid，Tanh）
損失函數：衡量預測結果與真實值差距（交叉熵，均方誤差MSE）
反向傳播算法：根據損失計算梯度，用于參數更新
優化器：控制參數更新方式（SGD，Adam，RMSprop）

1.激活函數（Activation Function）

定義：

激活函數是作用在神經網絡每個神經元輸出上的非線性變換，使網絡具備擬合復雜非線性關系的能力。

為什么需要激活函數？

若無激活函數（線性網絡），無論堆疊多少層，其最終還是線性函數，無法學習復雜模型。
引入激活函數后，網絡可以逼近任意非線性函數。

常見的激活函數：

名稱	表達式	特點	常用場景
Sigmoid	$\sigma \left ( x \right )=\frac{1}{1+e^{-x}}$	輸出范圍 (0,1)，常用于概率	二分類輸出層
Tanh	$tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$	輸出范圍 (-1,1)，中心對稱	隱藏層早期模型
ReLU	$f(x) = max(0,x)$	稀疏激活，計算快，收斂快	最常用，CNN/RNN等隱藏層
Leaky ReLU	$f(x) = max(\alpha x,x)$	緩解ReLU“死亡”問題	深層網絡或小批量訓練
Softmax	$Softmax(x_{i})=\frac{e^{x_{i}}}{\sum_{j}^{e^{x_{j}}}}$	輸出為概率分布	多分類輸出層

注意事項：

隱藏層通用ReLU(或其變體)
輸出層根據任務選擇：二分類用Sigmoid，多分類用Softmax，回歸無激活或用線性

2.損失函數（Loss Function）

定義：損失函數用來衡量模型預測結果與真實標簽之間的差距，是訓練過程中優化的目標函數。

常見損失函數：?

類型	損失函數	表達式/作用	使用場景
分類	交叉熵（Cross Entropy）	$L=-\sum ylog(\hat{y})$	分類任務（Softmax/Sigmoid后）
回歸	均方誤差（MSE）	$L=\frac{1}{n}\sum (\hat{y}-y)^{2}$	連續值預測
回歸	平均絕對誤差（MAE）	$L=\frac{1}{n}\sum_{i=1}^{n}\|\hat{y_i}-y_i\|$	對異常值魯棒的回歸任務
多標簽	BCE（Binary Cross Entropy）	針對多個二分類	圖像多標簽分類
自監督	對比損失（Contrastive/InfoNCE）	拉近正樣本，推遠負樣本	SimCLR，CLIP，Siamese網絡
分割	Dice Loss/IoU Loss	關注區域重疊率	語義/實例分割任務

注意事項：

分類任務常用交叉熵（與Softmax配套）
回歸任務慎選損失，MSE對異常值敏感
分割任務要考慮類別不平衡，形狀連續性

3.反向傳播算法（Backpropagation）

定義：

反向傳播是一種高效計算神經網絡中每個參數對損失函數梯度的方法，是深度學習模型的核心算法。

工作原理：

1.前向傳播（Forward）：輸入從輸入層到輸出層，得到預測結果。
2.損失計算（Loss）：預測與真實標簽對比，計算損失。
3.反向傳播（Backward）：利用鏈式法則，從輸出層向前逐層計算梯度。
4.梯度更新：結合優化器更新模型參數。

數學基礎：

利用鏈式法則計算損失對每層參數的偏導數

示例：若 $L=f(g(x))$ ?，則 $\frac{dL}{dx}={f}'(g(x))\cdot {g}'(x)$

注意事項：

會出現梯度爆炸（值過大）或梯度消失（值趨近于0）的問題，尤其在深層網絡中
為此需要使用梯度裁剪，BatchNorm，合適激活函數等技術

4.優化器（Optimizer）

定義：

優化器根據反向傳播得到的梯度來更新神經網絡的參數，使得損失函數逐步下降。

常見優化器：

名稱	原理簡述	優點	缺點	備注
SGD	基礎的梯度下降算法	簡單，易實現	收斂慢，易陷局部最小	可配合動量Momentum
SGD+Momentum	引入“慣性”概念	穩定收斂能跳出局部極小	參數調節復雜	Momentum 一般設為0.9
RMSProp	自動調整每個參數學習率	對稀疏數據友好	參數更新難以解釋	常用于RNN
Adam	自適應學習率+動量	收斂快，調參少	收斂精度有時候不穩定	當前最主流
AdamW	Adam+正確的權重衰減	收斂更穩，防止過擬合	參數略多	常用于Transfromer訓練
Adagrad/Adadelta	早期自適應優化器	對稀疏特征友好	會停止更新	現已經較少使用

學習率（Learning Rate）調節技巧：

可使用學習率衰減策略（如StepDecay，CosineAnnealing）
學習率過高可能發散，過低收斂慢
可用Warmup技術逐步升高學習率，適用于大模型（如BERT）?

?核心機制之間的配合邏輯總結圖：

          數據輸入↓前向傳播（激活函數）↓損失函數計算↓反向傳播算法（鏈式法則）↓優化器根據梯度更新參數↓網絡更新 → 下一輪訓練

三、常見深度學習任務分類總覽表

類別	任務名稱	輸入	輸出	典型模型	特點
1.分類任務	圖像分類，文本分類	圖像/文本	類別標簽	CNN,RNN, Transformer	多為監督學習，關注特征提取與決策邊界
2.回歸任務	股票預測、房價預測	數值型數據	連續數值	MLP、RNN、 LSTM	輸出為實數，誤差評估常用MSE等
3.目標檢測	YOLO、 Faster R-CNN	圖像	目標類別+ 位置信息	CNN +?Region Proposal	輸出包含類別和框，評估指標為mAP
4.語義分割	UNet，DeepLab	圖像	像素級類別標簽圖	FCN，UNet	精細化像素預測，每個像素有標簽
5.實例分割	Mask R-CNN	圖像	每個實例的掩碼	檢測 + 分割網絡	識別不同目標實例，難度更高
6.圖像生成	GAN，VAE	隨機噪聲/圖像	圖像	GAN，Diffusion，VAE	生成式模型，關注圖像逼真度
7.序列建模	機器翻譯，語音識別	序列（文本/音頻）	序列	RNN，LSTM，Transformer	輸入輸出長度可能不同，注意時序關系
8.強化學習	AlphaGo、智能體控制	狀態，獎勵	行動策略	DQN，PPO，A3C	決策導向，目標是最大化累計獎勵
9.多模態任務	圖文檢索，VQA	圖像+文本	回答/標簽/圖文匹配	CLIP，BLIP，Flamingo	融合多個模態的信息，需對齊特征空間
10.自監督學習	SimCLR，MAE	無標簽數據	表征或預測結果	對比學習。自編碼學習	訓練無需標簽，通過任務設計學習表示
11.多標簽分類	疾病診斷、圖像標注	圖像/文本	多個標簽集合	CNN/Transformer	每個樣本可對應多個標簽，非互斥
12.檢索與排序	文本檢索、圖像檢索	查詢+數據集	排序列表	Siamese Net， BERT + Ranking	關注匹配程度，輸出為排序或相似度
13.時間序列預測	股票預測，交通流量	歷史數據	未來值	LSTM，TCN	強時序相關
14.文本生成	ChatGPT，BERT	文本	文本	Transformer，GPT	聊天機器人，摘要生成