一、什么是深度學習?
1.1 深度學習的定義
深度學習(Deep Learning)是機器學習的一種特殊形式,它依賴于具有多層結構的神經網絡自動從數據中學習特征并完成任務,如圖像識別,語音識別,自然語言處理等。
深度學習常常被認為是“端到端學習”的典范:從原始數據輸入(如圖像像素,音頻波形,文本)直接學習到最終輸出(分類,生成,預測等)。
1.2深度學習與傳統機器學習對比
維度 | 傳統機器學習 | 深度學習 |
特征提取 | 人工設計(如顏色直方圖,詞袋模型) | 自動學習特征 |
模型結構 | 淺層(SVM,決策樹,KNN) | 多層神經網絡(DNN,CNN,Transformer) |
表達能力 | 有限 | 強大,可逼近任意非線性函數 |
依賴數據量 | 少量數據即可訓練 | 通常需要大規模數據 |
計算資源 | 普通CPU即可運行 | 通常需要GPU,TPU |
應用場景 | 小規模結構化數據 | 圖像,視頻,文本,音頻,大模型等 |
二、深度學習的核心組成模塊(以神經網絡為例)
2.1 網絡基本結構
組成部分 | 功能 | 示例 |
輸入層 | 接收原始數據(如圖像,音頻,文本) | 224*224圖像,長度為128的句子 |
隱藏層(隱藏單元) | 提取高階特征(可多個) | 卷積層,全連接層,注意力層 |
輸出層 | 給出最終預測(分類,數值,掩碼等) | softmax輸出10類,回歸數值等 |
2.2 核心機制解釋
- 激活函數:使網絡具備非線性表達能力(ReLU,Sigmoid,Tanh)
- 損失函數:衡量預測結果與真實值差距(交叉熵,均方誤差MSE)
- 反向傳播算法:根據損失計算梯度,用于參數更新
- 優化器:控制參數更新方式(SGD,Adam,RMSprop)
1.激活函數(Activation Function)
定義:
激活函數是作用在神經網絡每個神經元輸出上的非線性變換,使網絡具備擬合復雜非線性關系的能力。
為什么需要激活函數?
- 若無激活函數(線性網絡),無論堆疊多少層,其最終還是線性函數,無法學習復雜模型。
- 引入激活函數后,網絡可以逼近任意非線性函數。
常見的激活函數 :
名稱 | 表達式 | 特點 | 常用場景 |
---|---|---|---|
Sigmoid | 輸出范圍 (0,1),常用于概率 | 二分類輸出層 | |
Tanh | 輸出范圍 (-1,1),中心對稱 | 隱藏層早期模型 | |
ReLU | 稀疏激活,計算快,收斂快 | 最常用,CNN/RNN等隱藏層 | |
Leaky ReLU | 緩解ReLU“死亡”問題 | 深層網絡或小批量訓練 | |
Softmax | 輸出為概率分布 | 多分類輸出層 |
注意事項:
- 隱藏層通用ReLU(或其變體)
- 輸出層根據任務選擇:二分類用Sigmoid,多分類用Softmax,回歸無激活或用線性
2.損失函數(Loss Function)
定義:損失函數用來衡量模型預測結果與真實標簽之間的差距,是訓練過程中優化的目標函數。
常見損失函數:?
類型 | 損失函數 | 表達式/作用 | 使用場景 |
分類 | 交叉熵(Cross Entropy) | 分類任務(Softmax/Sigmoid后) | |
回歸 | 均方誤差(MSE) | 連續值預測 | |
回歸 | 平均絕對誤差(MAE) | 對異常值魯棒的回歸任務 | |
多標簽 | BCE(Binary Cross Entropy) | 針對多個二分類 | 圖像多標簽分類 |
自監督 | 對比損失(Contrastive/InfoNCE) | 拉近正樣本,推遠負樣本 | SimCLR,CLIP,Siamese網絡 |
分割 | Dice Loss/IoU Loss | 關注區域重疊率 | 語義/實例分割任務 |
注意事項:
- 分類任務常用交叉熵(與Softmax配套)
- 回歸任務慎選損失,MSE對異常值敏感
- 分割任務要考慮類別不平衡,形狀連續性
?
3.反向傳播算法(Backpropagation)
定義:
反向傳播是一種高效計算神經網絡中每個參數對損失函數梯度的方法,是深度學習模型的核心算法。
工作原理:
- 1.前向傳播(Forward):輸入從輸入層到輸出層,得到預測結果。
- 2.損失計算(Loss):預測與真實標簽對比,計算損失。
- 3.反向傳播(Backward):利用鏈式法則,從輸出層向前逐層計算梯度。
- 4.梯度更新:結合優化器更新模型參數。
數學基礎:
利用鏈式法則計算損失對每層參數的偏導數
示例:若?,則
注意事項:
- 會出現梯度爆炸(值過大)或梯度消失(值趨近于0)的問題,尤其在深層網絡中
- 為此需要使用梯度裁剪,BatchNorm,合適激活函數等技術
4.優化器(Optimizer)
定義:
優化器根據反向傳播得到的梯度來更新神經網絡的參數,使得損失函數逐步下降。
常見優化器:
名稱 | 原理簡述 | 優點 | 缺點 | 備注 |
SGD | 基礎的梯度下降算法 | 簡單,易實現 | 收斂慢,易陷局部最小 | 可配合動量Momentum |
SGD+Momentum | 引入“慣性”概念 | 穩定收斂 能跳出局部極小 | 參數調節復雜 | Momentum 一般設為0.9 |
RMSProp | 自動調整每個參數學習率 | 對稀疏數據友好 | 參數更新難以解釋 | 常用于RNN |
Adam | 自適應學習率+動量 | 收斂快,調參少 | 收斂精度有時候不穩定 | 當前最主流 |
AdamW | Adam+正確的權重衰減 | 收斂更穩,防止過擬合 | 參數略多 | 常用于Transfromer訓練 |
Adagrad/Adadelta | 早期自適應優化器 | 對稀疏特征友好 | 會停止更新 | 現已經較少使用 |
學習率(Learning Rate)調節技巧:
- 可使用學習率衰減策略(如StepDecay,CosineAnnealing)
- 學習率過高可能發散,過低收斂慢
- 可用Warmup技術逐步升高學習率,適用于大模型(如BERT)?
?
?核心機制之間的配合邏輯總結圖:
數據輸入↓前向傳播(激活函數)↓損失函數計算↓反向傳播算法(鏈式法則)↓優化器根據梯度更新參數↓網絡更新 → 下一輪訓練
三、常見深度學習任務分類總覽表
類別 | 任務名稱 | 輸入 | 輸出 | 典型模型 | 特點 |
1.分類任務 | 圖像分類, 文本分類 | 圖像/文本 | 類別標簽 | CNN,RNN, Transformer | 多為監督學習, 關注特征提取與決策邊界 |
2.回歸任務 | 股票預測、 房價預測 | 數值型數據 | 連續數值 | MLP、RNN、 LSTM | 輸出為實數, 誤差評估常用MSE等 |
3.目標檢測 | YOLO、 Faster R-CNN | 圖像 | 目標類別+ 位置信息 | CNN +?Region Proposal | 輸出包含類別和框, 評估指標為mAP |
4.語義分割 | UNet,DeepLab | 圖像 | 像素級 類別標簽圖 | FCN,UNet | 精細化像素預測, 每個像素有標簽 |
5.實例分割 | Mask R-CNN | 圖像 | 每個實例的掩碼 | 檢測 + 分割網絡 | 識別不同目標實例,難度更高 |
6.圖像生成 | GAN,VAE | 隨機噪聲/圖像 | 圖像 | GAN,Diffusion,VAE | 生成式模型,關注圖像逼真度 |
7.序列建模 | 機器翻譯,語音識別 | 序列(文本/音頻) | 序列 | RNN,LSTM,Transformer | 輸入輸出長度可能不同,注意時序關系 |
8.強化學習 | AlphaGo、 智能體控制 | 狀態,獎勵 | 行動策略 | DQN,PPO,A3C | 決策導向,目標是最大化累計獎勵 |
9.多模態任務 | 圖文檢索,VQA | 圖像+文本 | 回答/標簽/圖文匹配 | CLIP,BLIP,Flamingo | 融合多個模態的信息,需對齊特征空間 |
10.自監督學習 | SimCLR,MAE | 無標簽數據 | 表征或預測結果 | 對比學習。自編碼學習 | 訓練無需標簽, 通過任務設計學習表示 |
11.多標簽分類 | 疾病診斷、 圖像標注 | 圖像/文本 | 多個標簽集合 | CNN/Transformer | 每個樣本可對應多個標簽,非互斥 |
12.檢索與排序 | 文本檢索、 圖像檢索 | 查詢+數據集 | 排序列表 | Siamese Net, BERT + Ranking | 關注匹配程度, 輸出為排序或相似度 |
13.時間序列預測 | 股票預測,交通流量 | 歷史數據 | 未來值 | LSTM,TCN | 強時序相關 |
14.文本生成 | ChatGPT,BERT | 文本 | 文本 | Transformer,GPT | 聊天機器人,摘要生成 |
四、各類任務特點簡述
1.分類(Classification)
定義:將輸入分到預定義的類別中
特點:任務簡單,監督標簽明確。廣泛用于圖像識別、文本情感分析,垃圾郵件識別等。
2.回歸(Regression)
定義:根據輸入預測連續數值輸出
特點:輸出實數。常用于房價預測,氣溫預測,股票預測等;常用損失函數為MSE(均方差)
3.目標檢測(Object Detection)
定義:識別圖像中所有物體及其位置(邊界框)
特點:同時完成“分類+定義”任務,適用于安防,自動駕駛等場景;輸出包括類別標簽和坐標信息
4.語義分割(Semantic Segmentation)
定義:對圖像中每個像素賦予語義標簽。
特點:像素級別精細標注;每個像素對應一個語義類別,廣泛用于醫療圖像,遙感圖像分析等。
5.實例分割(Instance Segmentation)
定義:識別圖像中每個物體實例的掩碼與類別。
特點:不僅需要分辨像素類別,還要區分不同個體;結合目標檢測與語義分割。
6.圖像生成(Image Generation)
定義:根據輸入生成新的圖像。
特點:典型的生成式任務,常用GAN,Diffusion模型;輸出為逼真的新圖像,用于AI作畫,圖像修復,風格遷移等。
7.序列建模(Sequence Modeling)
定義:處理序列到序列的輸入輸出映射關系。
特點:輸入到輸出均為變長序列,廣泛用于機器翻譯,語音識別,字幕生成等時許相關任務。
8.強化學習(Reinforcement Learning)
定義:智能體通過與環境交互學習最大化長期獎勵的策略。
特點:無標簽,靠獎勵信號訓練,訓練較慢但適用于決策類問題。
9.多模態任務(Multimodel Learning)
定義:同時處理并融合來自多種模態(如圖像,文本,音頻等)的信息進行預測或生成。
特點:輸入通常為圖+文或視頻+語音等,輸出可以是分類標簽,文本回答或圖像;任務涉及模態對齊,跨模態生成,應用于圖文回答,跨模態檢索等。
10.自監督學習(Self-supervised Learning)
定義:從未標注數據中通過構造任務進行表示學習最大化長期獎勵的策略。
特點:不依賴人工標簽,通過數據自身生成監督信號(如BERT的遮蔽預測);適合大規模預訓練,如SimCLR,MAE等。
11.多標簽分類(Multi-label Classification)
定義:一個輸入對應多個非互斥的標簽
特點:適用于同時具有多個屬性的對象
12.檢索與排序(Retrieval and Ranking)
定義:根據查詢樣本從候選集合中找出最匹配項并排序。
特點:輸出為排序結果或相似度分值;廣泛用于搜索系統,推薦系統,圖文匹配等。
13.時間序列預測(Time Series Forecasting)
定義:基于歷史序列數據,預測未來時刻的值。
特點:具有時間依賴性和周期性,廣泛應用于金融市場,交通流量,銷售趨勢等;輸出為未來的數值序列或單點預測。
14.文本生成(Text Generation)
定義:基于輸入生成新的文本序列。
特點:輸出內容連貫,有邏輯;應用于對話生成,摘要生成,代碼自動補全等,常用GPT,T5等語言模型。