深度學習-分類方式
- (重點)一、按數據類型與處理邏輯分類
- 1. 序列數據(時序/順序相關)
- 2. 網格狀數據(空間相關)
- 3. 圖結構數據(非歐幾里得結構)
- 4. 其他特殊類型數據
- (重點)二、按模型功能與應用場景分類
- 1. 判別模型(分類/回歸)
- 2. 生成模型
- 3. 強化學習模型
- 4. 無監督/自監督模型
- 三、按網絡結構與核心機制分類
- 1. 基于卷積的架構
- 2. 基于循環的架構
- 3. 基于自注意力的架構
- 4. 基于膠囊的架構
- 四、按網絡規模與訓練方式分類
- 1. 小型輕量級模型
- 2. 大型預訓練模型(大模型)
- 3. 分布式訓練模型
- (重點)五、按任務類型分類
- 1. 計算機視覺(CV)模型
- 2. 自然語言處理(NLP)模型
- 3. 語音處理模型
- 4. 跨領域模型
- 六、總結:分類維度的交叉與融合
深度學習架構
├── 序列建模架構
│ ├── 基礎RNN
│ ├── 改進型RNN(LSTM、GRU、Bi-RNN)
│ └── 自注意力模型(Transformer)
├── 空間特征架構(CNN及變種)
├── 圖結構架構(GNN)
├── 生成模型(GAN、VAE、擴散模型)
└── 強化學習架構(DQN、Actor-Critic)
-
RNN是序列建模的核心基礎,LSTM/GRU等是其優化版本,而Transformer則是序列建模的革命性突破(通過自注意力機制替代循環結構)
-
在深度學習領域,按數據類型與處理邏輯分類是最常見、最基礎的分類方式之一,因為它直接關聯數據的固有特性和模型的核心設計邏輯,也是初學者入門時最先接觸的分類框架。
(重點)一、按數據類型與處理邏輯分類
1. 序列數據(時序/順序相關)
-
特點:數據元素之間存在時間或順序依賴(如文本、語音、股票價格)。
-
代表模型:
-
- 循環神經網絡(RNN):基礎RNN、LSTM、GRU、Bi-RNN。
- 自注意力模型:Transformer及其變體(BERT、GPT、T5等)。
- 時序卷積網絡(TCN):用一維卷積處理序列數據,避免RNN的循環計算瓶頸。
2. 網格狀數據(空間相關)
-
特點:數據具有二維(圖像)或三維(視頻、體素)空間結構。
-
代表模型:
-
- 卷積神經網絡(CNN):LeNet、AlexNet、ResNet、U-Net。
- 視覺Transformer(ViT):將圖像分塊后用自注意力機制處理。
- 三維卷積網絡(3D CNN):用于視頻動作識別或醫學影像分析。
3. 圖結構數據(非歐幾里得結構)
-
特點:數據由節點和邊組成(如社交網絡、分子結構、知識圖譜)。
-
代表模型:
-
- 圖神經網絡(GNN):GCN(圖卷積網絡)、GAT(圖注意力網絡)、GraphSAGE。
- 圖循環神經網絡(GRNN):結合RNN和圖結構的時序建模。
4. 其他特殊類型數據
- 圖序列數據:如交通網絡的時序流量數據(需同時建模空間圖結構和時間序列),可使用時空圖神經網絡(ST-GNN)。
- 多模態數據:融合圖像、文本、語音等多種類型數據,如CLIP(圖像-文本跨模態模型)、AudioGPT(語音-文本模型)。
(重點)二、按模型功能與應用場景分類
領域 | 判別式 AI(深度學習應用) | 生成式 AI(深度學習應用) |
---|---|---|
自然語言處理 | 文本分類(BERT)、語音識別(RNN) | 文本生成(GPT)、機器翻譯(Transformer) |
計算機視覺 | 目標檢測(YOLO)、人臉識別(CNN) | 圖像生成(Diffusion 模型)、視頻預測 |
醫療領域 | 癌癥病理圖像分類(CNN) | 醫學影像合成(VAE)、藥物分子設計(GAN) |
自動駕駛 | 路況識別(CNN+RNN) | 虛擬場景生成(模擬復雜路況,訓練自動駕駛模型) |
1. 判別模型(分類/回歸)
-
目標:對輸入數據進行分類或預測連續值。
-
代表模型:
-
- 圖像分類:ResNet、EfficientNet。
- 文本分類:TextCNN、FastText。
- 回歸任務:基于CNN的圖像超分辨率模型、基于RNN的時序預測模型。
2. 生成模型
-
目標:生成新的樣本數據(如圖像、文本、語音)。
-
代表模型:
-
- 圖像生成:GAN(如StyleGAN)、擴散模型(如Stable Diffusion)。
- 文本生成:GPT系列、LLaMA、PaLM。
- 語音生成:WaveNet、Tacotron(語音合成)。
3. 強化學習模型
-
目標:通過與環境交互學習最優行為策略。
-
代表模型:
-
- Atari游戲AI:DQN(深度Q網絡)、Rainbow DQN。
- 機器人控制:PPO(近端策略優化)、SAC(軟演員-評論家算法)。
- 棋類游戲:AlphaGo(CNN+蒙特卡洛樹搜索)、AlphaZero(純神經網絡+強化學習)。
4. 無監督/自監督模型
-
目標:從無標簽數據中學習特征表示。
-
代表模型:
-
- 圖像特征學習:SimCLR(對比學習)、MoCo(動量對比)。
- 文本預訓練:BERT(掩碼語言模型)、GPT(自回歸語言模型)。
- 聚類模型:DeepCluster、DEC(深度嵌入聚類)。
三、按網絡結構與核心機制分類
1. 基于卷積的架構
- 核心操作:卷積層(局部特征提取)+ 池化層(降維)。
- 應用場景:圖像、音頻等網格狀數據。
- 變種:空洞卷積、可變形卷積、分組卷積(如ResNeXt)。
2. 基于循環的架構
- 核心操作:隱藏層狀態循環傳遞,捕捉序列依賴。
- 應用場景:文本、語音等序列數據。
- 變種:LSTM、GRU、雙向RNN。
3. 基于自注意力的架構
- 核心操作:自注意力機制(全局依賴建模)。
- 應用場景:序列數據(NLP)、圖像/視頻(CV)。
- 代表模型:Transformer、ViT、Swin Transformer。
4. 基于膠囊的架構
- 核心思想:用“膠囊”(向量神經元)替代傳統標量神經元,建模實體的姿態、位置等空間關系。
- 代表模型:CapsNet(膠囊網絡),用于圖像識別中的姿態不變性建模。
四、按網絡規模與訓練方式分類
1. 小型輕量級模型
- 特點:參數量少、計算效率高,適合邊緣設備或實時應用。
- 代表模型:MobileNet(深度可分離卷積)、ShuffleNet(通道洗牌降參)、TinyBERT(模型蒸餾)。
2. 大型預訓練模型(大模型)
-
特點:參數量巨大(數十億到萬億級),在海量數據上預訓練后微調。
-
代表模型:
-
- NLP:GPT-4(1.8萬億參數)、PaLM 2、LLaMA 2。
- CV:Swin Transformer V2、CLIP(40億參數)。
- 多模態:GPT-4V(視覺-語言)、Gemini(文本-圖像-語音)。
3. 分布式訓練模型
- 特點:單卡無法容納模型參數,需通過數據并行、模型并行、流水線并行等方式分布式訓練。
- 技術挑戰:通信開銷、負載均衡、梯度同步(如DeepSpeed、Megatron-LM框架)。
(重點)五、按任務類型分類
1. 計算機視覺(CV)模型
- 圖像分類、目標檢測、語義分割、圖像生成、視頻理解等。
- 代表模型:YOLO(目標檢測)、Mask R-CNN(實例分割)、Stable Diffusion(圖像生成)。
2. 自然語言處理(NLP)模型
- 文本分類、機器翻譯、問答系統、文本生成等。
- 代表模型:BERT(雙向編碼)、GPT(自回歸生成)、T5(文本到文本遷移學習)。
3. 語音處理模型
- 語音識別(ASR)、語音合成(TTS)、語音情感分析等。
- 代表模型:DeepSpeech(語音轉文字)、Tacotron 2(文字轉語音)。
4. 跨領域模型
- 多模態任務(如圖文檢索、視頻描述生成),如ALBEF(視覺-語言預訓練)、Flamingo(視頻-語言模型)。
六、總結:分類維度的交叉與融合
實際應用中,模型可能屬于多個分類維度的交叉領域,例如:
- Transformer:既屬于“序列建模架構”(按數據類型),又屬于“基于自注意力的架構”(按核心機制),還可用于“生成模型”(如GPT)或“判別模型”(如BERT)。
- ViT:屬于“網格狀數據架構”(處理圖像),但核心機制是自注意力,而非卷積。
這種多維分類方式體現了深度學習領域的靈活性和跨領域特性,不同維度的分類幫助研究者和工程師從數據特性、任務目標、技術原理等角度選擇或設計合適的模型。