目錄
???????? 📂 深度學習四大核心架構
🌰 知識點概述
🧠 核心區別對比表
? 生活化案例理解
🔑 選型指南
📂 深度學習四大核心架構
第一篇: 神經網絡基礎(NN)
🌰 知識點概述
🧠 核心區別對比表
特性 | NN(全連接網絡) | CNN(卷積網絡) | RNN(循環網絡) | Transformer |
---|---|---|---|---|
輸入類型 | 固定長度的結構化數據(如表格) | 網格狀數據(圖像/音頻) | 時序數據(文本/時間序列) | 長序列數據(文本/語音) |
核心結構 | 全連接層 | 卷積層 + 池化層 | 循環單元(LSTM/GRU) | 自注意力機制 + 位置編碼 |
參數共享 | ? 無 | ? 卷積核共享(空間局部性) | ? 循環權重共享(時序共享) | ? 注意力權重動態分配 |
時序依賴處理 | ? 忽略時序關系 | ? 僅局部空間關系 | ? 順序處理(短期記憶依賴) | ? 全局依賴(并行計算) |
典型應用 | 房價預測/簡單分類 | 圖像分類/目標檢測 | 文本生成/股票預測 | 機器翻譯/文本摘要(如BERT) |
訓練效率 | 低效(參數爆炸) | 高效(參數共享) | 低效(順序計算) | 高效(并行計算)但內存消耗大 |
長序列處理 | ? 不支持 | ? 不支持 | ? 梯度消失/遺忘早期信息 | ? 自注意力直接關聯任意位置 |
關鍵創新 | 基礎神經元模型 | 局部感知/權重共享 | 時間步狀態傳遞 | 多頭注意力 + 位置編碼 |
? 生活化案例理解
-
NN
→ 類比:盲人摸象,每個神經元獨立感知全局特征
→ 局限:輸入圖像需展平為向量,丟失空間信息(如將28x28圖片變成784維向量) -
CNN
→ 類比:人類視覺系統,先識別邊緣→形狀→物體
→ 實戰:用3x3卷積核掃描貓的圖片,提取耳朵、胡須等局部特征 -
RNN
→ 類比:閱讀理解,需記住前文才能理解后文
→ 痛點:輸入句子“The cat sat on the mat”,到第6個單詞時可能已遺忘“cat” -
Transformer
→ 類比:團隊協作,每個單詞直接關注全局上下文
→ 優勢:處理句子“I arrived at the bank after crossing the river”時,“bank”可同時關注“river”(消除歧義)
🔑 選型指南
場景 | 推薦模型 | 理由 |
---|---|---|
表格數據分類/回歸 | NN | 結構簡單,無需復雜特征提取 |
圖像識別/目標檢測 | CNN | 高效捕捉空間局部特征 |
短文本生成/時間序列預測 | RNN(LSTM/GRU) | 處理簡單時序依賴 |
長文本翻譯/文檔摘要 | Transformer | 捕捉長距離依賴,并行計算高效 |
多模態數據(如圖文匹配) | Transformer+CNN | 聯合處理文本和圖像特征 |