Transformer 架構的演進與未來方向（RNN → Self-Attention → Mamba）—

Transformer 架構的演進與未來方向（RNN → Self-Attention → Mamba）——李宏毅大模型2025第四講筆記

一句話總結——“所有架構都為了解決上一代模型的致命缺陷而生：CNN 解決參數爆炸，ResNet 解決梯度消失，Transformer 解決 RNN 無法并行，而 Mamba 則試圖一次解決 Transformer 的 O(N2) 與 RNN 的記憶瓶頸。”

1 每種架構的存在理由

? CNN：局部感受野＋參數共享→圖像任務參數量驟降，避免過擬合。
? Residual：跳躍連接→平滑損失曲面，讓深層網絡可訓練。
? Transformer：用 Self-Attention 替代 RNN，實現訓練期并行化。

2 從 RNN 到 Transformer：為什么改朝換代

1）RNN 的痛點
– 順序計算：時間步 t 必須等 t-1，訓練無法并行。
– 記憶有限：隱狀態維度固定，長序列信息丟失。
2）Self-Attention 的賣點
– 并行：所有位置一次性計算，GPU 友好。
– 長程依賴：任意兩位置直接相連，信息無損。
代價：推理時 O(N2) 計算/顯存隨長度爆炸。

self-attention: 并行，一次性給出輸出

3 繞不過去的 O(N2)：Linear Attention

Linear Attention就是沒有softmax的Self-attention

把 softmax(QK^T)V 拆成 (Q(K^T V))，復雜度降到 O(N)。
訓練并行，推理像 RNN：一路累加 KV 狀態即可。
問題：無 softmax 的“歸一化”→記憶權重永不更新，長序列“記憶錯亂”。

4 “可遺忘”的線性注意力 → RetNet / Gated Retention / DeltaNet

在線性注意力外再加“遺忘門”或“衰減因子”，讓舊記憶逐漸淡出；效果逼近 Transformer，推理仍是 RNN 形式。

5 新架構候選：Mamba（及其朋友）

核心創新

選擇性狀態空間模型（Selective SSM）：讓 B,C,Δ 隨輸入動態變化，實現“內容感知”的讀寫與遺忘。
硬件感知并行算法：掃描（Scan）+ Kernel Fusion，在 GPU 上實現訓練期并行、推理期恒定顯存。
結果：
– 訓練并行度 ≈ Transformer
– 推理 O(N) 計算 + O(1) 顯存
– 在 1B-7B 規模已追平或超越同尺寸 Transformer（如下圖）

6 課程彩蛋 & 延伸

? “MambaOut：視覺任務真需要 Mamba 嗎？”——論文結論：不一定。
? “Do not train from scratch”——把現成 Llama 權重蒸餾進 Mamba，節省算力。
? 最新競技場：Minimax-01、Titans 等繼續探索“測試時記憶”與混合架構。
??一個賭局：到2027年1月，transformer的架構還會是最佳模型的架構嗎？

給工程師的 3 句 memo

Transformer 仍是通用王者，但長序列場景（語音、視頻、RAG）先看 Mamba 類模型。
訓練期并行 + 推理期 O(1) 顯存是終極賣點，適合邊緣部署。
暫時不要從零訓 Mamba；先用 LoLCATs、Linger 等蒸餾方案“白嫖”現成權重。

--------疊甲--------

本篇課程博主也聽得一知半解，如有記得不對的地方歡迎指正

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/98178.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/98178.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/98178.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！