Transformer 架構的演進與未來方向(RNN → Self-Attention → Mamba)——李宏毅大模型2025第四講筆記

一句話總結——“所有架構都為了解決上一代模型的致命缺陷而生:CNN 解決參數爆炸,ResNet 解決梯度消失,Transformer 解決 RNN 無法并行,而 Mamba 則試圖一次解決 Transformer 的 O(N2) 與 RNN 的記憶瓶頸。”

1 每種架構的存在理由

? CNN:局部感受野+參數共享→圖像任務參數量驟降,避免過擬合。
? Residual:跳躍連接→平滑損失曲面,讓深層網絡可訓練。
? Transformer:用 Self-Attention 替代 RNN,實現訓練期并行化。

2 從 RNN 到 Transformer:為什么改朝換代

1)RNN 的痛點
– 順序計算:時間步 t 必須等 t-1,訓練無法并行。
– 記憶有限:隱狀態維度固定,長序列信息丟失。
2)Self-Attention 的賣點
– 并行:所有位置一次性計算,GPU 友好。
– 長程依賴:任意兩位置直接相連,信息無損。
代價:推理時 O(N2) 計算/顯存隨長度爆炸。

self-attention: 并行,一次性給出輸出

3 繞不過去的 O(N2):Linear Attention

Linear Attention就是沒有softmax的Self-attention

把 softmax(QK^T)V 拆成 (Q(K^T V)),復雜度降到 O(N)。
訓練并行,推理像 RNN:一路累加 KV 狀態即可。
問題:無 softmax 的“歸一化”→記憶權重永不更新,長序列“記憶錯亂”。

4 “可遺忘”的線性注意力 → RetNet / Gated Retention / DeltaNet

在線性注意力外再加“遺忘門”或“衰減因子”,讓舊記憶逐漸淡出;效果逼近 Transformer,推理仍是 RNN 形式。

5 新架構候選:Mamba(及其朋友)

核心創新

  1. 選擇性狀態空間模型(Selective SSM):讓 B,C,Δ 隨輸入動態變化,實現“內容感知”的讀寫與遺忘。

  2. 硬件感知并行算法:掃描(Scan)+ Kernel Fusion,在 GPU 上實現訓練期并行、推理期恒定顯存。
    結果:
    – 訓練并行度 ≈ Transformer
    – 推理 O(N) 計算 + O(1) 顯存
    – 在 1B-7B 規模已追平或超越同尺寸 Transformer(如下圖)

6 課程彩蛋 & 延伸

? “MambaOut:視覺任務真需要 Mamba 嗎?”——論文結論:不一定。
? “Do not train from scratch”——把現成 Llama 權重蒸餾進 Mamba,節省算力。
? 最新競技場:Minimax-01、Titans 等繼續探索“測試時記憶”與混合架構。
??一個賭局:到2027年1月,transformer的架構還會是最佳模型的架構嗎?

給工程師的 3 句 memo

  1. Transformer 仍是通用王者,但長序列場景(語音、視頻、RAG)先看 Mamba 類模型。

  2. 訓練期并行 + 推理期 O(1) 顯存是終極賣點,適合邊緣部署。

  3. 暫時不要從零訓 Mamba;先用 LoLCATs、Linger 等蒸餾方案“白嫖”現成權重。

--------疊甲--------

本篇課程博主也聽得一知半解,如有記得不對的地方歡迎指正

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/98178.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/98178.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/98178.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vllm-0.10.1:通過vllm bench serve測試TTFT、TPOT、ITL、E2EL四個指標

一、KVM 虛擬機環境GPU:4張英偉達A6000(48G)內存:128G海光Cpu:128核大模型:DeepSeek-R1-Distill-Qwen-32B推理框架Vllm:0.10.1二、四個性能指標介紹2.1、TTFT:Time to First token首次生成token時間(ms),TTFT 越短,用戶…

邏輯回歸基礎

昨天一直在復盤梯度下降,都沒咋預習邏輯回歸,好在不是很難,來捋捋邏輯回歸簡介邏輯回歸是解決分類問題數學基礎-sigmoid函數還要回顧一下概率論極大似然估計再來看一下對數邏輯回歸原理邏輯回歸的損失函數例子:分類問題評估混淆矩…

STM32----W25QXX

W25QXX款圖W25QXX存儲解讀塊--->扇-->頁塊分成128塊一塊64kb一塊分成16扇一扇4kb一個扇區分成16頁,頁的大小是256個字節 當數據傳入W25QXX最小的擦除單元是扇區當已經輸入了一頁的數據,這時RAM的數據會轉存進FLASH,這時會置一個標志位&…

【Kafka】Kafka使用場景用例Kafka用例圖

【Kafka】Kafka使用場景用例&Kafka用例圖一、Kafka用例總圖二、Kafka用例圖示三、Kafka場景案例圖一、Kafka用例總圖 二、Kafka用例圖示 三、Kafka場景案例圖 注:以上圖片來源于網絡,如有不妥請私信刪除!

Altium Designer(AD24)集成開發環境簡介

??《專欄目錄》 目錄 1,概述 2,界面介紹 2,搜索功能簡介 1,概述 Altium Designer 24的原理圖,PCB等設計工作都是在集成開發環境中進行的,本文簡單介紹集成開發環境界面。 2,界面介紹 如下圖所示,Altium Designer 24的集成開發環境,包括: 標題欄:目前設計中文件的…

[論文閱讀] 軟件工程 | 告別“線程安全玄學”:基于JMM的Java類靜態分析,CodeQL3分鐘掃遍GitHub千倉錯誤

告別“線程安全玄學”:基于JMM的Java類靜態分析,CodeQL3分鐘掃遍GitHub千倉錯誤 論文信息類別詳情論文原標題Scalable Thread-Safety Analysis of Java Classes with CodeQL主要作者及機構1. Bjrnar Haugstad Jatten(哥本哈根IT大學&#xff…

jQuery.ajax() 方法核心參數詳解

大家好,歡迎來到程序視點!我是你們的老朋友.小二!jQuery.ajax() 方法核心參數詳解基礎參數url類型:String功能:請求地址,默認當前頁地址。type類型:String(get/post為主,…

LCR 175. 計算二叉樹的深度【簡單】

LCR 175. 計算二叉樹的深度【簡單】 題目描述 某公司架構以二叉樹形式記錄,請返回該公司的層級數。 示例 1:輸入:root [1, 2, 2, 3, null, null, 5, 4, null, null, 4] 輸出: 4 解釋: 上面示例中的二叉樹的最大深度是 4,沿著路…

AI驅動健康升級:新零售企業從“賣產品”到“賣健康”的轉型路徑

隨著健康意識的不斷提升,健康管理增值服務正逐漸成為零售企業的核心競爭力。消費者對“產品服務”的需求激增,企業亟需構建覆蓋健康評估、干預到跟蹤的營養健康管理體系,通過數據化手段提升用戶粘性。在此背景下,AI技術正推動健康…

2025年最新三維WebGIS開發學習路線圖深度解析

地信小白為何學習webgis?我們在后臺經常收到同學們關于地信測繪等專業的吐槽,總結后主要分為以下幾類:第一種吐槽學校理論與實踐脫節的,學校課程偏重理論,缺乏企業級真實項目經驗,導致同學們簡歷空洞、單一…

15-Java-面向對象-標準JavaBean類

文章目錄標準JavaBean類標準JavaBean類 類名需要見名知意成員變量使用private修飾提供至少兩個構造方法 無參構造方法帶全部參數的構造方法 成員方法 提供每一個成員變量對應的setXxx()/getXxx()如果還有其他行為,也需…

AI大模型應用研發工程師面試知識準備目錄

一、大模型核心基礎理論 大模型核心架構:Transformer(Encoder/Decoder結構、自注意力機制、多頭注意力)、GPT系列(Decoder-only)、BERT系列(Encoder-only)的差異與適用場景關鍵技術原理&#xf…

基于單片機汽車防撞系統設計

傳送門 👉👉👉👉單片機作品題目速選一覽表🚀 👉👉👉👉單片機作品題目功能速覽🚀 🔥更多文章戳👉小新單片機-CSDN博客&#x1f68…

《Java線程池面試全解析:從原理到實踐的高頻問題匯總》

線程池作為Java并發編程的核心組件,是面試中的必考知識點。無論是初級開發崗還是資深架構崗,對線程池的理解深度往往能反映候選人的并發編程能力。本文匯總了線程池相關的高頻面試題,并提供清晰、深入的解答,助你輕松應對各類面試…

波特率vs比特率

一、核心定義1. 波特率(Baud Rate)定義:單位時間內傳輸的 “信號符號(Symbol)” 數量,單位為 “波特(Baud)”。這里的 “符號” 是通信中的基本信號單元,指信號在物理層的…

AI 生成式藝術重塑動漫角色創作:從技術邏輯到多元可能性(一)

當《蜘蛛俠:縱橫宇宙》中風格迥異的角色群像驚艷銀幕,當《鬼滅之刃》的 “柱” 系列角色憑借鮮明人設圈粉無數,動漫角色早已超越 “故事載體” 的屬性,成為承載世界觀、傳遞情感的核心符號。傳統動漫角色創作往往依賴團隊數月甚至…

npm install 報錯問題解決 npm install --ignore-scripts

為避免惡意依賴包中的病毒,推薦使用npm命令時添加–ignore-scripts參數,以禁用第三方依賴包的預安裝或安裝后腳本。然而,某些依賴包需這些腳本才能正常工作。# 原 報錯 npm install # 改為 npm install --ignore-scripts我遇到的以下2種報錯都…

四個關于云屬性的四個衛星數據集的介紹

一、前言 Himawari-8/9 (AHI)、Meteosat (SEVIRI)、GOES (ABI)、CLAAS-3,四個數據集/傳感器,它們其實都屬于靜止氣象衛星(GEO)云和輻射產品,在降水、云屬性和能量收支研究中應用很廣,AHI(亞太&a…

browser use完整梳理

brower use完整邏輯梳理 browser use的完整一次運行過程 INFO [service] Using anonymized telemetry, see https://docs.browser-use.com/development/telemetry. WARNING [Agent] ?? DeepSeek models do not support use_visionTrue yet. Setting use_visionFalse for…

C/C++ 與 Lua 互相調用詳解

Lua 是一門輕量級、嵌入式的腳本語言,常常與 C/C 結合使用。通過嵌入 Lua,可以讓應用程序獲得靈活的配置、腳本化邏輯和可擴展性。本文將介紹如何在 C/C 調用 Lua 函數,以及如何讓 Lua 調用 C/C 函數。最后給出一個 完整的示例工程&#xff0…