從 GPT 到 LLaMA:解密 LLM 的核心架構——Decoder-Only 模型

🔥從 GPT 到 LLaMA:解密 LLM 的核心架構——Decoder-Only 模型

“為什么所有大模型(LLM)都長一個樣?”
因為它們都有一個共同的“基因”——Decoder-Only 架構

在前面兩節中,我們學習了:

  • BERT:Encoder-Only,擅長“理解語言”
  • T5:Encoder-Decoder,統一“理解+生成”

而今天,我們要進入真正引爆 AI 浪潮的主角世界——

🚀 Decoder-Only 模型,也就是當前所有大語言模型(LLM)的“母體”。

GPT-1ChatGPT,從 LLaMAGLM,它們雖然名字不同,但都基于同一個核心架構:僅由 Decoder 堆疊而成的 Transformer

本文將帶你深入理解:

  1. Decoder-Only 是什么?
  2. GPT 系列如何一步步引爆 LLM 時代?
  3. LLaMA 和 GLM 又做了哪些關鍵改進?

準備好了嗎?我們出發!


🧬 一、什么是 Decoder-Only 架構?

在原始 Transformer 中,Decoder 本是用于“生成目標語言”的部分,它包含兩個注意力機制:

  1. Masked Self-Attention:只能看到前面的 token(防止“偷看答案”)
  2. Encoder-Decoder Attention:接收 Encoder 的語義信息

上圖為Decoder-Only 模型的模型架構圖,Decoder-Only 模型(如 GPT)做了一個大膽的決定:

? 去掉 Encoder
? 去掉 Encoder-Decoder Attention
? 只保留 Masked Self-Attention,自己理解、自己生成

輸入文本 → Tokenizer → Embedding → N 層 Decoder → 輸出文本

這種架構天生適合 自回歸生成(Autoregressive Generation)

  • 輸入:“今天天氣”
  • 模型預測:“好”
  • 接著輸入:“今天天氣好”,預測下一個詞……
  • 如此循環,生成完整句子。

? 優勢:簡單、高效、可無限生成文本
? 缺點:無法雙向理解(但大模型通過“體量”彌補了這一點)


🚀 二、GPT:Decoder-Only 的開山鼻祖

1. 模型架構:Pre-LN + Masked Self-Attention

GPT 的結構與 BERT 類似,但關鍵區別在于:

組件GPT 做法
位置編碼使用 Transformer 原始的?Sinusoidal 編碼(非可學習)
LayerNorm采用?Pre-Norm:先歸一化再進注意力(更穩定)
注意力機制僅保留?Masked Self-Attention,無 Encoder 交互
MLP 層早期用卷積,后期改用全連接

🔍 Pre-Norm 是什么?
在殘差連接前做 LayerNorm,能有效緩解梯度消失,適合深層網絡。


2. 預訓練任務:CLM(因果語言模型)

GPT 使用 CLM(Causal Language Modeling),也就是:

根據前面的詞,預測下一個詞

例如:

  • 輸入:The cat sat on the
  • 輸出:mat

這本質上是 N-gram 的神經網絡升級版,完全契合人類語言生成習慣。

? 優勢:

  • 不需要標注數據,直接用文本訓練
  • 與下游生成任務(如寫作、對話)完全一致

3. GPT 系列的“力大磚飛”之路

模型參數量隱藏層層數預訓練數據關鍵突破
GPT-10.12B768125GB首提“預訓練+微調”
GPT-21.5B16004840GB支持 zero-shot
GPT-3175B1228896570GBfew-shot + 涌現能力
📌 GPT-3 的三大革命:
  1. 參數爆炸:1750億參數,首次展現“涌現能力”
  2. 上下文學習(In-context Learning):無需微調,只需給幾個例子(few-shot)就能學會新任務
  3. 稀疏注意力:應對長文本,提升訓練效率

💡 舉例:情感分類的 few-shot prompt

判斷情感:'這真是個絕佳機會' → 正向(1)
示例:'你太棒了' → 1;'太糟糕了' → 0;'好主意' → 1
問題:'這真是個絕佳機會' → ?

這種“提示即編程”的方式,直接催生了 Prompt Engineering 的興起。


🐫 三、LLaMA:開源 LLM 的標桿

如果說 GPT 是閉源王者,那 LLaMA 就是開源世界的“平民英雄”。

Meta 從 2023 年起陸續發布 LLaMA-1/2/3,成為當前開源 LLM 的事實標準架構

1. 模型架構:GPT 的“優化版”

LLaMA 整體沿用 GPT 架構,但做了多項關鍵改進:

改進點說明
RoPE 位置編碼旋轉式位置編碼,支持超長上下文(8K~32K)
RMSNorm替代 LayerNorm,訓練更穩定
SwiGLU 激活函數比 ReLU/GELU 更強的非線性能力
GQA(分組查詢注意力)減少 KV Cache,提升推理速度

🔍 GQA 是什么?
將多個注意力頭共享 KV 向量,平衡 MQA(單KV)和 MHA(全KV)的性能與效率。


2. LLaMA 系列發展史

版本參數上下文訓練數據亮點
LLaMA-17B~65B2K1T token開源,引爆社區
LLaMA-27B~70B4K2T token支持對話微調
LLaMA-38B~70B8K15T token128K詞表,接近GPT-4

? LLaMA-3 的 128K 詞表大幅提升多語言和代碼能力。


🇨🇳 四、GLM:中文 LLM 的獨特探索

由智譜 AI(Zhipu AI)開發的 GLM 系列,是中國最早開源的大模型之一。

1. 模型架構:Post-Norm + 簡潔設計

GLM 初期嘗試了一條不同于 GPT 的路徑:

特點說明
Post-Norm殘差連接后歸一化,增強魯棒性
單層輸出頭減少參數,提升穩定性
GELU 激活函數平滑非線性,優于 ReLU

?? 注意:主流模型多用 Pre-Norm,但 GLM 認為 Post-Norm 更穩定。


2. 預訓練任務:GLM(空白填充)

GLM 的核心創新是 GLM 預訓練任務——結合 MLM 和 CLM:

  • 隨機遮蔽連續一段文本
  • 模型需從上下文預測這段文本,并按順序生成其中每個 token

例如:

  • 輸入:I <MASK> because you <MASK>
  • 輸出:love you?和?are a wonderful person

? 優勢:兼顧理解與生成
? 劣勢:訓練復雜,大模型時代被 CLM 取代

📌 現狀:從 ChatGLM2 起,GLM 系列也回歸 CLM + GPT 架構。


3. GLM 家族發展

模型參數上下文關鍵能力
ChatGLM-6B6B2K首個開源中文 LLM
ChatGLM2-6B6B32K支持長文本
ChatGLM3-6B6B32K支持函數調用、代碼解釋器
GLM-4未開源128K英文性能對標 GPT-4
GLM-4-9B9B8K開源輕量版,支持工具調用

💡 ChatGLM3 開始支持 Agent 開發,可調用工具、執行代碼,邁向 AI 自主行動。


🆚 五、三大模型架構對比

模型架構預訓練任務是否開源代表能力
GPTDecoder-OnlyCLM? 閉源通用生成、few-shot
LLaMADecoder-OnlyCLM? 開源高效、可定制
GLMDecoder-OnlyGLM → CLM? 開源中文強、支持 Agent

🌟 六、Decoder-Only 為何能統治 LLM 時代?

盡管 BERT 和 T5 在 NLU 任務上曾領先,但 Decoder-Only 最終勝出,原因如下:

  1. 生成即王道
    大模型的核心價值是“對話”“寫作”“編程”,生成能力比理解更重要。

  2. 任務統一性
    所有任務都可以轉化為“輸入提示 → 輸出答案”,無需復雜微調。

  3. 涌現能力(Emergent Ability)
    當模型足夠大時,CLM 訓練的模型反而在理解任務上超越 BERT。

  4. 工程友好
    架構簡單,易于分布式訓練和推理優化。


📣 結語:LLM 的未來,始于 Decoder-Only

從 GPT-1 的默默無聞,到 GPT-3 的橫空出世,再到 LLaMA 和 GLM 的開源繁榮,

Decoder-Only 架構 用十年時間證明了:

“簡單、專注、規模” 才是通向 AGI 的最短路徑。

如今,幾乎所有主流 LLM(包括 Qwen、Baichuan、Yi 等)都基于這一架構。

🔁 所以,要理解大模型,你必須先讀懂 GPT。

📚 參考資料:

  • 《Language Models are Few-Shot Learners》(GPT-3)
  • 《LLaMA: Open and Efficient Foundation Language Models》
  • 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》
  • HuggingFace、Meta AI、Zhipu AI 官方文檔
  • https://github.com/datawhalechina/happy-llm

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921667.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921667.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921667.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Codeforces Round 1047 (Div. 3)

由于最近這三天的數學建模&#xff0c;讓我這個精力本來就不多的AI手更加力竭了&#xff0c;沒注意到昨晚的cf&#xff0c;所以今天來補題了。 比賽連接&#xff1a;比賽傳送門 A題&#xff1a; You are doing a research paper on the famous Collatz Conjecture. In your e…

C++經典的數據結構與算法之經典算法思想:貪心算法(Greedy)

貪心算法&#xff08;Greedy Algorithm&#xff09;&#xff1a;通過局部最優達成全局最優的決策策略 貪心算法是一種通過每次選擇局部最優解來期望全局最優解的算法思想。它不考慮未來的影響&#xff0c;僅根據當前信息做出最優選擇&#xff0c;適用于具有貪心選擇性質和最優子…

LangChain實戰(二十一):構建自動化AI客服系統

本文是《LangChain實戰課》系列的第二十一篇,將帶領您構建一個完整的自動化AI客服系統。通過結合對話記憶、工具調用和業務知識庫,我們將創建一個能夠處理復雜客戶查詢的智能客服解決方案。 前言 在現代商業環境中,客戶服務是企業成功的關鍵因素之一。傳統客服系統往往面臨…

一人公司智能管理系統概述

系統概述 項目結構 Al_Compny系統采用前后端分離的全棧架構&#xff0c;項目根目錄下包含兩個主要子目錄&#xff1a;Al_Compny_backend&#xff08;后端服務&#xff09;和Al_Compny_frontend&#xff08;前端應用&#xff09;。核心功能模塊 Al_Compny系統是一個面向"一…

OpenWrt | 在 PPP 撥號模式下啟用 IPv6 功能

文章目錄一、WAN 口配置二、LAN 口配置三、IPv6 測試本文將詳細介紹 將光貓的網絡模式改成橋接之后使用路由器撥號的上網方式的情況下&#xff0c;在 OpenWrt 上使用 PPP 撥號模式上網時&#xff0c;啟用 IPv6 功能的方法。 一、WAN 口配置 首先&#xff0c;我們需要在 網絡 …

Java如何實現一個安全的登錄功能?

安全登錄系統完整教程 &#x1f4cb; 目錄 項目概述技術棧安全特性項目結構核心組件詳解安全實現原理部署和運行安全最佳實踐常見問題解答進階擴展 &#x1f3af; 項目概述 這是一個基于Spring Boot和Spring Security的完整安全登錄系統&#xff0c;專為初學者設計&#xff…

星辰誕愿——生日快樂

前言 今天這篇博客并非技術文章&#xff0c;而是慶祝我可愛的妹妹18歲生日以及介紹我半年以來的學習經歷 祝生網站&#xff1a;星辰誕愿(用戶列表里第一位就是我妹妹&#xff0c;希望大家能獻上自己的祝福&#xff0c;能分享轉發更好&#xff0c;我在此感謝大家。如果使用手機&…

基于STM32單片機的智能糧倉溫濕度檢測藍牙手機APP設計

基于STM32單片機的智能糧倉溫濕度檢測藍牙手機APP設計 1 系統功能介紹 本系統是一款基于STM32單片機的智能糧倉環境監測與控制裝置&#xff0c;核心目標是通過傳感器實時采集糧倉內的溫度和濕度信息&#xff0c;并結合藍牙通信模塊將數據傳輸至手機端&#xff0c;實現對糧倉環境…

簡單視頻轉換器 avi轉mp4

直接上代碼package com.example.videoconverter;import ws.schild.jave.Encoder; import ws.schild.jave.EncoderException; import ws.schild.jave.MultimediaObject; import ws.schild.jave.encode.AudioAttributes; import ws.schild.jave.encode.EncodingAttributes; impor…

Kafka 與 RocketMQ 核心概念與架構對比

Kafka 與 RocketMQ 核心概念與架構對比DeepSeek生成&#xff0c;便于記憶大概邏輯核心概念對比圖 #mermaid-svg-dEbo1XpAjfzOjvUW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-dEbo1XpAjfzOjvUW .error-icon{fill…

30分鐘深度壓測cuBLAS:從FP64到INT8全精度性能剖析

在深度學習和高性能計算領域&#xff0c;GPU的矩陣運算性能是衡量系統算力的核心指標之一。NVIDIA的cuBLAS庫作為CUDA平臺上最基礎的線性代數計算庫&#xff0c;其性能表現直接影響著上層應用的運行效率。本文將詳細介紹如何使用cublasmatmulbench工具對多GPU進行全面的性能基準…

超越模仿:探尋智能的本源

引言&#xff1a;超越模仿&#xff0c;探尋智能的本源近年來&#xff0c;以大語言模型&#xff08;LLM&#xff09;為代表的自然語言處理&#xff08;NLP&#xff09;技術&#xff0c;在模仿人類語言生成方面取得了令人矚目的成就。從流暢的對話到精煉的文本摘要&#xff0c;機…

ROS/ROS2課程筆記00-大綱-25-26-1

大綱 AI版 以下是基于第四代高校課程核心理念設計的《ROS2機器人程序設計&#xff08;ROS2 Jazzy版&#xff09;》課程大綱&#xff0c;突出智能互聯、跨學科融合、終身學習等特征&#xff0c;并融入技術賦能、生態重塑、素養導向等要求&#xff1a; 課程名稱&#xff1a;ROS…

Linux內核進程管理子系統有什么第四十六回 —— 進程主結構詳解(42)

接前一篇文章&#xff1a;Linux內核進程管理子系統有什么第四十五回 —— 進程主結構詳解&#xff08;41&#xff09; 本文內容參考&#xff1a; Linux內核進程管理專題報告_linux rseq-CSDN博客 《趣談Linux操作系統 核心原理篇&#xff1a;第三部分 進程管理》—— 劉超 《…

Linux網絡連接不上?NetworkManager提示“device not managed“!

#操作系統 #Linux #NetworkManager適用環境kylin v10Centos 8Redhat 8一、故障現象在CentOS/RHEL(同樣適用于kylin v10&#xff09;系統中&#xff0c;管理員執行 nmcli connection up ens160 命令嘗試激活名為 ens160 的網絡連接時&#xff0c;遇到以下錯誤&#xff1a;[roo…

【系統分析師】第2章-基礎知識:數學與工程基礎(核心總結)

更多內容請見: 備考系統分析師-專欄介紹和目錄 文章目錄 一、數學統計基礎 1.1 概率論基礎 1.2 數理統計基礎 1.3 常用統計分析方法 二、圖論應用 2.1 基本概念 2.2 核心算法與應用 三、預測與決策 3.1 預測方法 3.2 決策方法 四、數學建模 4.1 建模過程 4.2 常用模型類型 五、…

StrUtil.isBlank()

這段代碼是一個條件判斷&#xff0c;用于檢查變量 shopJson 是否為空或空白&#xff0c;如果是&#xff0c;就直接返回 null。我們來逐句講解&#xff1a;原始代碼&#xff1a; if(StrUtil.isBlank(shopJson)) {// 3.存在&#xff0c;直接返回return null; }逐句解釋&#xff1…

mysql 回表查詢(二次查詢,如何檢查,如何規避)

h5打開以查看 “回表查詢”通常發生在使用二級索引&#xff08;Secondary Index&#xff09;的查詢中。當查詢所需的數據列并不全部包含在二級索引中時&#xff0c;即使使用了索引&#xff0c;MySQL 也需要根據索引記錄中的主鍵值&#xff0c;回到聚簇索引&#xff08;Cluster…

深度學習(二):神經元與神經網絡

在人工智能的浪潮中&#xff0c;神經網絡&#xff08;Neural Networks&#xff09;無疑是驅動核心技術的引擎&#xff0c;它賦予了計算機前所未有的學習和識別能力。而這一切的起點&#xff0c;是受到生物大腦中基本單元——神經元&#xff08;Neurons&#xff09;的深刻啟發。…

JavaScript 行為型設計模式詳解

1. 觀察者模式1.1. 使用場景觀察者模式用于對象間的一對多依賴關系&#xff0c;當一個對象的狀態發生變化時&#xff0c;所有依賴于它的對象都能收到通知并自動更新。常用于事件處理、通知系統。在前端中&#xff0c;觀察者模式用于實現事件監聽、數據綁定等功能。1.2. 代碼實現…