文章目錄
- 前言
- 一、神經網絡基礎:智能的基石
- 二、Transformer 架構:AI 新紀元的基石
- Transformer 的核心特性
- Transformer 的關鍵組件
- 三、 大語言模型概覽
- 總結
前言
人工智能的浪潮正以前所未有的力量重塑世界,而這場變革的核心引擎之一,便是深度學習。在眾多突破性技術中,Transformer 架構及其催生的大語言模型 (LLM) 無疑是當代 AI 熱門技術,徹底改變了自然語言處理(NLP)乃至多模態(圖像、音頻等)領域的面貌。本文將帶你初探深度學習的核心概念,并深入剖析 Transformer 和 LLM 的奧秘。
一、神經網絡基礎:智能的基石
想象一下,神經網絡的目標是學習輸入數據(如圖片像素、單詞、傳感器讀數)與期望輸出(如圖片類別、翻譯后的句子、預測值)之間的復雜映射關系。它通過組合一系列相對簡單的計算單元(神經元)和數學原理來實現這一點。人工神經網絡 (ANN) 正是受此啟發構建的計算模型:
- 神經元: 人工神經網絡的基本單元。它接收多個輸入信號(x?, x?, …, xn),每個信號乘以一個權重(w?, w?, …, wn),再加上一個偏置(b),最后通過一個激活函數產生輸出。
- 公式示意: 輸出 = 激活函數(w?x? + w?x? + … + wn*xn + b)
- 激活函數: 引入非線性的關鍵!沒有它,神經網絡只能擬合線性關系,能力極其有限。常用函數:
- ReLU: f(x) = max(0, x)。簡單高效,解決梯度消失問題。
- Sigmoid: f(x) = 1 / (1 + e??)。將輸入壓縮到 (0, 1),常用于二分類輸出層。
- Tanh: f(x) = (e? - e??) / (e? + e??)。將輸入壓縮到 (-1, 1),常用于隱藏層。
- 損失函數: 衡量模型預測值 (?) 與真實值 (y) 差距的“標尺”。常見的損失函數包括:
- 均方誤差: 回歸任務常用。MSE = (1/N) * Σ(?? - y?)2
- 交叉熵: 分類任務常用,尤其當輸出是概率時。它度量兩個概率分布間的差異。
- 梯度下降: 模型學習的“導航儀”。目標是找到一組權重 (w) 和偏置 (b),使損失函數 (L) 最小化。
- 核心思想: 想象你身處山谷(損失函數曲面),目標是走到谷底(最小損失點)。梯度 (?L) 指示了最陡峭的下降方向。梯度下降法就是沿著梯度的反方向,小步 (學習率) 迭代更新參數:w_new = w_old - 學習率 * ?L(w_old)
- 反向傳播: 高效計算梯度的“引擎”。核心思想(非推導):
- 前向傳播: 輸入數據通過網絡層層計算,得到最終預測和損失。
- 反向傳播: 從輸出層開始,反向逐層計算損失函數對于每個參數的梯度。鏈式法則是背后的數學原理。這些梯度隨后被用于梯度下降更新參數。理解其“誤差從輸出層反向傳遞,指導各層參數調整”的思想至關重要。
總結:協同工作的基石
- 神經元: 接收輸入,進行加權求和,通過激活函數產生輸出。是構建網絡結構的磚塊。
- 激活函數: 賦予網絡擬合非線性關系的能力。ReLU 是現代深度網絡的隱藏層主力。
- 損失函數: 定義模型好壞的標準。MSE用于回歸,交叉熵用于分類。是學習的指揮棒。
- 梯度下降: 提供參數更新的方向和策略(如 Mini-batch SGD, Adam)。是學習的導航儀和引擎。
- 反向傳播: 高效計算梯度下降所需的梯度。是梯度下降高效運行的關鍵算法支撐。
理解流程:
- 輸入數據通過網絡 前向傳播(神經元計算 + 激活函數),得到預測值。
- 預測值與真實值比較,通過 損失函數 計算誤差。
- 誤差信號通過 反向傳播 算法,高效計算出損失函數對每個參數的梯度。
- 梯度下降(或優化器如 Adam)利用這些梯度更新參數(權重和偏置),目標是減小損失。
- 這個過程在大量數據上迭代進行,網絡參數不斷調整,最終學習到從輸入到輸出的有效映射關系。
神經網絡訓練流程圖:
訓練流程說明:
這些基礎模塊雖然相對獨立,但它們緊密協作,共同構成了神經網絡學習和做出智能預測的基石。深刻理解每個模塊的作用和它們之間的互動,是進一步掌握 Transformer、LLM 等復雜模型的基礎。
二、Transformer 架構:AI 新紀元的基石
2017年,一篇名為《Attention is All You Need》的論文橫空出世,提出的 Transformer 架構徹底顛覆了依賴循環神經網絡 (RNN) 和卷積神經網絡 (CNN) 的序列處理方式,成為現代 AI 的絕對核心。
Transformer 的核心特性
- Self-Attention (自注意力) / Multi-Head Attention (多頭注意力): 讓模型學會“劃重點”!
- 問題: 傳統 RNN 按順序處理單詞,難以捕獲長距離依賴和并行計算。CNN 擅長局部模式。
- Self-Attention 的設計思想: 它允許序列中的任何一個元素(單詞/圖像塊/音頻幀)直接關注序列中的所有其他元素,計算它們之間的“相關性分數”。分數高的元素對當前元素的理解更重要。
- 如何工作: 對每個元素(如單詞),生成Query (查詢)、Key (鍵)、Value (值) 三個向量。
- Query: “我想了解什么?”
- Key: “我能提供什么信息?”
- Value: “我實際包含的信息。”
- 計算當前元素的 Query 與序列中所有元素的 Key 的點積(衡量相似度),縮放后應用 Softmax 得到注意力權重(和為 1),最后用這些權重加權平均所有元素的 Value,得到當前元素的新表示(融合了上下文信息)。
- Multi-Head Attention: 使用多組獨立的 Q/K/V 投影(即多個“頭”),并行計算注意力。每個頭可能關注語義的不同方面(如語法、指代、情感),最后將各頭的輸出拼接再投影,得到最終表示。這顯著增強了模型捕捉不同子空間信息的能力。
- 作用: 精確建模序列內部長距離依賴關系,理解上下文含義(如“it”指代什么),實現高效并行計算。
- Encoder-Decoder 結構: 理解與生成的流水線 (常用于翻譯、摘要等任務)
- Encoder: 負責理解輸入序列(如源語言句子)。它由多個相同的層堆疊而成(常見 6 或 12 層),每層包含一個 Multi-Head Self-Attention 和一個 前饋神經網絡 (Feed Forward Network, FFN)。
- Decoder: 負責生成輸出序列(如目標語言句子)。它也由多個相同層堆疊。每層包含:
- Masked Multi-Head Self-Attention: 只能關注當前時刻及之前的輸出位置(防止作弊看到未來信息)。
- Multi-Head Cross-Attention: 這是連接 Encoder 和 Decoder 的橋梁!Decoder 用自己的 Query 去詢問 Encoder 輸出的 Key/Value,將輸入信息整合到生成過程中。
- FFN。
- 流向: 輸入序列 -> Encoder -> 上下文表示 -> Decoder (結合自身輸出歷史) -> 輸出序列。
Transformer 的關鍵組件
- 位置編碼: 注入序列順序信息。
- 問題: Self-Attention 本身是排列不變的。輸入 [A, B, C] 和 [C, B, A] 會得到相同的表示(如果不做處理),這顯然不符合語言特性。
- 解決方案: 為輸入序列中每個位置的元素添加一個獨特的位置編碼向量(通常是正弦/余弦函數或可學習的向量)。這個向量與詞嵌入向量相加,作為模型的輸入。這樣模型就能知道 A 在 B 前面還是后面了。
- 層歸一化: 穩定訓練過程,加速收斂。
- 問題: 深層網絡中,各層輸入的分布可能劇烈變化,導致訓練不穩定、收斂慢。
- 解決方案: 在每個子層(Self-Attention, FFN)的輸出送入下一層前,進行層歸一化。它對單一樣本在該層所有神經元的輸出進行歸一化(均值為0,方差為1),再縮放和平移。讓數據分布更穩定,緩解梯度問題。
- 殘差連接: 解決深度網絡的梯度消失/爆炸。
- 問題: 網絡很深時,梯度反向傳播可能變得非常小(消失)或非常大(爆炸),導致底層參數難以有效更新。
- 解決方案: 在每個子層周圍添加一個殘差連接(或叫跳躍連接)。子層的輸入不僅被送入該層進行變換 (F(x)),還直接與該層的輸出相加:輸出 = LayerNorm(x + Sublayer(x))。核心思想是學習輸入 x 與期望輸出 H(x) 之間的殘差 F(x) = H(x) - x。這使得梯度可以直接通過恒等映射路徑回傳,極大緩解了深度網絡的訓練難題。
三、 大語言模型概覽
Transformer 架構的強大催生了 大語言模型 (LLM) 的爆發式發展。LLM 的核心是在海量無標注文本數據上訓練出的巨大(參數規模可達數百億甚至萬億)Transformer 模型。它們展現出驚人的上下文理解和文本生成能力。
主流架構流派:
- BERT: 雙向理解大師
- 架構: 僅使用 Transformer Encoder。
- 核心思想: 預訓練任務是關鍵!
- 掩碼語言模型: 隨機遮蓋輸入句子中 15% 的單詞,讓模型預測被遮蓋的詞。這迫使- 模型利用上下文雙向信息(左右單詞)來理解。
- 下一句預測: 判斷兩個句子是否是連續的。
- 特點: 擅長理解型任務。生成文本困難(因為不是自回歸)。
- 典型應用: 文本分類、情感分析、命名實體識別、問答系統(抽取式)、自然語言推理。
- GPT: 自回歸生成之王
- 架構: 僅使用 Transformer Decoder(帶 Masked Self-Attention)。
- 核心思想: 自回歸語言建模。給定前面的詞,預測下一個詞的概率分布:P(下一個詞 | 上文所有詞)。訓練目標是最大化整個序列的似然概率。
- 特點: 強大的文本生成能力(寫文章、對話、代碼、創作)。擅長續寫。理解能力(尤其是需要全局上下文的任務)最初不如 BERT 類模型,但隨著規模增大和指令微調顯著提升。
- 典型應用: 文本續寫、對話系統、機器翻譯、代碼生成、內容創作、文本摘要(抽象式)。ChatGPT、Claude、Gemini 的核心技術基礎。
- T5: 萬物皆文本到文本
- 架構: 標準的 Transformer Encoder-Decoder。
- 核心思想: 將所有 NLP 任務(分類、翻譯、摘要、問答等)都統一轉化為 Text-to-Text 格式。
- 輸入: 一個帶有任務前綴的文本字符串 (e.g., “translate English to German: That is good.”)。
- 輸出: 目標文本字符串 (e.g., “Das ist gut.”)。
- 特點: 框架統一簡潔,易于進行多任務學習和遷移。預訓練任務主要是類似 BERT 的掩碼語言模型變體(如遮蓋連續的 Span)。
- 典型應用: 任何可以轉化為文本輸入輸出格式的任務,尤其適合需要同時處理理解和生成的任務。
總結關鍵區別
特性 | BERT | GPT | T5 |
---|---|---|---|
核心架構 | Encoder | Decode | Encoder-Decoder |
預訓練目標 | 掩碼語言模型、下一句預測 | 自回歸語言建模 | 掩碼語言模型 (Span) |
信息流 | 雙向 | 單向 (從左到右) | Encoder 雙向, Decoder 單向 |
最擅長 | 理解任務 | 生成任務 | 統一框架、多任務 |
典型任務 | 分類、NER、抽取式QA | 創作、對話、續寫 | 翻譯、摘要、QA (生成式) |
總結
Transformer 架構以其強大的注意力機制、并行能力和可擴展性,不僅徹底重塑了 NLP 領域,更在計算機視覺(ViT)、語音識別、多模態學習(CLIP, DALL-E)等領域展現出巨大潛力。其孕育出的 LLM 正在以前所未有的方式改變我們與信息、技術和彼此交互的方式。
理解神經網絡基礎、Transformer 的核心組件(特別是 Self-Attention)以及主流 LLM 的設計哲學,是踏入這個激動人心領域的堅實第一步。這僅僅是開始,模型規模仍在擴大,能力邊界持續拓展,新的架構和應用層出不窮。深度學習的浪潮正洶涌澎湃,Transformer 與 LLM 正是這股浪潮中最耀眼的光芒,照亮著通向更智能未來的道路。