3-大語言模型—理論基礎：生成式預訓練語言模型GPT(代碼“活起來”)

1、GPT的模型結構如圖所示

2、介紹GPT自監督預訓練、有監督下游任務微調及預訓練語言模型

2.1、GPT 自監督預訓練

2.1.1、輸入編碼：詞向量與位置向量的融合

2.1.1.1、輸入序列與詞表映射

2.1.1.2、?詞向量矩陣與查表操作

3. 位置向量矩陣

4. 詞向量與位置向量疊加

5. 最終輸入向量

2.1.2、?Masked 多頭注意力：禁止 “偷看” 未來信息

2.1.3、?損失函數：優化預測概率

2.2 有監督下游任務微調

2.2.1、任務適配：從文本到標簽的映射

2.2.2、組合損失：平衡任務與預訓練知識

2.3 預訓練語言模型

2.3.1、?結構差異：從 “專用設計” 到 “通用基座”

2.3.2、能力邊界：生成 vs 理解

3、模型驗證

3.1、?GPT 模型全流程

3.2、GPT 核心邏輯突出：

4、完整實現

4.1、完整代碼

4.2、實驗結果?

4.3、代碼“活起來”

一、準備數據集：給機器人找 “課本”

二、訓練詞元分析器：給機器人編 “字典”

三、預處理數據集：把 “課本” 翻譯成 “機器人能懂的語言”

四、訓練模型：教機器人 “學規律”

五、運用模型：讓機器人 “說句話試試”

總結：整個流程就像 “教小孩學說話”

1、GPT的模型結構如圖所示

它是由多層Transformer組陳的單向語言模型，主要分為輸入層、編碼層和輸出層三個部分：?

2、介紹GPT自監督預訓練、有監督下游任務微調及預訓練語言模型

2.1、GPT 自監督預訓練

GPT 預訓練的核心是基于 Transformer Decoder 的因果語言建模，其計算過程可通過具體示例拆解為 “輸入編碼 - 注意力計算 - 損失優化” 三步驟。

2.1.1、輸入編碼：詞向量與位置向量的融合

公式 $h^{[0]}=e_{x'} W^{e}+W^{p}$ 描述了輸入編碼過程，用示例說明：

假設輸入序列為 “貓吃魚”，分詞后為 3 個 token：x' = [貓, 吃, 魚]；
詞向量查表：e_{貓}通過詞向量矩陣 $W^e$ （假設維度為 3×5）映射為向量 $[0.2, 0.5, -0.1, 0.3, 0.8]$ ，同理 “吃”“魚” 分別映射為 $[0.1, -0.3, 0.4, 0.6, -0.2]$ 和 $[0.7, 0.2, -0.5, 0.1, 0.3]$ ；
位置向量疊加：位置 1（貓）的向量 $W^p_1 = [0.01, 0.02, 0.03, 0.04, 0.05]$ ，位置 2（吃）為 $W^p_2 = [0.06, 0.07, 0.08, 0.09, 0.10]$ ，疊加后 $h^{[0]}$ 的第一個向量為 $[0.21, 0.52, 0.02, 0.34, 0.85]$ 。

2.1.1.1、輸入序列與詞表映射

假設我們有一個簡單的詞表，包含 3 個詞：
詞表 = {"貓": 0, "吃": 1, "魚": 2}
?
輸入文本 "貓吃魚" 被分詞為 3 個 token，對應的詞表索引為：
?
x' = [0, 1, 2]
2.1.1.2、?詞向量矩陣與查表操作

詞向量矩陣 $W^e$ 的作用是將離散的詞索引映射為連續的向量表示。假設詞向量維度為 5，則 $W^e$ 是一個 3×5 的矩陣：

查表過程：

對于 token "貓"（索引 0），其詞向量為 $W^e$ 的第 0 行： $[0.2, 0.5, -0.1, 0.3, 0.8]$
同理，"吃" 的詞向量為 $[0.1, -0.3, 0.4, 0.6, -0.2]$
"魚" 的詞向量為 $[0.7, 0.2, -0.5, 0.1, 0.3]$

3. 位置向量矩陣

位置向量用于表示 token 在序列中的位置信息。假設位置向量維度同樣為 5，則 3 個位置的向量分別為：

4. 詞向量與位置向量疊加

根據公式 $h^{[0]}=e_{x'} W^{e}+W^{p}$ ，對每個 token 的詞向量和對應位置向量進行疊加：
?
第一個 token "貓"（位置 1）：

第二個 token "吃"（位置 2）：

第三個 token "魚"（位置 3）：

5. 最終輸入向量 $h^{[0]}$

將上述三個疊加后的向量組合，得到最終輸入到 Transformer 的向量$h^{[0]}$：

$h^{[0]} = \begin{bmatrix} 0.21 & 0.52 & -0.07 & 0.34 & 0.85 \\ 0.16 & -0.23 & 0.48 & 0.69 & -0.10 \\ 0.81 & 0.32 & -0.37 & 0.24 & 0.45 \end{bmatrix}$