大語言模型從理論到實踐（第二版）-學習筆記（緒論）

大語言模型的基本概念

1.理解語言是人工智能算法獲取知識的前提

2.語言模型的目標就是對自然語言的概率分布建模

3.詞匯表 V 上的語言模型，由函數 P(w1w2 ·· · wm) 表示，可以形式化地構建為詞序列 w1w2 ·· · wm 的概率分布，表示詞序列 w1w2 ·· · wm 作為一個句子出現的可能性的大小，參數量大，計算困難。

4.為了減小 P(w1w2 ·· · wm) 模型的參數空間，可以利用句子序列（通常是從左至右）的生成過
程將其進行分解，使用鏈式法則可以得到

5.但是，僅通過上述過程模型的參數空間依然沒有減小，P(wm|w1w2 ·· · wm?1) 的參數空間依然是天文數字。為了解決上述問題，可以進一步假設任意單詞 wi 出現的概率只與過去 n ? 1 個詞相關

雖然 n 元語言模型能緩解句子概率為零的問題，但語言是由人和時代創造的，具備無盡的可
能性，再龐大的訓練數據也無法覆蓋所有的 n-gram，而訓練數據中的零頻率并不代表零概率

平滑處理的基本思想是提高低概率事件，降低高概率事件使整體的概率分布趨于均勻。這類方法通常被稱為統計語言模型（Statistical Language Models，SLM）。相關平滑算法細節可以參考《自然語言處理導論》的第 6 章。缺點：

（1）無法對長度超過 n 的上下文建模。
（2）依賴人工設計規則的平滑技術。
（3）當 n 增大時，數據的稀疏性隨之增大，模型的參數量更是呈指數級增加，受數據稀疏問
題的影響，其參數難以被準確學習。
此外，n 元文法中單詞的離散表示也忽略了單詞之間的相似性。因此，基于分布式表示和神經
網絡的語言模型逐漸成為研究熱點

6.詞的獨熱編碼被映射為一個低維稠密的實數向量，稱為詞向量。估計詞概率。相較于 n 元語言模型，神經網絡方法可以在一定程度上避免數據稀疏問題，有些模型還可以擺脫對歷史文本長度的限制，從而更好地對長距離依賴關系建模。這類方法通常被稱為神經語言模型

大語言模型的發展歷程

大語言模型的發展歷程雖然只有不到 5 年，但是發展速度相當驚人，截至 2025 年 2 月，國內
外有超過百種大語言模型相繼發布。特別是 2024 年 12 月 DeepSeek V3 和 2025 年 1 月 DeepSeek R1 模型的開源

大語言模型的發展可以粗略地分為如下三個階段：基礎模型階段、能力探索階段和突破發展階段

1.基礎模型階段（2018-2021）

2017 年，Vaswani 等人提出了 Transformer[12]架構，在機器翻譯任務上取得了突破性進展。2018 年，Google 和 OpenAI 分別提出了 BERT[1] 和GPT開啟了預訓練語言模型時代（模型的訓練僅需要大規模無標注文本。語言模型也成了典型的自監督學習（Self-supervised Learning）任務。互聯網的發展，使得大規模文本非常容易獲取，因此訓練超大規模的基于神經網絡的語言模型成為可能）。BERT-Base 版本的參數量為 1.1 億個，BERT-Large 版本的參數量為 3.4 億個，GPT-1 的參數量為 1.17 億個。這在當時，比其他深度神經網絡的參數量，已經有了數量級上的提升。2019 年 OpenAI 發布了 GPT-2[11]，其參數量達到 15 億個。此后，Google也發布了參數規模為 110 億個的 T5[19] 模型。2020 年，OpenAI 進一步將語言模型的參數量擴展到 1750 億個，發布了 GPT-3[13]。此后，國內也相繼推出了一系列的大語言模型，包括清華大學的ERNIE[20]、百度的 ERNIE[21]、華為的 PanGU-α[22] 等。

此階段的研究主要集中在語言模型本身，對僅編碼器（Encoder Only）、編碼器-解碼（Encoder-Decoder）、僅解碼器（Decoder Only）等各種類型的模型結構都有相應的研究。模型大小與 BERT 類似，通常采用預訓練微調范式（使用具體任務的標注數據在預訓練語言模型上進行監督訓練），針對不同下游任務進行微調。這些模型參數量大都在 10 億個以上，由于微調的計算量很大，這類模型的影響力在當時相較 BERT 類模型有不小的差距。

2.能力探索階段（2019 -2022 ）

由于大語言模型很難針對特定任務進行微調，研究人員開始探索在不針對單一任務進行微調的情況下如何發揮大語言模型的能力。

2019 年，Radford等人在文獻 [11] 中使用 GPT-2 模型研究了大語言模型在零樣本情況下的任務處理能力。在此基礎上，Brown 等人在 GPT-3[13] 模型上研究了通過語境學習進行少樣本學習（few-shot learning）的方法，將不同任務的少量有標注的實例拼接到待分析的樣本之前輸入語言模型，語言模型根據實例理解任務并給出正確的結果。

利用了語言模型的“語境學習”（in-context learning）能力。模型不需要專門針對情感分析任務重新訓練，只要通過前面的少量示例，就能“學會”任務的規則并應用到新樣本上。

任務：情感分析（判斷句子是積極還是消極）
假設我們要讓模型判斷一句話的情感是“積極”還是“消極”，但我們沒有大量標注數據來訓練模型。這時可以用少樣本學習的方法。輸入給模型的內容：
示例1：我今天很開心。 -> 積極
示例2：這場電影太無聊了。 -> 消極
待分析的樣本：天氣很好，我很享受。 -> ?解釋：
我們先給了模型兩個示例：
“我今天很開心。”標注為“積極”。
“這場電影太無聊了。”標注為“消極”。
然后把待分析的句子“天氣很好，我很享受。”接在后面，讓模型根據前面的示例自己推斷。
模型會“看”到前面的模式（開心=積極，無聊=消極），然后判斷新句子“天氣很好，我很享受”應該是“積極”。輸出：
模型可能會回答：積極

基于 GPT-3 的語境學習在 TriviaQA、WebQS、CoQA 等評測集合中都展示出了非常強的能力，在有些任務中甚至超過了此前的有監督方法。上述方法不需要修改語言模型的參數，模型在處理不同任務時無須花費大量計算資源進行模型微調。

僅依賴語言模型本身，其性能在很多任務上仍然很難達到有監督學習（Supervised Learning）的效果，因此研究人員提出了指令微調[23] 方案，將大量各類型任務統一為生成式自然語言理解框架，并構造訓練數據進行微調。大語言模型能一次性學習數千種任務，并在未知任務上展現出很好的泛化能力。

指令微調的核心是把任務標準化（都變成“指令+生成”）：

訓練數據：

任務1：翻譯 -> “把‘Hello’翻譯成中文” -> 輸出“こんにちは”
“把這句話翻譯成法語 -> I like cats” -> “J’aime les chats”
任務2：情感分析 -> “判斷‘我很開心’的情感” -> 輸出“積極

任務3：“回答問題->今天是星期幾？” -> “今天是星期三”
任務4：“寫一段關于狗的描述” -> “狗是忠誠的動物…”

用大量多樣化的數據訓練模型，讓它變成一個“全能選手”。這樣不僅能處理已知任務，還能靈活應對新任務，比單純依賴預訓練模型強很多

2022 年，Ouyang 等人提出了使用“有監督微調 + 強化學習”的 InstructGPT[24] 方法，該方法使用少量有監督數據就可以使大語言模型服從人類指令。Nakano 等人則探索了結合搜索引擎的問題回答方法 WebGPT[25]。這些方法在直接利用大語言模型進行零樣本和少樣本學習的基礎上，逐漸擴展為利用生成式框架針對大量任務進行有監督微調的方法，有效提升了模型的性能。

“有監督微調 + 強化學習”：InstructGPT 方法

有監督微調

數據量不需要很大（比如幾百到幾千個示例），但質量要高。
這一步讓模型初步理解“指令 -> 回答”的模式。

強化學習

模型嘗試生成回答。
獎勵模型給這個回答打分（高分=好回答，低分=差回答）。
模型根據分數調整自己，傾向于生成高分的回答。

3.突破發展階段（?2022 年 11 月 ChatGPT 的發布為起點）

ChatGPT 通過一個簡單的對話框，利用一個大語言模型就可以實現問題回答、文稿撰寫、代碼生成、數學解題等過去自然語言處理系統需要大量小模型定制開發才能分別實現的能力。它在開放領域問答、各類自然語言生成式任務及對話上下文理解上所展現出來的能力遠超大多數人的想象。2023 年 3 月 GPT-4 發布，相較于ChatGPT，GPT-4 有非常明顯的進步，并具備了多模態理解力。GPT-4 在多種基準考試測試上的得分高于 88% 的應試者，包括美國律師資格考試（Uniform Bar Exam）、法學院入學考試（LawSchool Admission Test）、學術能力評估（Scholastic Assessment Test，SAT）等。GPT-4o 是 OpenAI于 2024 年 5 月發布的多模態大模型，其中“o”代表“omni”即“全能”。它能接受文本、音頻和圖像組合輸入并生成文本、音頻和圖像的任意組合輸出，可處理 50 種語言，在 232 毫秒內對音頻輸入做出反應，性能較 GPT-4 有顯著提升。2024 年 9 月 OpenAI 又推出的全新推理模型 GPT-o1，在復雜推理任務上表現卓越，能通過內部思維鏈模擬人類思考，在數學、科學等領域超越人類專家及 GPT-4o。國內外各大公司和研究機構相繼發布了此類系統，包括復旦大學的 MOSS、阿里巴巴的 Qwen、深度求索的 DeepSeek、Google 的 Gemini、XAI 的 Grok、科大訊飛的星火大模型、智譜的 ChatGLM 等。

截至 2025 年 2 月典型開源和閉源大語言模型的基本情況

模型類型中，基礎模型是指僅經過預訓練的模型

對話模型是指在預訓練模型基礎上經過有監督微調和強化學習訓練的模型，具備對話和完成任務的能力

推理模型是指專注于邏輯推理增強的大語言模型

大語言模型的構建流程

OpenAI 使用的大語言模型構建流程如圖1.3 所示，主要包含四個階段：預訓練、有監督微調、獎勵建模和強化學習。這四個階段都需要不同規模的數據集及不同類型的算法，會產出不同類型的模型，所需要的資源也有非常大的差別。

預訓練（Pretraining）階段

需要利用海量的訓練數據（數據來自互聯網網頁、維基百科、書籍、
GitHub、論文、問答網站等），基礎模型對長文本進行建模，使模型具有語言生成能力，根據輸入的提示詞，模型可以生成文本補全句子。有一部分研究人員認為，語言模型建模過程中隱含地構建了包括事實性知識（Factual Knowledge）和常識性知識（Commonsense）在內的世界知識（World Knowledge）由于訓練過程需要消耗大量的計算資源，并很容易受到超參數影響，因此，如何提升分布式計算效率并使模型訓練穩定收斂是本階段的研究重點

有監督微調（Supervised Fine Tuning，SFT）

也稱為指令微調，利用少量高質量數據集，通過有監督訓練使模型具備問題回答、翻譯、寫作等能力。有監督微調的數據包含用戶輸入的提示詞和對應的理想輸出結果。用戶輸入包括問題、閑聊對話、任務指令等多種形式和任務。

經過訓練的 SFT 模型具備初步的指令理解能力和上下文理解能力，能夠完成開放領域問答、閱讀理解、翻譯、生成代碼等任務，也具備了一定的對未知任務的泛化能力。由于有監督微調階段所需的訓練數據量較少，SFT 模型的訓練過程并不需要消耗大量的計算資源

SFT 模型具備了初步的任務完成能力，可以開放給用戶使用，很多類 ChatGPT 的模型都屬于該類
型，包括 Alpaca[35]、Vicuna[41]、MOSS、ChatGLM-6B 等。很多這類模型的效果非常好，甚至在一些評測中達到了 ChatGPT 的 90% 的效果[35, 41]。當前的一些研究表明，有監督微調階段的數據選擇對 SFT 模型效果有非常大的影響[42]，因此構造少量并且高質量的訓練數據是本階段的研究重點。

獎勵建模（Reward Modeling）階段

目標是構建一個文本質量對比模型。對于同一個提示詞，SFT 模型對給出的多個不同輸出結果的質量進行排序。獎勵模型可以通過二分類模型，對輸入的兩個結果之間的優劣進行判斷。獎勵模型與基礎模型和 SFT 模型不同，獎勵模型本身并不能單獨提供給用戶使用。獎勵模型的訓練通常和 SFT 模型一樣，使用數十塊 GPU，通過數天時間完成訓練。

由于獎勵模型的準確率對強化學習階段的效果有至關重要的影響，因此通常需要大規模的訓
練數據對該模型進行訓練。Andrej Karpathy 在報告中指出，該部分需要百萬量級的對比數據標注，而且其中很多標注需要很長時間才能完成。圖1.4 給出了 InstructGPT 系統中獎勵模型訓練樣本標注示例[24]。可以看到，示例中文本表達都較為流暢，標注其質量排序需要制定非常詳細的規范，標注者也需要認真地基于標注規范進行標注，需要消耗大量的人力。同時，保持眾標注者之間的一致性，也是獎勵建模階段需要解決的難點問題之一。此外，獎勵模型的泛化能力邊界也是本階段需要重點研究的一個問題。如果獎勵模型的目標是針對系統所有的輸出都能夠高質量地進行判
斷，那么該問題的難度在某種程度上與文本生成等價，因此限定獎勵模型應用的泛化邊界是本階
段需要解決的問題。

獎勵模型是在 InstructGPT 這種“有監督微調 + 強化學習”方法中用來評估語言模型輸出的工具。它根據人類反饋（比如“好”或“不好”）預測某個輸出有多符合人類期望。
泛化能力指的是獎勵模型能不能在沒見過的新輸出上也做出準確判斷。

難度等價于文本生成
文本生成（比如 GPT 生成句子）本身就很難，因為它需要理解語法、語義、邏輯、世界知識等。獎勵模型要判斷所有生成的文本質量，相當于也要理解這些東西，甚至還要加上“人類偏好”（比如什么是“有用”“禮貌”）。所以，造一個能完美評分所有輸出的獎勵模型，難度不比造一個完美的語言模型低。
獎勵模型的泛化能力是個研究重點，因為我們希望它能評判所有輸出，但這太難了（難度堪比文本生成）。
所以需要明確它的“邊界”：哪些輸出它能判斷，哪些不能，而不是讓它盲目嘗試。
例如，研究者可能決定：獎勵模型只負責判斷“數學問題”和“身份問題”的回答質量，不擴展到“天氣”或“宇宙”這類復雜領域。

研究人員需要找到方法，比如用更多樣化的訓練數據、設計多個專門的獎勵模型（而不是一個通用的），來平衡泛化能力和實用性。

總結：獎勵模型很關鍵，但不能指望它完美判斷所有東西。它的能力有邊界，這個邊界有多大、怎么劃定，是現在需要研究的重點。不然，獎勵模型要么“自不量力”亂評分，要么“過于謹慎”沒用處。

主要內容

任務：對關于鸚鵡研究的不同文本片段進行排序，以確定它們的相對質量和信息價值。
排名規則：
Rank 1（最佳）：最具相關性和信息價值的文本。
Rank 5（最差）：最無關或質量最低的文本。

具體排名：
A（最佳）：描述鸚鵡模仿人類語言的能力，信息豐富，貼近主題，因此排名第一。
C（第二名）：討論了鸚鵡理解數字的能力，與主題相關，但比 A 稍微次之。
E 和 D（第三名）：雖然描述了鸚鵡的聽覺和視覺特性，但與主題（模仿能力）關聯較弱，因此排名較低。
B（未排名，但可能較低）：盡管提到了鸚鵡的發聲能力，但內容可能不如 A 具體，因此未排在首位。
Rank 4 和 Rank 5 為空，說明這些文本的質量都不算特別差。

排名 1（最佳）：
A：美國的一個研究小組發現，鸚鵡可以輕松模仿人類的語言，其中一些甚至可以像人類一樣進行發聲。該小組研究了鸚鵡在自然棲息地中發出的聲音，并發現它們使用舌頭和喙的方式與人類驚人地相似……

排名 2：
C：研究發現鸚鵡具有理解數字的能力。研究人員發現，鸚鵡可以理解最多六個數字。在一系列實驗中，鸚鵡能夠識別放在多個杯子下面的食物數量……

排名 3：
E：科學家發現，綠翅鸚鵡能夠分辨兩個除了聽覺順序不同之外完全相同的聲音。這一點很重要，因為綠翅鸚鵡以模仿聲音而聞名。這項研究表明，它們能夠理解聲音之間的區別……

D：當前的研究表明，鸚鵡看見和聽見世界的方式與人類不同。人類可以看到彩虹的各種顏色，而鸚鵡只能看到紅色和綠色的色調。此外，鸚鵡還可以看到紫外線光，而紫外線光對人類是不可見的。許多鳥類都具備這種能力……

排名 4：（空缺）

排名 5（最差）：（空缺）

強化學習（Reinforcement Learning，RL）階段

根據數十萬條提示詞，利用前一階段訓練的獎勵模型，給出 SFT 模型對提示詞回答結果的質量評估，并與語言模型建模目標綜合得到更好的效果。該階段使用的提示詞數量與有監督微調階段類似，數量在十萬個量級，并且不需要人工提前給出該提示詞所對應的理想回復。使用強化學習，在 SFT 模型的基礎上調整參數，使最終生成的文本可以獲得更高的獎勵（Reward）。該階段需要的計算量較預訓練階段也少很多，通常僅需要數十塊GPU，數天即可完成訓練。文獻 [24] 給出了強化學習和有監督微調的對比，在模型參數量相同的情況下，強化學習可以得到相較于有監督微調好得多的效果。關于為什么強化學習相比有監督微調可以得到更好結果的問題，截至 2025 年 2 月還沒有完整或得到普遍共識的解釋。目前相對得到認可的觀點是，強化學習使得模型具備更好的泛化能力[43]。同時，Andrej Karpathy 也指出，強化學習并不是沒有問題的，它會使基礎模型的熵降低，從而減少模型輸出的多樣性。經過強化學習方法訓練后的 RL 模型，就是最終提供給用戶使用、具有理解用戶指令和上下文的類 ChatGPT 系統。由于強化學習方法穩定性不高，并且超參數眾多，使得模型收斂難度大，疊加獎勵模型的準確率問題，使得在大語言模型上有效應用強化學習非常困難。