從零開始實現大語言模型（一）：概述

1. 前言

大家好，我是何睿智。我現在在做大語言模型相關工作，我用業余時間寫一個專欄，給大家講講如何從零開始實現大語言模型。

從零開始實現大語言模型是了解其原理及領域大語言模型實現路徑的最好方法，沒有之一。已有研究證明，為特定任務定制或使用領域數據訓練的大語言模型能在領域相關的評價指標上超過ChatGPT這樣的通用大語言模型。

本專欄將從零開始講解大語言模型理論原理step-by-step，提供一整套工業級文本數據處理，大語言模型構建、預訓練、監督微調及指令微調，并行計算與分布式訓練代碼，并且從零開始解釋實現代碼line-by-line。

2. 大語言模型的模型結構

2017年，文章Attention is all you need提出了一種用于機器翻譯的sequence-to-sequence架構模型Transformer。Transformer包含一個編碼器(encoder)和一個解碼器(decoder)，編碼器提取輸入文本中的上下文信息，將其轉變成多個向量，并傳遞給解碼器。解碼器接收編碼器生成的向量，生成輸出序列。

2018年，文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding使用 [MASK] 單詞預測任務和句子前后順序預測任務預訓練Transformer模型的編碼器，預訓練后的模型被稱為BERT(Bidirectional Encoder Representations from Transformers)。BERT模型的編碼器架構及訓練策略，使其非常擅長情感預測、文檔分類等文本分類任務。

句子前后順序預測任務，最初是預測兩句話是否在原始預訓練語料中相鄰，后續改進為原始預訓練語料中的兩個相鄰句子是否被交換順序。

同年，OpenAI的文章Improving Language Understanding by Generative Pre-Training通過生成式預訓練任務（根據一段話的前文預測后文）訓練Transformer模型的解碼器，預訓練后的模型被稱為GPT(Generative Pretrained Transformers)。GPT模型的解碼器架構及訓練策略，使其非常擅長機器翻譯、文本摘要、編寫計算機代碼等文本生成任務。

Transformer、BERT及上述GPT模型網絡結構核心是自注意力機制(self-attention)。自注意力機制可以讓模型判斷輸入文本序列中不同token之間的相關性，使模型能夠捕獲輸入文本數據中長距離依賴關系及上下文關系，因而比傳統基于RNN等結構的模型具備更強的自然語言理解能力，生成的內容更加連貫且與上下文相關性更強。

token是指對文本分割處理后得到的最小單位，也是模型處理文本時的基本單元。訓練數據處理時常提到的tokenization，即把自然語言文本處理成連續的token。Token可以是一個單詞，一個字符，一個詞組等等，取決于對訓練數據做tokenization時采用的方法。

相比較于上面OpenAI的文章介紹的GPT-1模型，GPT-3模型結構沒有做任何調整。GPT-3可以視為GPT-1模型的拓展，其模型層數更多，Embedding向量維度更高，參數量更大，并且使用了更大的預訓練數據集。ChatGPT是通過OpenAI的InstructGPT論文中的方法在一個大的指令數據集(instruction dataset)上微調GPT-3而產生的。Meta的LLaMA等絕大部分大語言模型結構與GPT基本相同或僅僅做了非常微小的修改。

與Transformer模型相比，大語言模型GPT的結構非常簡單，本質上它只是Transformer模型的解碼器。但是GPT-3比原始Transformer模型解碼器要大的多，原始Transformer模型解碼器僅包含6個Transformer Block，但是GPT-3包含96個Transformer Block，共1750億參數。GPT生成文本時每次僅預測下一個token，因此它也被視為一種自回歸模型(autoregressive model)。

盡管GPT只相當于Transformer模型的解碼器，而不是像Transformer那樣明確被用于解決機器翻譯任務的sequence-to-sequence模型，且訓練模型的下一個token預測任務也不是專門針對機器翻譯的任務，但是它也能夠執行機器翻譯任務，且大語言模型機器翻譯效果比一般機器翻譯模型都相對好。

大語言模型這種能夠執行沒有被明確訓練的能力被稱為“涌現(emerging property)”。涌現是一種沒有使用相同任務明確訓練，而是模型在學習了大量各種各樣語言的語料之后自然而然出現的能力。大語言模型中的這種涌現現象證明了其具備非常強大的能力，部分專家學者認為其具備一定的通用人工智能雛形，截止目前大家已經發現并認可了大語言模型的廣闊應用前景。

3. 大語言模型的訓練方法

如下圖所示，大語言模型的訓練方法通常包含預訓練(pretraining)和微調(finetuning)。

預訓練是指使用大量無標簽的、多樣化的文本數據(raw text)，通過下一個token預測任務(next token prediction task)訓練模型，使模型能夠了解自然語言文本中的語法及知識。預訓練后的模型被稱為基礎模型(base model or foundational model)，如GPT-3（ChatGPT對應的基礎模型）。基礎模型一般具有比較強的文本補全(text completion)及小樣本學習(few-shot learning)能力。

文本補全是指模型能夠根據用戶輸入的上文，完成相應的下文。小樣本學習是指不用大量訓練數據訓練或微調模型，而是提供幾個具體任務的示例，模型也能夠輸出比較不錯的結果。

可以使用針對特定任務或具體領域的小數據集微調模型參數，使基礎模型具備如ChatGPT這樣的對話能力。最流行的兩類微調大語言模型的方法為指令微調(instruction-finetuning)和監督微調(finetuning for classification tasks)。指令微調是指使用如下所示的帶標簽的（指令-答案）數據集繼續訓練基礎模型，監督微調是指使用（文本-類別標簽）這樣的帶標簽數據集繼續訓練基礎模型。

{"instruction": "請把下面的中文翻譯成英文：\n我愛你。","answer": "I love you."
}

“raw"的意思為"原始的”，是指用于預訓練模型的數據不包含任何使用監督學習方法訓練傳統機器學習模型或深度學習模型時用到的標簽信息。預訓練大語言模型的方法被稱為自監督學習(self-supervised learning)，預訓練模型的標簽數據使用一定的規則從輸入文本中自動生成。

使用raw text訓練模型并不意味著不對用于預訓練的文本數據做任何處理。如在預訓練之前，通常會使用一系列文本預處理方法對文本數據進行過濾。已有研究表明，預訓練大語言模型的文本質量越高，則模型能力越強。

4. 大語言模型的訓練數據

預訓練GPT-3的數據來自5個不同的數據集，共包含3000億tokens。其中CommonCrawl (filtered)是采用一定規則從CommonCrawl數據集過濾得到的一個質量相對高的子集，WebText2是Reddit網站上獲得3個及以上點贊的帖子中的外部鏈接所包含的網頁文本（外部鏈接指向其他網頁，WebText2收集了這些鏈接指向網頁的文本內容），Books1可能來自古騰堡計劃（Project Gutenberg，古騰堡計劃是一個數字化圖書館，致力于向公眾提供免費的電子書），Books2可能來自Libgen（Libgen是一個知名的免費圖書共享平臺，用戶可以通過該平臺獲取各種電子書、學術論文和期刊等資源），Wikipedia數據集由英文維基百科組成。

數據集名稱	描述	token數量	在訓練數據集中的比例
CommonCrawl (filtered)	Web crawl data	410 billion	60%
WebText2	Web crawl data	19 billion	22%
Books1	Internet-based book corpus	12 billion	8%
Books2	Internet-based book corpus	55 billion	8%
Wikipedia	High-quality text	3 billion	3%

GPT-3之后的大語言模型進一步拓展了訓練模型的數據集，如Meta的LLaMA還使用了Arxiv網站中的論文數據集（92GB）及StackExchange網站中與代碼相關的問答數據集（78GB）。國內的大語言模型也針對性地增加了訓練集中的中文訓練數據占比。

GPT-3論文作者沒有公開他們用到的訓練數據集，但是有個類似的開源數據集The Pile，該數據集的信息可以點擊鏈接查看詳情：https://pile.eleuther.ai/。

訓練GPT-3時并沒有使用上表提到的5個數據集中的全部數據，而是從每個數據集中抽取了一部分數據，共同組成了訓練模型的包含3000億tokens的訓練數據集。抽取數據的原則是：質量越高的數據集采樣比例越高，質量越低的數據集采樣比例越低。如CommonCrawl數據集共包含4100億tokens，但是只從中抽取了1800億tokens，WebText2雖然只包含190億tokens，但是從中共抽取了660億tokens，相當于將WebText2數據集重復了3.47遍。

5. 大語言模型的實現流程

從零開始實現大語言的流程共三階段：構建大語言模型、預訓練大語言模型、微調大語言模型。

大語言模型構建部分將詳細介紹文本數據處理方法，構建訓練大語言模型的Dataset及DataLoader；從零開始一步步解釋并實現簡單自注意力機制(simplified self-attention)、縮放點積注意力機制(scaled dot-product attention)、因果注意力機制(causal attention)、多頭注意力機制(multi-head attention)；并最終構建出OpenAI的GPT系列大語言模型GPTModel。

預訓練部分將介紹并行計算與分布式機器學習方法原理，實現使用無標簽文本數據訓練大語言模型的方法，以及介紹大語言模型效果評估的基本方法。使用GPT-3同量級數據集預訓練大語言模型的計算代價非常大，如果換算成相應云計算資源價值，預訓練GPT-3大約需耗費460萬美元。因此，該部分同時會介紹使用構建好的大語言模型加載開源大語言模型(如GPT-2)權重的方法。