目錄
1.語言模型的發展歷程
1.1 統計語言模型
1.2 神經語言模型
1.3 預訓練語言模型
1.4 大語言模型
1.5 總結
1.6 各階段對比與演進邏輯
1.語言模型的發展歷程
語言模型的發展歷程經歷了四個主要階段:統計語言模型、神經語言模型、預訓練語言模型和大語言模型。統計語言模型基于統計學習方法,使用馬爾可夫假設建立預測模型,但存在數據稀疏問題。神經語言模型使用神經網絡建模文本序列,引入了分布式詞表示,克服了數據稀疏問題。預訓練語言模型在訓練架構和數據方面進行了創新,使用大規模無標注數據進行預訓練,并通過微調適應特定任務。大語言模型通過規模擴展提升性能,展現出新的涌現能力,如上下文學習。
1.1 統計語言模型
統計語言模型使用統計學習方法,基于馬爾可夫假設建立預測模型,通常根據固定長度的前綴預測下一個詞。具有固定上下文長度 𝑛 的統計語言模型被稱為 𝑛 元語言模型。隨著 𝑛 的增加,需要估計的轉移概率項數指數級增長,導致數據稀疏問題。為緩解此問題,需要設計專門的語言模型平滑策略,如回退估計和古德-圖靈估計。盡管如此,平滑方法對于高階上下文的刻畫能力仍然較弱。
- 時間線:20世紀90年代至2000年代初
- 關鍵技術:
- n-gram模型:基于馬爾可夫假設,用前n?1個詞預測當前詞概率。
- 平滑技術:解決數據稀疏問題(如低頻詞組合概率為0),常用方法包括拉普拉斯平滑(加一法)和回退法(Katz回退)。
- 特點:
- 依賴局部上下文,難以捕捉長距離依賴。
- 計算高效,但模型泛化能力有限。
1.2 神經語言模型
神經語言模型使用神經網絡來建模文本序列的生成,如循環神經網絡(RNN)。Yoshua Bengio 引入了分布式詞表示概念,構建了基于聚合上下文特征的目標詞預測函數。分布式詞表示使用低維稠密向量表示詞匯的語義,與基于詞典空間的稀疏詞向量表示不同,能夠刻畫更豐富的隱含語義特征。稠密向量的非零表征對于復雜語言模型的搭建非常友好,有效克服了統計語言模型中的數據稀疏問題。Word2vec 是一個具有代表性的詞嵌入學習模型,構建了一個簡化的淺層神經網絡來學習分布式詞表示,所學習到的詞嵌入可以用作后續任務的語義特征提取器。
- 時間線:2003年(Bengio提出神經網絡語言模型)至2010年代中期
- 關鍵技術:
- 分布式詞表示:將詞映射為低維稠密向量(如Word2Vec、GloVe),解決稀疏性問題。
- 神經網絡架構:前饋神經網絡、RNN、LSTM,可建模更長上下文。
- 特點:
- 詞向量捕捉語義相似性,如“貓”與“狗”向量距離較近。
- 計算復雜度高,依賴硬件發展(如GPU加速)
1.3 預訓練語言模型
預訓練語言模型在訓練架構與訓練數據兩個方面進行了改進與創新。ELMo 是一個早期的代表性預訓練語言模型,使用大量無標注數據訓練雙向 LSTM 網絡,預訓練完成后所得到的 biLSTM 可以用來學習上下文感知的單詞表示。BERT 和 GPT-1 是基于 Transformer 架構的預訓練語言模型,BERT 采用僅有編碼器的 Transformer 架構,而 GPT-1 采用僅有解碼器的 Transformer 架構。預訓練語言模型確立了“預訓練-微調”這一任務求解范式,預訓練階段建立模型的基礎能力,微調階段使用有標注數據對模型進行特定任務的適配。
- 時間線:2018年(BERT、GPT發布)為轉折點
- 關鍵技術:
- Transformer架構:自注意力機制(Self-Attention)并行處理長序列。
- 預訓練+微調范式:通過無監督任務(如掩碼語言模型)學習通用表征,再針對下游任務微調。
- 特點:
- 上下文感知能力:動態生成詞表示(如BERT區分“bank”的“銀行”與“河岸”義項)。
- 遷移學習泛化:減少對標注數據的依賴
1.4 大語言模型
研究人員發現,通過規模擴展通常會帶來下游任務的模型性能提升,這種現象被稱為“擴展法則”。一些研究工作嘗試訓練更大的預訓練語言模型,如 GPT-3 和 PaLM,探索擴展語言模型所帶來的性能極限。這些大規模的預訓練語言模型在解決復雜任務時表現出了與小型預訓練語言模型不同的行為。大語言模型具有涌現能力,如 GPT-3 的上下文學習能力。ChatGPT 將 GPT 系列大語言模型適配到對話任務中,展現出令人震撼的人機對話能力。
- 時間線:2020年(GPT-3發布)后進入爆發期
- 關鍵技術:
- 超大規模參數:千億級參數(如GPT-3含1750億參數)提升模型容量。
- 上下文學習(In-context Learning):通過提示(Prompt)直接生成答案,無需微調。
- 指令微調與提示工程:如思維鏈(Chain-of-Thought)引導分步推理。
- 特點:
- 零樣本/少樣本學習:僅需少量示例即可適應新任務。
- 多任務統一架構:問答、翻譯、代碼生成等任務共用同一模型。
1.5 總結
語言模型的發展從統計語言模型到神經語言模型,再到預訓練語言模型和大語言模型,經歷了技術方法和架構的不斷創新。統計語言模型受限于數據稀疏問題,而神經語言模型通過分布式詞表示克服了這一問題。預訓練語言模型通過大規模無標注數據預訓練和微調,顯著提升了自然語言處理任務的性能。大語言模型通過規模擴展進一步提升了模型性能,并展現出新的涌現能力,如上下文學習,為自然語言處理領域帶來了新的突破。
1.6 各階段對比與演進邏輯
階段 | 核心問題 | 解決方案 | 代表模型/技術 |
---|---|---|---|
統計語言模型 | 數據稀疏、局部依賴 | n-gram、平滑技術 | Trigram模型 |
神經語言模型 | 語義表示、長距離依賴 | 詞嵌入、RNN/LSTM | Word2Vec、ELMo |
預訓練語言模型 | 通用語義表征 | Transformer、自監督預訓練 | BERT、GPT-2 |
大語言模型 | 復雜任務泛化 | 超大規模參數、提示工程 | GPT-3、ChatGPT |
?