語言模型演進：從NLP到LLM的跨越之旅

在人工智能的浩瀚宇宙中，自然語言處理（NLP）一直是一個充滿挑戰和機遇的領域。隨著技術的發展，我們見證了從傳統規則到統計機器學習，再到深度學習和預訓練模型的演進。如今，我們站在了大型語言模型（LLM）的門檻上，它們正在重新定義我們與機器交流的方式。本文將深入探討LLM的發展歷程、技術路線、以及它們對未來AI領域的影響。

引言

自然語言處理（NLP）的目標是讓機器能夠理解、解釋和生成人類語言。這一領域的發展經歷了幾個重要的階段，每個階段都標志著對語言理解深度的一次飛躍。從早期的基于規則的系統，到統計學習方法，再到深度學習模型，直至今日的大型語言模型（LLM），每一步都是對前一階段的超越。
在這里插入圖片描述

從規則到統計：NLP的早期探索

規則階段（1956—1992）

在NLP的早期，研究者依賴于手工編寫的規則來處理語言。這一階段的技術棧包括有限狀態機和基于規則的系統。例如，Apertium就是一個基于規則的機器翻譯系統，它展示了早期研究者如何通過人工整理詞典和編寫規則來實現語言的自動翻譯。
在這里插入圖片描述

統計機器學習階段（1993—2012）

隨著時間的推移，研究者開始轉向統計學習方法，使用支持向量機（SVM）、隱馬爾可夫模型（HMM）、最大熵模型（MaxEnt）和條件隨機場（CRF）等工具。這一階段的特點是少量人工標注領域數據與人工特征工程的結合，標志著從手工編寫規則到機器自動從數據中學習知識的轉變。
在這里插入圖片描述

深度學習的突破：開啟新紀元

深度學習階段（2013—2018）

深度學習的出現為NLP帶來了革命性的變化。以編碼器-解碼器（Encoder-Decoder）、長短期記憶網絡（LSTM）、注意力機制（Attention）和嵌入（Embedding）為代表的技術，使得模型能夠處理更大規模的數據集，并且幾乎不需要人工特征工程。Google的神經機器翻譯系統（2016）就是這一階段的代表之作。
在這里插入圖片描述

預訓練模型的興起：知識的自我發現

預訓練階段（2018—2022）

預訓練模型的出現標志著NLP領域的又一次飛躍。以Transformer和注意力機制為核心的技術棧，結合海量無標注數據進行自監督學習，生成通用知識，再通過微調適應特定任務。這一階段的突變性非常高，因為它擴展了可利用的數據范圍，從標注數據拓展到了非標注數據。
在這里插入圖片描述

LLM的新時代：智能與通用性的融合

LLM階段（2023—？）

LLM代表了語言模型的最新發展，它們通常采用解碼器為主的架構，結合了Transformer和強化學習人類反饋（RLHF）。這一階段的特點是兩階段過程：預訓練和與人類對齊。預訓練階段利用海量無標注數據和領域數據，通過自監督學習生成知識；與人類對齊階段則通過使用習慣和價值觀對齊，使模型能夠適應各種任務。
在這里插入圖片描述
回顧各個發展階段可以看到以下趨勢：

數據: 從數據到知識，越來越多數據被利用起來/未來:更多文本數據、更多其它形態數據→任何數據
算法: 表達能力越來越強;規模越來越大;自主學習能力越來越強;從專業向通用/未來:Transformer目前看夠用，新型模型(應該強調學習效率)?→AGI?
人機關系: 位置后移，從教導者到監督者/未來:人機協作，機向人學習→人向機學習?→機器拓展人類知識邊界

在這里插入圖片描述

LLM技術發展路線：多樣化的路徑

在過去的幾年中，LLM技術發展呈現出多樣化的路徑，包括BERT模式、GPT模式和T5模式等。每種模式都有其特點和適用場景。
在這里插入圖片描述

BERT模式（Encoder-Only）

BERT模式通過雙向語言模型預訓練和任務微調的兩階段（雙向語言模型預訓練+任務Fine-tuning）過程，適用于自然語言理解類任務。BERT預訓練從通用數據中提取通用知識，而微調則從領域數據中提取領域知識。
在這里插入圖片描述
適合解決的任務場景：比較適合自然語言理解類，某個場景的具體任務，專而輕；

GPT模式（Decoder-Only）

GPT模式則從單向語言模型預訓練和zero shot/few shot prompt或指令的一階段（單向語言模型預訓練+zero shot/few shot prompt／Instruct）過程中發展而來，適合自然語言生成類任務。GPT模式的模型通常是目前規模最大的LLM，它們能夠處理更廣泛的任務。
在這里插入圖片描述
適用場景：比較適合自然語言生成類任務，目前規模最大的LLM，都是這種模式：GPT 系列，PaLM，LaMDA……,重而通；生成類任務／通用模型建議GPT模式；

T5模式（Encoder-Decoder）

T5模式結合了BERT和GPT的特點，適用于生成和理解任務。T5模式的填空任務（Span Corruption）是一種有效的預訓練方法，它在自然語言理解類任務中表現出色。兩階段（單向語言模型預訓練+Fine-tuning為主）
在這里插入圖片描述
特點：形似GPT，神似Bert
適用場景：生成和理解都行，從效果上看比較適合自然語言理解類任務，國內很多大型LLM采取這種模式；如果是單一領域的自然語言理解類任務，建議使用T5模式；

為什么超大LLM都是GPT模式

超大LLM:追求zero shot/ few shot/instruct 效果
目前的研究結論

(模型規模不大時):

自然語言理解類:T5模式效果最好。
自然語言生成類:GPT模式效果最好。
Zero shot: GPT模式效果最好。
如果Pretrain后引入多任務fine-tuning，則T5模式效果好(結論存疑:目前的實驗Encoder-Decoder都是Decoder-only參數量的兩倍，結論是否可靠?)

目前的研究結論(超大規模):
事實:幾乎所有超過100B的LLM模型，都采取GPT模式

可能的原因:
1.Encoder-Decoder里的雙向attention，損害zero shot能力(Check)
2.Encoder-Decoder結構在生成Token時，只能對Encoder高層做attentionDecoder-only結構在生成Token時，可以逐層Attention，信息更細粒度
3.Encoder-Decoder訓練“中間填空”，生成最后單詞Next Token，存在不一致性Decoder-only結構訓練和生成方式一致

超大LLM的挑戰與機遇

隨著模型規模的增長，研究者面臨著如何有效利用參數空間的挑戰。Chinchilla模型的研究表明，在數據充足的情況下，當前的LLM規模可能比理想規模更大，存在參數空間的浪費，然而，Scaling Law也指出，模型規模越大，數據越多，訓練越充分，LLM模型的效果越好。比較可行的思路是：先做小（GPT 3本來不應該這么大），再做大（充分利用模型參數后，繼續做大）。
在這里插入圖片描述

當然鑒于多模態LLM需要更豐富的現實環境感知能力，對此LLM參數也提出更高的要求。
多模態LLM：視覺輸入（圖片、視頻）、聽覺輸入（音頻）、觸覺輸入（壓力）
在這里插入圖片描述
面臨問題：多模態LLM看著效果還不錯，很大程度依賴于人工整理的大數據集

如 ALIGN:1.8B 圖文/LAION:5.8B圖文數據(經過CLIP過濾，目前最大圖文數據)目前是文字帶圖像飛?

圖像處理：自監督技術路線在嘗試，尚未走通(對比學習/MAE)/如果能走通會是AI領域另外一次巨大技術突破;

如果能走通，目前的一些圖像理解類任務(語義分割/識別等)估計會被融入LLM，進而消失

在這里插入圖片描述

提升LLM的復雜推理能力

盡管當前的LLM具備一定的簡單推理能力，但在復雜推理方面仍有不足。例如，多位數加法等任務對LLM來說仍然是一個挑戰。研究者正在探索如何通過技術手段，如語義分解，將復雜推理能力蒸餾到更小的模型中。
在這里插入圖片描述
當然也可以通過能力外包的形式繞過這個問題，如與工具結合：計算能力（外部計算器）、新信息查詢（搜索引擎）等能力借助外部工具完成。