隨著2022年底 ChatGPT 再一次刷新 NLP 的能力上限,大語言模型(Large Language Model,LLM)開始接替傳統的預訓練語言模型(Pre-trained Language Model,PLM) 成為 NLP 的主流方向,基于 LLM 的全新研究范式也正在刷新被 BERT 發揚光大的預訓練-微調范式,NLP 由此迎來又一次翻天覆地的變化。從2022年底至今,LLM 能力上限不斷刷新,通用基座大模型數量指數級上升,基于 LLM 的概念、應用也是日新月異,預示著大模型時代的到來。
1. LLM 的定義
LLM,即 Large Language Model,中文名為大語言模型或大型語言模型,是一種相較傳統語言模型參數量更多、在更大規模語料上進行預訓練的語言模型。
一般來說,LLM 指包含數百億(或更多)參數的語言模型,它們往往在數 T token 語料上通過多卡分布式集群進行預訓練,具備遠超出傳統預訓練模型的文本理解與生成能力。不過,隨著 LLM 研究的不斷深入,多種參數尺寸的 LLM 逐漸豐富,廣義的 LLM 一般覆蓋了從十億參數(如 Qwen-1.5B)到千億參數(如 Grok-314B)的所有大型語言模型。只要模型展現出涌現能力,即在一系列復雜任務上表現出遠超傳統預訓練模型(如 BERT、T5)的能力與潛力,都可以稱之為 LLM。
一般認為,GPT-3(1750億參數)是 LLM 的開端,基于 GPT-3 通過 預訓練(Pretraining)、監督微調(Supervised Fine-Tuning,SFT)、強化學習與人類反饋(Reinforcement Learning with Human Feedback,RLHF)三階段訓練得到的 ChatGPT 更是主導了 LLM 時代的到來。自2022年11月 OpenAI 發布 ChatGPT 至今不到2年時間里,已涌現出了上百個各具特色、能力不一的 LLM。下表列舉了自 2022年11月至2023年11月國內外發布的部分大模型:
2.LLM的能力?
(1)涌現能力(Emergent Abilities)
區分 LLM 與傳統 PLM 最顯著的特征即是 LLM 具備?涌現能力
?。涌現能力是指同樣的模型架構與預訓練任務下,某些能力在小型模型中不明顯,但在大型模型中特別突出。可以類比到物理學中的相變現象,涌現能力的顯現就像是模型性能隨著規模增大而迅速提升,超過了隨機水平,也就是我們常說的量變引起了質變。
(2)上下文學習(In-context Learning)
上下文學習是指允許語言模型在提供自然語言指令或多個任務示例的情況下,通過理解上下文并生成相應輸出的方式來執行任務,而無需額外的訓練或參數更新。
對傳統 PLM,在經過高成本的預訓練之后,往往還需要對指定的下游任務進行有監督微調。雖然傳統 PLM 體量較小,對算力要求較低,但例如 BERT 類模型(0.5B 參數),進行有監督微調一般還是需要 10G 以上顯存,有一定的算力成本。而同時,有監督微調的訓練數據的成本更高。針對下游任務難度的不同,需要的訓練樣本數往往在 1k~數十k 不等,均需要進行人工標注,數據獲取上有不小的成本。而具備上下文學習能力的 LLM 往往無需進行高成本的額外訓練或微調,而可以通過少數示例或是調整自然語言指令,來處理絕大部分任務,從而大大節省了算力和數據成本。
(3)指令遵循(Instruction Following)
通過使用自然語言描述的多任務數據進行微調,也就是所謂的?指令微調
?,LLM 被證明在同樣使用指令形式化描述的未見過的任務上表現良好。也就是說,經過指令微調的 LLM 能夠理解并遵循未見過的指令,并根據任務指令執行任務,而無需事先見過具體示例,這展示了其強大的泛化能力。
指令遵循能力意味我們不再需要每一件事都先教模型,然后它才能去做。我們只需要在指令微調階段混合多種指令來訓練其泛化能力,LLM 就可以處理人類絕大部分指令,即可以靈活地解決用戶遇到的問題。這一點在 ChatGPT 上體現地尤為明顯。通過給 ChatGPT 輸入指令,其可以寫作文、編程序、批改試卷、閱讀報紙等等。
(4)逐步推理(Step by Step Reasoning)
傳統的 NLP 模型通常難以解決涉及多個推理步驟的復雜任務,例如數學問題。然而,LLM 通過采用思維鏈(Chain-of-Thought,CoT)推理策略,可以利用包含中間推理步驟的提示機制來解決這些任務,從而得出最終答案。逐步推理能力意味著 LLM 可以處理復雜邏輯任務,也就是說可以解決日常生活中需要邏輯判斷的絕大部分問題,從而向“可靠的”智能助理邁出了堅實的一步。
3. LLM 的特點
(1)多語言支持
多語言、跨語言模型曾經是 NLP 的一個重要研究方向,但 LLM 由于需要使用到海量的語料進行預訓練,訓練語料往往本身就是多語言的,因此 LLM 天生即具有多語言、跨語言能力,只不過隨著訓練語料和指令微調的差異,在不同語言上的能力有所差異。由于英文高質量語料目前仍是占據大部分,以 GPT-4 為代表的絕大部分模型在英文上具有顯著超越中文的能力。雖然都可以對多種語言進行處理,但針對中文進行額外訓練和優化的國內模型(如文心一言、通義千問等)往往能夠在中文環境上展現更優越的效果。
(2)長文本處理
由于能夠處理多長的上下文文本,在一定程度上決定了模型的部分能力上限,LLM 往往比傳統 PLM 更看重長文本處理能力。相對于以 512 token 為慣例的傳統 PLM(如 BERT、T5等模型的最大上下文長度均為 512),LLM 在拓寬最大上下文長度方面可謂妙計頻出。由于在海量分布式訓練集群上進行訓練,LLM 往往在訓練時就支持 4k、8k 甚至 32k 的上下文長度。同時,LLM 大部分采用了旋轉位置編碼(Rotary Positional Encoding,RoPE)(或者同樣具有外推能力的 AliBi)作為位置編碼,具有一定的長度外推能力,也就是在推理時能夠處理顯著長于訓練長度的文本。
(3)拓展多模態
隨著 LLM 的不斷改進,通過為 LLM 增加額外的參數來進行圖像表示,從而利用 LLM 的強大能力打造支持文字、圖像雙模態的模型,已經是一個成功的方法。通過引入 Adapter 層和圖像編碼器,并針對性地在圖文數據上進行有監督微調,模型能夠具備不錯的圖文問答甚至生成能力。
(4)揮之不去的幻覺
幻覺,是指 LLM 根據 Prompt 杜撰生成虛假、錯誤信息的表現。例如,當我們要求 LLM 生成一篇學術論文及其參考文獻列表時,其往往會捏造眾多看似“一本正經”實則完全不存在的論文和研究。幻覺問題是 LLM 的固有缺陷,也是目前 LLM 研究及應用的巨大挑戰。尤其是在醫學、金融學等非常強調精準、正確的領域,幻覺的存在可能造成非常嚴重的后果。目前也有很多研究提供了削弱幻覺的一些方法,如 Prompt 里進行限制、通過 RAG(檢索增強生成)來指導生成等,但都還只能一定程度減弱幻覺而無法徹底根除。
參考文獻:《Happy-LLM從零開始的大語言模型原理與實踐教程》