一、什么是大語言模型
大語言模型是指在海量無標注文本數據上進行預訓練得到的大型預訓練語言模型,例如GPT-3,PaLM和LLaMA。大語言模型(Large Language Model,LLM)是一種基于深度學習的自然語言處理模型,能夠理解和生成人類語言。它通過大量文本數據進行訓練,學習語言的統計規律和語義關系,從而完成各種語言任務,如文本生成、翻譯、問答、摘要等。
二、大語言模型的特點
- 具有較為豐富的世界知識。與傳統機器學習模型相比,大語言模型經過超大規模文本數據的預訓練后能夠學習到較為豐富的世界知識。
- 具有較強的通用任務解決能力。大語言模型主要通過預測下一個詞元的預訓練任務進行學習,雖然并沒有針對特定的下游任務進行優化,卻能夠建立遠強于傳統模型的通用任務求解能力。
- 具有較好的復雜任務推理能力。大語言模型在大規模文本數據預訓練后,能夠展現出比傳統模型更強的綜合推理能力。
- 具有較強的人類指令遵循能力。大語言模型建立了自然語言形式的統一任務解決模式:任務輸入與執行結果均通過自然語言進行表達。通過預訓練與微調兩個階段的學習,大語言模型具備了較好的人類指令遵循能力,能夠直接通過自然語言描述下達任務指令(又稱為“提示學習”)。
- 具有較好的人類對齊能力。目前廣泛采用的對齊方式是基于人類反饋的強化學習技術,通過強化學習使得模型進行正確行為的加強以及錯誤行為的規避,進而建立較好的人類對齊能力。目前很多線上部署的大語言模型應用,都能夠有效阻止典型的模型功能濫用行為,一定程度上規避了常見的使用風險。
- 具有可拓展的工具使用能力。大語言模型具有較為通用的任務求解形式,可以通過微調、上下文學習等方式掌握外部工具的使用,如搜索引擎與計算器,通過具有特殊功能的工具來加強大語言模型的能力。目前最先進的大語言模型如GPT-4等能夠支持多種工具的使用,從而極大地提升了模型的任務解決能力。
三、大語言模型關鍵技術概覽
- 規模擴展。早期的研究主要關注模型參數規模所帶來的性能優勢,最近的工作則是加大對于高質量數據的規模擴展。針對十億級別(如2B或7B)參數的模型使用超大規模的數據(如2T或3T詞元)進行訓練,仍然可能無法達到這些模型的最大數據容量。實現規模擴展的關鍵在于模型架構的可擴展性。Transformer模型的可擴展性非常強,對于硬件并行優化的支持也比較友好,特別適合大語言模型的研發,很多工作也在進一步針對其進行優化與改進。
- 數據工程。OpenAI于2019年就在GPT-2的論文中給出了當前大語言模型的技術路線圖:通過在海量文本上進行下一個詞預測的優化,使得模型能夠學習到豐富的語義知識信息,進而通過文本補全的方式解決各種下游任務。這種方式最大的好處是,極大地簡化了模型的設計與優化過程,使得模型訓練與使用都是基于自然語言生成的模式進行的。在這種通用的預訓練范式下,模型能力本質上是來源于所見過的訓練數據,因此數據工程就變得極為重要。目前來說,數據工程主要包括三個方面。首先,需要對于數據進行全面的采集,拓寬高質量的數據來源;其次,需要對于收集到的數據進行精細的清洗,盡量提升用于大模型訓練的數據質量;第三,需要設計有效的數據配比與數據課程,加強模型對于數據語義信息的利用效率。這三個方面的數據工程技術直接決定了最后大語言模型的性能水平。目前來說,針對英文的開源高質量數據集合比較豐富,相關的數據工程技術討論也相對較多,但是對于其他語言的研究關注度還有待進一步加強。
- 高效預訓練。由于參數規模巨大,需要使用大規模分布式訓練算法優化大語言模型的神經網絡參數。由于大語言模型的訓練需要耗費大量的算力資源,通常需要開展基于小模型的沙盒測試實驗,進而確定面向大模型的最終訓練策略。為此,GPT-4構建了一整套面向大模型的基礎訓練架構,可以使用較少的算力開銷來可靠地預測大模型的最終性能。
- 能力激發。現有的研究認為指令微調無法向大模型注入新的知識,而是訓練大模型學會利用自身所掌握的知識與信息進行任務的求解。在提示學習方面,需要設計合適的提示策略去誘導大語言模型生成正確的問題答案。為此,研究人員提出了多種高級提示策略,包括上下文學習、思維鏈提示等,通過構建特殊的提示模板或者表述形式來提升大語言模型對于復雜任務的求解能力。提示工程已經成為利用大語言模型能力的一個重要技術途徑。進一步,大語言模型還具有較好的規劃能力,能夠針對復雜任務生成逐步求解的解決方案,從而簡化通過單一步驟直接求解任務的難度,進一步提升模型在復雜任務上的表現。
- 人類對齊。在實踐應用中,需要保證大語言模型能夠較好地符合人類的價值觀。將人類偏好引入到大模型的對齊過程:首先訓練能夠區分模型輸出質量好壞的獎勵模型,進而使用強化學習算法來指導語言模型輸出行為的調整,讓大語言模型能夠生成符合人類預期的輸出。
- 工具使用。通過讓大語言模型學會使用各種工具的調用方式,進而利用合適的工具去實現特定的功能需求。為了能夠有效地使用外部工具,GPT系列模型通過插件機制來形成系統性的工具調用方式,這些插件可以類比為大語言模型的“眼睛和耳朵”,能夠有效擴展大語言模型的能力范圍。在技術路徑上,工具調用能力主要是通過指令微調以及提示學習兩種途徑實現,而未經歷過特殊訓練或者缺乏有效提示的大語言模型則很難有效利用候選工具。