A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型語言模型的訓練后優化綜述—

arXiv 2025

摘要

大型語言模型（LLMs）的出現從根本上改變了自然語言處理，使其在從對話系統到科學研究的各個領域中變得不可或缺。然而，它們的預訓練架構在特定情境下經常顯示出局限性，包括有限的推理能力、倫理不確定性以及次優的領域特定表現。這些挑戰要求發展先進的訓練后語言模型（PoLMs）來解決這些不足，如OpenAI-o1/o3和DeepSeek-R1（統稱為大型推理模型，或LRMs）。本文首次對PoLMs進行了全面綜述，系統地追蹤了它們在五個核心范式中的演進：微調，以提高任務特定準確性；對齊，確保與人類偏好的倫理一致性和對齊；推理，在獎勵設計面臨挑戰的情況下推進多步推理；效率，在復雜性增加的情況下優化資源利用；集成與適應，擴展跨多種模式的能力同時解決一致性問題。從2018年ChatGPT的基礎對齊策略到2025年DeepSeek-R1創新的推理進步，我們展示了PoLMs如何利用數據集減少偏見、深化推理能力和增強領域適應性。我們的貢獻包括開創性的PoLM演進綜合、結構化的技術與數據集分類法以及強調LRMs在提升推理能力和領域靈活性方面角色的戰略議程。作為該領域的首次綜述，本工作不僅整合了最近的PoLM進展，并為未來研究建立了嚴格的理論框架，促進在精確度、倫理穩健性和科學及社會應用多樣性方面表現出色的LLM的發展。

關鍵詞：訓練后優化，大型語言模型，微調，對齊，推理，效率

1 引言

人們普遍認為，真正的智能賦予我們推理能力，使我們能夠測試假設，并為未來的各種情況做好準備。 ——Jean Khalfa，《什么是智能？》（1994）

語言模型（LMs）[1, 2]代表了旨在模擬和生成人類語言的復雜計算框架。這些模型通過使機器能夠以模仿人類認知的方式理解、生成并與人類語言互動，徹底改變了自然語言處理（NLP）[3]領域。與通過互動和接觸上下文環境自然獲得語言技能的人類不同，機器必須經過廣泛的數據驅動訓練才能發展出類似的能力[4]。這是一個重大的研究挑戰，因為要讓機器在進行自然且上下文適當的對話時理解和生成人類語言，不僅需要龐大的計算資源，還需要精細的模型開發方法[5, 6]。

諸如GPT-3 [7]、InstructGPT [8]和GPT-4 [9]等大型語言模型（LLMs）的出現標志著LM演進的一個變革階段。這些模型以其廣泛的參數化和先進的學習能力著稱，設計用于捕捉大規模數據集中的復雜語言結構、上下文關系和細微模式。這使得LLMs不僅能預測后續詞匯，還能在翻譯、問答和摘要等多種任務中生成連貫且上下文相關的文本。LLMs的發展引發了顯著的學術興趣[5, 6, 10]，可以分為兩個主要階段：預訓練和訓練后優化。

預訓練。預訓練的概念源自計算機視覺（CV）任務中的遷移學習[10]。其主要目標是使用大量數據集開發一個通用模型，便于針對各種下游應用進行輕松微調。預訓練的一個重要優勢在于它能利用任何未標記的文本語料庫，從而提供豐富的訓練數據來源。

（預訓練的一個關鍵優勢就在于此：它利用了這種容易獲取的、大量的未標記文本數據作為訓練資源。通過這種方式，模型可以學習到語言的基本結構、詞匯的意義、句子的組成等知識，即使沒有具體的任務導向標簽也可以進行有效的訓練。這樣的訓練為后續的特定任務微調打下了堅實的基礎，使得模型在面對具體任務時更加高效和準確。簡單來說，就是利用豐富的未標記文本數據來提升模型的基礎能力，然后再根據具體任務的需求對模型進行細化調整。）

然而，早期如神經網絡語言模型（NNLM）[11]和Word2vec[12]這樣的靜態預訓練方法難以適應不同的文本語義環境，促使了BERT[2]和XLNet[13]等動態預訓練技術的發展。BERT通過利用變換器架構并在大規模未標記數據集上采用自注意力機制有效地解決了靜態方法的局限性。這項研究確立了“預訓練和微調”的學習范式，激發了許多后續研究引入了包括GPT-2[14]和BART[15]在內的多種架構。

在自然語言處理（NLP）中，靜態和動態預訓練方法的區分主要在于模型如何理解和表示文本中的上下文信息。

靜態預訓練方法：

早期的靜態預訓練方法如神經網絡語言模型（NNLM）和Word2vec，它們通常將每個詞映射到一個固定維度的向量空間中，即所謂的詞嵌入（word embeddings）。這種方法生成的詞向量是靜態的，意味著同一個詞在不同上下文中總是被表示為相同的向量。例如，“銀行”這個詞無論是在“河岸”的意義上還是在“金融機構”的意義上，都會有一個固定的向量表示。這種局限性使得這些模型難以捕捉詞語在不同上下文中可能具有的多種含義或語義變化。

動態預訓練方法：

相比之下，BERT、XLNet等動態預訓練技術采用了一種更先進的機制來處理文本數據。這些模型利用了變換器架構及其自注意力機制，能夠根據輸入文本的具體上下文動態地調整每個詞的表示形式。這意味著同一個詞在不同的句子或上下文中可以有不同的向量表示，從而更好地捕捉其多義性和語境依賴性。例如，“銀行”一詞在提及“河岸”時和在描述“金融機構”時，在BERT或XLNet模型中會有不同的向量表示，因為模型能夠理解并利用周圍的上下文信息。

總的來說，靜態與動態的區別在于：靜態預訓練方法提供的是一個固定不變的詞表示，而動態預訓練方法則能夠基于具體的上下文環境靈活調整詞的表示，以更加準確地反映詞語在特定語境下的實際意義。這使得動態方法在處理復雜的語言結構和細微語義差異方面更為有效。

訓練后優化。訓練后優化指的是在模型完成預訓練之后所采用的技術和方法，目的是為了精煉和適應特定任務或用戶需求的模型。隨著擁有1750億參數的GPT-3[7]發布，訓練后優化領域經歷了興趣和創新的顯著增長。出現了多種提升模型性能的方法，包括使用標記數據集或特定任務數據調整模型參數的微調[16, 17]；優化模型以更好地與用戶偏好對齊的對齊策略[18, 19, 20]；使模型能夠融入領域特定知識的知識適應技術[21, 22]；以及增強模型邏輯推理和決策能力的推理改進[23, 24]。這些統稱為訓練后語言模型（PoLMs）的技術共同促成了如GPT-4[9]、LLaMA-3[25]、Gemini-2.0[26]和Claude-3.5[27]等模型的發展，標志著LLM能力的重大進步。然而，訓練后的模型往往難以在沒有重新訓練或重大參數調整的情況下適應新任務，這使得PTM（Post-training Models）開發成為一個活躍的研究領域。

正如所強調的，預訓練語言模型（PLMs）主要旨在提供通用的知識和能力，而后訓練語言模型（PoLMs）專注于將這些模型適應特定的任務和需求。這種適應的一個顯著例子是最新推出的大型語言模型DeepSeek-R1 [28]，它展示了PoLMs在增強推理能力、與用戶偏好對齊以及提高跨領域適應性方面的演變[29]。此外，開源LLM（例如LLaMA [30]、Gemma [31]和Nemotron [32]）和領域特定大數據集（如PromptSource [33]和Flan [34]）的日益普及，正在推動學術研究人員和行業從業者開發PoLMs的趨勢。這一趨勢凸顯了量身定制的適應在PoLMs領域中重要性的日益增長。

2. Gemma（Google）

3. Nemotron（NVIDIA）

二、領域特定大數據集

1. PromptSource

2. Flan（Finetuned Language Net）

一、開源大型語言模型（LLMs）

1. LLaMA（Large Language Model Meta AI）
開發背景：
由Meta AI（原Facebook AI 扎克伯格）于2023年發布，旨在提供高效、可復現的開源模型，推動學術和產業界對LLM的研究。其目標是通過較小的參數量實現接近大模型的性能，降低計算資源門檻。
技術特點：
- 模型架構：基于Transformer，優化了訓練效率和推理速度。
- 參數量：提供多種版本（7B、13B、33B、65B），適應不同資源需求。
開發背景：
Google于2024年發布，作為其閉源模型（如Gemini）的輕量化開源版本，旨在促進安全、負責任的人工智能開發。
技術特點：
- 模型架構：基于Gemini技術棧，采用MoE（Mixture of Experts）架構的輕量化變體。
- 參數量：提供2B（20億）和7B（70億）版本，注重移動端和邊緣設備部署。
- 訓練數據：多語言文本，強調數據過濾和安全性。
- 工具鏈支持：配套提供JAX、TensorFlow等框架的優化工具。
開發背景：
NVIDIA推出的開源模型系列，專注于生成合成數據以訓練垂直領域模型（如醫療、金融），解決高質量領域數據稀缺問題。
技術特點：
- 模型架構：基于Megatron-LM框架優化，支持千億級參數分布式訓練。
- 核心功能：生成逼真的領域文本（如病歷、法律文件），支持數據隱私合規。
- 訓練技術：結合強化學習（RLHF）和差分隱私（DP），確保生成數據的安全性。
應用場景：
- 生成醫療診斷報告、金融合規文檔、法律合同草案。
- 數據增強，提升小樣本學習效果。
數據集內容：
包含超過20萬條自然語言提示（Prompts），覆蓋200+任務類型（如文本分類、摘要、問答），支持多語言。
構建目的：
統一提示工程的標準化格式，解決不同模型提示設計不一致的問題，促進可復現研究。
使用方式：
- 提供模板化提示生成工具，支持動態變量注入（如“{text}需分類為：{label}”）。
- 用于評估模型的零樣本（Zero-Shot）和小樣本（Few-Shot）學習能力。
影響力：
成為提示工程研究的基準工具，推動如T0、FLAN等模型的訓練優化。
數據集內容：
包含1.8萬個任務指令，涵蓋文本生成、推理、代碼生成等，每個任務附帶多組輸入-輸出示例。
構建目的：
通過指令微調（Instruction Tuning）提升模型泛化能力，使其能根據自然語言指令執行多樣化任務。
使用方式：
- 用于微調預訓練模型（如T5、PaLM），使其適應下游任務。
- 支持多任務聯合訓練，增強模型的任務理解和遷移能力。
影響力：
FLAN-T5、FLAN-PaLM等模型在零樣本任務中表現顯著優于傳統微調方法，推動指令驅動的模型開發范式。

在現有的文獻中，PLMs（預訓練）已經被廣泛討論和綜述[10, 35, 36, 37]，而PoLMs（后訓練）很少被系統地回顧。為了推進這些技術的發展，仔細審查現有研究成果以識別關鍵挑戰、差距和進一步改進的機會至關重要。本綜述旨在通過為后訓練研究中的發展提供一個結構化的框架來填補這一空白。如圖1所示，它探討了后訓練的多個階段，特別關注從ChatGPT到DeepSeek所采用的方法。這些技術涵蓋了廣泛的策略，包括微調、LLM對齊、推理增強和效率提升。圖中的藍色部分特別突出了由DeepSeek應用的后訓練方法集合，強調了有助于其成功適應用戶偏好和領域特定需求的創新策略。

這張圖展示了大型語言模型（LLMs）后訓練技術的演變，從初始方法到高級方法，并特別強調了DeepSeek模型的貢獻。圖中分為四個主要部分：微調（Fine-Tuning）、對齊（Alignment）、推理（Reasoning）和效率（Efficiency）。以下是每個部分的詳細解釋：

1. 微調（Fine-Tuning）

監督微調（Supervised Fine-Tuning）：通過標注數據對預訓練模型進行進一步訓練，以適應特定任務。
強化學習微調（Reinforcement Fine-Tuning）：使用強化學習方法來優化模型在特定任務上的表現。

2. 對齊（Alignment）

基于人類反饋的強化學習（Reinforcement Learning with Human Feedback）：通過人類反饋來指導模型的優化過程。
直接偏好優化（Direct Preference Optimization-DPO）：直接優化模型以匹配用戶的偏好。
群體相對策略優化（Group Relative Policy Optimization）：通過比較不同策略來優化模型的表現。

3. 推理（Reasoning）

自我精煉推理（Self-Refine for Reasoning）：模型通過自我反思和改進來增強其推理能力。
強化學習推理（Reinforcement Learning for Reasoning）：使用強化學習方法來提升模型的推理能力。

4. 效率（Efficiency）

模型壓縮（Model Compression）：減少模型參數的數量，以提高計算效率。
參數高效的微調（Parameter-Efficient Fine-Tuning）：通過少量參數調整來優化模型，減少計算資源的需求。
知識蒸餾（Knowledge Distillation）：將大型模型的知識轉移到較小的模型中，以提高效率和性能。

DeepSeek 模型的貢獻

DeepSeek 模型的貢獻被特別突出顯示（藍色部分），包括：

強化學習推理（Reinforcement Learning for Reasoning）：通過強化學習方法顯著提升了模型的推理能力。
參數高效的微調（Parameter-Efficient Fine-Tuning）：通過高效微調方法提高了模型的適應性和效率。

這些技術的發展和應用推動了LLMs在各種任務中的表現，特別是在理解和生成自然語言方面的能力。

1.1 主要貢獻

本文是首個關于PoLMs的綜合性綜述，提供了對該領域最新進展的全面、系統的探索。盡管以往的綜述通常側重于LLM發展的具體方面，如偏好對齊[38]、參數有效的微調[39]以及LLM的基礎技術[40]，但它們大多集中在狹窄的子話題上。相比之下，本綜述采取了一種整體的方法，完整地回顧了后訓練過程中常用的核型技術，并對其進行系統分類。此外，我們調查了這些方法不可或缺的數據集和現實世界應用，如圖2所示，并確定了未來研究的開放挑戰和有希望的方向。本綜述的主要貢獻如下：

1. 技術分類（Technique）5種

(1) 微調（Fine-Tuning）

監督微調（Supervised Fine-Tuning）
使用標注數據調整模型參數，優化特定任務（如文本分類、問答）。
示例：基于法律文本微調模型，使其能生成合規合同條款。
自適應微調（Adaptive Fine-Tuning）
動態調整訓練策略（如學習率、批次大小），適配不同數據分布。
示例：在金融領域，根據市場數據變化自動調整模型參數。
強化微調（Reinforcement Fine-Tuning）
結合強化學習（RL）優化模型輸出，最大化獎勵信號（如用戶滿意度）。
示例：對話系統通過用戶反饋優化回復質量。

(2) 推理（Reasoning）

自我優化（Self-Refine）
模型通過迭代生成-評估-修正循環提升輸出質量。
示例：數學解題時，模型自動檢查步驟并修正邏輯錯誤。
基于強化學習的推理（RL for Reasoning）
利用強化學習框架（如PPO）訓練模型解決復雜推理任務。
示例：代碼生成任務中，通過單元測試結果作為獎勵信號。

(3) 整合與適應（Integration and Adaptation）

多模態整合（Multi-modal Integration）
融合文本、圖像、音頻等多模態數據，擴展模型能力。
示例：醫療助手結合醫學影像和文本報告生成診斷建議。
領域適應（Domain Adaptation）
將通用模型遷移到垂直領域（如法律、金融）。
示例：在金融領域適配模型，使其理解財報術語。
模型融合（Model Merging）
合并多個專家模型參數，提升綜合性能。
示例：聯合法律和醫療模型，處理跨領域咨詢。

(4) 對齊（Alignment）

基于人類反饋的強化學習（RLHF）
通過人類標注的偏好數據對齊模型輸出與人類價值觀。
示例：確保聊天機器人避免生成有害內容。
基于AI反饋的強化學習（RLAIF）
使用AI模型（如獎勵模型）替代人類標注，降低成本。
示例：用GPT-4自動評估生成文本的安全性。
直接偏好優化（Direct Preference Optimization）
直接優化模型輸出與偏好數據的匹配度，跳過顯式獎勵建模。
示例：通過對比正負樣本優化對話回復。

(5) 效率（Efficiency）

模型壓縮（Model Compression）
量化、剪枝等技術減少模型體積，提升推理速度。
示例：將70B模型量化至4bit，部署至移動端。
參數高效微調（Parameter-Efficient Fine-Tuning）
LoRA、Adapter等方法僅調整少量參數適配任務。
示例：使用LoRA在1%參數上微調，實現醫療問答適配。
知識蒸餾（Knowledge Distillation）
用大模型指導小模型學習，保持性能的同時降低計算成本。
示例：將GPT-4的知識遷移至7B模型。

2. 數據集支持（Dataset）7類

對話推理（Dialogue Reasoning）
包含多輪對話數據，用于訓練邏輯連貫的對話系統（如客服機器人）。
多語言（Multilingual）
支持跨語言任務（如翻譯、多語言摘要），涵蓋50+語種。
代碼（Code）
代碼片段與注釋配對數據，優化代碼生成和補全能力。
問答（Question-Answering）
開放域和領域特定問答數據（如SQuAD、HotpotQA）。
文本生成（Text Generation）
長文本生成任務數據（如故事創作、新聞撰寫）。
指令遵循（Instruction Following）
結構化指令數據（如“寫一首關于春天的詩”），提升模型對復雜指令的理解。

3. 應用場景（Application）

(1) 專業領域（Professional Domain）

法律助理：合同審查、法律條文解釋。
醫療健康：病歷生成、藥物交互檢查。
金融經濟：財報分析、風險評估。

(2) 技術與邏輯推理（Technical and Logical Reasoning）

數學推理：解題步驟生成、定理證明。
代碼生成：根據需求自動生成可執行代碼。

(3) 理解與交互（Understanding and Interaction）

推薦系統：個性化內容推薦（如新聞、商品）。
語音對話：智能助手（如Siri、Alexa）。
視頻理解：視頻內容摘要、場景標注。

總結

該圖系統化梳理了LLM訓練后的核心技術路徑：

技術驅動：通過微調、對齊和效率優化提升模型能力；
數據支撐：多模態、多領域數據集支持技術落地；
場景導向：從通用任務到垂直領域，覆蓋法律、醫療、金融等實際需求。
此框架為模型迭代和應用部署提供了方法論指導，推動LLM從實驗室走向產業化。

2020–2021：規模化與多任務能力

2022–2023：對齊、效率與垂直應用

2024–2025：未來趨勢與前沿探索

2. Flamingo (2022)

3. BLIP-2 (2023)

4. LLaVA (2023)

二、效率創新：專家混合（MoE）架構

1. Switch-C Transformer (2022)

2. Mixtral (2023)

三、推理增強技術

1. 自我游戲（Self-Play）

2. 蒙特卡洛樹搜索（MCTS）與思維鏈（CoT）集成

四、技術發展的整體脈絡

總結

意義：
突破傳統稠密模型的計算瓶頸，實現“大模型容量，小模型開銷”。

全面的歷史綜合。我們提供了首個關于PoLMs的深入綜合，追溯了它們從ChatGPT最初的基于人類反饋的強化學習（RLHF）到DeepSeek-R1創新的冷啟動RL方法的演變。這種綜合覆蓋了關鍵技術（即微調、對齊、推理、效率以及集成和適應），分析了它們的發展及其相關挑戰，如計算復雜性和倫理考量。通過以連貫的故事形式呈現這種進步，并輔以必要的參考文獻，我們為研究人員提供了近年來后訓練演進的全面概覽，作為該領域的基礎資源。
結構化分類與框架：我們提出了一個結構化的分類體系，如圖2所示，將訓練后方法分為五類，并將數據集分為七種類型，同時在專業、技術和交互領域中構建了應用框架。該框架明確了這些方法之間的相互關系和實際影響，為它們的發展提供了系統的視角。通過提供明確定義的類別和分析見解，我們提高了初學者和專家的可訪問性和理解度，建立了一個全面的指南，以應對訓練后研究的復雜性。
未來展望
大型推理模型的出現：我們強調了新興趨勢，特別是大型推理模型（LRMs）的崛起，如o1和DeepSeek-R1，它們利用大規模強化學習推動推理能力的發展。我們指出，持續的技術進步對于進一步增強推理能力和領域適應性至關重要。
挑戰與研究方向：我們的分析確定了關鍵挑戰，包括可擴展性限制、道德對齊風險以及多模態集成障礙。我們提出了諸如自適應強化學習框架和公平性感知優化等研究方向。這些方向旨在推動訓練后方法的發展，確保大型語言模型（LLMs）達到更高的準確性和可靠性，以滿足未來的需求。
1.2 組織結構

本綜述系統地組織以全面探索后訓練語言模型（PoLMs），涵蓋其歷史演變、方法論、數據集、應用及未來的發展軌跡。第2節提供PoLMs的歷史概覽。第3節探討微調，包括第3.1節的監督微調（SFT）和第3.3節的強化微調（RFT）。第4節討論對齊，覆蓋第4.1節基于人類反饋的強化學習（RLHF）、第4.2節基于AI反饋的強化學習（RLAIF）以及第4.3節直接偏好優化（DPO）。第5節專注于推理，包括第5.1節的自我精煉方法和第5.2節的用于推理的強化學習。第6節調查提高效率的方法，包括第6.1節的模型壓縮、第6.2節參數高效的微調（PEFT）和第6.3節的知識蒸餾。第7節研究整合與適應，涉及多模態方法、領域適應和模型合并。第8節回顧了后訓練中使用的數據集。第9節探索LLM的應用。第10節評估開放問題和未來方向。最后，第11節總結并展望研究前景。

2 概述

2.1 PoLMs的歷史

大型語言模型（LLMs）的進步構成了自然語言處理（NLP）中的一個關鍵章節，而后訓練方法作為其從通用預訓練架構到特定任務自適應系統的演進中的重要催化劑。本節概述了后訓練語言模型（PoLMs）的歷史軌跡，追溯了它們從BERT [2] 和GPT [1] 等基礎預訓練里程碑發展到當代如o1 [41] 和DeepSeek-R1 [28] 等先進后訓練范式的歷程。圖3所示的這一進程反映了從建立廣泛的語言能力到增強任務特定適應性、倫理對齊、推理復雜性以及多模態集成的轉變，標志著LLM能力的一次變革之旅。
?
以下是圖3中關于大語言模型（LLM）訓練后技術發展時間軸（2018–2025）的詳細解釋，涵蓋關鍵里程碑及其技術意義：

圖3：大語言模型訓練后技術發展時間軸（2018–2025）

該圖以時間順序展示了LLM訓練后技術的演進歷程，標出了從基礎技術突破到未來趨勢的關鍵節點。

2018–2019：基礎架構與初步探索
2018年：Transformer架構提出
- 技術內容：Vaswani等人提出Transformer模型，取代RNN和CNN，成為LLM的核心架構。
- 意義：自注意力機制大幅提升模型對長文本的理解能力，奠定后續所有LLM的基礎。
2019年：BERT與預訓練范式
- 技術內容：Google發布BERT（Bidirectional Encoder Representations from Transformers），首次通過掩碼語言建模（MLM）實現雙向上下文建模。
- 意義：開啟預訓練-微調（Pre-training + Fine-tuning）范式，成為NLP任務的通用解決方案。
2020年：GPT-3發布
- 技術內容：OpenAI推出1750億參數的GPT-3，展示零樣本（Zero-Shot）和小樣本（Few-Shot）學習能力。
- 意義：證明模型規模與任務泛化能力的正相關性，推動大模型研究熱潮。
2021年：T5與多任務統一框架
- 技術內容：Google提出T5（Text-to-Text Transfer Transformer），將分類、生成等任務統一為文本到文本的格式。
- 意義：標準化多任務訓練流程，提升模型的任務適應性。
2022年：RLHF技術成熟
- 技術內容：OpenAI在InstructGPT中應用基于人類反饋的強化學習（RLHF），顯著提升模型輸出與人類價值觀的對齊性。
- 意義：成為ChatGPT等對話模型的核心技術，解決模型安全性和可控性問題。
2023年：參數高效微調（PEFT）興起
- 技術內容：LoRA（Low-Rank Adaptation）、Adapter等技術實現僅調整少量參數即可適配新任務。
- 意義：降低微調成本，推動LLM在邊緣設備和垂直領域的落地。
  
  LoRA（Low-Rank Adaptation）
  
  LoRA 是一種用于微調預訓練模型的高效方法，特別是在自然語言處理（NLP）領域。它的核心思想是通過低秩矩陣分解來適應預訓練模型，從而減少微調過程中需要更新的參數數量。
- 優點
- 參數高效：通過低秩分解，LoRA 顯著減少了需要更新的參數數量。
- 快速微調：由于參數數量減少，微調過程更快，計算資源需求更低。
- 保持預訓練知識：LoRA 在微調過程中保留了預訓練模型的大部分知識，避免了從頭開始訓練。
- 缺點
- 適用范圍有限：LoRA 主要適用于具有大量矩陣運算的模型，對于一些非線性或復雜結構的模型可能不適用。
- 需要選擇合適的秩：低秩分解的秩需要仔細選擇，過低的秩可能導致模型表達能力不足，過高的秩則會增加計算成本。
- 假設預訓練模型的權重矩陣為 W，LoRA 將其分解為兩個較小的矩陣 A 和 B，使得 W=W+BA。在微調過程中，只有 A 和 B 的參數會被更新，而原始的 W 保持凍結狀態。
- Adapter
  
  Adapter 是另一種用于微調預訓練模型的技術，它通過在預訓練模型中插入小型的、可訓練的網絡模塊（稱為 Adapter 模塊）來實現模型的適應性。這些 Adapter 模塊通常被設計為具有少量參數的前饋神經網絡。
  
  基本原理
- 模塊化設計：Adapter 方法在預訓練模型的每一層或特定層之后插入一個小型的、可訓練的網絡模塊。這些模塊通常由幾個全連接層和非線性激活函數組成。
- 參數凍結：在微調過程中，預訓練模型的大部分權重被凍結，只有 Adapter 模塊的權重被更新。這種方法確保了預訓練模型的知識被保留，同時通過 Adapter 模塊適應新的任務。
- 優點
- 參數高效：Adapter 方法通過凍結預訓練模型的大部分權重，僅更新少量的 Adapter 參數，從而實現高效的參數利用。
- 靈活性高：Adapter 模塊可以根據不同的任務進行定制，提供了很高的靈活性。
- 保留預訓練知識：由于大部分預訓練權重被凍結，Adapter 方法能夠很好地保留預訓練模型的知識。
- 缺點
- 模塊設計復雜：設計有效的 Adapter 模塊需要一定的專業知識，不同的任務可能需要不同的模塊設計。
- 計算開銷：雖然 Adapter 模塊本身參數較少，但在前向和后向傳播過程中會增加一定的計算開銷。
- 應用場景
2023年：多模態整合突破
- 技術內容：GPT-4、Flamingo等模型支持文本、圖像、音頻的聯合理解與生成。
- 意義：擴展LLM應用場景至跨模態任務（如醫療影像報告生成）。
2024年：AI反饋強化學習（RLAIF）
- 技術內容：利用AI模型（如獎勵模型）替代人類標注，實現自動化對齊。
- 意義：降低RLHF成本，推動模型在低資源場景的應用。
2025年：超高效模型壓縮與部署
- 技術內容：1-bit量化、動態稀疏訓練等技術將千億模型壓縮至移動端可運行。
- 意義：實現LLM在物聯網設備和實時系統中的普及。

2025年：通用人工智能（AGI）初步探索

技術內容：模型通過自我優化（Self-Refine）和世界模型（World Models）實現復雜推理與規劃能力。
意義：邁向具備通用問題解決能力的下一代AI系統。
以下是關于?1-bit量化?和?動態稀疏訓練?兩種技術的詳細講解，涵蓋其原理、實現方法、應用場景及挑戰：

1. 1-bit量化（1-Bit Quantization）

1.1 基本原理

1-bit量化是一種極端的模型壓縮技術，將神經網絡中的權重或激活值從高精度（如32位浮點）壓縮到僅用?1位?表示（通常為?+1?或?-1）。其核心思想是通過二值化大幅減少模型體積和計算開銷，同時保持一定的性能。
1.3 應用場景
邊緣設備部署：
適用于手機、IoT設備等資源受限場景，如二值化ResNet在圖像分類中的部署。
大規模模型壓縮：
將千億參數模型壓縮至原體積的1/32，顯著降低存儲和傳輸成本。
2. 動態稀疏訓練（Dynamic Sparse Training）

2.1 基本原理

動態稀疏訓練在訓練過程中?動態調整網絡的稀疏性，即根據權重的重要性自動決定保留或剪枝某些連接。與傳統靜態剪枝不同，動態稀疏允許網絡在訓練中逐步優化稀疏結構。
稀疏模式動態調整：
每個訓練步驟中，根據權重的顯著性（如梯度或絕對值大小）動態選擇保留的權重。
自適應稀疏率：
可設定動態變化的稀疏率（如從高密度逐步增加稀疏性），平衡訓練穩定性和模型輕量化。
高效訓練大規模模型：
減少訓練時的內存和計算開銷，如動態稀疏Transformer訓練。
結果：
訓練內存減少40%，精度與稠密模型相當。

3. 技術對比與結合

技術	優勢	局限性	結合潛力
1-bit量化	極致壓縮（1/32體積）、計算加速（位運算）	精度損失顯著，需復雜訓練策略	與知識蒸餾結合，補償精度損失
動態稀疏訓練	自適應稀疏結構、保持模型性能	訓練復雜度高，需專用優化器	與量化結合，實現“稀疏+低比特”壓縮

現代PoLMs的歷史起始于2018年的預訓練革命，由BERT [2] 和GPT [1] 的發布所標志，重新定義了NLP基準。BERT的雙向自動編碼框架利用變換器架構和自注意力機制，在捕捉上下文相互依賴性方面表現出色，適用于問答等任務；而GPT的自回歸設計則優先考慮生成連貫性，為文本生成樹立了先例。這些模型建立了“預訓練和微調”的范式，并通過T5 [42] 在2019年的后續改進得到了統一，將多樣化的任務置于一個文本到文本的框架下，促進了多任務學習，并為后訓練進步奠定了堅實的基礎。

自2020年起，隨著高效適應有限數據的各種任務的需求增長，PoLMs的格局開始顯著演變。早期創新如前綴調整 [43] 和提示調整 [44] 引入了輕量級適應策略，通過修改模型輸入而非重新訓練整個架構來實現多任務靈活性，從而節省計算資源同時拓寬適用范圍。在此期間，隨著2021年基于人類反饋的強化學習（RLHF）[45] 的出現，也見證了向用戶中心優化的關鍵轉變，該技術利用人類評價使模型輸出與主觀偏好對齊，提高了對話環境中的實用性。到2022年，通過采用近端策略優化（PPO）[46]，RLHF成熟起來，改善了對齊穩定性和緩解了對噪聲反饋的過擬合。ChatGPT在2022年末的發布 [9] 鞏固了這些進展，展示了RLHF在創建響應迅速、用戶對齊的LLM方面的變革潛力，并激發了PoLMs研究的激增。與此同時，思維鏈（CoT）提示 [47] 作為一種推理增強策略出現，鼓勵模型在復雜任務中闡述中間步驟，從而提高透明度和準確性，特別是在邏輯推理和問題解決領域。

在2022年至2024年間，PoLMs多元化以應對領域特異性、倫理穩健性和多模態集成，反映出LLM細化的日益精細化的方法。領域適應技術，如檢索增強生成（RAG）[48] 出現，整合外部知識庫，無需完全重新訓練即可實現針對專門領域的上下文豐富輸出——這是需要最新信息的專業應用的一個關鍵進步。倫理對齊努力加強，2023年的直接偏好優化（DPO）[49] 簡化了RLHF，通過直接優化模型輸出以符合人類偏好，繞過了中間獎勵建模，增強了效率和穩健性。同時，追求多模態能力獲得動力，PaLM-E [50] 和Flamingo [51] 等模型開創了視覺-語言集成，隨后BLIP-2 [52] 和LLaVA [53] 將這些努力擴展到更廣泛的領域，如醫學成像。效率創新與這些發展并行，最顯著的是專家混合（MoE）架構；谷歌的Switch-C Transformer [54] 在2022年引入了跨2048個專家激活1.6萬億參數的稀疏激活，而Mixtral [55] 改進了這一范式，平衡了可擴展性和性能。在此期間，推理增強，例如自我游戲 [56] 和蒙特卡洛樹搜索（MCTS）與CoT的集成 [57]，通過模擬迭代推理路徑進一步增強了LLMs的決策能力，為高級推理聚焦型模型奠定了基礎。
一、多模態模型的演進

1. PaLM-E (2023)
背景：
由Google開發，基于其大語言模型PaLM，通過集成視覺編碼器實現多模態理解。
技術特點：
- 視覺-語言聯合訓練：將圖像特征與文本序列嵌入同一空間，支持跨模態推理（如根據圖像生成描述）。
- 參數規模：最大版本達5620億參數，覆蓋視覺問答、機器人控制等任務。
應用：
機器人自主操作（如根據指令抓取物體）、多模態對話系統。
意義：
首次將大規模語言模型與視覺感知深度融合，推動具身智能（Embodied AI）的發展。
背景：
谷歌的DeepMind實驗室提出的多模態模型，專注于少樣本學習（Few-Shot Learning）。
技術特點：
- 交叉注意力機制：通過可學習的視覺-文本交互模塊，動態對齊圖像與文本特征。
- 上下文學習：支持通過少量示例（如3-5張圖）快速適應新任務（如醫療影像分類）。
應用：
視頻理解、跨模態檢索（如根據文本描述搜索圖像）。
意義：
解決傳統多模態模型對大規模標注數據的依賴，提升模型靈活性。
背景：
由Salesforce Research推出，專注于高效多模態預訓練。
技術特點：
- 兩階段訓練：
  1. 視覺-語言對齊：凍結視覺編碼器和語言模型，僅訓練輕量級適配器。
  2. 端到端微調：聯合優化所有參數適配下游任務。
- 醫學擴展：引入醫療影像數據集（如MIMIC-CXR），支持X光片診斷報告生成。
應用：
醫學影像分析、放射科輔助診斷。
意義：
降低多模態訓練成本，推動AI在醫療領域的落地。
背景：
由微軟研究院開發，基于LLaMA的輕量化多模態模型。
技術特點：
- 視覺指令微調：通過合成數據（如GPT-4生成的圖像-文本對）訓練模型遵循復雜指令。
- 高效架構：使用線性投影層將圖像特征映射到文本嵌入空間，減少計算開銷。
應用：
教育輔助（如根據圖表解釋物理原理）、工業質檢（圖像缺陷描述）。
意義：
證明小模型通過高質量合成數據可實現媲美大模型的多模態能力。
背景：
Google提出的稀疏激活MoE架構，旨在提升模型容量同時控制計算成本。
技術特點：
- 動態路由：每個輸入token僅激活部分專家（如1-2個），減少計算量。
- 參數規模：包含2048個專家，總參數量達1.6萬億，但每次推理僅激活約1000億參數。
應用：
大規模語言模型訓練（如對話系統、文檔生成）。
背景：
Mistral AI基于Switch-C的改進版本，優化專家選擇策略。
技術特點：
- 均衡負載：通過負載均衡損失函數，避免專家使用不均導致的性能下降。
- 靈活部署：支持動態調整激活專家數量，適配不同硬件資源。
應用：
邊緣設備上的實時翻譯、個性化推薦系統。
意義：
在保持性能的同時提升模型的可擴展性和部署效率。
原理：
模型通過與環境或自身對抗生成訓練數據，迭代優化策略（如AlphaGo的自我對弈）。
在LLM中的應用：
- 合成數據生成：模型生成問題-答案對，用于后續微調。
- 對抗訓練：通過生成對抗樣本提升魯棒性（如防御提示注入攻擊）。
案例：
OpenAI使用自我游戲訓練GPT-4的數學推理能力。
意義：
減少對人工標注的依賴，增強模型的復雜問題解決能力。
原理：
- MCTS：通過模擬多條推理路徑，選擇最優解（如AlphaGo的決策過程）。
- CoT：引導模型生成逐步推理的中間步驟（如“先計算A，再推導B”）。
結合方式：
在生成CoT時，使用MCTS評估不同推理路徑的可靠性，選擇置信度最高的路徑。
案例：
在數學解題中，模型生成多個解法路徑，通過MCTS選擇最可能正確的答案。
意義：
提升模型在開放域推理任務中的準確性和可解釋性。
多模態融合：
從PaLM-E的視覺-語言聯合訓練，到LLaVA的輕量化指令微調，逐步實現跨模態任務的通用化。
效率突破：
MoE架構（如Switch-C、Mixtral）通過稀疏激活平衡模型容量與計算成本，推動LLM的規模化應用。
推理增強：
自我游戲和MCTS-CoT集成賦予模型更接近人類的復雜決策能力，為醫療診斷、自動駕駛等高風險場景奠定基礎。

專家混合（MoE）模型的重要架構進步

隨著專家混合（MoE）模型的興起，出現了一種重要的架構進步。這種模型通過動態激活選擇性的參數子集來優化計算效率，同時適應龐大的參數規模，從而與傳統的密集架構區分開來。這一范式由谷歌的Switch-C Transformer [54] 在2022年開創，該模型擁有分布在2048個專家中的1.6萬億個參數，提供了一種平衡資源需求和性能增益的突破性方法。后續迭代如Mixtral [55] 和DeepSeek V2.5 [58] 進一步完善了這一框架——后者利用總共2360億個參數，其中活躍于160個專家中的有210億個參數，在LMSYS基準上取得了最先進的結果，并證明稀疏MoE架構在可擴展性和效能方面可以與密集模型相匹敵。這些發展標志著向以效率為中心的PoLMs轉變，使得LLMs能夠以減少的計算開銷處理復雜任務，這是擴大其實際應用范圍的關鍵步驟。到2025年，DeepSeek-R1 [28] 成為了PoLMs創新的一個里程碑，它從依賴傳統的監督微調（SFT）轉向采用思維鏈（CoT）推理和探索性的RL策略。DeepSeek-R1-Zero模型集成自我驗證、反思和擴展的CoT生成，驗證了開放研究范式中的RL驅動推理激勵，引入蒸餾技術[28]將復雜的推理模式從更大架構轉移到更小的架構。這種方法不僅相比獨立的RL訓練提供了優越的性能，還預示著一種面向LLMs的可擴展、以推理為中心的新范式，旨在解決后訓練方法中持續存在的計算效率和任務適應性挑戰。

2.2 PoLMs的公式基礎

2.2.1 策略優化原理

近端策略優化（PPO）算法[46]是一種關鍵的強化學習技術，特別適用于基于人類反饋的強化學習（RLHF）[45]等環境，其中保持穩定性和效率是至關重要的。PPO通過限制策略更新的大小來實現這些目標，確保對模型行為的改變是漸進且受控的，從而防止性能出現災難性的變化。這對于微調大規模語言模型尤其重要，因為劇烈的策略更新可能導致不希望或不可預測的行為。

2.2.2 基于人類反饋的強化學習（RLHF）原理

基于人類反饋的強化學習（RLHF）是一種利用學習過程中人類生成的反饋來使模型與人類偏好對齊的關鍵方法。這種方法包含一個明確捕捉人類輸入的獎勵函數，使得模型能夠更好地適應用戶偏好和實際應用。

2.2.3 直接偏好優化（DPO）原理

直接偏好優化（DPO）通過直接基于人類偏好優化模型輸出而建立在RLHF之上，這些偏好通常以成對比較的形式表達。DPO消除了傳統獎勵函數的需求，而是專注于通過最大化基于偏好的獎勵來優化模型行為。

2.2.4 群相對策略優化（GRPO）原理

群相對策略優化（GRPO）算法是強化學習中Proximal Policy Optimization（PPO）算法的一個變種，首次在DeepSeek之前的工作DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [64]中提出。GRPO省略了批評模型，而是使用組分數估計基線，這相比PPO顯著減少了訓練資源消耗。

3 大型語言模型的微調

微調是將預訓練的大型語言模型（LLMs）適應于特定任務的關鍵步驟，通過有針對性的參數調整來提升它們的能力。這一過程利用標記或特定任務的數據集來優化性能，彌合通用預訓練與領域特定需求之間的差距。本章探討了三種主要的微調范式：監督微調（§3.1），它使用注釋數據集提高特定任務的準確性；自適應微調（§3.2），通過指令調優和基于提示的方法定制模型行為；以及強化微調（§3.3），它集成強化學習根據獎勵信號迭代地細化輸出，通過動態交互促進持續改進。

3.1 監督微調

監督微調（SFT）[45]通過利用特定任務的標記數據集將預訓練的LLM適配到特定任務上。不同于依賴指令提示的指令調優，SFT直接使用標注數據調整模型參數，產生既精確又上下文敏感同時保留廣泛泛化能力的模型。SFT彌合了預訓練期間編碼的廣闊語言知識與目標應用的細微需求之間的鴻溝[36]。通過接觸龐大的語料庫，預訓練的LLM獲得了通用的語言模式，減少了對大量領域特定數據進行微調的依賴性。模型選擇至關重要：在資源受限且數據集有限的情況下，較小的模型如T5 [42]表現優異，而較大的模型如GPT-4 [9]則憑借其優越的容量在復雜、數據豐富的任務中脫穎而出。

這種微調方法使得預訓練模型能夠更加準確地理解和執行特定任務的要求，同時保持其在更廣泛的應用場景中的有效性。通過這種方式，監督微調不僅增強了模型的專門能力，還確保了其在處理多樣化任務時的有效性和靈活性。這種方法對于需要高精度和上下文理解的任務尤為重要，例如文本分類、情感分析、問答系統等。此外，通過合理選擇模型大小和架構，可以根據具體應用場景的需求優化資源利用效率和性能表現。

3.1.1 監督微調（SFT）數據集準備

構建高質量的SFT數據集是一個多方面的過程，對于微調成功至關重要。

表1：2018至2025年間各大組織發布的預訓練大型語言模型概覽

此表詳細列出了Meta、DeepSeek、OpenAI及其他實體的關鍵模型，包括它們的參數規模、訓練數據量（已報告的情況下）、開源狀態及發布時間線。開源狀態用￥表示那些研究界可公開訪問的模型，用q表示閉源專有模型。

由于具體的表格內容沒有給出，我提供了一個概括性的描述。實際的表格會列出不同組織發布的各種模型的具體信息，比如模型名稱、參數數量、使用的訓練數據規模、是否開源以及發布日期等細節。這些信息對于了解各組織在大型語言模型領域的貢獻及其發展進程非常有用。

指令-實例對篩選與評估

SFT數據集評估：評估SFT數據集涉及選擇一個高質量子集Deval，作為模型性能的基準。此子集可以從精選數據集D′中抽樣獲得，也可以從獨立部分派生以確保公正性。傳統的SFT評估方法，如Few-Shot GPT [7]和微調策略[89]，都是資源密集型的，而指令挖掘[90]提供了一個更高效的替代方案。指令挖掘使用線性質量規則和一系列度量來測量數據集質量，如響應長度和平均獎勵模型分數[65]，以評估這些度量與整體數據集質量之間的相關性。

通過這種方式，不僅可以提高數據集的質量，還能更加有效地利用資源進行模型訓練和評估。這種方法對于確保最終模型能夠準確理解并執行特定任務至關重要，尤其是在面對多樣化的應用場景時。此外，通過采用更為智能的數據篩選和評估技術，可以顯著提升大型語言模型的適應性和實用性。

詳細講解監督微調（Supervised Fine-Tuning）過程

圖4: 監督微調的過程

監督微調是將預訓練的大型語言模型（LLM）適配到特定任務的關鍵步驟。以下是圖4中展示的監督微調過程的詳細講解：

原始數據和知識：
- 原始數據：包括文本、表格、圖像等不同類型的數據，這些數據構成了預訓練階段的基礎。
- 知識：通過特定處理（如標注、清洗等）將原始數據轉化為可用于訓練的知識。
預訓練（Pre-training）：
- 預訓練模型（Base LLM）通過大量的原始數據進行訓練，學習通用的語言模式和結構。這一階段的目標是讓模型具備廣泛的語言理解和生成能力。
監督微調（Supervised Fine-Tuning）：
- 在預訓練模型的基礎上，通過使用標記數據集進行監督微調。這些數據集包含具體的指令-實例對，用于指導模型如何執行特定任務。
- 微調過程中，模型參數根據標記數據進行調整，以提高在特定任務上的表現。
微調后的模型（Fine-Tuned LLM）：
- 經過監督微調后，模型能夠更好地理解和執行特定任務。微調后的模型保留了預訓練模型的泛化能力，同時增強了對特定任務的理解和執行能力。
任務應用：
- 問答（Question Answering）：模型能夠回答具體問題，提供準確的答案。
- 文本分類（Text Classification）：模型能夠對文本進行分類，識別不同的文本類別。
- 信息檢索（Information Retrieval）：模型能夠從大量文檔中檢索相關信息。
  3.1.2 監督微調（SFT）的過程
  
  如圖4所示，一旦數據集準備完畢，微調過程就開始了。這個過程首先使用一個通常通過大規模原始數據的無監督或自我監督預訓練得到的預訓練大型語言模型（LLM）。預訓練階段的目標是獲取適用于各種任務的一般特征表示[36]。接下來，在微調階段，使用特定任務的注釋數據調整模型參數，使模型與給定應用的需求對齊。這一階段常用的損失函數是交叉熵損失。對于有N個樣本和C個類別的分類任務，它可以表示為：

一個顯著的例子是BERT模型[2]，它在廣泛的語料庫（如BooksCorpus和Wikipedia）上進行了廣泛的預訓練。在微調階段，這些廣泛表示使用特定任務的數據（例如用于情感分析的IMDB數據集[91]）進行細化，使得BERT能夠專精于諸如情感分類和問答等任務。

3.1.3 全參數微調

全參數微調是指調整預訓練模型的所有參數，而不是像LoRA[92]或Prefix-tuning[43]這樣的參數高效方法，它們只修改參數的一個子集。全參數微調常用于需要高精度的任務，如醫療和法律領域[93]，但它需要大量的計算資源。例如，微調一個具有650億參數的模型可能需要超過100GB的GPU內存，這對資源受限的環境構成了挑戰。為了緩解這種限制，引入了如LOMO[93]這樣的內存優化技術，減少了梯度計算和優化器狀態的內存占用。模型的參數根據以下規則更新：

從GPT-3到InstructGPT是一個全參數微調的顯著例子，其中整個參數集使用專門為指令跟隨任務設計的數據集進行了微調[45]。這種方法雖然能帶來最佳性能，但由于需要更新所有參數，因此計算成本很高。

3.2 自適應微調

自適應微調修改預訓練模型的行為以更好地滿足用戶特定需求并處理更廣泛的任務。該方法引入額外的線索來指導模型輸出生成，提供了一個定制模型響應的靈活框架。自適應微調中值得注意的方法包括指令調優和基于提示的調優，這兩種方法通過引入特定任務的指導，大大增強了LLMs的適應性。

圖5: 指令微調的工作流程

這張圖詳細展示了大型語言模型（LLM）中指令微調的一般流程，分為兩個主要步驟：指令數據集構建和指令微調。

Step 1: Instruction Dataset Construction (指令數據集構建)

Annotated Text (標注文本):
- 標注文本是經過人工或自動標注的數據，包含具體的任務指令和對應的輸出。
- 這些文本通過模板（Template）進行處理，生成更多的指令實例。
Seed Instruction (種子指令):
- 種子指令是初始的、基本的指令，用于引導模型生成更多相關的指令。
- 使用ChatGPT等工具，可以基于種子指令生成更多的指令實例。
More Instructions (更多指令):
- 通過模板和種子指令生成大量的指令實例，這些實例構成了指令數據集的基礎。

Step 2: Instruction Tuning (指令微調)

Base LLM (基礎LLM):
- 基礎LLM是一個預訓練的大型語言模型，已經具備了一定的語言理解和生成能力。
Instruction Tuning (指令微調):
- 使用構建好的指令數據集對基礎LLM進行微調。
- 微調的目標是使模型更好地理解和執行特定的任務指令。
Fine-Tuned LLM (微調后的LLM):
- 經過指令微調后，模型能夠更準確地理解和執行特定任務的指令。
- 微調后的模型在特定任務上的表現會顯著提升。

3.2.1 指令調優

指令調優[96]是一種通過在專門構建的指令數據集上微調基礎大型語言模型（LLM）來細化模型的技術。這種方法顯著提升了模型在各種任務和領域中的泛化能力，增強了其靈活性和準確性。如圖5所示，該過程首先將現有的自然語言處理（NLP）數據集（例如用于文本分類、翻譯和摘要的數據集）轉換為包含任務描述、輸入示例、預期輸出和演示說明的自然語言指令。Self-Instruct[86]等技術通過自動產生額外的指令-輸出對進一步豐富了這些數據集的多樣性，擴展了模型對更廣泛任務的接觸。微調程序調整模型參數以與這些特定任務的指令對齊，結果是一個在熟悉和以前未見過的任務上都能穩健表現的LLM。例如，InstructGPT[45]和GPT-4[7]在廣泛的應用中展示了顯著提升的指令跟隨能力。

指令調優的有效性很大程度上取決于指令數據集的質量和廣度。高質量的數據集應涵蓋廣泛的語言、領域和任務復雜性，以確保模型具有廣泛的適用性[96]。此外，指令的清晰性和組織對于使模型能夠有效地解釋和執行任務至關重要。整合示范示例或包括思維鏈提示[47]等技術可以顯著提高需要復雜推理的任務的表現。而且，在微調階段確保任務分布平衡是至關重要的，以避免由于不平衡的任務覆蓋而導致過擬合或模型性能下降。比例任務采樣或加權損失函數等技術有助于解決這些問題，確保每個任務公平地貢獻于微調過程。因此，通過精心構建和管理指令數據集，研究人員可以大大增強微調LLM的泛化能力，使其在廣泛的任務和領域中表現出色[97]。

3.2.2 前綴調優

前綴調優[98]是一種參數高效的微調方法，涉及向語言模型的每個Transformer層添加一系列可訓練的前綴標記（連續向量），同時保持核心模型參數不變。如圖6(a)所示，這些前綴向量是任務特定的，并作為虛擬令牌嵌入發揮作用。為了優化前綴向量，使用了一種重新參數化技巧，其中學習了一個小型多層感知器（MLP）函數，將較小的矩陣映射到前綴參數，而不是直接優化前綴向量。這種方法已被證明能穩定訓練過程。一旦前綴向量被優化，映射函數就會被丟棄，僅保留衍生的前綴向量以增強任務特定性能。這種策略允許在不修改基礎模型參數的情況下，通過調整少量新增參數來適應新任務，從而提供一種高效且靈活的微調方案。

3.2.3 提示調優

提示調優[44, 100]是一種通過優化輸入層的可訓練向量而不是修改模型內部參數來高效適應大型語言模型的方法。如圖6(b)所示，這項技術基于離散提示方法[101, 102]引入了軟提示標記，這些標記可以是非限制格式[44]或作為前綴[100]結構化。學習到的提示嵌入與輸入文本嵌入結合后由模型處理，從而在保持預訓練權重凍結的同時引導模型輸出。提示調優的兩個顯著實現是Ptuning[44]和標準提示調優[100]：

Ptuning：使用靈活的方法組合上下文、提示和目標標記，適用于理解和生成任務。這種方法通過雙向LSTM架構增強了軟提示表示的學習。
標準提示調優：采用更簡單的設計，在輸入前添加前綴提示，并且僅根據特定任務監督更新提示嵌入。

研究表明，提示調優可以在許多任務中匹配全參數微調的性能，同時需要顯著較少的可訓練參數。然而，其成功緊密依賴于底層語言模型的能力，因為提示調優只修改輸入層的一小部分參數[44]。基于這些進展，更新的方法如P-Tuning v2[99]已經證明提示調優策略可以有效地擴展到各種模型大小，處理以前認為需要全微調的復雜任務。這些發現將提示調優確立為傳統微調的一種高效替代方案，提供相近的性能但減少了計算和內存成本。

這張圖展示了兩種不同的微調技術：前綴調優（Prefix Tuning）和提示調優（Prompt Tuning），并詳細說明了它們在參數微調上的不同方法。以下是詳細的解釋：

圖6: 前綴調優與提示調優的比較

a) Prefix Tuning (前綴調優)

輸入 (Input):
- 輸入數據首先被處理。
嵌入 (Embedding):
- 輸入數據被轉換為嵌入向量，這是模型可以處理的形式。
前綴 (Prefix):
- 在嵌入向量之前添加一組可訓練的前綴向量。這些前綴向量是任務特定的，并且通過微調來優化。
- 這些前綴向量作為虛擬令牌嵌入，用于調整模型對特定任務的理解。
大型語言模型 (LLM):
- 經過前綴調優后的嵌入向量被輸入到大型語言模型中進行處理。

b) Prompt Tuning (提示調優)

提示 (Prompt):
- 提示是一個包含任務描述和示例的文本序列，用于引導模型生成特定類型的輸出。
- 提示通常包括任務描述、輸入示例和預期輸出。
輸入 (Input):
- 輸入數據被轉換為嵌入向量，這是模型可以處理的形式。
嵌入 (Embedding):
- 輸入數據被轉換為嵌入向量，這是模型可以處理的形式。
大型語言模型 (LLM):
- 經過提示調優后的嵌入向量被輸入到大型語言模型中進行處理。

具體流程詳解：

a) Prefix Tuning (前綴調優)

輸入:
- 輸入數據被處理成原始形式。
嵌入:
- 輸入數據被轉換為嵌入向量。
前綴:
- 添加一組可訓練的前綴向量，這些向量是任務特定的，并通過微調進行優化。
大型語言模型 (LLM):
- 嵌入向量和前綴向量一起輸入到大型語言模型中進行處理。

b) Prompt Tuning (提示調優)

提示:
- 提供一個包含任務描述和示例的文本序列，用于引導模型生成特定類型的輸出。
輸入:
- 輸入數據被處理成原始形式。
嵌入:
- 輸入數據被轉換為嵌入向量。
大型語言模型 (LLM):
- 嵌入向量和提示一起輸入到大型語言模型中進行處理。

3.3 強化微調

強化微調(ReFT)[103]代表了一種高級技術，它將強化學習(RL)與監督微調(SFT)相結合以增強模型解決復雜動態問題的能力。不同于傳統的SFT通常對每個問題使用單一的思維鏈(CoT)注釋，ReFT使模型能夠探索多個有效的推理路徑，從而提高其泛化能力和解決問題的技巧。ReFT過程從標準的SFT階段開始，模型首先在標記數據上進行訓練，通過監督注釋學習基本的任務解決能力。初步微調之后，模型使用如近端策略優化(PPO)[46]等RL算法進一步細化。在強化階段，模型為每個問題生成多個CoT注釋，探索不同的潛在推理路徑。通過比較模型預測的答案與真實答案來評估這些生成的路徑，對正確輸出給予獎勵，對錯誤輸出施加懲罰。這個迭代過程驅動模型調整其策略，最終改進其推理策略。這種方法使得模型不僅能夠學習如何執行特定任務，還能通過不斷的反饋和調整提升解決新問題的能力。

這張圖展示了強化微調（Reinforcement Fine-Tuning, ReFT）的過程，具體分為兩個主要階段：監督微調（Supervised Fine-Tuning, SFT）和強化學習微調（Reinforced Fine-Tuning）。以下是詳細的解釋：

圖7: 強化微調（ReFT）過程

a) 監督微調 (Supervised Fine-Tuning)

輸入數據:
- 輸入數據表示為?(x,e,y)，其中?x 是輸入文本，e?是嵌入向量，y?是目標輸出。
初始模型 (LLM):
- 初始的大型語言模型（LLM）接收輸入數據?(x,e,y)。
中間模型 (Intermediate LLM):
- 通過一系列迭代步驟，模型被逐步調整。這些步驟可能包括多次微調，以優化模型對特定任務的理解。
最終微調模型 (Fine-tuned LLM):
- 經過監督微調后的模型能夠更好地處理輸入數據，并生成更準確的目標輸出。

b) 強化學習微調 (Reinforced Fine-Tuning)

預熱 (Warm-up):
- 在監督微調之后，模型進入預熱階段，準備進行強化學習。
策略采樣 (On-Policy sampling):
- 模型根據當前策略生成樣本。這些樣本用于評估模型在特定任務上的表現。
強化學習 (Reinforcement Learning):
- 根據生成的樣本，模型通過強化學習算法（如Proximal Policy Optimization, PPO）進行進一步優化。
- 強化學習過程中，模型會收到獎勵或懲罰信號，以指導其改進策略。
最終策略 (Final Policy):
- 經過強化學習優化后，模型達到一個最終策略，該策略能夠在特定任務上表現出更好的性能。

具體流程詳解：

a) 監督微調 (Supervised Fine-Tuning)

輸入數據:
- 輸入數據?(x,e,y)(x,e,y)?被提供給初始模型。
中間模型:
- 通過多次迭代，模型逐步調整參數，以更好地適應輸入數據。
最終微調模型:
- 最終微調模型能夠更準確地處理輸入數據并生成預期的輸出。

b) 強化學習微調 (Reinforced Fine-Tuning)

預熱:
- 監督微調后的模型進入預熱階段，準備進行強化學習。
策略采樣:
- 模型根據當前策略生成樣本，這些樣本用于評估模型的表現。
強化學習:
- 根據生成的樣本，模型通過強化學習算法進行優化，接收獎勵或懲罰信號以改進策略。
最終策略:
- 經過強化學習優化后，模型達到一個最終策略，該策略能夠在特定任務上表現出更好的性能。

總結

監督微調 (SFT):
- 通過監督學習調整模型參數，使其更好地適應特定任務。
強化學習微調 (ReFT):
- 在監督微調的基礎上，通過強化學習進一步優化模型策略，使其在特定任務上表現更好。

這兩種方法結合使用，使得模型不僅能夠通過監督學習快速適應特定任務，還能通過強化學習進一步提升性能。

強化微調（ReFT）過程

如圖7所示，強化微調（ReFT）過程分為兩個階段執行。上半部分展示了監督微調（SFT）階段，在這個階段，模型在幾個epoch中迭代訓練數據集，學習每個問題的正確思維鏈（CoT）注釋。下半部分介紹了強化微調（ReFT）階段：從經過SFT訓練的模型開始，模型基于當前策略生成替代的CoT注釋（e′），并將其預測的答案（y′）與真實答案（y）進行比較。對于正確的答案給予正面獎勵，對于錯誤的答案則給予負面獎勵，從而驅動模型改進其性能。這些獎勵信號隨后通過強化學習用于更新模型的策略，增強其生成準確且多樣的CoT注釋的能力。

最近的研究表明，ReFT顯著優于傳統的SFT方法[103]。此外，推理時策略（如多數投票和重新排序）的集成可以進一步提高性能，允許模型在訓練后精煉其輸出。值得注意的是，ReFT在不需額外或擴增訓練數據的情況下實現了這些改進，僅從SFT階段使用的現有數據集中學習。這突顯了模型的優越泛化能力，因為它能夠更高效、有效地從可用數據中學習。