A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型語言模型的訓練后優化綜述—

3、微調（上一部分內容）

4、LLMs的對齊

大型語言模型（LLMs）中的對齊涉及引導模型輸出以符合人類預期和偏好，特別是在安全關鍵或用戶面對的應用程序中。本章討論了實現對齊的三個主要范式：

帶有反饋的人工智能強化學習（Reinforcement Learning with Human Feedback, §4.1）：使用人類標記的數據作為獎勵信號。
帶有AI反饋的強化學習（Reinforcement Learning with AI Feedback, §4.2）：利用AI生成的反饋來解決可擴展性問題。
直接偏好優化（Direct Preference Optimization, §4.3）：直接從成對的人類偏好數據中學習，不需要明確的獎勵模型。

每種范式在其追求強健對齊的過程中提供了獨特的優點、挑戰和權衡。表2簡要對比了這些方法及相關技術。

表2: 大型語言模型對齊方法的比較概述（2022-2024）

此表評估了突出的對齊技術在八個指標上的表現：

RM1（顯式或隱式獎勵模型）
RM2（點獎勵或偏好概率模型）
RM3（響應級或令牌級獎勵）
RM4（正向或負向獎勵模型）
F（反饋類型：人類或AI）
RL1（參考模型或無參考模型的RL）
RL2（在線策略或離線策略RL）
O（在線/迭代或離線/非迭代優化）

通過對這些指標的評估，可以幫助研究人員和實踐者根據特定需求選擇最適合的對齊方法。這些方法各自具有不同的特點，可以根據應用場景的不同要求進行調整和應用。

4.1 帶有人類反饋的強化學習

監督微調（SFT）[45]一直是引導大型語言模型（LLMs）遵循人類指令的基礎技術。然而，在純監督場景中，注釋數據的多樣性和質量可能是不均衡的，而且監督模型捕捉更細微或適應性更強的人類偏好的能力往往有限。因此，提出了基于強化學習（RL）的微調來解決這些不足。在RL方法中，基于人類反饋的強化學習（RLHF）[104]是最早且最具影響力的基于RL的訓練后對齊方法之一。

如圖8所示，RLHF首先以偏好標簽或獎勵信號的形式收集人類反饋，然后使用這些信息訓練一個獎勵模型。在這個獎勵模型的指導下，策略被迭代地調整以更好地匹配人類偏好。與SFT相比，RLHF包含連續的、由偏好驅動的更新，從而帶來更強的對齊結果。值得注意的是，現代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都從這些機制中受益，展示了在指令跟隨、事實一致性以及用戶相關性方面的改進。下面，我們將討論RLHF的主要組成部分，包括反饋機制、獎勵建模和策略學習策略。

這張圖展示了基于人類反饋的強化學習（Reinforcement Learning from Human Feedback, RLHF）的工作流程，旨在通過訓練過程使大型語言模型（LLMs）與人類偏好對齊。圖中分為兩個主要階段：獎勵訓練（Reward Training）和策略訓練（Policy Training）。以下是詳細解釋：

圖8: 基于人類反饋的強化學習（RLHF）工作流程

a) 獎勵訓練 (Reward Training)

輸入數據:
- 輸入數據包括上下文（Contexts）和續篇（Continuations），這些數據被提供給策略模型（Policy Model）。
策略模型 (Policy Model):
- 策略模型根據輸入的上下文生成續篇。
- 生成的續篇被傳遞給人類標注者（Human Labeler）進行評估。
人類標注者 (Human Labeler):
- 人類標注者對策略模型生成的續篇進行評估，并給出標簽（Labels）。
獎勵模型 (Reward Model):
- 獎勵模型接收上下文和續篇，并根據人類標注者的標簽計算獎勵（Reward）。
- 獎勵模型通過調整權重來優化其預測，以更好地匹配人類偏好。
損失函數 (Loss Function):
- 損失函數用于衡量獎勵模型的預測與人類標注者提供的標簽之間的差異。
更新權重 (Update Weights):
- 根據損失函數的值，獎勵模型的權重被更新，以減少損失并提高預測準確性。

b) 策略訓練 (Policy Training)

輸入數據:
- 輸入數據包括上下文（Contexts）和續篇（Continuations），這些數據被提供給策略模型（Policy Model）。
策略模型 (Policy Model):
- 策略模型根據輸入的上下文生成續篇。
- 生成的續篇被傳遞給獎勵模型進行評估。
獎勵模型 (Reward Model):
- 獎勵模型接收上下文和續篇，并根據之前訓練得到的權重計算獎勵（Reward）。
損失函數 (Loss Function):
- 損失函數用于衡量策略模型生成的續篇與獎勵模型預測的獎勵之間的差異。
更新權重 (Update Weights):
- 根據損失函數的值，策略模型的權重被更新，以減少損失并提高生成續篇的質量。

總結

獎勵訓練 (Reward Training):
- 通過人類標注者的反饋訓練獎勵模型，使其能夠準確地預測人類偏好。
- 獎勵模型的權重通過反向傳播算法進行更新，以最小化損失函數。
策略訓練 (Policy Training):
- 使用訓練好的獎勵模型來評估策略模型生成的續篇。
- 策略模型的權重通過反向傳播算法進行更新，以最小化損失函數，從而生成更符合人類偏好的續篇。

通過這兩個階段的迭代訓練，最終的策略模型能夠生成更高質量、更符合人類偏好的續篇。

4.1.1 RLHF中的反饋機制

人類反饋是RLHF的核心，它向獎勵模型提供關于用戶偏好的信息，并指導策略更新。本小節采用文獻[124]中的分類法來對常見的人類反饋形式進行分類。表3展示了這些反饋類型在粒度、參與水平和明確性等方面的差異。每種反饋模式對模型優化的不同方面有所貢獻，提供了不同層次的可解釋性、可擴展性和噪聲容忍度。

表3: 人類反饋類型概覽

該表可能根據不同的維度對反饋類型進行了分類，例如：

粒度：反饋可以針對整個輸出（粗粒度），也可以針對特定部分或步驟（細粒度）。
參與水平：這指的是人類參與者在提供反饋時的深度，從簡單的二元判斷到詳細的解釋說明。
明確性：指反饋提供的信息是否直接明確，還是需要模型通過推理或其他方式去理解。

通過這種分類，研究人員和工程師可以根據具體的應用需求選擇最適合的反饋模式，以優化模型的表現并提高其與人類偏好的一致性。這種方法使得基于人類反饋的強化學習成為一種強大的工具，用于提升LLMs在各種任務中的表現。

主要反饋（Primary Feedback）

這一類別包括最直接塑造RLHF中獎勵模型的反饋類型。例如，Critique [125] 側重于對代理行為的人類明確評估，通常通過二進制或多標簽注釋來細化以減少噪聲。Comparisons [126] 允許評估者比較多個輸出或軌跡；雖然更大的選擇集可以提供更豐富的信號，但它們也可能導致因果混淆。Inter-Temporal Feedback [127] 通過在不同時間步驟提供判斷來細化軌跡評估，而Proxy Rewards [128] 包含指導模型朝用戶定義目標前進的近似獎勵函數。Social Behavior [129] 利用隱式線索（如面部表情）使代理目標與用戶情感一致。Improvements [130] 強調實時人類干預以進行策略的增量細化。最后，Natural Language Feedback [131] 利用文本信息傳達偏好和改進建議。

補充反饋（Supplementary Feedback）

除了主要反饋之外，還有兩類進一步加強獎勵建模過程。緊急停止（E-stops）[132]允許人類通過停止代理的軌跡而不建議替代方案來進行干預。這種反饋的特點是隱式參與，并且專注于防止不期望的行為。相比之下，重要性標簽[133]指出特定觀察對于實現目標的重要性，提供了不會直接改變行為的明確反饋。這種反饋因上下文而異，作為補充輸入，強化了獎勵模型的整體學習過程。

特定表示反饋（Representation-Specific Feedback）

某些類型的反饋主要是增強表示學習而不是直接塑造獎勵函數。Feature Traces [134] 提示人類操作員演示給定特征中的單調變化，從而實現特征集的動態擴展。Similarity Queries [135] 比較三元組軌跡，通過軌跡空間中的成對距離引導表示學習。通過利用這些特定表示的反饋形式，RLHF可以在新任務和上下文中實現更強大的泛化能力。

4.1.2 強化學習與人類反饋（RLHF）的獎勵模型

距離函數：最近的研究集中在考慮潛在轉換（如潛在塑形）的獎勵評估距離函數上。例如，EPIC [140] 測量不同轉換下的獎勵函數等價性，而DARD [141] 改進了規范處理以確保評估基于可行轉換。類似EPIC的距離[142]通過允許規范處理、規范化和度量函數的變化來推廣EPIC的方法論，STARC [143] 在保持EPIC理論特性的同時提供了額外的靈活性。
視覺和人工檢查：其他方法依賴于可解釋性和精心策劃的數據集來衡量所學獎勵函數的有效性。PRFI [144] 使用預處理步驟簡化獎勵函數同時保留等效性，從而增強其透明度。同時，CONVEXDA 和 REWARDFUSION [145] 提出的數據集旨在測試獎勵模型如何一致地響應提示中的語義變化。這些技術共同促進了獎勵函數更可靠的評估，強化了大型語言模型與人類偏好的一致性。

4.1.3 RLHF的策略學習

如圖9所示，RLHF的策略學習包括通過人類反饋在在線和離線環境中優化策略。

在線學習：在在線RLHF中，系統收集關于新生成模型軌跡的人類實時偏好。像DPS [146]這樣的算法使用貝葉斯更新來管理競爭過程，而PPS和PEPS [147]將動態規劃和多臂老虎機的想法結合起來以細化策略行為。在LPbRL [148]中，特征嵌入捕捉不斷演變的獎勵結構，PbOP [149] 集成最小二乘估計用于過渡動態和偏好信號。最近，PARL [150] 通過將反饋獲取視為策略優化不可或缺的一部分來提高數據收集效率。