更多面試題,請看?
大模型面試題總結-CSDN博客
或者
https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md
最好將URL復制到瀏覽器中打開,不然可能無法直接打開
-------------------------------------------------------------------------------------------------
1. RL 的過優化現象
在 RLHF(強化學習人類反饋)訓練過程中,策略模型如果對獎勵模型(RM)進行過度優化,可能會導致模型輸出與人類真實偏好背道而馳。例如,策略模型可能會過度遷就獎勵模型的某些偏差,從而在訓練后期導致驗證集上的性能不升反降。
2. 緩解方法
-
提前停止(Early Stopping):通過監控驗證集上的性能,在模型性能開始下降之前及時停止訓練,避免進一步的優化導致性能惡化。
-
限制模型偏離(KL 懲罰項):在訓練中引入 PPO(近端策略優化)算法的 KL 散度懲罰項,限制策略模型與初始模型之間的差異,防止其過度偏離人類偏好。
-
獎勵模型更新:通過提升獎勵模型的泛化能力和魯棒性來緩解過優化問題。例如,采用多目標獎勵機制或對抗訓練,使獎勵模型更加穩定和可靠。