2025.acl-long.93.pdfhttps://aclanthology.org/2025.acl-long.93.pdf
1. 概述
在生產環境中部署大型語言模型(LLMs)時,對齊LLMs一直是一個關鍵因素,因為預訓練的LLMs容易產生不良輸出。Ouyang等人(2022)引入了基于人類反饋的強化學習(RLHF),該方法涉及基于單個提示的各種完成及其比較來訓練獎勵模型,然后優化LLM以最大化這些獎勵。隨后,直接偏好優化(DPO)(Rafailo et al., 2023)被提出作為一種替代方案,它通過直接基于選擇和拒絕的完成之間的偏好來優化模型,從而避免了訓練獎勵模型的需要。RLHF和DPO都已成為LLM對齊的標準選擇,但它們仍然需要一個包含選擇