總目錄 大模型安全相關研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
Safe RLHF: Safe Reinforcement Learning from Human Feedback
安全 RLHF:通過人類反饋進行安全強化學習
https://arxiv.org/pdf/2310.12773
https://github.com/PKU-Alignment/safe-rlhf
https://www.doubao.com/chat/3556303170287106
速覽
- 研究動機:大語言模型發展中,平衡性能與安全至關重要,現有方法在平衡有用和無害性上存在挑戰。
- 研究問題:如何設計算法平衡大語言模型有用性和無害性,使其兼具幫助性、安全性與回應意愿