- 研究時間:與Instrcut GPT同期的工作,雖然其比ChatGPT發布更晚,但是其實完成的時間比ChatGPT更早。
- 與ChatGPT的應用區別:該模型比ChatGPT回答我不知道的概率更高。
- 將強化學習用于大語言模型(RLHF):發現這種方法可以提升幾乎在所有NLP任務上的性能。隨著參數的增加,效果也越來越好。如果模型經過了強化學習的輔助,效果會進一步提升;如果經過了有用性的訓練,模型會有更大的提升;但是如果經過了有害性的訓練,模型的有用性會下降,非有害性會提升。
- 模型不斷更新:每個星期用一個新的獎勵函數和強化學習目標進行訓練,相當于一個在線學習。
- 模型實現了有用性和無害性:讓模型分別在兩組表示有用性和無害性的數據集上進行學習。這兩個特性其實是相矛盾的,盡管將兩個數據集放在一起訓練問題也不大,但是仍然需要后續的改進來進行優化。
- 數據標注:數據標注階段,每次讓模型生成兩個回答,讓標注工人選擇他們覺得更好的回答。
- RLHF對不同規格的模型的效果:如果模型本身的規模較小,經過RLHF后Zero-shot條件下的模型準確度會下降;但是這個問題在模型規模變大后解決掉。
- 數據類型:采用的是多輪對話數據,而非常規的QA(單輪)數據,因此和ChatGPT的方式是類似的。
- 比較不同模型的效果:通過Elo分數進行比較,通過Elo分數計算兩個模型中的獲勝率。獲勝率越高,模型效果越好。
- 模型精確度與數據量的關系:隨著數據量的指數級提升,模型的精確度呈現一個線性的提升。
- 模型精確度和對話輪數的關系:總體趨勢是,對話輪數變多時,模型的精確度會下降。