Anthropic LLM論文閱讀筆記

研究時間：與Instrcut GPT同期的工作，雖然其比ChatGPT發布更晚，但是其實完成的時間比ChatGPT更早。
與ChatGPT的應用區別：該模型比ChatGPT回答我不知道的概率更高。
將強化學習用于大語言模型（RLHF）：發現這種方法可以提升幾乎在所有NLP任務上的性能。隨著參數的增加，效果也越來越好。如果模型經過了強化學習的輔助，效果會進一步提升；如果經過了有用性的訓練，模型會有更大的提升；但是如果經過了有害性的訓練，模型的有用性會下降，非有害性會提升。
模型不斷更新：每個星期用一個新的獎勵函數和強化學習目標進行訓練，相當于一個在線學習。
模型實現了有用性和無害性：讓模型分別在兩組表示有用性和無害性的數據集上進行學習。這兩個特性其實是相矛盾的，盡管將兩個數據集放在一起訓練問題也不大，但是仍然需要后續的改進來進行優化。
數據標注：數據標注階段，每次讓模型生成兩個回答，讓標注工人選擇他們覺得更好的回答。
RLHF對不同規格的模型的效果：如果模型本身的規模較小，經過RLHF后Zero-shot條件下的模型準確度會下降；但是這個問題在模型規模變大后解決掉。
數據類型：采用的是多輪對話數據，而非常規的QA（單輪）數據，因此和ChatGPT的方式是類似的。
比較不同模型的效果：通過Elo分數進行比較，通過Elo分數計算兩個模型中的獲勝率。獲勝率越高，模型效果越好。
模型精確度與數據量的關系：隨著數據量的指數級提升，模型的精確度呈現一個線性的提升。
模型精確度和對話輪數的關系：總體趨勢是，對話輪數變多時，模型的精確度會下降。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/160581.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/160581.shtml
英文地址，請注明出處：http://en.pswp.cn/news/160581.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！