LLMs之CriticGPT:CriticGPT的簡介、安裝和使用方法、案例應用之詳細攻略
目錄
CriticGPT的簡介
1、簡介
2、CriticGPT的方法
2.1、CriticGPT的訓練方法
2.2、CriticGPT的批評生成方法
3、局限性
4、后續步驟
CriticGPT的安裝和使用方法
CriticGPT的案例應用
CriticGPT的簡介
2024年6月27日,OpenAI官方正式發布CriticGPT,CriticGPT是一個基于 GPT-4 的模型,它撰寫了對 ChatGPT 響應的評論,以幫助人類訓練師在 RLHF 期間發現錯誤。
官方地址:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
原始論文:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
1、簡介
我們訓練了一個基于 GPT-4 的模型,稱為 CriticGPT,用于捕獲 ChatGPT 代碼輸出中的錯誤。我們發現,當人們從 CriticGPT 獲得幫助來審查 ChatGPT 代碼時,他們在 60% 的時間里比沒有幫助的人表現得更好。我們正在開始將類似 CriticGPT 的模型集成到我們的 RLHF 標簽管道中,為我們的訓練師提供明確的 AI 幫助。這是朝著能夠評估先進人工智能系統的輸出邁出的一步,如果沒有更好的工具,人們可能很難對這些結果進行評分。
為 ChatGPT 提供支持的 GPT-4 系列模型通過“人類反饋強化學習”(RLHF) 進行調整,以提供有用和互動性。RLHF 的一個關鍵部分是收集比較,在這些比較中,被稱為 AI 訓練師的人對不同的 ChatGPT 響應進行評分。
隨著我們在推理和模型行為方面的進步,ChatGPT 變得更加準確,它的錯誤變得更加微妙。這可能會使 AI 訓練師在出現不準確時難以發現不準確之處,從而使為 RLHF 提供支持的比較任務變得更加困難。這是 RLHF 的一個基本局限性,并且隨著模型逐漸變得比任何可以提供反饋的人更了解模型,它可能會使調整模型變得越來越困難。
為了幫助應對這一挑戰,我們訓練 CriticGPT 撰寫評論,強調 ChatGPT 答案中的不準確之處。
CriticGPT 的建議并不總是正確的,但我們發現,與沒有 AI 幫助相比,它們可以幫助訓練師通過模型編寫的答案發現更多的問題。此外,當人們使用 CriticGPT 時,人工智能增強了他們的技能,從而比人們單獨工作時更全面的批評,并且比模型單獨工作時更少的幻覺錯誤。在我們的實驗中,第二個隨機訓練師在超過 60% 的時間里更喜歡 Human+CriticGPT 團隊的批評,而不是來自無助者的批評。
2、CriticGPT的方法
2.1、CriticGPT的訓練方法
CriticGPT 也接受了 RLHF 的訓練,類似于 ChatGPT。但與 ChatGPT 不同的是,它看到了大量包含錯誤的輸入,然后它不得不對其進行批評。我們要求 AI 訓練師手動將這些錯誤插入到 ChatGPT 編寫的代碼中,然后編寫示例反饋,就好像他們抓住了剛剛插入的錯誤一樣。然后,同一個人比較了對修改后的代碼的多個批評,這樣他們就可以很容易地判斷評論何時抓住了他們插入的錯誤。在我們的實驗中,我們研究了 CriticGPT 是否可以捕獲插入的錯誤和之前訓練師捕獲的“自然發生的”ChatGPT 錯誤。我們發現,在 63% 的關于自然發生的錯誤的案例中,訓練師更喜歡 CriticGPT 批評而不是 ChatGPT 批評,部分原因是新批評家產生的“吹毛求疵”(無益的小抱怨)更少,產生幻覺問題的頻率也更低。
2.2、CriticGPT的批評生成方法
我們還發現,通過對批評獎勵模型使用額外的測試時搜索,我們可以生成更長、更全面的批評。這種搜索過程使我們能夠平衡我們在代碼中尋找問題的積極程度,并在幻覺和檢測到的錯誤數量之間配置精確度-召回率權衡。這意味著我們可以生成對 RLHF 盡可能有幫助的評論。有關更多詳細信息,請參閱我們的研究論文。
3、局限性
我們在 ChatGPT 的答案上訓練了 CriticGPT,這些答案很短。為了監督未來的代理,我們需要開發可以幫助訓練師理解長期復雜任務的方法。
模型仍然會產生幻覺,有時教練在看到這些幻覺后會犯標簽/標記錯誤。
有時,現實世界的錯誤可能會分散在答案的許多部分。我們的工作重點是可以在一個地方指出的錯誤,但將來我們也需要解決分散的錯誤。
CriticGPT 只能提供有限的幫助:如果一項任務或響應非常復雜,即使是專家在模型幫助下也可能無法正確評估。
4、后續步驟
為了對齊越來越復雜的 AI 系統,我們需要更好的工具。在對 CriticGPT 的研究中,我們發現將 RLHF 應用于 GPT-4 有望幫助人類為 GPT-4 生成更好的 RLHF 數據。我們正計劃進一步擴大這項工作的規模并將其付諸實踐。
CriticGPT的安裝和使用方法
暫時未開源,持續更新中……
CriticGPT的案例應用
持續更新中……