LLMs之CriticGPT：CriticGPT的簡介、安裝和使用方法、案例應用之詳細攻略

CriticGPT的簡介

1、簡介

2、CriticGPT的方法

2.1、CriticGPT的訓練方法

2.2、CriticGPT的批評生成方法

3、局限性

4、后續步驟

CriticGPT的安裝和使用方法

CriticGPT的案例應用

CriticGPT的簡介

2024年6月27日，OpenAI官方正式發布CriticGPT，CriticGPT是一個基于 GPT-4 的模型，它撰寫了對 ChatGPT 響應的評論，以幫助人類訓練師在 RLHF 期間發現錯誤。

官方地址：https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

原始論文：https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

1、簡介

我們訓練了一個基于 GPT-4 的模型，稱為 CriticGPT，用于捕獲 ChatGPT 代碼輸出中的錯誤。我們發現，當人們從 CriticGPT 獲得幫助來審查 ChatGPT 代碼時，他們在 60% 的時間里比沒有幫助的人表現得更好。我們正在開始將類似 CriticGPT 的模型集成到我們的 RLHF 標簽管道中，為我們的訓練師提供明確的 AI 幫助。這是朝著能夠評估先進人工智能系統的輸出邁出的一步，如果沒有更好的工具，人們可能很難對這些結果進行評分。

為 ChatGPT 提供支持的 GPT-4 系列模型通過“人類反饋強化學習”（RLHF）進行調整，以提供有用和互動性。RLHF 的一個關鍵部分是收集比較，在這些比較中，被稱為 AI 訓練師的人對不同的 ChatGPT 響應進行評分。

隨著我們在推理和模型行為方面的進步，ChatGPT 變得更加準確，它的錯誤變得更加微妙。這可能會使 AI 訓練師在出現不準確時難以發現不準確之處，從而使為 RLHF 提供支持的比較任務變得更加困難。這是 RLHF 的一個基本局限性，并且隨著模型逐漸變得比任何可以提供反饋的人更了解模型，它可能會使調整模型變得越來越困難。

為了幫助應對這一挑戰，我們訓練 CriticGPT 撰寫評論，強調 ChatGPT 答案中的不準確之處。

CriticGPT 的建議并不總是正確的，但我們發現，與沒有 AI 幫助相比，它們可以幫助訓練師通過模型編寫的答案發現更多的問題。此外，當人們使用 CriticGPT 時，人工智能增強了他們的技能，從而比人們單獨工作時更全面的批評，并且比模型單獨工作時更少的幻覺錯誤。在我們的實驗中，第二個隨機訓練師在超過 60% 的時間里更喜歡 Human+CriticGPT 團隊的批評，而不是來自無助者的批評。

2、CriticGPT的方法

2.1、CriticGPT的訓練方法

CriticGPT 也接受了 RLHF 的訓練，類似于 ChatGPT。但與 ChatGPT 不同的是，它看到了大量包含錯誤的輸入，然后它不得不對其進行批評。我們要求 AI 訓練師手動將這些錯誤插入到 ChatGPT 編寫的代碼中，然后編寫示例反饋，就好像他們抓住了剛剛插入的錯誤一樣。然后，同一個人比較了對修改后的代碼的多個批評，這樣他們就可以很容易地判斷評論何時抓住了他們插入的錯誤。在我們的實驗中，我們研究了 CriticGPT 是否可以捕獲插入的錯誤和之前訓練師捕獲的“自然發生的”ChatGPT 錯誤。我們發現，在 63% 的關于自然發生的錯誤的案例中，訓練師更喜歡 CriticGPT 批評而不是 ChatGPT 批評，部分原因是新批評家產生的“吹毛求疵”（無益的小抱怨）更少，產生幻覺問題的頻率也更低。

2.2、CriticGPT的批評生成方法

我們還發現，通過對批評獎勵模型使用額外的測試時搜索，我們可以生成更長、更全面的批評。這種搜索過程使我們能夠平衡我們在代碼中尋找問題的積極程度，并在幻覺和檢測到的錯誤數量之間配置精確度-召回率權衡。這意味著我們可以生成對 RLHF 盡可能有幫助的評論。有關更多詳細信息，請參閱我們的研究論文。

3、局限性

我們在 ChatGPT 的答案上訓練了 CriticGPT，這些答案很短。為了監督未來的代理，我們需要開發可以幫助訓練師理解長期復雜任務的方法。

模型仍然會產生幻覺，有時教練在看到這些幻覺后會犯標簽/標記錯誤。

有時，現實世界的錯誤可能會分散在答案的許多部分。我們的工作重點是可以在一個地方指出的錯誤，但將來我們也需要解決分散的錯誤。

CriticGPT 只能提供有限的幫助：如果一項任務或響應非常復雜，即使是專家在模型幫助下也可能無法正確評估。

4、后續步驟

為了對齊越來越復雜的 AI 系統，我們需要更好的工具。在對 CriticGPT 的研究中，我們發現將 RLHF 應用于 GPT-4 有望幫助人類為 GPT-4 生成更好的 RLHF 數據。我們正計劃進一步擴大這項工作的規模并將其付諸實踐。

CriticGPT的安裝和使用方法

暫時未開源，持續更新中……

CriticGPT的案例應用

持續更新中……

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/40442.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/40442.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/40442.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！