OpenAI發布的《Addendum to GPT-4o System Card: Native image generation》文件的詳盡筆記

Native_Image_Generation_System_Card

文件基本信息

文件名稱：《Addendum to GPT-4o System Card: Native image generation》
發布機構：OpenAI
發布日期：2025年3月25日
主要內容：介紹GPT-4o模型中新增的原生圖像生成功能，包括其能力、潛在風險、安全挑戰以及OpenAI為應對這些挑戰所采取的評估和緩解措施。

1. 引言

4o圖像生成功能簡介：4o圖像生成是OpenAI推出的一種新型圖像生成技術，相較于之前的DALL·E系列模型，它具有更強的能力，能夠生成逼真的圖像，并且可以接受圖像作為輸入進行轉換，還能按照詳細指令操作，包括可靠地將文本融入圖像。由于其深度嵌入在GPT-4o模型的架構中，能夠以微妙且富有表現力的方式應用這些能力，生成既美觀又有用的圖像。
安全基礎設施與風險：4o圖像生成受益于OpenAI現有的安全基礎設施，并借鑒了部署DALL·E和Sora過程中積累的經驗。然而，這種新能力也帶來了一些新的風險，例如可能被用于創建或修改照片，從而對照片中的人物造成損害，或者生成制造武器的示意圖等。因此，OpenAI在GPT-4o系統卡的補充說明中，詳細描述了他們關注的邊際風險以及為應對這些風險所做的工作。

2. 觀察到的安全挑戰、評估和緩解措施

2.1 安全挑戰：原生圖像生成帶來的新風險

與DALL·E的區別：DALL·E是一種擴散模型，而4o圖像生成是嵌入在ChatGPT中的自回歸模型，這種根本區別帶來了以下新能力及相應風險：
- 圖像到圖像的轉換：能夠以一個或多個圖像作為輸入，生成相關或修改后的圖像。
- 逼真度：4o圖像生成的高級逼真能力意味著其輸出在某些情況下可能看起來像照片。
- 指令遵循：能夠遵循詳細指令并呈現文本和指令性圖表，這既帶來了不同于早期模型的實用性，也帶來了風險。
風險示例：如果沒有安全控制，4o圖像生成可能會以對被描繪人物有害的方式創建或修改照片，或者提供制造武器的示意圖等。
風險應對策略：OpenAI借鑒多模態模型以及Sora和DALL·E視覺生成工具的經驗，針對4o圖像生成特有的新風險進行了映射和應對。他們致力于在最大化用戶幫助性和創造性自由的同時，最小化傷害，并且會根據實際使用情況不斷評估和調整政策。

2.2 安全堆棧

聊天模型拒絕：在ChatGPT和API中，主要聊天模型是防止生成違反政策內容的第一道防線。基于其訓練后的安全措施，聊天模型可以根據用戶的提示拒絕觸發圖像生成過程。
提示阻止：在調用4o圖像生成工具后，如果文本或圖像分類器標記提示違反政策，則阻止該工具生成圖像。通過預先識別和阻止提示，這一措施有助于在內容生成之前防止生成不允許的內容。
輸出阻止：在圖像生成后應用這種方法，使用包括兒童性虐待材料（CSAM）分類器和以安全為重點的推理監控器在內的多種控制手段，阻止違反政策的圖像輸出。監控器是一個定制訓練的多模態推理模型，用于推理內容政策。通過在生成后評估輸出，這一策略旨在阻止任何違反政策的內容，為防止生成不允許的內容提供額外保障。
未成年人的額外保障：使用上述所有緩解措施，為可能未滿18歲的用戶提供更安全的體驗，并限制這些用戶創建某些可能不適合其年齡的內容類別。目前，未滿13歲的用戶被禁止使用OpenAI的任何產品或服務。

2.3 評估

評估方法：OpenAI通過以下三種來源的提示來觀察4o圖像生成安全堆棧的性能：
- 外部手動紅隊測試
- 自動化紅隊測試
- 使用現實場景進行離線測試
外部手動紅隊測試：
- OpenAI與經過審查的外部紅隊成員（來自紅隊網絡和Scale AI）合作，對4o圖像生成進行測試。這些測試是在內部測試4o圖像生成的原始模型能力之后進行的，以評估模型的原始能力并確定測試的重點領域。
- 紅隊成員被要求探索各種優先主題領域，并開發和使用各種越獄方法和策略，試圖繞過模型的安全防護。
- 測試完成后，將數千次手動對抗性對話合并并轉換為自動化評估。重新運行安全堆棧，并跟蹤以下兩個主要指標：
  - not_unsafe：系統是否生成違反模型政策的輸出？
  - not_overrefuse：系統是否拒絕符合模型政策的請求？
- 表1顯示了僅使用系統緩解措施（提示阻止和輸出阻止）以及同時使用系統緩解措施和聊天模型拒絕時，4o圖像生成在外部紅隊測試數據上的整體性能指標。
自動化紅隊測試：
- 在自動化紅隊測試中，使用上述模型政策生成合成對話，以探測系統對模型政策每個部分的性能表現。這些合成對話使我們能夠比單獨使用手動紅隊測試更全面地測試系統對政策的實施情況。
- 生成了數千次不同類別的合成對話，包括有無圖像上傳的情況，以補充手動紅隊測試人員的工作。
- 表2顯示了僅使用系統緩解措施（提示阻止和輸出阻止）以及同時使用系統緩解措施和聊天模型拒絕時，4o圖像生成在自動化紅隊測試數據上的整體性能指標。結果表明，其性能與人類紅隊測試數據相似，這進一步增強了我們對政策在各種對話中一致有效性的信心。
使用現實場景進行離線測試：
- 還在反映現實場景的文本提示上評估了4o圖像生成的安全堆棧，以評估模型在生產環境中的行為。這包括來自不同安全類別的示例，以使評估具有代表性，反映生產中實際遇到的分布情況。這有助于我們了解模型在實際條件下的表現，并突出可能需要額外安全措施的領域。
- 表3顯示了僅使用系統緩解措施（提示阻止和輸出阻止）以及同時使用系統緩解措施和聊天模型拒絕時，4o圖像生成在現實場景測試中的整體性能指標。

2.4 特定風險領域的討論

2.4.1 兒童安全

OpenAI的承諾：OpenAI高度重視兒童安全風險，優先預防、檢測和報告所有產品（包括4o圖像生成）中的兒童性虐待材料（CSAM）內容。
4o圖像生成中的具體模型政策：
- 在發布時，不允許編輯上傳的逼真兒童圖像。未來將評估是否可以安全地允許編輯。
- 加強了針對兒童性虐待材料（CSAM）的現有保護措施，無論是在圖像編輯還是圖像生成方面。
檢測機制：
- 對于所有圖像上傳，整合了Thorn開發的Safer，以檢測與已知CSAM的匹配情況。確認匹配的圖像將被拒絕并報告給NCMEC，相關用戶賬戶將被封禁。此外，還利用Thorn的CSAM分類器識別圖像上傳和4o圖像生成生成的圖像中可能的新未哈希CSAM內容。
- 利用多模態審核分類器檢測并阻止任何涉及未成年人的性內容。
- 對于4o圖像生成，基于Sora中使用的現有18歲以下分類器，構建了一個逼真人分類器，用于分析所有上傳圖像，預測其中是否描繪了未成年人。在發布時，只有在不是對逼真未成年人圖像進行編輯的情況下，才允許生成逼真的兒童圖像。此外，逼真的兒童生成必須遵守我們所有政策的安全約束。
- 逼真人分類器接收上傳的圖像，并預測以下三個標簽之一：
  - 無逼真人
  - 逼真成人
  - 逼真兒童
- 如果圖像中同時包含逼真成人和逼真兒童，分類器被設計為返回“逼真兒童”作為預測結果。
- 表4顯示了該分類器在包含近4000張圖像的數據集上的評估結果，這些圖像分為[兒童|成人]和[逼真|非逼真]類別。
- 目前，分類器的準確度很高，但可能會偶爾錯誤分類圖像。例如，長相年輕的成年人可能會被錯誤標記為兒童。為了安全起見，分類器被調整為在分類邊界或模糊情況下傾向于將圖像標記為“兒童”。OpenAI致力于使用更好的模型和更好的評估集來提高分類器的性能。