OpenAI發布的《Addendum to GPT-4o System Card: Native image generation》文件的詳盡筆記

Native_Image_Generation_System_Card

文件基本信息

  • 文件名稱:《Addendum to GPT-4o System Card: Native image generation》
  • 發布機構:OpenAI
  • 發布日期:2025年3月25日
  • 主要內容:介紹GPT-4o模型中新增的原生圖像生成功能,包括其能力、潛在風險、安全挑戰以及OpenAI為應對這些挑戰所采取的評估和緩解措施。

1. 引言

  • 4o圖像生成功能簡介:4o圖像生成是OpenAI推出的一種新型圖像生成技術,相較于之前的DALL·E系列模型,它具有更強的能力,能夠生成逼真的圖像,并且可以接受圖像作為輸入進行轉換,還能按照詳細指令操作,包括可靠地將文本融入圖像。由于其深度嵌入在GPT-4o模型的架構中,能夠以微妙且富有表現力的方式應用這些能力,生成既美觀又有用的圖像。
  • 安全基礎設施與風險:4o圖像生成受益于OpenAI現有的安全基礎設施,并借鑒了部署DALL·E和Sora過程中積累的經驗。然而,這種新能力也帶來了一些新的風險,例如可能被用于創建或修改照片,從而對照片中的人物造成損害,或者生成制造武器的示意圖等。因此,OpenAI在GPT-4o系統卡的補充說明中,詳細描述了他們關注的邊際風險以及為應對這些風險所做的工作。

2. 觀察到的安全挑戰、評估和緩解措施

2.1 安全挑戰:原生圖像生成帶來的新風險
  • 與DALL·E的區別:DALL·E是一種擴散模型,而4o圖像生成是嵌入在ChatGPT中的自回歸模型,這種根本區別帶來了以下新能力及相應風險:
    • 圖像到圖像的轉換:能夠以一個或多個圖像作為輸入,生成相關或修改后的圖像。
    • 逼真度:4o圖像生成的高級逼真能力意味著其輸出在某些情況下可能看起來像照片。
    • 指令遵循:能夠遵循詳細指令并呈現文本和指令性圖表,這既帶來了不同于早期模型的實用性,也帶來了風險。
  • 風險示例:如果沒有安全控制,4o圖像生成可能會以對被描繪人物有害的方式創建或修改照片,或者提供制造武器的示意圖等。
  • 風險應對策略:OpenAI借鑒多模態模型以及Sora和DALL·E視覺生成工具的經驗,針對4o圖像生成特有的新風險進行了映射和應對。他們致力于在最大化用戶幫助性和創造性自由的同時,最小化傷害,并且會根據實際使用情況不斷評估和調整政策。
2.2 安全堆棧
  • 聊天模型拒絕:在ChatGPT和API中,主要聊天模型是防止生成違反政策內容的第一道防線。基于其訓練后的安全措施,聊天模型可以根據用戶的提示拒絕觸發圖像生成過程。
  • 提示阻止:在調用4o圖像生成工具后,如果文本或圖像分類器標記提示違反政策,則阻止該工具生成圖像。通過預先識別和阻止提示,這一措施有助于在內容生成之前防止生成不允許的內容。
  • 輸出阻止:在圖像生成后應用這種方法,使用包括兒童性虐待材料(CSAM)分類器和以安全為重點的推理監控器在內的多種控制手段,阻止違反政策的圖像輸出。監控器是一個定制訓練的多模態推理模型,用于推理內容政策。通過在生成后評估輸出,這一策略旨在阻止任何違反政策的內容,為防止生成不允許的內容提供額外保障。
  • 未成年人的額外保障:使用上述所有緩解措施,為可能未滿18歲的用戶提供更安全的體驗,并限制這些用戶創建某些可能不適合其年齡的內容類別。目前,未滿13歲的用戶被禁止使用OpenAI的任何產品或服務。
2.3 評估
  • 評估方法:OpenAI通過以下三種來源的提示來觀察4o圖像生成安全堆棧的性能:
    • 外部手動紅隊測試
    • 自動化紅隊測試
    • 使用現實場景進行離線測試
  • 外部手動紅隊測試
    • OpenAI與經過審查的外部紅隊成員(來自紅隊網絡和Scale AI)合作,對4o圖像生成進行測試。這些測試是在內部測試4o圖像生成的原始模型能力之后進行的,以評估模型的原始能力并確定測試的重點領域。
    • 紅隊成員被要求探索各種優先主題領域,并開發和使用各種越獄方法和策略,試圖繞過模型的安全防護。
    • 測試完成后,將數千次手動對抗性對話合并并轉換為自動化評估。重新運行安全堆棧,并跟蹤以下兩個主要指標:
      • not_unsafe:系統是否生成違反模型政策的輸出?
      • not_overrefuse:系統是否拒絕符合模型政策的請求?
    • 表1顯示了僅使用系統緩解措施(提示阻止和輸出阻止)以及同時使用系統緩解措施和聊天模型拒絕時,4o圖像生成在外部紅隊測試數據上的整體性能指標。
  • 自動化紅隊測試
    • 在自動化紅隊測試中,使用上述模型政策生成合成對話,以探測系統對模型政策每個部分的性能表現。這些合成對話使我們能夠比單獨使用手動紅隊測試更全面地測試系統對政策的實施情況。
    • 生成了數千次不同類別的合成對話,包括有無圖像上傳的情況,以補充手動紅隊測試人員的工作。
    • 表2顯示了僅使用系統緩解措施(提示阻止和輸出阻止)以及同時使用系統緩解措施和聊天模型拒絕時,4o圖像生成在自動化紅隊測試數據上的整體性能指標。結果表明,其性能與人類紅隊測試數據相似,這進一步增強了我們對政策在各種對話中一致有效性的信心。
  • 使用現實場景進行離線測試
    • 還在反映現實場景的文本提示上評估了4o圖像生成的安全堆棧,以評估模型在生產環境中的行為。這包括來自不同安全類別的示例,以使評估具有代表性,反映生產中實際遇到的分布情況。這有助于我們了解模型在實際條件下的表現,并突出可能需要額外安全措施的領域。
    • 表3顯示了僅使用系統緩解措施(提示阻止和輸出阻止)以及同時使用系統緩解措施和聊天模型拒絕時,4o圖像生成在現實場景測試中的整體性能指標。
2.4 特定風險領域的討論
2.4.1 兒童安全
  • OpenAI的承諾:OpenAI高度重視兒童安全風險,優先預防、檢測和報告所有產品(包括4o圖像生成)中的兒童性虐待材料(CSAM)內容。
  • 4o圖像生成中的具體模型政策
    • 在發布時,不允許編輯上傳的逼真兒童圖像。未來將評估是否可以安全地允許編輯。
    • 加強了針對兒童性虐待材料(CSAM)的現有保護措施,無論是在圖像編輯還是圖像生成方面。
  • 檢測機制
    • 對于所有圖像上傳,整合了Thorn開發的Safer,以檢測與已知CSAM的匹配情況。確認匹配的圖像將被拒絕并報告給NCMEC,相關用戶賬戶將被封禁。此外,還利用Thorn的CSAM分類器識別圖像上傳和4o圖像生成生成的圖像中可能的新未哈希CSAM內容。
    • 利用多模態審核分類器檢測并阻止任何涉及未成年人的性內容。
    • 對于4o圖像生成,基于Sora中使用的現有18歲以下分類器,構建了一個逼真人分類器,用于分析所有上傳圖像,預測其中是否描繪了未成年人。在發布時,只有在不是對逼真未成年人圖像進行編輯的情況下,才允許生成逼真的兒童圖像。此外,逼真的兒童生成必須遵守我們所有政策的安全約束。
    • 逼真人分類器接收上傳的圖像,并預測以下三個標簽之一:
      • 無逼真人
      • 逼真成人
      • 逼真兒童
    • 如果圖像中同時包含逼真成人和逼真兒童,分類器被設計為返回“逼真兒童”作為預測結果。
    • 表4顯示了該分類器在包含近4000張圖像的數據集上的評估結果,這些圖像分為[兒童|成人]和[逼真|非逼真]類別。
    • 目前,分類器的準確度很高,但可能會偶爾錯誤分類圖像。例如,長相年輕的成年人可能會被錯誤標記為兒童。為了安全起見,分類器被調整為在分類邊界或模糊情況下傾向于將圖像標記為“兒童”。OpenAI致力于使用更好的模型和更好的評估集來提高分類器的性能。
2.4.2 藝術家風格
  • 問題與應對:當在提示中使用藝術家的名字時,模型可以生成看起來像某些藝術家作品風格的圖像,這在創意社區引發了重要問題和擔憂。因此,OpenAI在這一版本的4o

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/76251.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/76251.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/76251.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

5.02 WPF的 Combox、ListBox,slider、ProgressBar使用

1. 關于Combox\ListBox使用: 1.1 內容綁定有兩種方法, 優先使用方法1,因為列表變化的時候,Combox會自動顯示新的內容。而方法2并不會實時更新。 方法1:使用DataContext this.comboBox1.DisplayMemberPath "na…

《孟婆湯的SHA-256加密》

點擊下面圖片帶您領略全新的嵌入式學習路線 🔥爆款熱榜 88萬閱讀 1.6萬收藏 文章目錄 **第一章:黃泉路上的數據風暴****第二章:堿基對的非對稱加密****第三章:RAFT協議暴動事件****第四章:靈魂分叉與硬重放****終章&…

SpringBoot事務管理(四)

記錄幾條SpringBoot事務管理中踩過的坑及解決辦法: 1. 自調用問題 問題描述 在同一個類中,一個非事務方法調用另一個有 Transactional 注解的事務方法,事務不會生效。因為 Spring 的事務管理是基于 AOP 代理實現的,自調用時不會…

HTTP 1.1長連接問題

在長連接問題上,HTTP 1.1與HTTP 1.0還是有所區別的。 下面一起來看看: HTTP 1.1 支持長連接(PersistentConnection)和請求的流水線(Pipelining)處理,在一個 TCP 連接上可以傳送多個 HTTP 請求…

鴻蒙應用元服務開發-Account Kit概述

Account Kit(華為賬號服務)提供簡單、快速、安全的登錄功能,讓用戶快捷地使用華為賬號登錄元服務。用戶授權后,Account Kit可提供頭像、手機號碼等信息,幫助元服務更了解用戶。Account Kit提供的SampleCode示例工程體現…

IP綜合實驗

1.配置eth-trunk進行綁定 [LSW1]interface Eth-Trunk 0 [LSW1-Eth-Trunk0]q [LSW1]interface g0/0/2 [LSW1-GigabitEthernet0/0/2]eth-trunk 0 [LSW1-GigabitEthernet0/0/2]int g0/0/3 [LSW1-GigabitEthernet0/0/3]eth-trunk 0 [LSW1-GigabitEthernet0/0/3]display et…

SAP 學習筆記 - 系統移行業務 - MALSY(由Excel 移行到SAP 的收費工具)

以前有關移行,也寫過一些文章,比如 SAP 學習筆記 - 系統移行業務 - Migration cockpit工具 - 移行Material(品目)-CSDN博客 SAP 學習筆記 - 系統移行業務 - Migration cockpit工具2 - Lot導入_sap cockpit-CSDN博客 SAP學習筆記…

二叉樹搜索樹與雙向鏈表

一:題目 二:思路 把二叉搜索樹的值升序的打印出來,中序打印即可,但是此題不僅僅是有序的打印出二叉搜索樹的值,而是要將其的結構也改變了,也就是說要改變節點間的指向,讓其成為一個雙向鏈表 我…

31天Python入門——第17天:初識面向對象

你好,我是安然無虞。 文章目錄 面向對象編程1. 什么是面向對象2. 類(class)3. 類的實例關于self 4. 對象的初始化5. __str__6. 類之間的關系繼承關系組合關系 7. 補充練習 面向對象編程 1. 什么是面向對象 面向對象編程是一種編程思想,它將現實世界的概念和關系映…

Spring Boot中常用內嵌數據庫(H2、HSQLDB、Derby)的對比,包含配置示例和關鍵差異總結

以下是Spring Boot中常用內嵌數據庫的對比,包含配置示例和關鍵差異總結: 一、主流內嵌數據庫對比 1. H2 數據庫 特點: 支持內存模式(速度快)和文件模式(數據持久化)。支持SQL方言&#xff08…

Apache Hive和Snowflake的`CREATE VIEW`語法和功能特性整理的對比表

寫一個Apache Hive中CREATE VIEW語句轉換為對應Snowflake中CREATE VIEW語句的程序,現在需要一個根據功能的相似性對應的Apache HiveQL和Snowflake SQL的CREATE VIEW語句的表。 以下是基于Apache Hive的CREATE VIEW語法規則構造的所有可能合法語句實例及其功能說明&…

個人博客網站從搭建到上線教程

步驟1:設計個人網站 設計個人博客網站的風格樣式,可以在各個模板網站上多瀏覽瀏覽,以便有更多設計網站風格樣式的經驗。 設計個人博客網站的內容,你希望你的網站包含哪些內容如你的個人基本信息介紹、你想分享的項目、你想分享的技術文檔等等。 步驟2:選擇開發技術棧 因…

PHP回調后門

1.系統命令執行 直接windows或liunx命令 各個程序 相應的函數 來實現 system exec shell_Exec passshru 2.執行代碼 eval assert php代碼 系統 <?php eval($_POST) <?php assert($_POST) 簡單的測試 回調后門函數call_user_func(1,2) 1是回調的函數 2是回調…

Raspberry 樹莓派 CM4模塊的底板設計注意事項

1&#xff0c; 樹莓派CM4底板設計 樹莓派CM4模塊集成了CPU&#xff0c; 存儲器&#xff0c;以太網&#xff0c; 無線模塊&#xff0c;電源等等&#xff0c; 大大降低了硬件設計的要求。對我們使用樹莓派提供了很好的便利性。 本人近期因為項目的需要設計了一款CM4的底板&#x…

Java后端開發(十八)-- 使用JAXB,將JavaBean轉換XML文本

下面是測試時的運行環境: 1.jdk8 2.Maven,可能需要需要的依賴,如下: <dependency><groupId>javax.xml.bind</groupId><artifactId>jaxb-api</artifactId><version>2.3.1</version></dependency><dependency><gr…

【一起來學kubernetes】30、k8s的java sdk怎么用

Kubernetes Java SDK 是開發者在 Java 應用中與 Kubernetes 集群交互的核心工具&#xff0c;支持資源管理、服務發現、配置操作等功能。 一、主流 Java SDK 對比與選擇 官方 client-java 庫 特點&#xff1a;由 Kubernetes 社區維護&#xff0c;API 與 Kubernetes 原生對象嚴格…

PHP開發者2025生存指南

PHP&#xff0c;這個曾經被戲稱為“世界上最好的語言”的腳本語言&#xff0c;依舊在網絡世界占據著重要的地位。然而&#xff0c;技術發展日新月異&#xff0c;面向2025年&#xff0c;PHP開發者要想保持競爭力甚至實現職業生涯的飛躍&#xff0c;需要不斷學習和提升自身技能。…

MySQL與Redis數據一致性保障方案詳解

前言 在現代分布式系統中&#xff0c;MySQL和Redis的結合使用非常普遍。MySQL作為關系型數據庫負責持久化存儲&#xff0c;而Redis則作為高性能緩存層提升系統的響應速度。然而&#xff0c;在這種架構下&#xff0c;如何保證MySQL與Redis之間的數據一致性是一個重要的挑戰。本…

MySQL響應慢是否由堵塞或死鎖引起?

目錄標題 **1. 檢查當前運行的查詢和進程****2. 查看死鎖日志****方法一&#xff1a;通過錯誤日志****方法二&#xff1a;通過InnoDB狀態** **3. 檢查鎖信息****查看表鎖****查看行鎖&#xff08;InnoDB&#xff09;** **4. 分析慢查詢****開啟慢查詢日志****分析慢查詢** **5.…

【計算機網絡】記錄一次校園網無法上網的解決方法

問題現象 環境&#xff1a;實訓室教室內時間&#xff1a;近期突然出現 &#xff08;推測是學校在施工&#xff0c;部分設備可能出現問題&#xff09;癥狀&#xff1a; 連接校園網 SWXY-WIFI 后&#xff1a; 連接速度極慢偶發無 IP 分配&#xff08;DHCP 失敗&#xff09;即使分…