OpenAI 推出圖像生成新突破:GPT-4o 實現圖像編輯對話化

關鍵要點

  • OpenAI 推出了 4o 圖像生成功能,集成于 GPT-4o,提供精準且逼真的圖像生成。

  • 它似乎適用于多種用戶,包括免費用戶,API 訪問預計幾周內推出。

  • 安全措施包括 C2PA 元數據和內容屏蔽,限制生成不適當圖像。

  • 研究表明,該功能可能偶爾裁剪較長圖像,影響完整性。

OpenAI 于北京時間3月26日凌晨發布推出 4o 圖像生成功能,這是一個集成于 GPT-4o 的新特性,旨在提供精準且逼真的圖像生成。這一發展標志著 AI 技術在視覺內容創作領域的重大進步,為用戶提供了一個功能強大的工具,適用于藝術、設計、廣告等多個領域。

什么是 4o 圖像生成?

4o 圖像生成是一個原生多模態模型,設計上能夠同時處理和生成不同媒體類型的內容,如文本和圖像。它通過無縫整合文本指令和視覺數據,生成不僅美觀且與上下文相關的圖像。這一特性使其在處理復雜需求時更加高效,增強了用戶體驗。

關鍵功能與能力

4o 圖像生成功能提供了以下主要能力:

  • 文本渲染:根據詳細的文本描述生成圖像,確保圖像的準確性和細節。

  • 多輪生成:支持通過多次交互逐步優化圖像,允許用戶調整和改進。

  • 指令遵循:能夠遵循用戶特定的指令,滿足特定的標準或風格。

  • 上下文學習:在同一交互中適應新的信息或偏好,動態調整輸出。

  • 世界知識:整合廣泛的通用知識,確保生成的圖像與上下文相關。

  • 逼真度:生成高度逼真的圖像,接近真實照片的效果。

  • 風格化:允許用戶指定藝術風格或視覺美學,滿足個性化需求。

這些功能使 4o 圖像生成成為一個多功能的工具,適用于從藝術創作到商業應用的廣泛場景。

以下是一些案列:

?實用性增強

  • 不僅適用于藝術創作,也擅長生成:

    • 信息類圖像(如標志、圖表、示意圖)

    • 準確表達結構、符號、文字與含義的圖像

  • 支持將上傳的圖片作為“靈感源”進行生成

  • 能夠精確生成圖片中的文字(如橫幅、書籍封面、廣告牌等)

  • 解決了傳統模型常出現的錯字、亂碼、字體扭曲問題

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
一個方形圖像,包含一個 4 行 x 4 列的網格,其中包含 16 個對象,背景為白色。從左到右,從上到下。這是列表:

  1. 1. a blue star ?1. 一顆藍色的星星

  2. 2. red triangle ?2. 紅色三角形

  3. 3. green square ?3. 綠色方塊

  4. 4. pink circle ?4. 粉紅色圓圈

  5. 5. orange hourglass ?5. 橙色沙漏

  6. 6. purple infinity sign ?6. 紫色無限符號

  7. 7. black and white polka dot bowtie

  8. 8. 黑白波點領結

  9. 9. tiedye "42" ?8. 鐵染料 “42”

  10. 10. an orange cat wearing a black baseball cap

  11. 11. 一只戴著黑色棒球帽的橘貓

  12. 12. a map with a treasure chest

  13. 13. 一張帶有寶箱的地圖

  14. 14. a pair of googly eyes

  15. 15. 一雙咕嚕咕嚕的眼睛

  16. 16. a thumbs up emoji

  17. 17. 豎起大拇指的表情符號

  18. 18. a pair of scissors

  19. 19. 一把剪刀

  20. 20. a blue and white giraffe

  21. 21. 一只藍色和白色的長頸鹿

  22. 22. the word "OpenAI" written in cursive

  23. 23. 用草書書寫的“OpenAI”一詞

  24. 24. a rainbow-colored lightning bolt

  25. 25. 彩虹色的閃電

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.
創建兩個 20 多歲的女巫(一個是灰燼女巫,一個留著赤褐色的長發)閱讀路標的照片級真實感圖像。

Context: ? 上下文:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.
紐約州威廉斯堡一條隨機街道上的一條城市街道,一根桿子上完全覆蓋著許多詳細的街道標志(例如,街道清掃時間、所需的停車許可證、車輛分類、拖車規則),包括中間的一些荒謬標志:(轉述它以制作這些合法的街道標志)“C 區不允許為女巫提供掃帚停車位”和“僅限魔毯裝卸(15 分鐘限制)”和“僅憑許可證停放馴鹿(12 月 24 日至 25 日)\n 違規者將被列入淘氣名單。路標位于街道的右側。不要重復標志。標志必須是現實的。

Characters: ?字符:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.
一個女巫拿著掃帚,另一個女巫拿著卷起的魔毯。他們在前景中,背對著鏡頭微微傾斜,在仔細檢查標志時頭部微微傾斜。

Composition from background to foreground:
從背景到前景的合成:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot
街道 + 停放的汽車 + 建筑物 -> 路標 -> 女巫。角色必須離拍攝的攝像機最近

? 高精度文本渲染

  • GPT-4o 能更好地將文字嵌入圖像(如海報、PPT、廣告)

  • 對復雜 prompt 的遵循度高,支持 prompt 中描述 10–20 個物體對象及其屬性、關系,超越 DALL·E 3 的 ~5–8 個極限

  • 每個物體的屬性、關系可被分別控制,圖像結構更加精細清晰

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.
用手機拍攝的玻璃白板的廣角圖像,位于俯瞰海灣大橋的房間里。視野顯示一名女性正在寫作,她穿著一件帶有大型 OpenAI 標志的 T 恤。筆跡看起來很自然,有點凌亂,我們看到了攝影師的倒影。

The text reads: ?文字寫道:

(left) ?(左)
"Transfer between Modalities:
“在模式之間轉移:

Suppose we directly model
假設我們直接建模
p(text, pixels, sound) [equation]
p(文本、像素、聲音) [方程]
with one big autoregressive transformer.
帶有一個大的自回歸變壓器。

Pros: ?優點:

  • ? image generation augmented with vast world knowledge

  • ? 利用廣闊的世界知識增強圖像生成

  • ? next-level text rendering

  • ? 更高級別的文本渲染

  • ? native in-context learning

  • ? 原生上下文學習

  • ? unified post-training stack

  • ? 統一的訓練后堆棧

Cons: ?缺點:

  • ? varying bit-rate across modalities

  • ? 不同模式的比特率不同

  • ? compute not adaptive" ? 計算非自適應”

(Right) ?(右)
"Fixes: ?“修復:
model compressed representations

  • ? 模型壓縮表示

  • ? compose autoregressive prior with a powerful decoder"

  • ? 使用強大的解碼器編寫 autoregressive 先驗”

On the bottom right of the board, she draws a diagram:
在板的右下角,她畫了一個圖表:
"tokens -> [transformer] -> [diffusion] -> pixels"

繼續編輯修改↓

selfie view of the photographer, as she turns around to high five him
攝影師的自拍照片,她轉身與他擊掌

? 上下文一致性與連續創作

  • 用戶可以與 GPT-4o 多輪互動迭代圖像內容

  • 對話驅動式圖像生成

    • 用戶可以說:“把剛才那張圖里的人換成女性”或“背景換成夜晚風格”

    • 模型會自動在上下文中找出之前圖像并按指令修改,無需重新描述全部細節

  • 在創作游戲角色或品牌形象時,形象可以在多張圖中保持一致風格

  • 支持用戶上傳圖片作為上下文,分析圖中內容后進行“風格模仿”或“結構轉化”

Give this cat a detective hat and a monocle
給這只貓一頂偵探帽和單片眼鏡

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography
將其變成使用 4k 游戲引擎制作的 3A 視頻游戲,并添加一些用戶界面作為神秘 RPG 的疊加層,我們可以在頂部看到健康條和小地圖,以及底部具有一致和圖標的法術

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors
更新為橫向圖像 16:9 比例,在 UI 中添加更多法術,并取消縮放視覺對象,以便我們以第三人稱視角看到貓走過蒸汽朋克曼哈頓,從而產生美麗的對比和照明,就像在最好的 3A 游戲中一樣,具有冷色調

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)
當玩家打開菜單時創建界面,我們會看到貓的角色資料和他的設備,以及另一個顯示活動任務的頁面(這與我們在圖像中描述的宇宙世界構建的關系應該是有意義的)

? 4. 圖像風格豐富 & 寫實能力強

GPT-4o 支持豐富的圖像風格,包括:

  • 訓練數據覆蓋多種風格(漫畫、攝影、插畫、平面設計等),使 GPT-4o 具備強大的 風格遷移和控制能力

  • 可生成:

    • 高度寫實照片風格圖

    • 具有“新聞照片感”的場景圖(示例:卡爾·馬克思逛商場 paparazzi 風格)

與 DALL·E 3 的區別

訪問與可用性

  • 用戶層級:從 發布日起,Plus、Pro、Team 和免費用戶可在 ChatGPT 中默認使用該功能。

  • 企業與教育用戶:預計不久后將對企業用戶和教育用戶開放。

  • Sora 集成:該功能也將可在 OpenAI 的另一工具 Sora 中使用。

  • DALL·E 兼容:之前的 DALL·E 模型仍可通過專用 GPT 訪問。

  • API 訪問:開發者 API 訪問預計在未來幾周內推出。

  • 渲染時間:生成圖像可能需要最多一分鐘,用戶需耐心等待。

這一廣泛的可用性確保了不同用戶群體都能利用 AI 進行圖像生成,擴大了技術的應用范圍。

安全措施

OpenAI 實施了多項安全措施,以確保 4o 圖像生成功能的安全使用:

  • C2PA 元數據:追蹤生成圖像的來源和歷史,幫助對抗虛假信息。

  • 內部可逆搜索工具:允許追蹤和管理任何問題內容。

  • 內容屏蔽:阻止生成兒童性虐待材料和性深偽圖像,防止濫用。

  • 強化限制:對真實人物圖像有更嚴格的控制,特別是在裸露和暴力內容方面。

  • 推理語言模型:使用語言模型來確保符合倫理指南。

限制

盡管 4o 圖像生成功能高度先進,但仍存在一些限制:

  • 緊縮裁剪:對于較長的圖像(如海報),可能偶爾在底部緊縮裁剪,可能會切掉重要內容。

用戶應注意這一限制,并根據需要調整提示或預期。

結論

OpenAI 推出 4o 圖像生成功能,展示了公司在推進 AI 技術的同時,注重安全性和可訪問性的承諾。這一新特性有望改變我們創建和互動視覺內容的方式,提供前所未有的圖像生成能力。

隨著技術的持續發展,我們可以期待進一步的改進和擴展,為創意和創新開啟更多可能性。

團隊與貢獻者

這一突破性技術的背后,是 OpenAI 多個團隊的協作努力,包括基礎研究團隊、核心開發團隊、數據管理團隊、擴展團隊、應用工程團隊以及安全和戰略團隊。這些團隊的領導和成員名單詳見原始頁面,但為了保持文章的簡潔性,這里僅提及其廣泛的協作性質。

以下是頁面內容的詳細總結,包括所有相關信息、精確數字和 URL,供參考:

部分

詳情

標題

推出 4o 圖像生成

日期

2025 年 3 月 25 日

類別

產品,發布

主要功能

- 原生多模態模型,提供精準、逼真的圖像生成

- 集成于 GPT-4o

- 能力:文本渲染、多輪生成、指令遵循、上下文學習、世界知識、逼真度和風格

訪問與可用性

- 發布日已對 Plus、Pro、Team 和免費用戶在 ChatGPT 中默認開放

- 企業和教育用戶即將開放,也將在 Sora 中可用

- DALL·E 仍可通過專用 GPT 訪問

- API 訪問未來幾周內推出

- 圖像渲染時間:最多 1 分鐘

安全措施

- C2PA 元數據用于來源追蹤

- 內部可逆搜索工具

- 屏蔽兒童性虐待材料、性深偽圖像

- 對真實人物圖像(裸露、暴力)有更嚴格限制

- 推理語言模型用于安全規范

限制

- 偶爾緊縮裁剪較長圖像(如海報)可能偶爾在底部緊縮裁剪,可能會切掉重要內容。

這一表格總結了頁面內容的全部信息,包括日期、功能、安全措施和團隊貢獻,提供了全面的背景資料。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74876.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74876.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74876.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何快速對比兩個不同的excel文件中的單元格的數據是否完全相同 并把不同的單元格的背景顏色更改為紅色?

要快速對比兩個不同的Excel文件中的單元格數據是否完全相同,并將不同的單元格背景顏色更改為紅色,可以使用Excel的以下幾種方法: 方法一:使用條件格式 打開兩個Excel文件。將一個文件的內容復制到另一個文件的新工作表中&#x…

口腔種植全流程AI導航系統及輔助診療與耗材智能化編程分析

一、系統架構與編程框架設計 口腔種植全流程人工智能導航系統的開發是一項高度復雜的多學科融合工程,其核心架構需在醫學精準性、工程實時性與臨床實用性之間實現平衡。系統設計以模塊化分層架構為基礎,結合高實時性數據流與多模態協同控制理念,覆蓋從數據采集、智能決策到…

nginx配置頁面緩存,前端每次打包生成新的js文件

前端需要處理的:使用時間戳作為文件名 // nuxt.config.js export default {build: {filenames: {app: ({ isDev }) > isDev ? [name].js : [name].${Date.now()}.js, // 生產環境用時間戳chunk: ({ isDev }) > isDev ? [name].js : [name].${Date.now()}.j…

4.Socket類、InetAddr類、Epoll類實現模塊化

目錄 1. InetAddr類 類定義 代碼說明 類實現 2.Socket類 類定義 類實現 3. Epoll類 類定義 構造與析構函數 方法實現 類實現 4. 使用模塊化設計 示例使用(main.cpp) 5. 運行程序 隨著程序復雜度的增加,單一的面向過程的代碼會變得難以理…

視頻生成的測試時Scaling時刻!清華開源Video-T1,無需重新訓練讓性能飆升

來源 | 機器之心 視頻作為包含大量時空信息和語義的媒介,對于 AI 理解、模擬現實世界至關重要。視頻生成作為生成式 AI 的一個重要方向,其性能目前主要通過增大基礎模型的參數量和預訓練數據實現提升,更大的模型是更好表現的基礎&#xff0c…

Go 語言標準庫中time模塊詳細功能介紹與示例

以下是 Go 語言 time 模塊的詳細說明及示例,涵蓋時間操作、定時器、時區處理等核心功能: 一、時間基礎操作 1. 獲取時間 // 當前本地時間 now : time.Now() fmt.Println(now) // 2023-08-04 15:30:45.123456 0800 CST// 構造指定時間 t : time.Date(20…

【強化學習】基于深度強化學習的微能源網能量管理與優化策略研究【Python】

目錄 主要內容 程序要點 2.1 微能源網系統組成 2.2 強化學習及Q學習算法 部分代碼 運行結果 下載鏈接 主要內容 該程序借助深度 Q 網絡(DQN),學習預測負荷、風 / 光可再生能源功率輸出及分時電價等環境信息,運用…

dom0-kernel: /thermal-zones/soc_max/cooling-maps/map0: could not find phandle 2

問題描述: 由于soc_max下某個節點找不到,到時dom0-kernel后面有很多有關thermal熱管理之類報錯 問題解決及其原因分析: 這是因為在Xen解析相關節點時,soc_max下的某個節點被跳過了,注釋掉相關的cpu節點處理dom0就可以找…

關于計算機視覺中的插值小記

計算機視覺中的插值(Interpolation)講解 插值(Interpolation)在計算機視覺中是一項基礎操作,常用于圖像縮放、旋轉、去噪、圖像重建等任務。其核心思想是在已知數據點之間進行推測,估計未知的像素值或特征…

計算機網絡--傳輸層(1)

第五章 傳輸層 一、傳輸層基本功能 進程到進程的邏輯通信 套接字(Socket):IP地址:端口號 IP地址:標識主機(網絡層功能)端口號:16位整數(0-65535),標識進程 熟…

指定 Python 3.12.6-slim 作為基礎鏡像

指定 Python 3.12.6-slim 作為基礎鏡像,意思就是: 👉 用官方的 Python 3.12.6(精簡版)作為容器的起點,里面已經有 Python 3.12.6 預裝好了,你不用自己裝。 🔹 為什么用 -slim&…

【藍橋杯】算法筆記1

1.暴力枚舉 給定一個正整數n,請找出所有滿足a + b = n的整數對(a, b),其中a和b都是正整數,且a ≤ b。 輸入格式:一個正整數n (1 ≤ n ≤ 10?) 輸出格式:所有符合條件的(a, b)對,每行一對,按a的升序排列。如果沒有符合條件的對,輸出"No solution"。 問題分…

專注自習室:番茄工作法實踐

專注自習室:番茄工作法實踐 我需要一個任務管理工具,但在網上找了很多都找不到合適的工具。市面上的大多數產品過于強調任務完成性,給我帶來了很強的心理壓力,這種壓力最終反而降低了我的工作效率。于是我決定自己動手&#xff0…

VUE3項目VITE打包優化

VUE3項目VITE打包優化 代碼加密依賴配置效果對比圖 自動導入依賴配置 代碼壓縮依賴配置效果對比圖 圖片壓縮依賴配置效果對比圖 字體壓縮總結與實踐運用效果 代碼加密 依賴 npm install -D vite-plugin-bundle-obfuscator配置 import vitePluginBundleObfuscator from "…

文章記單詞 | 第14篇(六級)

一,單詞釋義 affection:n. 喜愛,鐘愛;愛慕之情;感情stream:n. 小河,溪流;一連串,源源不斷;水流,氣流;vi. 流,流動&#x…

歐幾里得距離(Euclidean Distance)公式

歐幾里得距離公式 歐幾里得距離(Euclidean Distance)是計算兩點之間直線距離的一種方法。它是最常見的距離度量方式之一,廣泛應用于數學、物理、機器學習、計算機視覺等領域。 公式定義 1. 二維空間 在二維平面上,假設有兩個點…

機器學習——LightGBM

LightGBM(light gradient boosting machine,輕量梯度提升機)是對XGBoost進行改進的模型版本,其三者之間的演變關系為:GBDT-》XGBoost-》LightGBM,依次對性能進行優化,盡管XGBoost已經很高效了,但是仍然有缺…

內網服務器無法通過公網地址訪問映射到公網的內網服務

內網服務器無法通過公網地址訪問映射到公網的內網服務 問題現象問題原因解決方法總結 前幾天遇到一個網絡問題,在這里做下記錄,希望能幫助到有相同問題的朋友。 問題現象 網絡拓撲如上所示,服務器1和服務器2在同一內網,網段均為1…

python每日十題(13)

一般把計算機完成一條指令所花費的時間稱為一個指令周期。指令周期越短,指令執行就越快。本題答案為D選項。 順序程序具有順序性、封閉性和可再現性的特點,使得程序設計者能夠控制程序執行的過程(包括執行順序、執行時間),對程序執…

Python 裝飾器(Decorators)

什么是裝飾器? 裝飾器(Decorator)本質上是一個 修改其他函數功能的函數。它的核心思想是:不修改原函數代碼,動態添加新功能。比如: 記錄函數執行時間 檢查用戶權限 緩存計算結果 自動重試失敗操作 理解…