OpenAI 推出圖像生成新突破：GPT-4o 實現圖像編輯對話化

關鍵要點

OpenAI 推出了 4o 圖像生成功能，集成于 GPT-4o，提供精準且逼真的圖像生成。
它似乎適用于多種用戶，包括免費用戶，API 訪問預計幾周內推出。
安全措施包括 C2PA 元數據和內容屏蔽，限制生成不適當圖像。
研究表明，該功能可能偶爾裁剪較長圖像，影響完整性。

OpenAI 于北京時間3月26日凌晨發布推出 4o 圖像生成功能，這是一個集成于 GPT-4o 的新特性，旨在提供精準且逼真的圖像生成。這一發展標志著 AI 技術在視覺內容創作領域的重大進步，為用戶提供了一個功能強大的工具，適用于藝術、設計、廣告等多個領域。

什么是 4o 圖像生成？

4o 圖像生成是一個原生多模態模型，設計上能夠同時處理和生成不同媒體類型的內容，如文本和圖像。它通過無縫整合文本指令和視覺數據，生成不僅美觀且與上下文相關的圖像。這一特性使其在處理復雜需求時更加高效，增強了用戶體驗。

關鍵功能與能力

4o 圖像生成功能提供了以下主要能力：

文本渲染：根據詳細的文本描述生成圖像，確保圖像的準確性和細節。
多輪生成：支持通過多次交互逐步優化圖像，允許用戶調整和改進。
指令遵循：能夠遵循用戶特定的指令，滿足特定的標準或風格。
上下文學習：在同一交互中適應新的信息或偏好，動態調整輸出。
世界知識：整合廣泛的通用知識，確保生成的圖像與上下文相關。
逼真度：生成高度逼真的圖像，接近真實照片的效果。
風格化：允許用戶指定藝術風格或視覺美學，滿足個性化需求。

這些功能使 4o 圖像生成成為一個多功能的工具，適用于從藝術創作到商業應用的廣泛場景。

以下是一些案列：

?實用性增強

不僅適用于藝術創作，也擅長生成：
- 信息類圖像（如標志、圖表、示意圖）
- 準確表達結構、符號、文字與含義的圖像
支持將上傳的圖片作為“靈感源”進行生成
能夠精確生成圖片中的文字（如橫幅、書籍封面、廣告牌等）
解決了傳統模型常出現的錯字、亂碼、字體扭曲問題

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
一個方形圖像，包含一個 4 行 x 4 列的網格，其中包含 16 個對象，背景為白色。從左到右，從上到下。這是列表：

1. a blue star ?1. 一顆藍色的星星
2. red triangle ?2. 紅色三角形
3. green square ?3. 綠色方塊
4. pink circle ?4. 粉紅色圓圈
5. orange hourglass ?5. 橙色沙漏
6. purple infinity sign ?6. 紫色無限符號
7. black and white polka dot bowtie
8. 黑白波點領結
9. tiedye "42" ?8. 鐵染料 “42”
10. an orange cat wearing a black baseball cap
11. 一只戴著黑色棒球帽的橘貓
12. a map with a treasure chest
13. 一張帶有寶箱的地圖
14. a pair of googly eyes
15. 一雙咕嚕咕嚕的眼睛
16. a thumbs up emoji
17. 豎起大拇指的表情符號
18. a pair of scissors
19. 一把剪刀
20. a blue and white giraffe
21. 一只藍色和白色的長頸鹿
22. the word "OpenAI" written in cursive
23. 用草書書寫的“OpenAI”一詞
24. a rainbow-colored lightning bolt
25. 彩虹色的閃電

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.
創建兩個 20 多歲的女巫（一個是灰燼女巫，一個留著赤褐色的長發）閱讀路標的照片級真實感圖像。

Context: ? 上下文：
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.
紐約州威廉斯堡一條隨機街道上的一條城市街道，一根桿子上完全覆蓋著許多詳細的街道標志（例如，街道清掃時間、所需的停車許可證、車輛分類、拖車規則），包括中間的一些荒謬標志：（轉述它以制作這些合法的街道標志）“C 區不允許為女巫提供掃帚停車位”和“僅限魔毯裝卸（15 分鐘限制）”和“僅憑許可證停放馴鹿（12 月 24 日至 25 日）\n 違規者將被列入淘氣名單。路標位于街道的右側。不要重復標志。標志必須是現實的。

Characters: ?字符：
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.
一個女巫拿著掃帚，另一個女巫拿著卷起的魔毯。他們在前景中，背對著鏡頭微微傾斜，在仔細檢查標志時頭部微微傾斜。

Composition from background to foreground:
從背景到前景的合成：
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot
街道 + 停放的汽車 + 建筑物 -> 路標 -> 女巫。角色必須離拍攝的攝像機最近

? 高精度文本渲染

GPT-4o 能更好地將文字嵌入圖像（如海報、PPT、廣告）

對復雜 prompt 的遵循度高，支持 prompt 中描述 10–20 個物體對象及其屬性、關系，超越 DALL·E 3 的 ~5–8 個極限
每個物體的屬性、關系可被分別控制，圖像結構更加精細清晰

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.
用手機拍攝的玻璃白板的廣角圖像，位于俯瞰海灣大橋的房間里。視野顯示一名女性正在寫作，她穿著一件帶有大型 OpenAI 標志的 T 恤。筆跡看起來很自然，有點凌亂，我們看到了攝影師的倒影。

The text reads: ?文字寫道：

(left) ?（左）
"Transfer between Modalities:
“在模式之間轉移：

Suppose we directly model
假設我們直接建模
p(text, pixels, sound) [equation]
p（文本、像素、聲音） [方程]
with one big autoregressive transformer.
帶有一個大的自回歸變壓器。

Pros: ?優點：

? image generation augmented with vast world knowledge
? 利用廣闊的世界知識增強圖像生成
? next-level text rendering
? 更高級別的文本渲染
? native in-context learning
? 原生上下文學習
? unified post-training stack
? 統一的訓練后堆棧

Cons: ?缺點：

? varying bit-rate across modalities
? 不同模式的比特率不同
? compute not adaptive" ? 計算非自適應”

(Right) ?（右）
"Fixes: ?“修復：
model compressed representations

? 模型壓縮表示
? compose autoregressive prior with a powerful decoder"
? 使用強大的解碼器編寫 autoregressive 先驗”

On the bottom right of the board, she draws a diagram:
在板的右下角，她畫了一個圖表：
"tokens -> [transformer] -> [diffusion] -> pixels"

繼續編輯修改↓

selfie view of the photographer, as she turns around to high five him
攝影師的自拍照片，她轉身與他擊掌

? 上下文一致性與連續創作

用戶可以與 GPT-4o 多輪互動迭代圖像內容
對話驅動式圖像生成
- 用戶可以說：“把剛才那張圖里的人換成女性”或“背景換成夜晚風格”
- 模型會自動在上下文中找出之前圖像并按指令修改，無需重新描述全部細節
在創作游戲角色或品牌形象時，形象可以在多張圖中保持一致風格
支持用戶上傳圖片作為上下文，分析圖中內容后進行“風格模仿”或“結構轉化”

Give this cat a detective hat and a monocle
給這只貓一頂偵探帽和單片眼鏡

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography
將其變成使用 4k 游戲引擎制作的 3A 視頻游戲，并添加一些用戶界面作為神秘 RPG 的疊加層，我們可以在頂部看到健康條和小地圖，以及底部具有一致和圖標的法術

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors
更新為橫向圖像 16：9 比例，在 UI 中添加更多法術，并取消縮放視覺對象，以便我們以第三人稱視角看到貓走過蒸汽朋克曼哈頓，從而產生美麗的對比和照明，就像在最好的 3A 游戲中一樣，具有冷色調

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)
當玩家打開菜單時創建界面，我們會看到貓的角色資料和他的設備，以及另一個顯示活動任務的頁面（這與我們在圖像中描述的宇宙世界構建的關系應該是有意義的）

? 4. 圖像風格豐富 & 寫實能力強

GPT-4o 支持豐富的圖像風格，包括：

訓練數據覆蓋多種風格（漫畫、攝影、插畫、平面設計等），使 GPT-4o 具備強大的 風格遷移和控制能力。
可生成：
- 高度寫實照片風格圖
- 具有“新聞照片感”的場景圖（示例：卡爾·馬克思逛商場 paparazzi 風格）

與 DALL·E 3 的區別

訪問與可用性

用戶層級：從發布日起，Plus、Pro、Team 和免費用戶可在 ChatGPT 中默認使用該功能。
企業與教育用戶：預計不久后將對企業用戶和教育用戶開放。
Sora 集成：該功能也將可在 OpenAI 的另一工具 Sora 中使用。
DALL·E 兼容：之前的 DALL·E 模型仍可通過專用 GPT 訪問。
API 訪問：開發者 API 訪問預計在未來幾周內推出。
渲染時間：生成圖像可能需要最多一分鐘，用戶需耐心等待。

這一廣泛的可用性確保了不同用戶群體都能利用 AI 進行圖像生成，擴大了技術的應用范圍。

安全措施

OpenAI 實施了多項安全措施，以確保 4o 圖像生成功能的安全使用：

C2PA 元數據：追蹤生成圖像的來源和歷史，幫助對抗虛假信息。
內部可逆搜索工具：允許追蹤和管理任何問題內容。
內容屏蔽：阻止生成兒童性虐待材料和性深偽圖像，防止濫用。
強化限制：對真實人物圖像有更嚴格的控制，特別是在裸露和暴力內容方面。
推理語言模型：使用語言模型來確保符合倫理指南。

限制

盡管 4o 圖像生成功能高度先進，但仍存在一些限制：

緊縮裁剪：對于較長的圖像（如海報），可能偶爾在底部緊縮裁剪，可能會切掉重要內容。

用戶應注意這一限制，并根據需要調整提示或預期。

結論

OpenAI 推出 4o 圖像生成功能，展示了公司在推進 AI 技術的同時，注重安全性和可訪問性的承諾。這一新特性有望改變我們創建和互動視覺內容的方式，提供前所未有的圖像生成能力。

隨著技術的持續發展，我們可以期待進一步的改進和擴展，為創意和創新開啟更多可能性。

團隊與貢獻者

這一突破性技術的背后，是 OpenAI 多個團隊的協作努力，包括基礎研究團隊、核心開發團隊、數據管理團隊、擴展團隊、應用工程團隊以及安全和戰略團隊。這些團隊的領導和成員名單詳見原始頁面，但為了保持文章的簡潔性，這里僅提及其廣泛的協作性質。

以下是頁面內容的詳細總結，包括所有相關信息、精確數字和 URL，供參考：

部分	詳情
標題	推出 4o 圖像生成
日期	2025 年 3 月 25 日
類別	產品，發布
主要功能	- 原生多模態模型，提供精準、逼真的圖像生成 - 集成于 GPT-4o - 能力：文本渲染、多輪生成、指令遵循、上下文學習、世界知識、逼真度和風格
訪問與可用性	- 發布日已對 Plus、Pro、Team 和免費用戶在 ChatGPT 中默認開放 - 企業和教育用戶即將開放，也將在 Sora 中可用 - DALL·E 仍可通過專用 GPT 訪問 - API 訪問未來幾周內推出 - 圖像渲染時間：最多 1 分鐘
安全措施	- C2PA 元數據用于來源追蹤 - 內部可逆搜索工具 - 屏蔽兒童性虐待材料、性深偽圖像 - 對真實人物圖像（裸露、暴力）有更嚴格限制 - 推理語言模型用于安全規范
限制	- 偶爾緊縮裁剪較長圖像（如海報）可能偶爾在底部緊縮裁剪，可能會切掉重要內容。