2025 年 3 月 25 日,OpenAI 正式宣布在 ChatGPT 中推出基于 GPT-4o 模型的全新原生圖像生成功能。
這一功能允許用戶通過對話生成和編輯圖像,支持從寫實風格到插圖風格的多種形式。OpenAI 首席執行官薩姆?奧特曼(Sam Altman)在社交平臺 X 上表示,該技術是公司的一項重大突破,首批圖像生成結果令人驚嘆。
新功能的亮點包括:
- 能夠精確渲染文本內容,提供高質量的圖像效果。
- 支持多種輸入輸出方式,涵蓋文本、圖像和音頻等多種形式。
- 理解復雜指令并結合上下文,創造出具有真實感的第一人稱視角圖像。
與之前的圖像生成模型 DALL?E 不同,GPT-4o 采用了一種自回歸模型,原生嵌入在 ChatGPT 中。這意味著,它能夠處理多達 10 至 20 個不同物體的復雜指令,而競爭對手通常只能處理 5 至 8 個,展現出更強的能力。
用戶只需簡潔地描述需求,比如指定縱橫比、顏色或透明背景,模型便可以快速生成圖像。雖然渲染較復雜的細節可能需要稍等一會兒,但最終的效果是值得的。
改進之后的AI圖像功能更容易地創建逼真的圖片,生成的模式邏輯也與以往的不同,類似于文本書寫,是按照從左到右,從上到下的順序來生成圖像,以往的擴散技術是一次性生成整個圖像。
在一次發布會上,演示者展示了多個具體案例。比如,他將一張合影轉化為動漫風格的圖像,模型不僅成功保留了人物的特征,還完美融合了動漫視覺效果。
此外,演示者要求生成一頁關于相對論的幽默漫畫,結果生成的漫畫不僅結構完整,還生動有趣。
OpenAI 對此功能的安全性也非常重視,所有生成的圖像都帶有 C2PA 元數據標識,確保內容的來源可追溯,并有效阻止不當請求的生成。
當然,OpenAI 的圖像生成工具并非沒有缺點,比如在裁剪、上下文理解和非拉丁文本渲染等方面仍存在不足。不過,OpenAI 表示他們會在未來不斷優化這些問題。
但由于用戶的需求遠遠超出了公司的預期,ChatGPT原先計劃該功能會向所有用戶開放,也會隨之推遲。目前,OpenAI 只向 ChatGPT Pro、Plus 和 Teams 的訂閱用戶推出了這一功能。 Sam Altman表示:“ChatGPT 中的圖像功能比我們想象的要受歡迎得多(而且我們的預期已經很高了)。”