Nano Banana介紹
Nano Banana 是 Google 于 2024 年推出的革命性 AI 驅動圖像生成與編輯模型,正式名稱為 Gemini 2.5 Flash Image。以下是對它的詳細介紹:
- 技術背景:Nano Banana 基于 Google DeepMind 最新的 Gemini 2.5 Flash Image 架構,采用原生多模態設計理念,將文本理解、圖像生成、編輯處理等功能統一在一個模型中。它的發展歷程可追溯至 2025 年上半年在 LMArena 的內測階段,2025 年 8 月 26 日,Google 正式發布了 Gemini 2.5 Flash Image,并向公眾開放了 API 及應用接口。
- 核心功能
- 文本到圖像生成:不僅支持基礎的文本描述轉圖像,更具備深度的語義理解能力,能根據描述性語言生成更具連貫性和視覺邏輯的圖像,生成速度極快,通常在 1-2 秒內即可完成。
- 智能圖像編輯:用戶可以上傳圖片,通過自然語言指令進行精確的局部或全局編輯,如面部美化、體型調整、服裝替換、背景替換等,編輯效果自然無痕,能精準執行復雜的自然語言指令。
- 角色一致性保持:這是 Nano Banana 最核心、最具突破性的功能,它能夠讓同一人物在不同場景、不同姿態、甚至不同服裝下,保持可識別的、高度連貫的外觀特征,其準確率據稱高達 95% 以上。
- 多圖融合與風格遷移:支持同時上傳多張參考圖片,能理解并整合不同輸入圖像中的對象、光照和空間關系,進行復雜的風格轉移和場景重組,最多可同時處理 13 張圖像。
- 使用平臺
- Google AI Studio 平臺:使用 Google 賬戶登錄,Token 限制為 32,768 個,點擊 “Chat” 功能,輸入關鍵詞或上傳圖片進行操作,支持時代穿越寫真等預設應用,適合需要穩定使用的用戶。
- OpenRouter 平臺:可同時調用多個模型進行對比,提供免費版和付費版 nano - banana 模型,長期穩定使用建議選擇付費版,免費版在高峰期可能出現排隊或內部錯誤。
- 優勢特點
- 速度快:生成速度極快,從內測階段的約 10 秒,大幅優化至正式版的 1-2 秒,接近實時的響應速度,徹底改變了用戶的創作工作流。
- 成本低:每張圖成本約 0.039 美元(約合人民幣 0.27 元),相比其他模型成本大幅降低,使得大規模應用成為可能。
- 免費使用:部分平臺完全免費,無需注冊,如在 OpenRouter 平臺將 “battle” 模式切換為 “directchat”,系統自動調用 Gemini 2.5 Flash 模型(顯示為 nano - banana),但由于是抽卡機制,可能需要多次嘗試才能調用到該模型。
案例示范
首先打開Google AI Studio(需要爬梯子)
右上角有一個【模型選擇】
PS:當前是默認選擇了Nano Banana模型
點擊左上角的【Chat】,在文本框中輸入提示詞和上傳圖片文件,然后點擊右下角的按鈕
以下是模型生成的結果圖