谷歌最新的視頻生成 AI 模型 Veo 3 可以創建與其生成的剪輯相配的音頻。
周二,在谷歌 I/O 2025 開發者大會上,谷歌發布了 Veo 3。該公司聲稱,這款產品可以生成音效、背景噪音,甚至對話,為其制作的視頻增添配樂。谷歌表示,Veo 3 在生成的視頻質量方面也比上一代Veo 2有所提升。
Veo 3 從周二開始在谷歌的 Gemini 聊天機器人應用程序中推出,供谷歌每月 249.99 美元的 AI Ultra 計劃訂閱者使用,可以通過文本或圖像進行提示。
谷歌人工智能研發部門 DeepMind 的首席執行官 Demis Hassabis 在新聞發布會上表示:“我們首次擺脫了視頻生成的無聲時代。你可以給 Veo 3 一個描述人物和環境的提示,并根據你希望的聲音效果提出對話建議。”
視頻生成器工具的廣泛普及,導致供應商數量激增,該領域已趨于飽和。包括?Runway、??Lightricks、Genmo、??Pika、??Higgsfield、Kling 和?Luma在內的初創公司,以及?OpenAI和阿里巴巴等科技巨頭,都在快速發布各種模型。在很多情況下,不同模型之間幾乎沒有什么區別。
如果谷歌能夠兌現其承諾,音頻輸出將成為 Veo 3 的一大差異化優勢。人工智能聲音生成工具并不?新鮮,用于創建視頻?音效?的模型也并非新鮮事物。但據谷歌稱,Veo 3 的獨特之處在于它能夠理解視頻中的原始像素,并自動將生成的聲音與視頻片段同步。
Veo 3 的誕生很可能得益于DeepMind 早期在“視頻轉音頻”人工智能領域的研究。去年 6 月,DeepMind 透露,他們正在開發一種人工智能技術,通過結合聲音、對話記錄和視頻片段來訓練模型,從而為視頻生成配樂。
DeepMind 不愿透露 Veo 3 訓練內容的具體來源,但 YouTube 的可能性很大。YouTube 是谷歌旗下的子公司,DeepMind?此前曾向?TechCrunch 透露,像 Veo 這樣的谷歌模型“可能”會使用一些 YouTube 內容進行訓練。
為了降低深度偽造的風險,DeepMind 表示正在使用其專有水印技術 SynthID 將隱形標記嵌入到 Veo 3 生成的幀中。?
盡管像谷歌這樣的公司將 Veo 3 宣傳為強大的創意工具,但許多藝術家對它們仍抱有警惕,這可以理解——它們可能會顛覆整個行業。代表好萊塢動畫師和漫畫家的工會——美國動畫協會 (Animation Guild) 委托進行的一項 2024 年?研究?估計,到 2026 年,美國將有超過 10 萬個電影、電視和動畫工作崗位被人工智能取代。
谷歌今天還推出了 Veo 2 的新功能,其中包括一項功能,允許用戶為模型提供人物、場景、物體和風格的圖像,以提高一致性。最新的 Veo 2 可以理解攝像機的旋轉、推拉和縮放等運動,并允許用戶在視頻中添加或刪除對象,或擴展視頻片段的幀率,例如將視頻從縱向轉換為橫向。
谷歌表示,所有這些新的 Veo 2 功能將在未來幾周內登陸其 Vertex AI API 平臺。