Veo 3 可以生成視頻，并附帶配樂

谷歌最新的視頻生成 AI 模型 Veo 3 可以創建與其生成的剪輯相配的音頻。

周二，在谷歌 I/O 2025 開發者大會上，谷歌發布了 Veo 3。該公司聲稱，這款產品可以生成音效、背景噪音，甚至對話，為其制作的視頻增添配樂。谷歌表示，Veo 3 在生成的視頻質量方面也比上一代Veo 2有所提升。

Veo 3 從周二開始在谷歌的 Gemini 聊天機器人應用程序中推出，供谷歌每月 249.99 美元的 AI Ultra 計劃訂閱者使用，可以通過文本或圖像進行提示。

谷歌人工智能研發部門 DeepMind 的首席執行官 Demis Hassabis 在新聞發布會上表示：“我們首次擺脫了視頻生成的無聲時代。你可以給 Veo 3 一個描述人物和環境的提示，并根據你希望的聲音效果提出對話建議。”

視頻生成器工具的廣泛普及，導致供應商數量激增，該領域已趨于飽和。包括?Runway、??Lightricks、Genmo、??Pika、??Higgsfield、Kling 和?Luma在內的初創公司，以及?OpenAI和阿里巴巴等科技巨頭，都在快速發布各種模型。在很多情況下，不同模型之間幾乎沒有什么區別。

如果谷歌能夠兌現其承諾，音頻輸出將成為 Veo 3 的一大差異化優勢。人工智能聲音生成工具并不?新鮮，用于創建視頻?音效?的模型也并非新鮮事物。但據谷歌稱，Veo 3 的獨特之處在于它能夠理解視頻中的原始像素，并自動將生成的聲音與視頻片段同步。

Veo 3 的誕生很可能得益于DeepMind 早期在“視頻轉音頻”人工智能領域的研究。去年 6 月，DeepMind 透露，他們正在開發一種人工智能技術，通過結合聲音、對話記錄和視頻片段來訓練模型，從而為視頻生成配樂。

DeepMind 不愿透露 Veo 3 訓練內容的具體來源，但 YouTube 的可能性很大。YouTube 是谷歌旗下的子公司，DeepMind?此前曾向?TechCrunch 透露，像 Veo 這樣的谷歌模型“可能”會使用一些 YouTube 內容進行訓練。

為了降低深度偽造的風險，DeepMind 表示正在使用其專有水印技術 SynthID 將隱形標記嵌入到 Veo 3 生成的幀中。?

盡管像谷歌這樣的公司將 Veo 3 宣傳為強大的創意工具，但許多藝術家對它們仍抱有警惕，這可以理解——它們可能會顛覆整個行業。代表好萊塢動畫師和漫畫家的工會——美國動畫協會 (Animation Guild) 委托進行的一項 2024 年?研究?估計，到 2026 年，美國將有超過 10 萬個電影、電視和動畫工作崗位被人工智能取代。

谷歌今天還推出了 Veo 2 的新功能，其中包括一項功能，允許用戶為模型提供人物、場景、物體和風格的圖像，以提高一致性。最新的 Veo 2 可以理解攝像機的旋轉、推拉和縮放等運動，并允許用戶在視頻中添加或刪除對象，或擴展視頻片段的幀率，例如將視頻從縱向轉換為橫向。

谷歌表示，所有這些新的 Veo 2 功能將在未來幾周內登陸其 Vertex AI API 平臺。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/80784.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/80784.shtml
英文地址，請注明出處：http://en.pswp.cn/web/80784.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！