Google發布了Gemini模型家族的更新,包括新的1.5 Flash模型,該模型旨在提高速度和效率,以及Project Astra,這是對未來AI助手愿景的展示。1.5 Flash是專為大規模高頻任務優化的輕量級模型,具有突破性的長上下文窗口。同時,1.5 Pro模型也得到了顯著改進,包括更長的上下文窗口、增強的代碼生成和邏輯推理能力。此外,Gemini Nano現在能夠理解多模態輸入,而Gemma 2則是下一代開放模型,旨在促進負責任的AI創新。Project Astra展示了通用AI代理的未來,這些代理能夠理解和響應復雜世界,并具有更自然的互動能力。
我們很高興地介紹雙子座模型家族的一系列更新,包括新的1.5 Flash——我們的輕量級模型,旨在提高速度和效率,以及Project Astra——我們對未來AI助手愿景的展示。
去年12月,我們推出了首個原生多模態模型雙子座1.0,包括Ultra、Pro和Nano三種尺寸。僅僅幾個月后,我們發布了1.5 Pro,它具有增強的性能和突破性的長上下文窗口,可容納100萬個令牌。
開發者和企業客戶已經開始以令人驚嘆的方式使用1.5 Pro,發現它的長上下文窗口、多模態推理能力和總體表現非常有用。
我們從用戶反饋中得知,某些應用需要更低的延遲和更低的服務成本。這激勵我們繼續創新,因此今天,我們推出了雙子座1.5 Flash:一個比1.5 Pro更輕量級的模型,旨在快速且高效地大規模服務。
1.5 Pro和1.5 Flash都可通過Google AI Studio和Vertex AI的公開預覽版獲得,擁有100萬個令牌的上下文窗口。現在,1.5 Pro還可通過等待名單向使用API的開發者和Google Cloud客戶提供,擁有200萬個令牌的上下文窗口。
我們還介紹了雙子座模型家族的更新,宣布了我們的下一代開放模型Gemma 2,并分享了未來AI助手的發展,通過Project Astra。
與雙子座1.5的200萬令牌能力相比,領先的基礎模型的上下文長度
雙子座模型家族的更新
新的1.5 Flash,專為速度和效率優化
1.5 Flash是雙子座模型家族的新成員,也是通過API提供的最快的雙子座模型。它專為大規模的高容量、高頻率任務而優化,服務成本更高效,并具有我們突破性的長上下文窗口。
雖然它比1.5 Pro輕量級,但它在處理大量信息的多模態推理方面表現出色,并為它的尺寸提供了令人印象深刻的質量。
新的雙子座1.5 Flash模型專為速度和效率優化,在多模態推理方面表現出色,并具有我們突破性的長上下文窗口。
1.5 Flash在摘要、聊天應用、圖像和視頻字幕、從長文檔和表格中提取數據等方面表現出色。這是因為通過一種稱為“蒸餾”的過程,由1.5 Pro訓練而來,將更大模型的最關鍵知識和技能轉移到更小、更高效的模型中。
在我們的更新后的雙子座1.5技術報告、雙子座技術頁面以及了解1.5 Flash的可用性和定價中關于1.5 Flash的信息。
顯著改進1.5 Pro
在過去的幾個月里,我們顯著改進了1.5 Pro,這是我們在廣泛任務上表現最佳的模型。
除了將其上下文窗口擴展到200萬個令牌之外,我們還通過數據和算法進步改進了它的代碼生成、邏輯推理和規劃、多輪對話,以及音頻和圖像理解。我們在每個任務的公共和內部基準上都看到了強大的改進。
1.5 Pro現在可以遵循越來越復雜和細微的指令,包括那些指定產品級行為涉及角色、格式和風格的指令。我們改進了對模型響應的控制,以適應特定用例,如打造聊天代理的個性和響應風格,或通過多個函數調用自動化工作流程。并且我們允許用戶通過設置系統指令來引導模型行為。
我們在Gemini API和Google AI Studio中添加了音頻理解,因此1.5 Pro現在可以對在Google AI Studio上傳的視頻進行圖像和音頻推理。我們正在將1.5 Pro集成到Google產品中,包括Gemini Advanced和Workspace應用。
在我們的更新后的雙子座1.5技術報告和雙子座技術頁面上關于1.5 Pro的信息。
Gemini Nano理解多模態輸入
Gemini Nano正在從僅文本輸入擴展到包括圖像。從Pixel開始,使用Gemini Nano與多模態的應用將能夠像人們一樣理解世界——不僅僅是通過文本,還通過視覺、聲音和口語。
在Android上關于Gemini 1.0 Nano的信息。
下一代開放模型
今天,我們還分享了一系列對Gemma的更新,這是我們基于創建雙子座模型相同的研究和技術構建的開放模型家族。
我們宣布Gemma 2,我們下一代開放模型,用于負責任的AI創新。Gemma 2擁有新的架構,專為突破性的性能和效率而設計,并將以新的尺寸提供。
Gemma家族還通過PaliGemma擴展,這是我們受到PaLI-3啟發的首個視覺語言模型。并且我們已經升級了我們的負責任生成式AI工具包,加入了LLM Comparator用于評估模型響應的質量。
在開發者博客上信息。
開發通用AI代理的進展
作為Google DeepMind使命的一部分,我們一直希望負責任地開發能夠造福人類的通用AI代理。這就是為什么今天,我們分享了構建未來AI助手愿景的進展,通過Project Astra(高級視覺和對話響應代理)。
要真正有用,代理需要像人們一樣理解和響應復雜和動態的世界,并吸收和記住它看到和聽到的內容,以理解上下文并采取行動。它還需要是主動的、可教的和個性化的,以便用戶可以自然地與它交談,沒有延遲或延遲。
雖然我們在開發能夠理解多模態信息的AI系統方面取得了令人難以置信的進展,但將響應時間降低到對話級別是一個困難的工程挑戰。在過去幾年中,我們一直在努力改進我們的模型如何感知、推理和對話,以使互動節奏和質量感覺更自然。
Project Astra的兩部分演示,我們對未來AI助手的愿景。每部分都是在單次拍攝中實時捕獲的。
在雙子座的基礎上,我們已經開發了原型代理,它們可以通過連續編碼視頻幀、將視頻和語音輸入結合成事件時間線,并緩存這些信息以供高效回憶,來更快地處理信息。
通過利用我們領先的語音模型,我們還增強了它們的聲音,賦予代理更廣泛的語調范圍。這些代理可以更好地理解它們被使用的上下文,并快速、流暢地回應。
有了這樣的技術,很容易想象一個未來,人們可以擁有一個專家級的AI助手,通過手機或眼鏡隨時待命。其中一些功能將在今年晚些時候來到Google產品,如Gemini應用和網頁體驗。
持續探索
到目前為止,我們的雙子座模型家族已經取得了令人難以置信的進展,我們總是力求進一步推進最前沿的藝術。通過投資于不懈的創新生產線,我們能夠探索前沿的新想法,同時也解鎖了雙子座新穎和令人興奮的用例的可能性。
了解更多關于雙子座及其功能的信息。
- 原文
- 博客 - 從零開始學AI
- 公眾號 - 從零開始學AI