北京時間5月14日凌晨1點,OpenAI 開啟了今年的第一次直播,根據官方消息,這次旨在演示 ChatGPT 和 GPT-4 的升級內容。在早些時候 Sam Altman 在 X 上已經明確,「我們一直在努力開發一些我們認為人們會喜歡的新東西,對我來說感覺就像魔法一樣」。這次發布會沒有GPT-5,也沒有傳說中的 AI 搜索引擎,據爆料猜測,可能是同時具備視覺和聽覺,并擁有強大推理能力的語音助手。謎底終于揭曉了。OpenAI 發布會主要推出了新的 GPT-4o,速度非常快,語音和視頻回應都可以達到實時效果。打通了文本、語音、視頻、圖片,不需要相互轉換,實時回應。聽起來,GPT-4o 的語音也太自然了,對答如流,可以唱歌,回應還可以有幽默嬌羞這些情緒。而且可以通過攝像頭識別人類表情來做出實時回應。實時翻譯回應語言等。含“Her”量很高。OpenAI 首席技術官穆里?穆拉蒂 (Muri Murati) 表示,GPT-4o 將提供與 GPT-4 同等水平的智能,但在文本、圖像以及語音處理方面均取得了進一步提升。“GPT-4o 可以綜合利用語音、文本和視覺信息進行推理”,穆拉蒂在 OpenAI 公司總部舉行的主題演講中表示。GPT-4 是 OpenAI 此前的旗艦模型,可以處理由圖像和文本混合而成的信息,并能完成諸如從圖像中提取文字或描述圖像內容等任務,GPT-4o 則在此基礎上新增了語音處理能力。GPT-4o 標志著向更自然的人類與計算機交互的轉變,它能夠處理文本、音頻和圖像的組合輸入,并產生相應的多樣化輸出。該模型對音頻輸入的響應速度極快,最短僅需232毫秒,平均響應時間為320毫秒,與人類對話的自然反應時間相仿。在處理英語和編程語言文本方面,GPT-4o 與 GPT-4 Turbo 的表現不相上下,而在非英語文本處理上則有顯著提升。此外,GPT-4o 在 API 調用中不僅速度更快,成本也降低了50%,尤其在視覺和音頻理解方面表現出色。
模型特性
相較于之前的模型,GPT-4o在語音交互方面實現了顯著進步。以往的 ChatGPT 對話模式存在較高的延遲,而 GPT-4o 通過一個統一的模型直接處理所有輸入和輸出,無需通過多個模型轉換,從而減少了信息丟失,提升了交互的直接性和效率。
語言優化
GPT-4o 在語言標記效率上取得了顯著進步,以下是20種語言的標記壓縮情況示例:
- 古吉拉特語的標記數量減少了4.4倍。
- 泰盧固語和泰米爾語的標記分別減少了3.5倍和3.3倍。
- 馬拉地語和北印度語的標記分別減少了2.9倍。
- 烏爾都語、阿拉伯語、波斯語、俄語、韓語和越南語的標記減少幅度在1.5倍到2.5倍之間。
- 中文、日語、土耳其語、意大利語、德語、西班牙語、葡萄牙語、法語和英語的標記減少幅度在1.1倍到1.4倍之間。
安全性與限制
GPT-4o 在設計中融入了跨模態安全性,通過過濾訓練數據和后訓練行為調整等技術來增強模型的安全性。此外,GPT-4o 經過了廣泛的安全評估和紅隊測試,以識別和減輕新模態可能引入的風險。
何時開放?
GPT-4o 將在接下來的幾周時間里陸續開放。就在明天,2024年Google I/O 即將舉行,Google 會發布什么呢?敬請期待!