壓力給到 Google，OpenAI 發布 GPT-4o 來了

北京時間5月14日凌晨1點，OpenAI 開啟了今年的第一次直播，根據官方消息，這次旨在演示 ChatGPT 和 GPT-4 的升級內容。在早些時候 Sam Altman 在 X 上已經明確，「我們一直在努力開發一些我們認為人們會喜歡的新東西，對我來說感覺就像魔法一樣」。這次發布會沒有GPT-5，也沒有傳說中的 AI 搜索引擎，據爆料猜測，可能是同時具備視覺和聽覺，并擁有強大推理能力的語音助手。謎底終于揭曉了。OpenAI 發布會主要推出了新的 GPT-4o，速度非常快，語音和視頻回應都可以達到實時效果。打通了文本、語音、視頻、圖片，不需要相互轉換，實時回應。聽起來，GPT-4o 的語音也太自然了，對答如流，可以唱歌，回應還可以有幽默嬌羞這些情緒。而且可以通過攝像頭識別人類表情來做出實時回應。實時翻譯回應語言等。含“Her”量很高。OpenAI 首席技術官穆里?穆拉蒂 (Muri Murati) 表示，GPT-4o 將提供與 GPT-4 同等水平的智能，但在文本、圖像以及語音處理方面均取得了進一步提升。“GPT-4o 可以綜合利用語音、文本和視覺信息進行推理”，穆拉蒂在 OpenAI 公司總部舉行的主題演講中表示。GPT-4 是 OpenAI 此前的旗艦模型，可以處理由圖像和文本混合而成的信息，并能完成諸如從圖像中提取文字或描述圖像內容等任務，GPT-4o 則在此基礎上新增了語音處理能力。GPT-4o 標志著向更自然的人類與計算機交互的轉變，它能夠處理文本、音頻和圖像的組合輸入，并產生相應的多樣化輸出。該模型對音頻輸入的響應速度極快，最短僅需232毫秒，平均響應時間為320毫秒，與人類對話的自然反應時間相仿。在處理英語和編程語言文本方面，GPT-4o 與 GPT-4 Turbo 的表現不相上下，而在非英語文本處理上則有顯著提升。此外，GPT-4o 在 API 調用中不僅速度更快，成本也降低了50%，尤其在視覺和音頻理解方面表現出色。

模型特性

相較于之前的模型，GPT-4o在語音交互方面實現了顯著進步。以往的 ChatGPT 對話模式存在較高的延遲，而 GPT-4o 通過一個統一的模型直接處理所有輸入和輸出，無需通過多個模型轉換，從而減少了信息丟失，提升了交互的直接性和效率。

語言優化

GPT-4o 在語言標記效率上取得了顯著進步，以下是20種語言的標記壓縮情況示例：

古吉拉特語的標記數量減少了4.4倍。
泰盧固語和泰米爾語的標記分別減少了3.5倍和3.3倍。
馬拉地語和北印度語的標記分別減少了2.9倍。
烏爾都語、阿拉伯語、波斯語、俄語、韓語和越南語的標記減少幅度在1.5倍到2.5倍之間。
中文、日語、土耳其語、意大利語、德語、西班牙語、葡萄牙語、法語和英語的標記減少幅度在1.1倍到1.4倍之間。

安全性與限制

GPT-4o 在設計中融入了跨模態安全性，通過過濾訓練數據和后訓練行為調整等技術來增強模型的安全性。此外，GPT-4o 經過了廣泛的安全評估和紅隊測試，以識別和減輕新模態可能引入的風險。

何時開放？

GPT-4o 將在接下來的幾周時間里陸續開放。就在明天，2024年Google I/O 即將舉行，Google 會發布什么呢？敬請期待！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/12632.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/12632.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/12632.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！