今天凌晨OpenAl發布了 GPT-4o,這是一種新的人工智能模式,集合了文本、圖片、視頻、語音的全能模型。
能實時響應用戶的需求,并通過語音來實時回答你,你可以隨時打斷它。還具有視覺能力,能識別物體并根據視覺做出快速的響應和回答,具有非常強的邏輯推理能力。 它的速度比 GPT4-turbo快2倍,價格便宜 50%!
根據傳統的基準測試,GPT-4o 在文本、推理和編碼智能方面的性能達到了 GPT-4 Turbo 的水平,同時在多語言、音頻和視覺功能方面也創下了新高。
GPT-4o 的新功能
- 體驗 GPT-4 級別的智能
- 從模型和網頁獲取響應
- 分析數據并創建圖表
- 討論拍攝的照片
- 上傳文件以獲取摘要、寫作或分析幫助
- 發現并使用 GPT 和 GPT 商店
- 通過“記憶”構建更有幫助的體驗
主要特點與功能
- 模型優勢:GPT-4o是最新的旗艦模型,具有 GPT-4級別的智能,但速度更快,且在文本、語音和視覺方面的能力得到了顯著提升。
- 圖像理解與討論:GPT-4o在理解和討論用戶分享的圖像方面表現優于任何現有模型。例如,用戶可以拍攝不同語言的菜單,與 GPT-4o對話以翻譯、了解食物的歷史和重要性,以及獲取推薦。
- 即將推出的語音模式:未來的改進將支持更自然的實時語音對話和通過實時視頻與 ChatGPT對話的能力。例如,用戶可以在觀看現場體育賽事時,請求 ChatGPT 解釋規則。計劃在未來幾周內以 alpha 版本推出新的語音模式,并向 Plus 用戶提供早期訪問。
- 可用性和用戶訪問
- 多語言支持:GPT-4o的語言能力在質量和速度上均有改進,現在 ChatGPT 支持超過 50 種語言的注冊、登錄、用戶設置等。
- 用戶層次:目前正向 ChatGPT Plus 和團隊用戶推出 GPT-4o,企業用戶即將可用。同時也開始向 ChatGPT Free 用戶推出,但有使用限制。Plus 用戶的消息限制是 Free 用戶的5倍,團隊和企業用戶則有更高的限制。
增強智能與高級工具的普及
使命與目標:使先進的 AI 工具能夠為盡可能多的人提供服務。每周有超過一億人使用ChatGPT。在未來幾周,我們將開始向 ChatGPT Free 用戶推出更多智能和高級工具。
綜合交互能力
多模態輸入與輸出:GPT-4o是第一個將文本、音頻和圖像輸入整合的模型,可以生成文本、音頻和圖像的任意組合輸出。這種設計顯著提高了與計算機的自然交互能力。
性能提升與成本效率
- 響應時間:GPT-4o的音頻輸入響應時間極快,最低可達232毫秒,平均為320毫秒,與人類在對話中的響應時間相似。
- 效率與成本:在API中,GPT4o 的速度是 GPT-4Turbo 的兩倍,成本降低了50%,且處理速率限制提高了5倍。
語音模式的進步
從多模型到單一模型:與之前版本相比,GPT-4o 通過單一模型端到端訓練,處理所有輸入和輸出。這避免了信息丟失,使模型能直接處理語調、多個說話者或背景噪音等,并能輸出笑聲、唱歌或表達情感。
測試與迭代
廣泛的紅隊測試:與70多位外部專家合作進行紅隊測試,涵蓋社會心理學、偏見與公正、誤信息等領域,以識別新增模態帶來的風險,并據此建立安全干預措施。
持續風險緩解:繼續發現并緩解新風險。
部署與可用性
逐步推出:GPT-40 的文本和圖像功能已開始在 ChatGPT 中推出。開發者現在也可以通過API訪問作為文本和視覺模型的 GPT-40。
語音和視頻功能:計劃在未來幾周內向一小部分受信任的合作伙伴推出新的音頻和視頻能力。
更詳細的功能介紹和展示
https://openai.com/index/hello-gpt-4o/
高性價比GPU資源:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_shemei