Hello, GPT-4o!

7dac2487e2f77074314b3d3ebb1ddd4f.png

2024年5月13日,OpenAI 在官網正式發布了最新的旗艦模型?GPT-4o

它是一個?多模態模型,可以實時推理音頻、視頻和文本。

fb2c743979fd859ff54bf9e5ebb785a1.png

* 發布會完整版視頻回顧:https://www.youtube.com/watch?v=DQacCB9tDaw

9a139518ea99f2de2fa61eb49051482b.png

GPT-4o(“o”代表“omni”,意為“全能”)是邁向更自然的人機交互的一大進步——它能夠接受任意組合的文本、音頻和圖像作為輸入,并輸出各種組合的文本、音頻和圖像。

它能夠在232毫秒內對音頻輸入作出響應,平均響應時間為320毫秒,與人類在對話中的響應時間相近

在英文和代碼方面,它與GPT-4 Turbo的性能相當,而在非英文語言的文本方面有著顯著的提升。

此外,它在API方面不僅更快,而且成本降低了50%。與現有模型相比,GPT-4o在視覺和音頻理解方面表現尤為出色。

56c65982515f2beee17a4695214a6e76.png

* GPT-4o發布會前的預熱視頻

在這個發布會前的預熱視頻中,OpenAI的員工拿著手機拍攝周圍的場景,GPT-4o非常快就提供了對周圍環境的描述。接著員工讓GPT-4o猜測今天要做什么,它說可能會與OpenAI有關,例如舉辦發布會之類的。

當員工提到這個發布會與“你”有關時,GPT-4o的回答讓人有些驚訝,它竟然表現出人類般的 驚訝?停頓,這是 以往任何語音助手都沒有的技術特征

曾于2013年獲得奧斯卡最佳原創劇本的電影《Her》中,就展現了一場人與AI的愛恨糾葛,而11年后的今天,無所不能的“Her”已經由GPT-4o變成了現實,從今天起我們每個人都能擁有一個“Her”!

addcb585cfd31f6384eccebfe3111855.png

01

GPT-4o功能展示

* 以下為部分功能展示,之后我們將在視頻號上公布GPT-4o的功能展示合輯,歡迎大家關注!

值得一提的是,在第四個展示案例中,家長要求GPT-4o?不要直接告訴答案,而是像名師一般,“授之于魚,不如授之于漁”并逐步?引導學生自我思維并最終學會解題思路?的方式。

02

GPT-4o功能評估

在傳統基準測試中,GPT-4o 在文本、推理和編碼智能方面實現了與 GPT-4 Turbo 相當的性能,同時在多語言、音頻和視覺能力方面設立了新的高水平標桿。

1、文本性能

9fa92f7465df3874a62f11ac1da46daf.png

提升的文本推理能力:GPT-4o在MMLU上取得了 88.7% 的新高分,超過了包括Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0、Llama3 400b等目前市面上著名大模型。

2、音頻ASR性能

8e226dcef07ae0840ee0c7ba47c6e1f8.png

音頻ASR性能:GPT-4o 在所有語言上顯著提高了與Whisper-v3的語音識別性能,特別是對于資源較少的語言。

3、音頻翻譯性能

a6b1d91ddb3fda4680451b24d73871c9.png

音頻翻譯性能:GPT-4o 在語音翻譯方面取得了新的?最先進水平,并在MLS基準上優于Whisper-v3。

4、視覺理解評估

750d7cf203f3892675f4f68c9839061c.png

視覺理解評估:GPT-4o 在視覺感知基準測試上取得了 最先進的性能

aed3d762513b2f8d167971f2e892e538.png

目前,GPT-4o 的文本和圖像功能已經對ChatGPT開放,不久后,OpenAI將在ChatGPT Plus中推出GPT-4o的語音模式的新Alpha版本。讓我們期待更強大的語音助手出現吧。

--- End ---

7203c0763d4eaa38e2c17b44054db5f8.gif

歡迎關注微軟?智匯AI?官方賬號

一手資訊搶先了解

e45f46f6b93b5364234578a8c2e2b9ba.png

喜歡就點擊一下?在看?吧~

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/13184.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/13184.shtml
英文地址,請注明出處:http://en.pswp.cn/web/13184.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

高效協同,智慧繪制:革新型流程圖工具全解析

流程圖,作為一種直觀展示工作過程和系統運作的工具,在現代辦公和項目管理中發揮著不可或缺的作用。 其優勢在于能夠清晰、直觀地呈現復雜的過程和關系,幫助人們快速理解并掌握關鍵信息。同時,流程圖也廣泛應用于各種場景&#xf…

linux常用命令(持續更新)

1.sudo -i 切換root權限 2. ll 和 ls 查看文件夾下面的文件 3. cat 查看文件內容 cat xxx.txt |grep 好 篩選出有好的內容 4. vi 編輯文件 點擊insert進入編輯模式 編輯完之后點擊Esc退出編輯模式 數據:wq!回車保存文件 5. ssh 連接到可以訪問的系統 6. telnet 看端口是否可以…

【Python】圖像批量合成視頻,并以文件夾名稱命名合成的視頻

一個文件夾中有多個子文件夾,子文件夾中有多張圖像。如何把批量把子文件夾中的圖像合成視頻,視頻名稱是子文件夾的名稱,生成的視頻保存到指定文件夾,效果記錄。 代碼 import os import cv2def create_video_from_images(image_f…

leetcode刷題(6):二叉樹的使用

文章目錄 104. 二叉樹的最大深度解題思路c 實現 94. 二叉樹的中序遍歷解題思路c 實現 101. 對稱二叉樹解題思路c 實現 96. 不同的二叉搜索樹解題思路c 實現 102. 二叉樹的層序遍歷解題思路c 實現 104. 二叉樹的最大深度 題目: 給定一個二叉樹 root ,返回其最大深度…

重新認識Flutter跨平臺技術(上)

背景 2017年,Flutter剛推出來的時候,正好自己在做TV Launcher開發的工作。 我們知道TV Launcher是Android TV操作系統中的一個啟動器應用程序。它負責在打開電視時展示給用戶的主要界面,包括應用程序圖標、推薦內容等。通過Android TV Launcher,用戶可以方便地瀏覽和啟動…

ALV 圖標顯示

前言 在ABAP ALV中,使用fieldcat來定義列表中每個字段的顯示屬性,包括圖標(Icon)的顯示。圖標可以在ALV列表中為特定列的行或標題添加圖形元素,以增強視覺提示或傳達附加信息。 ICON查詢 圖標的名稱用事務碼”ICON“進…

智能BI(后端)-- 系統異步化

文章目錄 系統問題分析什么是異步化?業務流程分析標準異步化的業務流程系統業務流程 線程池為什么需要線程池?線程池兩種實現方式線程池的參數線程池的開發 項目異步化改造 系統問題分析 問題場景:調用的服務能力有限,或者接口的…

離岸公司+外貿

為什么外貿公司老板都喜歡注冊離岸公司呢?怎樣利用離岸公司做進出口貿易呢? 今天大家花一分鐘時間來了解清楚 第一步就是注冊一家離岸公司,將這個離岸公司作為國際外貿的中轉站,與國外客戶簽訂單,你從國內工廠采購商…

【文檔理解】TextMonkey:一種OCR-Free的用于文檔理解的多模態大模型

背景 傳統的信息提取,通常是從文本中提取信息,相關技術也比較成熟。然而對于復雜領域,例如圖片,文檔等形式的數據,想要提取出高質量的、可信的數據難度就比較大了,這種任務也常稱為:視覺文檔理…

CTF網絡安全大賽web題目:just_sqli

這道題目是bugku的web題目 題目的 描  述: KosenCTF{} 原文鏈接&#xff1a; CTF網絡安全大賽web題目&#xff1a;just_sqli - 紅客網-網絡安全與滲透技術 題目Web源代碼&#xff1a; <?php$user NULL; $is_admin 0;if (isset($_GET["source"])) {highlig…

齊護K210系列教程(二十七)_語音識別

語音識別 1.燒錄固件和模型2.語音識別程序2.1訓練并識別2.2使用本地文件語音識別 3.課程資源聯系我們 1.燒錄固件和模型 注&#xff1a;本應用只適用于有麥克風功能的型號&#xff1a;AIstart_pro、AIstart_掌機、AIstart_Mini, 其它型號不支持&#xff01; 機器碼生成以及模…

linux中遠程服務器上傳輸文件的10個sftp命令示例

目錄 1. 如何連接到 SFTP 2. 幫助 3.檢查當前工作目錄 4. 使用 sftp 列出文件 遠程 本地 5. 使用 sftp 上傳文件 6. 使用 sftp 上傳多個文件 7. 使用 sftp 下載文件 8. 在 sftp 中切換目錄 遠程 本地 9. 使用 sftp 創建目錄 10. 使用 sftp 刪除目錄 11. 退出 sf…

(001)apidoc 的安裝

安裝 1.確定 node 和 npm 的匹配版本 node -vv10.14.1# 切換node 版本 nvm list nvm use 20.12.22.安裝 apidoc。 npm install -g apidoc3.生成文檔&#xff1a; apidoc -i ../ -o document/ -f ".java$"-i &#xff1a;指定掃描路徑。-o&#xff1a;輸出目錄。…

golang并發(同步)多任務高性能執行聚合

taskgroup golang并發執行多任務&#xff0c;并聚合多任務結果。 使用文檔、 項目github 使用: go get github.com/mlee-msl/taskgroup 功能特點 并發安全的執行多個任務將多個任務的結果進行聚合通過扇出/扇入模式&#xff0c;結合線程安全channel實現高效協程間通信多任務復…

【Linux:環境變量】

環境變量一般是指在操作系統中用來指定操作系統環境的一些參數 常見的環境變量&#xff1a; PATH 指定可執行程序的搜索路徑 系統級的文件&#xff1a;/etc/bashrc 用戶級文件&#xff1a;~/.bashrc ~/.bash_profile HOME 指定用戶的主要工作目錄&#xff08;當前用…

kettle從入門到精通 第六十一課 ETL之kettle 任務調度器,輕松使用xxl-job調用kettle中的job和trans

想真正學習或者提升自己的ETL領域知識的朋友歡迎進群&#xff0c;一起學習&#xff0c;共同進步。若二維碼失效&#xff0c;公眾號后臺加我微信入群&#xff0c;備注kettle。 1、大家都知道kettle設計的job流程文件有個缺點&#xff1a;只能設置簡單的定時任務&#xff0c;無法…

DPDK:用rte_wmb()來保序,對ARM和IA而言,RTE_WMB()的實現有何不同

rte_wmb()函數在DPDK中用于實現寫入屏障&#xff08;Write Memory Barrier&#xff09;&#xff0c;它的作用是確保在CPU執行寫操作之前&#xff0c;所有先前的寫操作已經被完全刷新到內存中。這個函數在IA和ARM處理器上的實現有一些不同。 對于Intel Architecture (IA)處理器而…

PHP黑魔法之既是0又是1/switch/$a==0可用.繞過(非數字都可繞過)/PHP://偽協議繞過

1、既是0又是1的情況 $a==1 & $test[$a]=t 時 知識點1)php在處理數字時,如果數字的位數超過 16 位是可以弱等于1的,也就是 var_dump( 9999999999999999999 == 1 );//true 因為當數字位數超過 16 位時,是將該數字轉換成了數值為 1 的字符串進行處理 知識點2)在科學…

LabVIEW和usrp連接實現ofdm通信系統 如何實現

1. 硬件準備 USRP設備&#xff1a;選擇合適的USRP硬件&#xff08;如USRP B210或N210&#xff09;&#xff0c;并確保其與計算機連接&#xff08;通常通過USB或以太網&#xff09;。天線&#xff1a;根據頻段需求選擇合適的天線。 2. 軟件安裝 LabVIEW&#xff1a;安裝LabVI…

【Golang】 Golang 的 GORM 庫中的 Rows 函數

文章目錄 前言一、Rows 函數解釋二、代碼實現三、總結 前言 在使用 Go 語言進行數據庫操作時&#xff0c;GORM&#xff08;Go Object-Relational Mapping&#xff09;庫是一個常用的工具。它提供了一種簡潔和強大的方式來處理數據庫操作。本文將介紹 GORM 庫中的 Rows 函數&am…