26 分鐘驚訝世界,GPT-4o 引領未來人機交互

前言

原文鏈接:OpenAI最新模型——GPT-4o,實時語音視頻交互,未來人機交互近在眼前 - Kaiho小站

北京時間 5 月 14 日凌晨,OpenAI 發布新一代模型——GPT-4o,僅在 ChatGPT 面世 17 個月后,OpenAI 再次通過新模型震驚世界,推出了科幻電影般的超級 AI,并且完全免費供大眾使用。

劃時代的發布會

5月14日凌晨,OpenAI 在首屆“春季新品發布會”上隆重推出了新一代旗艦生成模型 GPT-4o、桌面應用程序,并展示了一系列令人驚嘆的新功能。連 OpenAI CEO 山姆·奧特曼都不禁感嘆:這簡直像電影中的情節。

此次發布會由 OpenAI 首席技術官 Mira Murati 主持,她指出 OpenAI 的三大重要理念:

  1. 免費優先:OpenAI 致力于讓更多人能夠使用其產品。
  2. 桌面應用程序和更新 UI:新版本的桌面應用程序更加簡便和自然。
  3. 全新大模型 GPT-4o:GPT-4o 以極其自然的交互方式為每個人提供 GPT-4 級別的智能,包括免費用戶。

此次更新后,ChatGPT 可以接收文本、音頻和圖像的任意組合輸入,并實時生成相應的輸出。這種全新的交互方式將引領未來主流的交互模式。

如今,ChatGPT 不僅無需注冊即可使用,更是推出了桌面程序。OpenAI 的目標是讓人們能夠隨時隨地無感使用 ChatGPT,將其無縫集成到工作流程中,真正提升生產力?。

GPT-4o 是一款面向未來的全新大模型,具有文本、語音、圖像三種模態的理解力,反應迅速且情感豐富。在發布會上,OpenAI 工程師們展示了 GPT-4o 的主要功能,包括實時語音對話、視覺能力和代碼解析能力。

在現場,OpenAI 的工程師Mark Chen 說:「我第一次來直播的發布會,有點緊張。」

ChatGPT 說:「要不你深呼吸一下。」
「好的,我試著深呼吸」

ChatGPT 立即回答說「你這不行,喘得也太大了。」
如果之前有用過 Siri 之類的語音助手的經歷,你就會發現極大的區別。

首先,你可以隨時打斷 AI 的話,不用等它說完就可以繼續下一輪對話。其次,你不用等待,模型反應極快,比人類的回應還快。第三,模型能夠充分理解人類的情感,自己也能表現出各種感情。

在視覺能力方面,另一個工程師直接在紙上寫下一個方程式,并且讓 ChatGPT 不需要直接給答案,而是讓它解釋要一步步怎么做。看得出來,它在教人做題方面很有潛力,在 AI 教育產業上看來會有很大的沖擊。

此外,在發布會上還展示了 GPT-4o 的實時翻譯和表情識別能力。這些功能將使用戶能夠更加自然地與 ChatGPT 互動,真正達到了實時的視頻理解。

新一代模型——GPT-4o

GPT-4o,o 即代表 Omnimodel(全能模型)

GPT-4o 是 OpenAI 在集成多模態模型方面的重大突破。該模型在文本、視覺和音頻方面的性能大幅提升,響應速度極快,接近人類水平。OpenAI 通過端到端訓練,將所有輸入和輸出統一處理,實現了跨模態的實時推理?。

GPT-4o 在英文文本和代碼方面的性能與 GPT-4 Turbo 相當,但在非英文文本方面表現顯著提升。同時,它的 API 速度也有所增加,使成本降低了 50%。與現有模型相比,GPT-4o 在視覺和音頻理解方面尤為出色。

它可以在 232 毫秒內快速響應音頻輸入,平均響應時間為 320 毫秒,與人類相似。在 GPT-4o 發布之前,使用 ChatGPT 的語音對話功能的用戶注意到平均延遲分別為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

這種快速的語音響應是由三個獨立模型組成的流程實現的:一個簡單模型將音頻轉錄為文本,GPT-3.5 或 GPT-4 處理文本并生成文本輸出,第三個簡單模型將文本轉換回音頻。然而,OpenAI 發現這種方法導致 GPT-4 丟失了大量信息,例如模型無法直接觀察到音調、多個說話者、背景噪音,也無法輸出笑聲、歌唱或情感表達。

相比之下,在 GPT-4o 上,OpenAI 跨文本、視覺和音頻領域進行了端到端的訓練,意味著所有輸入和輸出都由同一神經網絡處理。這消除了信息丟失,并使模型能夠更加細致、豐富地理解上下文,并提供更加多樣化和豐富的響應。

此外,GPT-4o 在理解和生成圖像方面的能力也遠勝于之前,此前很多不可能的任務都變得「易如反掌」。

比如,一首詩可以用手寫樣式來進行排版:

或者更復雜,具有藝術性的排版:

并且 GPT-4o 還擁有 3D 視覺內容生成的能力:

每周都有超過一億人在使用 ChatGPT,OpenAI 表示 GPT-4o 的文本和圖像功能從 5 月 14 日開始免費在 ChatGPT 中推出,使用限制為 3 小時 16 條,Plus 用戶提供高達 5 倍的消息上限

如今,部分賬戶登錄即可看到 GPT-4o 已經可以使用


此外,免費用戶還擁有以下幾個功能

  • 數據分析并創建圖表
  • 圖片、文件上傳
  • 發現并使用 GPTs 和 GPTs 應用商店

在未來幾周內,OpenAI 將在 ChatGPT Plus 中推出 GPT-4o alpha 的新版本語音模式,并通過 API 向一小部分可信賴的合作伙伴提供更多新的音頻和視頻功能。

盡管經過多次模型測試和迭代,GPT-4o 在所有模態下仍存在一些局限性,但 OpenAI 表示正在努力改進 GPT-4o。

當然,GPT-4o 音頻模式的開放肯定會帶來各種新的挑戰。在安全性方面,OpenAI 已經通過過濾訓練數據和對訓練后模型行為進行細化等技術來內置跨模態設計的安全性。此外,OpenAI 還創建了新的安全系統,以確保語音輸出的安全。

全新桌面應用程序(Mac)

OpenAI 推出了適用于 macOS 的新 ChatGPT 桌面應用程序,面向所有的免費和付費用戶。通過簡單的鍵盤快捷鍵「Option + Space」,用戶可以立即向 ChatGPT 提出問題。此外,應用程序還支持用戶直接截取屏幕截圖,基于截圖和 ChatGPT 溝通。

雖然說是 Plus 用戶可以使用,不過我自己測試過來 Plus 用戶也會報如下錯誤,應當還是在內測中

暢談 GPT-4o 的愿景

在發布會結束后,OpenAI CEO 山姆·奧特曼久違地在博客上分享了關于 GPT-4o 工作的一些心路歷程:

“在今天的發布會上,我想強調兩件事。首先,我們的使命之一是將強大的人工智能工具免費或以優惠的價格提供給大眾。我非常自豪地宣布,我們在 ChatGPT 中免費提供世界上最好的模型,沒有廣告或類似的東西。

當我們創立 OpenAI 時,我們的初衷是創造出人工智能并利用它為世界創造各種利益。現在情況有所變化,似乎我們創造了人工智能,其他人將使用它來創造各種令人驚嘆的事物,我們所有人都會從中受益。

當然,作為一家企業,我們也會開發很多收費的服務,這將幫助我們向數十億人提供免費、優秀的人工智能服務(希望如此)。

其次,新的語音和視頻模式是我用過的最好的計算交互界面。感覺就像電影里的人工智能一樣,我仍然有點驚訝于它竟然是真的。事實證明,達到人類水平的響應時間和表達能力是一個巨大的飛躍。

最初的 ChatGPT 展示了語言界面的可能性,而這個新事物(GPT-4o 版本)給人的感覺有本質上的不同——它快速、智能、有趣、自然且能給人帶來幫助。

對我來說,與電腦交互從來都不是很自然的事情,事實如此。而當我們添加(可選)個性化、訪問個人信息、讓 AI 代替人采取行動等功能時,我確實可以看到一個令人興奮的未來,我們能夠使用計算機做比以往更多的事情。

最后,我要非常感謝團隊為實現這一目標所付出的巨大努力!”

奧特曼還提到,雖然實現全民基本收入(Universal Basic Income)困難重重,但我們可以實現“全民免費計算”(Universal Basic Compute)。未來,每個人都可以免費獲得 GPT 的計算資源,可以使用、轉售或捐贈。

他解釋道:“隨著 AI 變得更加先進,并嵌入到我們生活的方方面面,擁有像 GPT-7 這樣的大語言模型單元可能比金錢更有價值,你擁有了部分生產力。”

GPT-4o 的發布,或許就是 OpenAI 朝著這個目標邁出的第一步。

“是的,這還只是個開始。”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/12960.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/12960.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/12960.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

qt的udp通訊

QString mylocalip; const QList interfaces QNetworkInterface::allInterfaces(); foreach(QNetworkInterface ip, interfaces) { if (ip.humanReadableName() QStringLiteral(“以太網”)) { //if (ip.type() QNetworkInterface::Ethernet) { const QList iplist ip.addr…

【EasyX】快速入門——靜態圖形篇

1.基本說明 EasyX 是針對 C 的圖形庫,可以幫助 C/C 初學者快速上手圖形和游戲編程。 比如,可以基于 EasyX 圖形庫很快的用幾何圖形畫一個房子,或者一輛移動的小車,可以編寫俄羅斯方塊、貪吃蛇、黑白棋等小游戲,可以練…

Go 注釋生成 api文檔

在 Go 語言中,通常會使用 godoc 工具來從注釋中生成 API 文檔。godoc 是 Go 官方提供的文檔生成工具,它可以解析 Go 源代碼中的注釋,并生成在線的、可交互的文檔。 為了使用 godoc 生成 API 文檔,你需要遵循一些特定的注釋格式。…

使用VMware或VirtualBox安裝eNSP Pro并使用CRT連接設備

文章目錄 使用Oracle Virtual Box安裝eNSP Pro創建虛擬機配置網卡配置帶外管理網絡 使用VMware Workstation安裝eNSP Pro轉換文件格式及虛擬磁盤模式配置網卡創建虛擬機配置使用CRT連接管理設備 前一段時間是開放了eNSP Pro的賬號權限,但是在寫博客時,權…

2024OD機試卷-字符串分割(二) (java\python\c++)

題目:字符串分割(二) 題目描述 給定一個非空字符串S,其被N個‘-’分隔成N+1的子串,給定正整數K,要求除第一個子串外,其余的子串每K個字符組成新的子串,并用‘-’分隔。 對于新組成的每一個子串,如果它含有的小寫字母比大寫字母多,則將這個子串的所有 大寫字母轉換為小…

27.哀家要長腦子了!

目錄 1.316. 去除重復字母 - 力扣(LeetCode) 2. 1209. 刪除字符串中的所有相鄰重復項 II - 力扣(LeetCode 哎喲 煩死了 剛剛不小心退出又沒保存 又要寫一遍 煩死了 最近刷題不得勁啊 感覺這腦子沒長一點 1.316. 去除重復字母 - 力扣&am…

(實測驗證)【移遠EC800M-CN 】GNSS功能打開和關閉關閉步驟驗證

引言 本文章使用自研“超小體積TTL轉4GGPS集成模塊”進行實測驗證; 一、打開GNSS功能 步驟一、通過 ATQGPSCFG 配置 GNSS 參數 (1)該命令用于查詢和配置 GNSS 不同的設置,包括 NMEA 語句輸出端口、NMEA 語句的輸出類型等。 1.1…

NSSCTF | [SWPUCTF 2021 新生賽]easyupload2.0

先傳一個普通的一句話木馬試一試 GIF89a <?php eval($_POST[shell]);?> 可以看到回顯&#xff0c;不允許上傳php文件。 使用Burpsuite抓包只修改ContentType后發現也不能繞過&#xff0c;說明服務器使用了黑名單后綴限制&#xff0c;那么我們可以使用其他的后綴代替ph…

RPA的實施過程通常包括哪些步驟?

RPA&#xff08;Robotic Process Automation&#xff09;的實施過程通常涉及一系列詳細的步驟&#xff0c;旨在確保自動化項目的成功部署和運行。以下是RPA實施過程的一般步驟&#xff1a; ### 1. 需求分析與目標設定 實施RPA的第一步是進行需求分析&#xff0c;明確企業希望通…

電路板維修【四】

【開關電源輸出電壓偏低不穩&#xff0c;用示波器立馬鎖定故障范圍】&#xff1a;https://www.bilibili.com/video/BV1pf421D73K?vd_source3cc3c07b09206097d0d8b0aefdf07958 可以用示波器查看MOS的輸出波形來查看其是否損壞&#xff1a; 電源芯片的供電電壓來回跳變&#xf…

嵌入式C語言與人工智能融合開發高級教程:實現手勢識別系統

目錄 文章主題環境準備人工智能與嵌入式系統基礎代碼示例&#xff1a;實現手勢識別系統應用場景&#xff1a;智能家居與穿戴設備問題解決方案與優化 1. 文章主題 文章主題 本教程將詳細介紹如何在STM32嵌入式系統中使用C語言實現手勢識別系統&#xff0c;特別是如何在資源受…

基于卷積神經網絡CNN,使用二維卷積Conv2D實現MNIST數字識別的四種方法

前言 系列專欄&#xff1a;機器學習&#xff1a;高級應用與實踐【項目實戰100】【2024】?? 在本專欄中不僅包含一些適合初學者的最新機器學習項目&#xff0c;每個項目都處理一組不同的問題&#xff0c;包括監督和無監督學習、分類、回歸和聚類&#xff0c;而且涉及創建深度學…

ROS 2邊學邊練(48)-- 將URDF與robot_state_publisher一起使用

前言 本篇將完成一個行走的機器人&#xff0c;并以tf2消息的方式實時發布機器人狀態&#xff0c;以便我們在Rviz中同步查看。 首先&#xff0c;我們創建描述機器人裝配的URDF模型。接下來&#xff0c;我們編寫一個節點&#xff0c;用于模擬運動并發布JointState和位姿變換。然后…

C-函數的由淺入深

1.函數的定義 數據類型 函數名 &#xff08;【數據類型 形參名&#xff0c;數據類型 形參名&#xff0c; …】&#xff09; 2.函數的傳參 值傳遞 地址傳遞 全局變量 3.函數的調用 嵌套調用 遞歸 4.函數與數組 5.函數與指針 指針函數 函數指針 函數指針數組 函數的定義 #inclu…

醉了,面個功能測試,還問我Python裝飾器

Python 裝飾器是個強大的工具&#xff0c;可幫你生成整潔、可重用和可維護的代碼。某種意義上說&#xff0c;會不會用裝飾器是區分新手和老鳥的重要標志。如果你不熟悉裝飾器&#xff0c;你可以將它們視為將函數作為輸入并在不改變其主要用途的情況下擴展其功能的函數。裝飾器可…

dhcp(接口和全局地址池模式)

接口地址池和全局地址池 dhcp應用 1.全部開啟dhcp功能 2.ar5 0口接口地址池 1口全局地址池 3.ar6和ar7配置&#xff0c;查看能否自動獲取ip 左右不同兩個網絡&#xff0c;接口和全局地址池的區別 部分截圖 ar6 ar7 ar5

(實測驗證)【移遠EC800M-CN 】TCP 透傳

引言 本文章使用自研“超小體積TTL轉4GGPS集成模塊”進行實測驗證&#xff1b; 1、配置移遠EC800M-CN TCP 透傳 串口助手發送&#xff1a; ATQIOPEN1,0,"TCP","36.137.226.30",39755,0,2 //配置服務器地址和端口號&#xff1b; 4G模組返回…

07-Fortran基礎--Fortran指針(Pointer)的使用

07-Fortran基礎--Fortran指針Pointer的使用 0 引言1 指針&#xff08;Poionter&#xff09;的有關內容1.1 一般類型指針1.2 數組指針1.3 派生類(type)指針1.4 函數指針 2 可運行code 0 引言 Fortran是一種廣泛使用的編程語言&#xff0c;特別適合科學計算和數值分析。Fortran 9…

java代碼混淆工具ProGuard混淆插件

java代碼混淆工具ProGuard混淆插件 介紹 ProGuard是一個純java編寫的混淆工具&#xff0c;有客戶端跟jar包兩種使用方式。可以將程序打包為jar&#xff0c;然后用工具進行混淆&#xff0c;也可以在maven中導入ProGuard的插件&#xff0c;對代碼進行混淆。 大家都知道 java代…

【華為OD機試-C卷D卷-200分】田忌賽馬(C++/Java/Python)

【華為OD機試】-(A卷+B卷+C卷+D卷)-2024真題合集目錄 【華為OD機試】-(C卷+D卷)-2024最新真題目錄 題目描述 給定兩個只包含數字的數組a,b,調整數組 a 里面的數字的順序,使得盡可能多的a[i] > b[i]。 數組a和b中的數字各不相同。 輸出所有可以達到最優結果的a數組的…