Grok-4 發布會圖文總結

文章目錄

  • 00:00 - Grok-4:以“全球最智能 AI”之名突破性登場
  • 06:41 - 推理能力的大幅飛躍:100 倍訓練量鑄就的“博士級”大腦
  • 13:25 - 工具使用能力的革新:從“原始”到深度整合
  • 20:06 - 直面強化學習的挑戰與 AI 的終極測試
  • 26:45 - 應用演示:在瀏覽器中模擬黑洞碰撞
  • 33:29 - 基準測試霸榜:全面超越所有對手
  • 40:16 - 語音交互與 API:更自然、更開放
  • 46:53 - 賦能開發者:從商業策略到游戲創作
  • What is next? - 通往視頻生成和通用智能的加速之路
  • 總結


7 月 9 日,xAI 舉辦了一場定義下一代人工智能的發布會,正式推出其號稱“全球最智能 AI”的旗艦模型 Grok-4。發布會通過一系列令人震撼的現場演示和全面的基準測試數據,證明了 Grok-4 在超人級別的推理、復雜的工具使用和長遠戰略規劃方面的卓越能力。從 4 小時制作一款游戲到在模擬商業中收益翻倍,Grok-4 展示的不僅僅是技術的飛躍,更是通往一個由 AI 深度賦能的未來的清晰路線圖。

下面我們就按照時間順序復盤一下Grok-4這48分鐘的發布會都有什么亮點。

00:00 - Grok-4:以“全球最智能 AI”之名突破性登場

  • 智能的飛躍:埃隆·馬斯克開場便直接宣布 Grok-4 是“世界最智能的 AI”,并強調其學習速度“遠超任何人類”。他指出,Grok-4 面對 SAT 考試能次次獲得滿分,甚至在各學科的研究生入學考試(GRE)中都能取得近乎完美的成績,其學識水平已達到“所有學科的研究生級別”。
  • 超人級推理:針對“AI 無法推理”的說法,馬斯克明確反駁:“不,它可以在超人級別上進行推理 (it can reason at superhuman levels)”。
    請添加圖片描述

06:41 - 推理能力的大幅飛躍:100 倍訓練量鑄就的“博士級”大腦

  • 指數級增長:Grok-4 的訓練計算量是 Grok-2 的整整 100 倍。團隊不僅在“預訓練”上投入巨大算力,更在“推理強化學習 (RL)”上投入了比任何其他模型多 10 倍的計算資源。
    請添加圖片描述* 挑戰極限基準:發布會重點介紹了“人類最后的大考 (Humanity’s Last Exam)”這一極難基準,其問題難度均為博士或前沿研究級別。馬斯克評價道:“沒有任何人類能在這個測試中取得高分”。
    在這里插入圖片描述
    在這里插入圖片描述
    請添加圖片描述
  • “全科博士”:馬斯克反復強調一個驚人的事實:“Grok-4 在每個學科上都優于博士水平,無一例外 (Grok is better than PhD level in every subject no exceptions)”。他預測,Grok-4 最快可能在今年晚些時候發現新技術,明年發現新物理。

13:25 - 工具使用能力的革新:從“原始”到深度整合

  • 更原生的工具使用:與 Grok-3 依賴泛化能力不同,Grok-4 在訓練中就直接整合了工具使用,使其在調用工具時更加可靠和強大。
    在這里插入圖片描述
  • 承認“原始”階段:馬斯克坦言,相較于特斯拉或 SpaceX 使用的“有限元分析”等高級工業工具,Grok-4 目前的工具使用仍處于“相當原始的階段 (fairly primitive tool use)”。但他承諾,今年晚些時候會為其提供這些強大的公司級工具。

20:06 - 直面強化學習的挑戰與 AI 的終極測試

  • 數據瓶頸:xAI 團隊坦誠,隨著模型越來越智能,為其尋找足夠有“挑戰性的問題”已成為新的“數據瓶頸”。
  • 現實是終極的試金石:馬斯克提出了一個核心觀點:“最終的推理測試是現實 (the ultimate reasoning test is reality)”。因為“物理是法則,其他一切都是建議”。AI 是否強大,最終要看它能否創造出有用的新技術、新藥物,能否讓火箭進入軌道。
    在這里插入圖片描述

26:45 - 應用演示:在瀏覽器中模擬黑洞碰撞

  • 復雜的物理模擬:現場演示了 Grok-4 生成兩個黑洞碰撞的可視化過程,完整覆蓋了旋近 (inspiral)、合并 (merger) 和衰減 (ringdown) 三個階段。
    在這里插入圖片描述
  • 嚴謹的科學態度:模型在思考過程中明確指出,為了可視化,它夸大了引力波的尺度,并使用的是“后牛頓近似法 (post-Newtonian approximations)”而非完整的廣義相對論計算,同時參考了本科教材和真實世界數據。

33:29 - 基準測試霸榜:全面超越所有對手

  • 商業預測能力:在現場演示中,Grok-4 Heavy 版本花了約 4.5 分鐘分析了大量賠率網站和市場數據,計算出洛杉磯道奇隊贏得世界大賽的概率為 21.6%
    在這里插入圖片描述
  • 全方位領先:在所有關鍵推理基準上,Grok-4 都大幅領先于 GPT-4o、Gemini 2.5 Pro 和 Claude 3 Opus 等對手。它在 AIME (美國數學邀請賽) 上獲得滿分,在 GPQA (研究生水平問題解答) 等測試中也遙遙領先
    在這里插入圖片描述
  • 未來的測試:馬斯克預言,未來 AI 會強大到能指出“問題本身有什么毛病”,屆時人類設計的考試將失去意義。

40:16 - 語音交互與 API:更自然、更開放

  • 自然的語音體驗:現場演示了全新的語音模式,延遲相比之前降低了一半。新聲音“Eve”展現了極其自然流暢的對話、低語乃至歌劇演唱能力。在與競品的對比測試中,Grok 的對話更平穩、不打斷。
    在這里插入圖片描述

  • API 全面開放:Grok-4 和 Grok-4 Heavy 版本已通過 API 發布,為開發者提供前所未有的能力。在 ARGI 基準測試中,Grok-4 的準確率達到了 15.8%,是第二名 Claude 3 Opus 的兩倍。
    在這里插入圖片描述

46:53 - 賦能開發者:從商業策略到游戲創作

  • AI 運營公司:在 AI 商業模擬“Vending Bench”中,Grok-4 制定并執行了長期策略,最終創造的凈資產是之前第一名的兩倍,證明了其強大的商業規劃能力。
    請添加圖片描述
  • 4 小時制作 FPS 游戲:游戲設計師 Denny 利用 Grok-4,在 4 小時內就制作了一款第一人稱射擊游戲。Grok-4 最大的貢獻是自動化了“資產獲取 (asset sourcing)” 這一游戲開發中最繁瑣的環節。
    請添加圖片描述

What is next? - 通往視頻生成和通用智能的加速之路

發布會最后,xAI 公布了清晰的路線圖,展現了其驚人的迭代速度:

  1. 專業編碼模型:一個兼具速度與智能的專業編碼模型將在幾周內發布。
  2. 多模態智能體:正在訓練的 Version 7 基礎模型將解決目前視覺理解能力偏弱的短板,帶來圖像、視頻和音頻理解能力的“階躍式提升 (step function improvement)”。
  3. 進軍視頻生成:xAI 計劃在未來 3-4 周內,使用超過 10 萬塊 GB200 芯片開始訓練其視頻模型。馬斯克預計,今年能看到“半小時可觀看的 AI 電視節目”,明年能看到“第一部可觀看的 AI 電影”。
    請添加圖片描述

總結

這次發布會不僅僅是一次產品更新,更是 xAI 對其技術實力和發展速度的一次全面展示。Grok-4 已經證明,AI 正在從一個“聰明的工具”轉變為一個能夠在各領域進行深度思考、規劃和創造的“智能體”。正如馬斯克所言,我們正處在“智能大爆炸 (intelligence big bang)”的奇點時刻。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88512.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88512.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88512.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI產品經理面試寶典第1天:機器學習核心算法全景解析

面試官:請解釋什么是監督學習?能否用生活案例說明其運作邏輯? 監督學習如同教孩子識字的過程。父母指著"蘋果"圖片反復說"這是蘋果"(帶標簽的訓練數據),孩子逐漸建立"紅色圓形水果=蘋果"的認知模型(算法生成)。當孩子看到新圖片時,模型…

前端開發技術棧概覽

前端開發技術棧概覽 前端開發是創建Web頁面或app等前端界面給用戶的過程,從簡單的靜態頁面到復雜的單頁應用(SPA),前端技術棧經歷了快速的演進。以下是前端開發所需掌握的核心技術分類及相關知識點: 1. 基礎層:HTML、CSS、JavaScr…

詳解Kafka通過冪等性實現分區消息不重復的機制

一、核心機制:PID與序列號1. Producer ID (PID)唯一標識:每個生產者實例啟動時,由Kafka Broker分配一個全局唯一的PID,用于標識消息來源。持久化存儲:PID由Broker持久化保存,確保生產者重啟后仍能追蹤歷史狀…

壓縮包方式在centos7版本上安裝mysql8.0

使用tar命令解壓 tar -zxvf mysql-8.0.32-el7-x86_64.tar.gz -C /usr/local/到/usr/local/修改解壓后的文件名為mysql 創建mysql用戶組和用戶,自己在mysql下面創建data目錄存儲信息,把權限交給mysql這個用戶 groupadd mysql useradd -r -g mysql mysql c…

使用ansible給被管理節點安裝docker

在跳板機上安裝ansible,再通過ansible的playbook,給被管理節點安裝docker。 跳板機配置 實驗環境 華為云上按需開兩臺2核2G的Ubuntu的ECS;2臺公網IP為5Mbit/s,按需按流量;2臺服務器在一個子網內;跳板機和被管理節點主機分別掛不通的安全組 在…

《Java EE與中間件》實驗三 基于Spring Boot框架的購物車

目 錄 一、實驗目的和要求 二、實驗實現思路及步驟 1、實驗思路 2、實驗步驟 3、實驗方案 三、主要開發工具 四、實驗效果及實現代碼 1、購物車數據庫構建實現 (1)建立javaee-project數據庫 (2)建立t_cart數據表 &…

DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 論文精讀

題目:DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 題目:DAS3D:用于三維異常檢測的雙模態異常合成 論文地址:ECCVW 2024 2410 Dual-modality 雙模態 Anomaly Synthesis 異常合成 for 3D Anomaly Detection…

EasyCVR視頻匯聚平臺國標接入設備TCP主動播放失敗排查指南

部分客戶現場的下級平臺通過國標級聯接入安防監控系統EasyCVR后,只能通過TCP主動的播放方式進行播放(并不是所有下級平臺都支持tcp主動播放,模式需下級平臺支持),但是有些平臺剛接入的時候發現不能播放。核心原因分析&…

linux打包指令和移動指令

在Linux中,常用的文件夾打包命令是 tar,它可以將文件夾壓縮打包成 .tar、.tar.gz、.tar.bz2 等格式的文件。以下是具體用法: 1. 基礎打包(不壓縮,生成 .tar 文件) 將文件夾 folder 打包為 folder.tar&#…

神經符號AI:結合深度學習和符號邏輯的下一代AI

神經符號AI:結合深度學習和符號邏輯的下一代AI當AI醫生解釋診斷時,它不僅能指出醫學影像中的異常像素模式,還能引用臨床指南中的第三條第二款,推演病理發展的邏輯鏈條——這正是神經符號AI賦予機器的“理性之光”。2025年初&#…

SpringBoot JWT

jsonwebtoken 引依賴 <dependency><groupId>io.jsonwebtoken</groupId><artifactId>jjwt</artifactId><version>0.12.3</version></dependency> 測試一下&#xff0c;jwt是2個帶逗號的3段字符串 官網參考&#xff1a;JSON …

讀取QPS 10萬,寫入QPS 1000,如何設計系統架構?

你是否也曾深陷在臃腫的領域模型&#xff08;Domain Model&#xff09;的泥潭&#xff0c;一個 User 或 Order 實體類&#xff0c;既要處理復雜的業務邏輯和數據校驗&#xff0c;又要承載各種為前端展示而生的DTO轉換&#xff0c;導致模型越來越胖&#xff0c;讀寫性能相互掣肘…

UE5 Rotate 3 Axis In One Material

首先沒有用旋轉矩陣&#xff0c;我用過旋轉矩陣&#xff0c;傳進去的角度旋轉的角度和歐拉角傳進去角度旋轉出來的不一樣&#xff0c;就沒有用最后用的RotateAboutAxis&#xff0c;這個玩意兒研究老半天&#xff0c;只能轉一個軸&#xff0c;角度和歐拉角的一樣的最后研究出Rot…

計算機網絡實驗——訪問H3C網絡設備

一、實驗目的1. 熟悉H3C路由器的開機界面&#xff1b;2. 通過Console端口實現對上電的H3C路由器的第一次本地訪問&#xff1b;3. 掌握H3C設備命名等幾個常用指令&#xff1b;4. 掌握如何將H3C設備配置為Telnet服務器&#xff1b;5. 掌握如何將H3C設備配置為Telnet客戶端并實現訪…

【C語言】學習過程教訓與經驗雜談:思想準備、知識回顧(四)

&#x1f525;個人主頁&#xff1a;艾莉絲努力練劍 ?專欄傳送門&#xff1a;《C語言》、《數據結構與算法》、C語言刷題12天IO強訓、LeetCode代碼強化刷題 &#x1f349;學習方向&#xff1a;C/C方向 ??人生格言&#xff1a;為天地立心&#xff0c;為生民立命&#xff0c;為…

Vim 指令

Vim 是一款功能強大但學習曲線陡峭的文本編輯器&#xff0c;核心在于其模式化操作。掌握常用指令能極大提升效率。以下是指令分類整理&#xff1a;一、核心模式切換 (必須掌握&#xff01;)i&#xff1a;在光標前進入 插入模式 (Insert Mode)a&#xff1a;在光標后進入 插入模式…

vue2中使用xgplayer播放流視頻

1、官網 2、安裝后無法播放時&#xff0c;經測試&#xff0c;需要降低版本 "xgplayer-hls": "2.2.2","xgplayer": "2.31.6"改為以上版本可以正常播放 3、完整使用 &#xff08;1&#xff09;引入 import xgplayer import hlsjsPlayer…

Jmeter進階篇(35)完美解決Jmeter轉換HTML報告報錯“Begin size 0 is not equal to fixed size 5”

今天博主在使用Jmeter運行完壓測,使用生成的csv文件,運行以下命令: C:\apache-jmeter-5.2.1\bin>jmeter -g C:\res.csv -o C:\report生成HTML報告時,發現報錯“Begin size 0 is not equal to fixed size 5”。 問題原因 原因是我:本地用的是JDK17,但Jmeter5.2.1僅支…

linux中tcpdump抓包中有組播數據,應用程序收不到數據問題

問題描述服務器運行正常&#xff0c;維保需要&#xff0c;重啟服務器后應用程序無法收到組播的媒體數據。百思不得其解。原因分析最終的定位原因是 linux系統的自我保護機制導致的。rp_filter&#xff08;反向路徑過濾&#xff09;是Linux內核的一個安全特性&#xff0c;用于防…

人工智能-基礎篇-29-什么是低代碼平臺?

低代碼平臺&#xff08;Low-Code Development Platform, LCDP&#xff09;是一種通過可視化界面和少量代碼&#xff08;或無需代碼&#xff09;快速構建應用程序的開發工具。它的核心目標是通過簡化開發流程&#xff0c;降低技術門檻&#xff0c;使企業能夠更高效地響應業務需求…