文章目錄
- 00:00 - Grok-4:以“全球最智能 AI”之名突破性登場
- 06:41 - 推理能力的大幅飛躍:100 倍訓練量鑄就的“博士級”大腦
- 13:25 - 工具使用能力的革新:從“原始”到深度整合
- 20:06 - 直面強化學習的挑戰與 AI 的終極測試
- 26:45 - 應用演示:在瀏覽器中模擬黑洞碰撞
- 33:29 - 基準測試霸榜:全面超越所有對手
- 40:16 - 語音交互與 API:更自然、更開放
- 46:53 - 賦能開發者:從商業策略到游戲創作
- What is next? - 通往視頻生成和通用智能的加速之路
- 總結
7 月 9 日,xAI 舉辦了一場定義下一代人工智能的發布會,正式推出其號稱“全球最智能 AI”的旗艦模型 Grok-4。發布會通過一系列令人震撼的現場演示和全面的基準測試數據,證明了 Grok-4 在超人級別的推理、復雜的工具使用和長遠戰略規劃方面的卓越能力。從 4 小時制作一款游戲到在模擬商業中收益翻倍,Grok-4 展示的不僅僅是技術的飛躍,更是通往一個由 AI 深度賦能的未來的清晰路線圖。
下面我們就按照時間順序復盤一下Grok-4這48分鐘的發布會都有什么亮點。
00:00 - Grok-4:以“全球最智能 AI”之名突破性登場
- 智能的飛躍:埃隆·馬斯克開場便直接宣布 Grok-4 是“世界最智能的 AI”,并強調其學習速度“遠超任何人類”。他指出,Grok-4 面對 SAT 考試能次次獲得滿分,甚至在各學科的研究生入學考試(GRE)中都能取得近乎完美的成績,其學識水平已達到“所有學科的研究生級別”。
- 超人級推理:針對“AI 無法推理”的說法,馬斯克明確反駁:“不,它可以在超人級別上進行推理 (it can reason at superhuman levels)”。
06:41 - 推理能力的大幅飛躍:100 倍訓練量鑄就的“博士級”大腦
- 指數級增長:Grok-4 的訓練計算量是 Grok-2 的整整 100 倍。團隊不僅在“預訓練”上投入巨大算力,更在“推理強化學習 (RL)”上投入了比任何其他模型多 10 倍的計算資源。
* 挑戰極限基準:發布會重點介紹了“人類最后的大考 (Humanity’s Last Exam)”這一極難基準,其問題難度均為博士或前沿研究級別。馬斯克評價道:“沒有任何人類能在這個測試中取得高分”。
- “全科博士”:馬斯克反復強調一個驚人的事實:“Grok-4 在每個學科上都優于博士水平,無一例外 (Grok is better than PhD level in every subject no exceptions)”。他預測,Grok-4 最快可能在今年晚些時候發現新技術,明年發現新物理。
13:25 - 工具使用能力的革新:從“原始”到深度整合
- 更原生的工具使用:與 Grok-3 依賴泛化能力不同,Grok-4 在訓練中就直接整合了工具使用,使其在調用工具時更加可靠和強大。
- 承認“原始”階段:馬斯克坦言,相較于特斯拉或 SpaceX 使用的“有限元分析”等高級工業工具,Grok-4 目前的工具使用仍處于“相當原始的階段 (fairly primitive tool use)”。但他承諾,今年晚些時候會為其提供這些強大的公司級工具。
20:06 - 直面強化學習的挑戰與 AI 的終極測試
- 數據瓶頸:xAI 團隊坦誠,隨著模型越來越智能,為其尋找足夠有“挑戰性的問題”已成為新的“數據瓶頸”。
- 現實是終極的試金石:馬斯克提出了一個核心觀點:“最終的推理測試是現實 (the ultimate reasoning test is reality)”。因為“物理是法則,其他一切都是建議”。AI 是否強大,最終要看它能否創造出有用的新技術、新藥物,能否讓火箭進入軌道。
26:45 - 應用演示:在瀏覽器中模擬黑洞碰撞
- 復雜的物理模擬:現場演示了 Grok-4 生成兩個黑洞碰撞的可視化過程,完整覆蓋了旋近 (inspiral)、合并 (merger) 和衰減 (ringdown) 三個階段。
- 嚴謹的科學態度:模型在思考過程中明確指出,為了可視化,它夸大了引力波的尺度,并使用的是“后牛頓近似法 (post-Newtonian approximations)”而非完整的廣義相對論計算,同時參考了本科教材和真實世界數據。
33:29 - 基準測試霸榜:全面超越所有對手
- 商業預測能力:在現場演示中,Grok-4 Heavy 版本花了約 4.5 分鐘分析了大量賠率網站和市場數據,計算出洛杉磯道奇隊贏得世界大賽的概率為 21.6%。
- 全方位領先:在所有關鍵推理基準上,Grok-4 都大幅領先于 GPT-4o、Gemini 2.5 Pro 和 Claude 3 Opus 等對手。它在 AIME (美國數學邀請賽) 上獲得滿分,在 GPQA (研究生水平問題解答) 等測試中也遙遙領先。
- 未來的測試:馬斯克預言,未來 AI 會強大到能指出“問題本身有什么毛病”,屆時人類設計的考試將失去意義。
40:16 - 語音交互與 API:更自然、更開放
-
自然的語音體驗:現場演示了全新的語音模式,延遲相比之前降低了一半。新聲音“Eve”展現了極其自然流暢的對話、低語乃至歌劇演唱能力。在與競品的對比測試中,Grok 的對話更平穩、不打斷。
-
API 全面開放:Grok-4 和 Grok-4 Heavy 版本已通過 API 發布,為開發者提供前所未有的能力。在 ARGI 基準測試中,Grok-4 的準確率達到了 15.8%,是第二名 Claude 3 Opus 的兩倍。
46:53 - 賦能開發者:從商業策略到游戲創作
- AI 運營公司:在 AI 商業模擬“Vending Bench”中,Grok-4 制定并執行了長期策略,最終創造的凈資產是之前第一名的兩倍,證明了其強大的商業規劃能力。
- 4 小時制作 FPS 游戲:游戲設計師 Denny 利用 Grok-4,在 4 小時內就制作了一款第一人稱射擊游戲。Grok-4 最大的貢獻是自動化了“資產獲取 (asset sourcing)” 這一游戲開發中最繁瑣的環節。
What is next? - 通往視頻生成和通用智能的加速之路
發布會最后,xAI 公布了清晰的路線圖,展現了其驚人的迭代速度:
- 專業編碼模型:一個兼具速度與智能的專業編碼模型將在幾周內發布。
- 多模態智能體:正在訓練的 Version 7 基礎模型將解決目前視覺理解能力偏弱的短板,帶來圖像、視頻和音頻理解能力的“階躍式提升 (step function improvement)”。
- 進軍視頻生成:xAI 計劃在未來 3-4 周內,使用超過 10 萬塊 GB200 芯片開始訓練其視頻模型。馬斯克預計,今年能看到“半小時可觀看的 AI 電視節目”,明年能看到“第一部可觀看的 AI 電影”。
總結
這次發布會不僅僅是一次產品更新,更是 xAI 對其技術實力和發展速度的一次全面展示。Grok-4 已經證明,AI 正在從一個“聰明的工具”轉變為一個能夠在各領域進行深度思考、規劃和創造的“智能體”。正如馬斯克所言,我們正處在“智能大爆炸 (intelligence big bang)”的奇點時刻。