Grok 3.0 Beta 版大語言模型評測

2025年2月17日至18日,全球首富埃隆·馬斯克(Elon Musk)攜手其人工智能公司xAI,在美國重磅發布了Grok 3.0 Beta版。這款被譽為“迄今為止世界上最智能的語言模型”的AI,不僅集成了先進的“DeepSearch”搜索功能,還具備實時聯網能力,旨在為用戶提供更精準、更深度的答案。據xAI團隊宣稱,Grok 3.0在深度推理、數學、科學和編程等領域的基準測試中,已超越中國的人工智能模型DeepSeek?V3以及OpenAI的ChatGPT-4o。馬斯克甚至在發布會上自信地表示,Grok 3.0擁有“地球上最強大的人工智能大腦”。事實真的如此嗎?讓我們一起去揭開它的神秘面紗吧。

一、Grok的訪問

1. 如何訪問

首先,Grok只向美國、澳大利亞、印度等一些國家開放,國內、歐盟地區、英國目前尚無法訪問。用戶可以通過x.ai或grok.com?,進入Grok的主界面。

Grok的界面

我們可以看到Grok可以使用的模型有Grok 3 beta(測試版),設有Enable Search和DeepSearch功能。同時,在搜索框下方可以看到Research(研究)、Brainstorm(頭腦風暴)和Analyze Data(數據分析)三個功能。

2. 如何注冊?

使用Grok前, 需要用郵箱注冊一下網站,也可以使用X帳戶或者Google的帳戶登陸,不需要驗證手機號。網站不需要實名即可以使用。

登陸界面

3. 訂閱費用

xAI 推出了獨立的 SuperGrok 訂閱服務,定價預計為每月 30 美元。用戶可通過?http://grok.com?網站或專用移動應用(支持 iOS 和 Android)訪問 Grok 3。2025 年 2 月 19 日,xAI 宣布 Grok 3 將“短期內免費向所有人開放”,直至服務器負載達到上限。

二、初步使用

1. 聯網搜索

選擇聯網搜索后,我們問它昨天的一個新聞:Trump如何幽默地稱小澤?Groke搜索了X上的8個貼子和互聯網上20多個網頁后,給出答復:a moderately successful comedian(略有小成的喜劇演員),并且糾正我說這是一個諷刺、幽默的稱呼。由于筆者在網上搜索相關內容,驗證此回答正確。

實時聯網

2. 文件閱讀

經過測試,Grok 目前明確表示不支持直接上傳附件,包括常見的文件格式如 PDF、PNG 等,用戶無法通過傳統的文件上傳功能將這些文檔直接提交給 Grok 進行分析或處理。然而,經過實際驗證,用戶可以通過復制粘貼的方式,將某些文件類型的內容輸入到 Grok 中。Grok 支持用戶使用英文、中文以及中英混合式提問,測試顯示其對中文的理解和回答能力較為流暢,能夠準確響應基于中文輸入的問題。

是否支持上傳附件

3. 編程測試

在測試編程時,我讓Grok給編寫一個貪吃蛇的游戲(細節比較多,非常考驗大語言模型的代碼生成能力),并開啟它的deep search功能,可以看到它會即時顯示思考的時間和思考的過程,每一個思考的步驟的都會詳細地進行展示,而且代碼生成的速度非常快。

Grok思考功能

Grok經過深入思考后,從關鍵要點、游戲概述、游戲功能、詳細設計和實現等幾個方面對這個小項目就進行了分析和規劃,最后經過我的提示給出了代碼。
經過測試,發現程序代碼存在bug,剛運行2秒就閃退,后面繼續讓它修改。修改完再次測試,發現貪吃蛇遇到邊框就會自動退出。于時,又經過2次交互對話,終于完成了程序的初步代碼,經測試可以使用。最后調試時,又修改了FPS這個變量的值,減慢了蛇的運行速度。

寫貪吃蛇代碼

貪吃蛇部分代碼和效果展示:

貪吃蛇代碼

Grok能免很快地完成這個Python項目,但是沒有像ChatGPT那樣默認注釋代碼,也可能是我沒有給提示詞的原因。其代碼書寫的速度快于Chatgpt與DeepSeek,準確度也相當高,基本上3-4次對話就可以搞定一個中小型的編程項目了。設計的界面也很漂亮,還附加的計算得分的功能,可謂考慮得相當周全。

4. 智能問答

Grok 在回答一些常見問題時表現出色,即使在不啟用“Think”或“Deep Search”功能的情況下,它仍能提供深度、詳實的解答,展現出深刻的洞察力。其回答的準確性、邏輯性和規范性已經達到甚至超越 DeepSeek 和 ChatGPT 的水平。

回答問題

5. 畫圖功能

Grok 具備圖像生成功能,其生成速度較快,生成的圖像逼真度較高。每次操作可同時生成兩張圖片,且兩張圖之間的差異性較為顯著,展現出多樣化的創作能力。此外,Grok 對指令的處理顯示出一定的容錯能力,例如,即使輸入中出現拼寫錯誤,如“馬思克”,它也能正確識別為“Elon Musk”,體現了其智能糾錯和語義理解的靈活性。

Grok畫圖功能

6. 深度推理

當用戶點擊首頁的“Research”按鈕時,網站會自動切換至“深度思考”模式,并將輸入框自動填充為“Research the ...”,同時在下方展示三個研究內容的示例供參考。例如,若用戶選擇研究韓國、新加坡和日本的經濟形勢,Grok 將立即啟動自動搜索功能,檢索包括路透社(Reuters)、CNBC 等知名網站在內的權威來源信息。經過 42 秒的處理,Grok 閱讀并分析了 66 個網頁,生成一份詳盡的報告。報告不僅列出關鍵要點(Key Points),如各國的經濟增長率、貿易數據或政策動向,還對韓國、新加坡和日本的經濟形勢進行了個性化的對比分析。此外,Grok 還會綜合三國數據,從宏觀上探討其經濟聯系與差異。與此同時,頁面右側實時顯示搜索結果的快照,用戶可直觀查看引用的網頁內容,提升透明度和可信度。


為了說明情況,Grok甚至給出了三個國家主要經濟指標的比較。其深度更像是做調查和研究,邏輯性、內容深度和信息完整度更是超越其它人工智能大模型。

對比三個國家的經濟指標

如果你想天馬行空地找到解決問題的思路,可以點首頁的Brainstorm,對于特定問題進行頭腦風暴,給出思路。

頭腦風暴式思考

7. 數據分析

雖然Grok沒有提供上傳文件的接口,但我們可以通過復制docx、xlsx文件,粘貼到提示窗口,從而讓其分析文檔,暫不支持pdf, ppt文件。可以對文本進行提取、總結和分析,目前來這看此項功能還在測試之中。

我上傳一下小型的xlsx文件,里面放有六個英語句子,我讓其統計分析這些句子,并進行詞頻統計。它會先把文檔的內容提取出來,展示出來,然后進行分析。

而且,Grok還根據指令要求統計了單詞數和詞頻表,而且列出了單詞歸元以后的詞頻表,足見其文本處理和統計分析的能力之強。

詞頻表的提取。

三、功能評測

Grok號稱最智能的模型(Smartest Model),其智能化程度、生成速度、研究深度已經相當出色,總結如下:

1. 用戶界面

Grok的界面設計簡潔直觀,與傳統AI聊天工具(如ChatGPT)的風格基本一致,用戶上手難度低。然而,歷史記錄需要通過快捷鍵(Ctrl+K)調出,而非直觀地顯示在左側,這種設計可能不夠友好,尤其是對習慣傳統布局的用戶而言。此外,每次使用時需要重寫代碼,且沒有設置智能體(Agent)功能,這限制了其在連續性任務或個性化場景中的效率。相比之下,一些AI工具如ChatGPT、豆包、星火等已支持自定義智能體,Grok在這方面的用戶體驗有待優化。

2. 功能使用

Grok展現了多方面的能力,包括聯網搜索、深度思考、代碼生成、圖像生成、智能會話以及對話記錄分析等。它支持中文問題,能夠粘貼上傳docx和xlsx文件進行閱讀和分析,是一個多模態、全能型的AI工具。然而,盡管網站提示可以上傳文件進行總結,但實際操作中缺少上傳入口。這可能意味著相關功能尚未完全上線或仍處于測試階段,功能實現的完整性存在一定差距。相比之下,其它成熟模型(如DeepSeek和ChatGPT Plus)已穩定支持文件上傳和解析,Grok在這方面的實用性暫時落后。

3. 智能程度

Grok對指令的理解能力較強,能夠準確捕捉用戶意圖,并展現一定的容錯機制。例如,即使輸入不夠精準,或者輸入錯誤的字或啟,它也能通過上下文推測并給出合理回答,這種智能化的指令解析使其在交互中更加靈活和友好。不過,缺乏智能體設計功能意味著它無法保存用戶偏好或自動優化代碼生成流程,這在需要反復迭代的任務中可能增加用戶負擔。

4. 生成質量

Grok在分析深度和內容生成上表現突出。其回答邏輯清晰、內容詳盡,尤其在文本處理和數據分析任務中,能夠提供準確且結構化的解答。與其它常見的AI模型相比,Grok的回答不僅停留在表面,還能展現一定的深度思考,這使其在研究型任務或復雜問題求解中具有競爭力。

測試過程中發現,Grok的深度思考、代碼生成的速度應當具有優勢。實際體驗中,其響應時間可能比早期模型(如GPT-3.5)快,但與最新的高效模型(如DeepSeek R1或Gemini 2.0 Flash)相比,是否真正領先仍需實測數據驗證。

四、綜合評價

Grok作為一個新興AI模型,在智能化程度、生成質量和研究深度上確實表現出色,尤其在邏輯性、文本處理和數據分析方面有明顯優勢,適合需要深入解答或復雜推理的場景。然而,其功能仍未完全成熟(例如文件上傳功能的缺失),用戶體驗上也存在改進空間(如歷史記錄訪問、智能體支持)。宣稱“最智能模型”可能更多是宣傳策略,從現有信息看,它在某些領域表現頂尖,但在整體功能完整性和用戶友好性上與當前領先模型仍有差距。

如果你需要詳細的文本分析或邏輯性強的解答,Grok是一個值得嘗試的選擇。對于依賴文件上傳或需要高效連續性任務的用戶,可以暫時觀望其后續更新,或搭配其他工具使用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896040.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896040.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896040.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于COSTAR模型的內容創作:如何用框架提升寫作質量

目錄 前言1. Context(上下文):理解背景,奠定寫作基礎1.1 何為上下文1.2 上下文的作用1.3 案例解析 2. Objective(目標):明確寫作方向,避免跑題2.1 確立目標2.2 如何設定目標2.3 案例…

Springboot應用開發工具類整理

目錄 一、編寫目的 二、映射工具類 2.1 依賴 2.2 代碼 三、日期格式 3.1 依賴 3.2 代碼 四、加密 4.1 代碼 五、Http請求 5.1 依賴 5.2 代碼 六、金額 6.1?代碼 七、二維碼 7.1 依賴 7.2 代碼 八、坐標轉換 8.1 代碼 九、樹結構 9.1?代碼 9.1.1 節點 …

【Research Proposal】基于提示詞方法的智能體工具調用研究——研究問題

博客主頁: [小????????] 本文專欄: AIGC | ChatGPT 文章目錄 💯前言💯研究問題1. 如何優化提示詞方法以提高智能體的工具調用能力?2. 如何解決提示詞方法在多模態任務中的挑戰?3. 如何通過提示詞優化智能體…

Java 大視界 -- 國際競爭與合作:Java 大數據在全球市場的機遇與挑戰(94)

💖親愛的朋友們,熱烈歡迎來到 青云交的博客!能與諸位在此相逢,我倍感榮幸。在這飛速更迭的時代,我們都渴望一方心靈凈土,而 我的博客 正是這樣溫暖的所在。這里為你呈上趣味與實用兼具的知識,也…

25旅游管理研究生復試面試問題匯總 旅游管理專業知識問題很全! 旅游管理復試全流程攻略 旅游管理考研復試真題匯總

旅游管理復試很難?! 別怕!經驗超豐富的老學姐來給你們出謀劃策啦! 最近是不是被旅游管理考研復試折磨得夠嗆?莫慌!我這有著豐富復試指導經驗的老學姐來幫你們排雷,助力大家順利上岸&#xff01…

美的樓宇科技基于阿里云 EMR Serverless Spark 構建 LakeHouse 湖倉數據平臺

作者:美的樓宇科技事業部 先行研究中心智能技術部 美的樓宇科技 IoT 數據平臺建設背景 美的樓宇科技事業部(以下簡稱樓宇科技)是美的集團旗下五大板塊之一,產品覆蓋多聯機組、大型冷水機組、單元機、機房空調、扶梯、直梯、貨梯…

Html5學習教程,從入門到精通,HTML5 元素語法知識點及案例代碼(2)

HTML5 元素語法知識點及案例代碼 一、HTML5 元素概述 HTML5 元素是構成網頁的基本單位&#xff0c;每個元素都有特定的語義和功能。HTML5 元素由開始標簽、內容和結束標簽組成&#xff0c;例如&#xff1a; <p>這是一個段落。</p><p> 是開始標簽這是一個段…

23種設計模式 - 備忘錄模式

模式定義 備忘錄模式&#xff08;Memento Pattern&#xff09;是一種行為型設計模式&#xff0c;其核心是在不破壞對象封裝性的前提下&#xff0c;捕獲并保存對象的內部狀態&#xff0c;以便后續恢復。該模式特別適用于需要實現撤銷/重做、狀態回滾等功能的系統&#xff0c;如…

2025asp.net全棧技術開發學習路線圖

2025年技術亮點?&#xff1a; Blazor已全面支持WebAssembly 2.0標準 .NET 8版本原生集成AI模型部署能力 Azure Kubernetes服務實現智能自動擴縮容 EF Core新增向量數據庫支持特性 ?ASP.NET 全棧開發關鍵技術說明&#xff08;2025年視角&#xff09;? 以下技術分類基于現…

Linux設備驅動-練習

練習要求&#xff1a; 一、設備樹 1、配置設備樹信息&#xff1a;將3個led燈和1個風扇使用到的設備信息配置到設備樹中 二、設備驅動層 1、通過of_find_node_by_name、of_get_named_gpion等內核核心層統一的api接口調用外設&#xff1b; 2、通過udev設備管理器自動注冊并創建設…

Python應用算法之貪心算法理解和實踐

一、什么是貪心算法&#xff1f; 貪心算法&#xff08;Greedy Algorithm&#xff09;是一種簡單而高效的算法設計思想&#xff0c;其核心思想是&#xff1a;在每一步選擇中&#xff0c;都采取當前狀態下最優的選擇&#xff08;即“局部最優解”&#xff09;&#xff0c;希望通…

競爭與冒險問題【數電速通】

時序邏輯電路&#xff1a; 組合邏輯電路中的競爭與冒險問題&#xff1a; 在組合邏輯電路中&#xff0c;競爭和冒險是兩種常見的時序問題&#xff0c;它們通常由電路的延時特性和不完美的設計引起。下面是這兩種現象的詳細解釋&#xff1a; 1. 競爭&#xff08;Race Condition&…

nasm - BasicWindow_64

文章目錄 nasm - BasicWindow_64概述筆記nasm_main.asmmy_build.batEND nasm - BasicWindow_64 概述 學個demo, 這個demo最主要學到了: 不用在調用每個API前都準備陰影區&#xff0c;在API調用后棧平衡。 可以在函數入口處考慮到所用的棧尺寸最大值(16字節對齊&#xff0c;陰…

JavaScript變量的作用域介紹

JavaScript變量的作用域介紹 JavaScript 變量的作用域決定了變量在代碼中的可訪問性。 var 是 JavaScript 中最早用于聲明變量的關鍵字&#xff0c;它函數作用域或全局作用域。 let 關鍵字&#xff0c;具有塊級作用域、全局作用域。 const關鍵字&#xff0c;具有塊級作用域…

Microsoft 365 Copilot中使用人數最多的是哪些應用

今天在瀏覽Microsoft 365 admin center時發現&#xff0c;copilot會自動整理過去30天內所有用戶使用copilot的概況&#xff1a; 直接把這個圖丟給copilot讓它去分析&#xff0c;結果如下&#xff1a; 總用戶情況 總用戶數在各應用中均為 561 人&#xff0c;說明此次統計的樣本…

ue5.2.1 quixel brideg顯示asset not available in uAsset format

我從未見過如此傻x的bug&#xff0c;在ue5.2.1上通過內置quixel下載資源顯示 asset not available in uAsset format 解決辦法&#xff1a;將ue更新到最新版本&#xff0c;通過fab進入商場選擇資源后add to my library 點擊view in launcher打開epic launcher&#xff0c;就可…

當電腦上有幾個python版本Vscode選擇特定版本python

查看當前vscode用的python版本命令 Import sys print(sys.version) 修改VSCODE解釋器 打開 VSCode。 按下 CtrlShiftP打開命令面板。 輸入 Python: Select Interpreter 并選擇它。 從彈出的列表中選擇你安裝的 Python 解釋器。如果你有多個 Python 版本&#xff08;例如…

Vue 中 nextTick 的原理詳解

1. 為什么需要 nextTick Vue 采用 異步渲染機制&#xff0c;當響應式數據發生變化時&#xff0c;Vue 并不會立即更新 DOM&#xff0c;而是將這些變化放入一個 隊列 中&#xff0c;并在 同一事件循環&#xff08;Event Loop&#xff09;中合并相同的修改&#xff0c;最后執行批…

Spring面試題2

1、compareable和compactor區別 定義與包位置:Comparable是一個接口&#xff0c;位于java.lang包,需要類去實現接口&#xff1b;而Compactor是一個外部比較器&#xff0c;位于java.util包 用法&#xff1a;Comparable只需要實現int compareTo(T o) 方法&#xff0c;比較當前對…

DuodooBMS源碼解讀之 cncw_statement模塊

財務應收應付擴展模組用戶使用手冊 一、模塊概述 財務應收應付擴展模組是一個基于 Odoo18 的擴展模塊&#xff0c;主要對財務應收應付相關功能進行了修改和增強。該模塊增加了多個功能模塊&#xff0c;如預收款單模塊、費用類別設置模塊等&#xff0c;同時對發票、公司、銷售…