豆包文科成績超了一本線,為什么理科不行?

卡奧斯智能交互引擎是卡奧斯基于海爾近40年工業生產經驗積累和卡奧斯7年工業互聯網平臺建設的最佳實踐,基于大語言模型和RAG技術,集合海量工業領域生態資源方優質產品和知識服務,旨在通過智能搜索、連續交互,實時生成個性化的內容和智能化產品推薦,為用戶提供快速、可靠的交互式搜索服務,首創了聚焦工業領域的智能交互引擎。

詳情戳:卡奧斯智能交互引擎icon-default.png?t=N7T8https://datayi.cn/w/DPWgDgjP

什么?好多大模型的文科成績超一本線,還是最卷的河南省???

圖片

圖源:極客公園

沒錯,最近就有這么一項大模型“高考大摸底”評測走紅了。

河南高考文科今年的一本線是521分,根據這項評測,共計四個大模型大于或等于這個分數,其中頭兩名最值得關注:

  • GPT-4o:562分

  • 字節豆包:542.5分

  • ……

從結果中來看,GPT-4o的表現依舊是處于領先狀態,而在國產大模型這邊,比較亮眼的成績便屬于豆包了。

并且在語文歷史等科目的成績甚至還超越了GPT-4o。

這也讓不少網友紛紛感慨:

AI文科成績這么好,看來在處理語言和邏輯上還是很有優勢的。

圖片

不過有一說一,畢竟國產大模型的競爭是如此之激烈,這份評測的排名真的靠譜嗎?發布僅數月的豆包,真具備此等實力嗎?以及這數學……又是怎么一回事兒?

先看評測榜單

要回答上述的問題,我們不妨先來查一查豆包在最新的權威評測榜單中的表現是否一致。

首先有請由智源研究院發布的FlagEval(天秤)。

它的評測方式是這樣的:

  • 對于開源模型, FlagEval會綜合概率選擇和自由生成兩種方式來評測,對于閉源模型, FlagEval只采用自由生成的方式來評測,兩種評測方式區別參照。

  • 主觀評測時部分閉源模型對極小部分題目有拒絕回答的情形,這部分題目并沒有計入能力分數的計算。

“客觀評測”這個維度上,榜單成績如下:

圖片

不難看出,這一維度下的FlagEval中,前四名的成績是與“高考大摸底”的名次一致

大模型依舊分別來自OpenAI、字節跳動、百度和百川智能。

并且豆包在“知識運用”和“數學能力”兩個維度上成績還高于第一名的GPT-4。

若是將評測方式調節至“主觀評測”,那么結果是這樣的:

圖片

此時,百度的大模型躍居到了第一名,而字節的豆包依舊是穩居第二的成績。

由此可見,不論是主觀還是客觀維度上,前幾位的名次都是與“高考大摸底”的成績是比較接近的。

接下來,我們再來有請另一個權威測評——OpenCompass(司南)。

圖片

在最新的5月榜單中,豆包的成績也是僅次于OpenA家的大模型。

同樣的,在細分的“語言”和“推理”兩個維度中,豆包還是超越了GPT-4o和GPT-4 Turbo。

圖片

但與專業評測冷冰冰的分數相比,人們都對高考有著更深刻的體驗和記憶。

那么接下來我們就通過豆包回答高考題,來看看大模型在應對人類考試時的具體表現。

再看實際效果

既然目前許多試卷的題目都已經流出,我們不妨親測一下豆包的實力。

例如讓它先寫一篇新課標I卷語文的作文題目

隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?

以上材料引發了你怎樣的聯想和思考?請寫一篇文章。

要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。

圖片

結果由豆包PC端對話生成

從豆包的作答上來看,是已經擺脫了AI寫作文經常犯的“首先-其次-以及-最后”這種模板式的寫法,也擅長引經據典來做論證。

但畢竟每個人對于文筆的審美標準不同,因此豆包高考作文寫得如何,評價就交給你們了(歡迎在留言區討論)。

值得一提的是,在量子位向豆包團隊詢問后得知,原來豆包PC端對話手機端“拍題答疑”是兩種截然不同的招式——

前者走的是LLM鏈路,后者走的則是RAG鏈路(若是用豆包手機端“拍題答疑”功能,高考數理化成績也能接近滿分)。

加上在這次“高考大摸底”評測出爐之后,很多網友們都將關注的重點聚焦到了數學成績上:

AI也怕數學。

圖片

因此,接下來的實際效果測試,我們就將以“LLM鏈路+數學”的方式來展開。

先拿這次的選擇題來小試牛刀一下:

圖片

當我們把題目在PC端“喂”豆包之后,它的作答如下:

圖片

因此,豆包給出的答案是:

A、C、D、D、B、B、A、A

這里我們再來引入排名第一選手GPT-4o的作答:

A、D、B、D、C、A、C、B

圖片

而根據網上目前多個信源得到的標準答案是:A、C、D、A、B、B、C、B。

對比來看,豆包對5道,GPT-4o答對4道。

而對于更多的數學題的作答,其實復旦大學自然語言處理實驗室在高考試卷曝光后第一時間做了更加全面的測試(所有大模型只能依靠LLM推理答題,不能通過RAG檢索答案):

圖片

圖片

圖源:復旦大學自然語言處理實驗室

由此可見,大模型并不能完全hold住高考數學題目,并且不同人生成答案的結果也會出現偏差。

并且量子位在反復測試后發現,豆包對話答題時有一定隨機性,多輪測試時的結果并不完全一樣。上文只取樣其中一輪的結果。

這也正如廣大網友所反饋的那般——大模型文科強、理科弱

對此,技術圈也已經有一些討論和解釋:

大語言模型的基本原理是“文字接龍”,通過預測下一個token來生成內容,每次預測都有隨機性和概率分布。

當大語言模型學習了海量知識數據,天然就適應考驗記憶能力和語言運用的文科考試。

但理科考試主要考驗推理和計算,比如一道數學題包含5步推理和5步計算,假設大語言模型每一步預測準確的概率都有90%,綜合下來的準確率就只有35%。

另一方面,理科語料比較稀缺。大模型的訓練數據中,文科語料要遠遠大于理科語料。這也是大模型更擅長文科的一個原因。

大模型都在努力提升智能水平,主要目標就是提高推理和計算能力。目前學界對此存在爭議,有觀點認為,“預測下一個token”本身就包含了推理,計算也是一種推理。

只要Scaling Law生效,大模型性能持續提升,推理和計算能力就能夠提升;但也有反對者(如Yann LeCun)認為,大語言模型缺乏真正的規劃推理能力,其涌現能力實際上是上下文學習的結果,主要體現在簡單任務和事先知道答案的情境中。大語言模型未來是否能夠真正實現AGI,目前還沒有定論。

那是不是大模型就不適合用戶來解數學題了呢?

也并不全是。

正如剛才所說,如果用豆包手機端的“拍題答疑”,也就是RAG鏈路的方式,那么結果的“打開方式”就截然不同了。

我們可以先用豆包APP對著題目拍照,讓它先進行識別:

圖片

結果就是——全對!

圖片

至于更多類型題目大模型們的表現會如何,友友們可以拿著感興趣的題目自行測試一番了。

如何評價?

從“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等評測上可以看到,豆包大模型已經穩穩進入國產第一梯隊。

但隨即而來的一個問題便是,過去一年多異常低調的豆包,是如何在短短一個月內就開始爆發的?

其實早在發布之際,豆包與其它大模型廠商截然不同的路徑就已經有所體現,歸結其背后的邏輯就是:

只有最大的使用量,才能打磨出最好的大模型。

據了解,豆包大模型在5月15日正式發布時,其每天平均處理的token數量高達1200億,相當于1800億的漢字;每天生成圖片的數量為3000萬張。

不僅如此,豆包大模型家族還會在包括抖音、今日頭條等在內的50多個場景中進行實踐和驗證。

因此,我們可以把豆包在大模型性能上的路數,視為用“左手使用量,右手多場景”的方式反復打磨而來。

一言蔽之,大模型好不好,用一下就知道了。

并且基于豆包大模型打造的同名產品豆包APP,已成為國內最受歡迎的AIGC類應用。

這一點上,從量子位智庫所匯總的智能助手“APP下載總量”和“APP月新增下載總量”便可一目了然——

豆包,均拿下第一。

圖片

圖片

不僅如此,在前不久國產大模型To B市場打響價格戰之際,火山引擎也是相當“壕氣”讓大模型進入“厘時代”,1元=1250000tokens。

因此,現在要如何評價字節跳動的大模型和應用,或許就是:

  • 多:場景多,數據多

  • 好:各路評測都能hold住

  • 省:是沖在價格戰頭部的選手

但也正如我們剛才所述,現在的大模型還有很大的“進化”空間。

因此對于國產大模型在未來的發展,我們還需保持持續的關注;但毋庸置疑的一點是,字節的大模型和豆包,定然是最值得期待的其中一個。

參考鏈接:
[1]https://mp.weixin.qq.com/s/2IueZaiCuyVp97DT-bP4Ow
[2]https://flageval.baai.ac.cn/#/leaderboard/nlp-capability?kind=CHAT
[3]https://rank.opencompass.org.cn/leaderboard-llm/?m=24-05
[4]https://mp.weixin.qq.com/s/KYEsTA-qU72pXWnr7-iB4A

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/38669.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/38669.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/38669.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用Java構建可擴展的微服務架構

使用Java構建可擴展的微服務架構 大家好,我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編,也是冬天不穿秋褲,天冷也要風度的程序猿!今天我們將探討如何使用Java構建可擴展的微服務架構,這是現代軟件開…

Java - 程序員面試筆記記錄 實現 - Part2

2.1 輸入輸出流 流可以被看作一組有序的字節集合,即數據在兩個設備間的傳輸。 字節流:以字節作為單位,讀到一個字節就返回一個字節;InputStream & OutputStream。 字符流:使用字節流讀到一個到多個字節先查詢碼…

【Invalid mapping pattern】SpringMVC路徑匹配

報錯: Description:Invalid mapping pattern detected: /**/{[path:[^.]] ^ No more pattern data allowed after {...} or ** pattern elementAction:Fix this pattern in your application or switch to the legacy parser implementation with spring.mvc.pathm…

VLC for Unity播放RTSP延遲高的解決辦法

VLC for Unity播放RTSP延遲高的解決辦法&#xff1a; 設置網絡緩存時長network-caching100 public void Open(){Log("VLCPlayerExample Open");if (mediaPlayer.Media ! null)mediaPlayer.Media.Dispose();List<string> options new List<string>();o…

Eureka在微服務架構中的服務降級策略解析

引言 微服務架構因其靈活性和可擴展性而受到現代軟件開發的青睞。然而&#xff0c;隨著服務數量的增加&#xff0c;系統的復雜性也隨之上升&#xff0c;服務間的依賴關系可能導致單點故障&#xff0c;影響整個系統的穩定性。服務降級是一種常見的應對策略&#xff0c;用于在服…

基于RabbitMQ的異步消息傳遞:發送與消費

引言 RabbitMQ是一個流行的開源消息代理&#xff0c;用于在分布式系統中實現異步消息傳遞。它基于Erlang語言編寫&#xff0c;具有高可用性和可伸縮性。在本文中&#xff0c;我們將探討如何在Python中使用RabbitMQ進行消息發送和消費。 安裝RabbitMQ 在 Ubuntu 上安裝 Rabbi…

提升寫作效率:探索AI在現代辦公自動化中的應用

工欲善其事&#xff0c;必先利其器。 隨著AI技術與各個行業或細分場景的深度融合&#xff0c;日常工作可使用的AI工具呈現出井噴式發展的趨勢&#xff0c;AI工具的類別也從最初的AI文本生成、AI繪畫工具&#xff0c;逐漸擴展到AI思維導圖工具、AI流程圖工具、AI生成PPT工具、AI…

精通SQL Server端口管理:添加與刪除監聽端口的指南

引言 SQL Server的端口管理是數據庫管理員(DBA)必須掌握的關鍵技能之一。端口配置不僅關系到數據庫的網絡通信能力&#xff0c;還直接影響到數據庫的安全性和性能。本文將詳細介紹如何在SQL Server中添加和刪除監聽端口&#xff0c;以及相關的配置策略和最佳實踐。 SQL Serve…

ubuntu 系統中 使用docker 制作 Windows 系統,從此告別 vmware虛擬機

我的系統是 ubuntu 24 前期準備工作&#xff1a; 安裝dockerdocker pull 或者 手動制作鏡像 docker build 的話 必須要 科學上網&#xff0c; 好像阿里鏡像都下不下來。需要 知道 docker 和docker compose 命令的使用方式 我是給docker 掛了 http代理 如果你能pull下來鏡像 …

springboot健身房管理系統-計算機畢業設計源碼031807

摘 要 大數據時代下&#xff0c;數據呈爆炸式地增長。為了迎合信息化時代的潮流和信息化安全的要求&#xff0c;利用互聯網服務于其他行業&#xff0c;促進生產&#xff0c;已經是成為一種勢不可擋的趨勢。在健身房管理的要求下&#xff0c;開發一款整體式結構的健身房管理系統…

Windows環境使用SpringBoot整合Minio平替OSS

目錄 配置Minio環境 一、下載minio.exe mc.exe 二、設置用戶名和密碼 用管理員模式打開cmd 三、啟動Minio服務器 四、訪問WebUI給的地址 SpringBoot整合Minio 一、配置依賴&#xff0c;application.yml 二、代碼部分 FileVO MinioConfig MinioUploadService MinioController 三…

使用Python繪制太陽系圖

使用Python繪制太陽系圖 太陽系圖太陽系圖的優點使用場景 效果代碼 太陽系圖 太陽系圖&#xff08;Sunburst Chart&#xff09;是一種層次結構圖表&#xff0c;用于表示數據的分層結構。它使用同心圓表示各個層級&#xff0c;中心圓代表最高層級&#xff0c;向外的圓環代表逐級…

CCT技術

概念介紹 多個功能核心的集成可以通過片上系統(SOC)或封裝中系統(SIP)設備的開發來實現。SOC器件將核心集成到單個集成電路中。SIP集成是將多個集成電路組合到單個封裝中。核心數量 的增加可能導致必要的測試人員資源和/或測試時間的增加。這直接影響了與測試這些設備相關的…

CesiumJS【Basic】- #031 繪制虛線(Entity方式)

文章目錄 繪制虛線(Entity方式)1 目標2 代碼2.1 main.ts繪制虛線(Entity方式) 1 目標 使用Entity方式繪制虛線 2 代碼 2.1 main.ts import * as Cesium from cesium;const viewer = new Cesium.Viewer(

SAP實現特別總賬的憑證預制

SAP實現特別總賬的憑證預制 仔細理解只有”其他”的特殊總帳標識才可預制憑證這句話. F-29/f-48不可預制。F-29/f-48預制時出現錯誤消息號 FP 030&#xff0c;提示特殊總帳標志類型“匯票和”預付定金“的特別總帳標志的過帳代碼不能預制&#xff0c;這是系統寫死的&#xff…

現在電氣真的比不過計算機嗎 ?

電氣工程和計算機科學在今天的科技和工業領域中各有其重要性和發展空間&#xff0c;并不存在簡單的比較誰“比不過”誰的情況。我收集制作一份plc學習包&#xff0c;對于新手而言簡直不要太棒&#xff0c;里面包括了新手各個時期的學習方向&#xff0c;包括了編程教學&#xff…

Pycharm的終端(Terminal)中切換到當前項目所在的虛擬環境

1.在Pycharm最下端點擊終端/Terminal, 2.點擊終端窗口最上端最右邊的∨&#xff0c; 3.點擊Command Prompt&#xff0c;切換環境&#xff0c; 可以看到現在環境已經由默認的PS(Window PowerShell)切換為項目所使用的虛擬環境。 4.更近一步&#xff0c;如果想讓Pycharm默認顯示…

Linux常用工具使用方式

目錄 常用工具&#xff1a; 安裝包管理工具&#xff1a; 查找含有關鍵字的軟件包 安裝軟件 安裝文件傳輸工具 安裝編輯器 C語言編譯器 C編譯器 安裝調試器 安裝項目版本管理工具 cmake 卸載軟件 安裝jsoncpp 安裝boost庫 安裝mariadb 安裝tree&#xff08;讓目錄…

基于Java的區塊鏈數字身份認證

基于Java的區塊鏈數字身份認證 大家好&#xff0c;我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01;今天我們將探討基于Java的區塊鏈數字身份認證&#xff0c;這是區塊鏈技術在安全領…

潛水耳機哪個牌子好?用戶精選,這四款潛水耳機質量上乘!

在這個快節奏的時代&#xff0c;人們越來越渴望在運動中也能享受到音樂的陪伴。潛水&#xff0c;作為一種獨特的水下運動&#xff0c;自然也不例外。然而&#xff0c;并非所有的耳機都能承受水下的壓力和環境&#xff0c;這就要求我們對潛水耳機有著更高的要求。作為一名資深的…