菲爾茲獎得主測試GPT-4o,經典過河難題未能破解!最強Claude 3.5回答離譜!

目錄

01 大言模型能否解決「狼-山羊-卷心菜」經典過河難題?

02?加大難度:100只雞、1000只雞如何?




01 大言模型能否解決「狼-山羊-卷心菜」經典過河難題?



最近,菲爾茲獎得主Timothy Gowers分享了他測試GPT-4o的經歷,結果模型在最簡單的題目上竟然出錯了,甚至網友們發現,Claude 3.5也未能幸免。


GPT-4o深夜發布!Plus免費可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712

在經典的「狼-山羊-卷心菜」過河問題上,如今所有的大語言模型都失敗了!

幾天前,菲爾茲獎得主、劍橋大學研究主任Timothy Gowers直接測試了GPT-4o,試圖解決這個動物過河難題。

他提出了一個新的評估標準——廢話比率(crapness ratio),即模型給出的總答案與正確答案之間的比率。

經過測試,Gowers發現大模型的廢話比率可以高達5倍。

一開始,他提出了一個農民帶2只雞過河的題目:一只船只能容納一個人和2個動物,那么農夫帶著兩只雞渡河所需的最少渡河次數是多少?

?沒體驗過OpenAI最新版GPT-4o?快戳最詳細升級教程,幾分鐘搞定:
升級ChatGPT-4o Turbo步驟icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952


別說成年人了,就連小孩子都能立刻給出正確答案。

搞笑的是,ChatGPT的回答分解成了5個步驟,看起來極其愚蠢荒謬。


第一次渡河:農夫帶著兩只雞一起過河;現狀:農夫和兩只雞在河對岸。

第二次渡河:農夫把兩只雞留在對岸,然后獨自返回;現狀:農夫在起始岸,兩只雞在對岸。

第三次渡河:農夫帶一只雞過河;現狀:農夫和一只雞在對岸,一只雞在起始岸。

第四次渡河:農夫把雞留在對岸,獨自返回;現狀:農夫在起始岸,一只雞在對岸。

第五次渡河:農夫帶著第二只雞過河。現狀:農夫和兩只雞都在對岸。

因此,農夫帶兩只雞過河所需的最少次數是5次。



這里,ChatGPT必須在邏輯上把「農民」和人聯系起來,把「雞」和動物聯系起來,然后規劃出最佳的過河次數。

對此,LeCun表示,大模型的全新基準——廢話比率。

當然,也有網友為大語言模型打抱不平。

他表示,你可以對任何人做類似的事情。

如果你愿意,可以讓任何一個人不及格。大語言模型與人類的智商相去甚遠,但把它們放在極端的測試中并不能很好地評估它們。

02?加大難度:100只雞、1000只雞如何?

如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!

官網有更詳細介紹:WildCard

為了得到更高的廢話比率,Gowers這次提出了100只雞過河的問題。

雖然沒有公布具體的解題過程,但Gowers表示,GPT-4o竟然答對了。

接下來,再次加大難度,一個農民帶1000只雞過河,模型表現如何?

提示是,1000只雞在河的一邊,農夫需要將999只雞移到河的另一邊,留下1只雞在起點。

然而,他的船上有一個洞,所以在每次渡河開始時,他可以帶上十只雞。但到渡河快結束時,船里進了太多水,如果不想讓任何雞溺水,就只能容納兩只雞。

為了實現目標而不讓任何雞溺亡,農民最少需要渡河幾次?

Gowers表示,這次的廢話比率是125倍。

隨后,Gowers展示了相當長的例子,卻發現ChatGPT的答案比正確答案呈指數級增長。(然而,這更多與它的數學能力有關,所以有點取巧。)

在網友測試的一個案例中,即使被告知農夫根本不需要過河,GPT-4o仍提出了一個9次渡河的復雜解決方案。

而且它忽視了重要的約束條件,比如不能讓雞單獨和狼在一起,這本來是完全可行的,因為農夫根本不需要過河。

在對GPT-4、InstructGPT和ChatGPT進行評估的過程中,研究人員果然發現了LLM犯數學錯誤的一個可能原因——模型似乎傾向于依賴記憶來解題。

在數學領域,記住概念和定義是必不可少的,但具體問題的解決更需要一種通用、可概括的理解。

這對于習慣做奧數題的中國人來說并不難理解。除非考試出原題,單純把例題背下來沒有任何益處,有時候還會誤導思路、適得其反。

作者提出,雖然無法查看GPT-4的訓練數據,但從行為來看,強烈懷疑模型是「死記硬背」了看似合理的示例或解題模式,因而給出了錯誤答案。

他們還發現,在LLM對數學問題的回答中,人類感知到的「有用性」和答案本身的「正確性」這兩個指標高度相關,皮爾遜相關系數高達0.83。

也許這就是為什么Gowers在推文中會用「廢話比率」來調侃LLM。


如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!

官網有更詳細介紹:WildCard

推薦閱讀:

GPT-4替代大學生參加考試,94%成功作弊未被發現!

GPT-4o首次引入!全新圖像自動評估基準發布!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/37237.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/37237.shtml
英文地址,請注明出處:http://en.pswp.cn/web/37237.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

游戲推薦: 植物大戰僵尸雜交版

下載地址網上一搜就有. 安裝就能玩. 2是顯血. 4顯示植物血, 5是加速. 都是左手主鍵盤的按鈕, 再按是取消. 比較刺激: ps: 設置里面還能打開自動收集陽光和金幣.

視頻融合共享平臺LntonCVS統一視頻接入平臺智慧安防應用方案

安防視頻監控平臺LntonCVS是一款擁有強大拓展性和靈活部署能力的綜合管理平臺。它支持多種主流標準協議,包括國標GB28181、RTSP/Onvif、RTMP等,同時兼容各廠家的私有協議和SDK,如海康Ehome、海大宇等。LntonCVS不僅具備傳統安防視頻監控功能&…

深入解析Tomcat:Java Web服務器(上)

深入解析Tomcat:Java Web服務器(上) Apache Tomcat是一個開源的Java Web服務器和Servlet容器,用于運行Java Servlets和JavaServer Pages (JSP)。Tomcat在Java Web應用開發中扮演著重要角色。本文將詳細介紹Tomcat的基本概念、安裝…

遙遠星辰中的覺醒:超大質量黑洞的蘇醒

遙遠星辰中的覺醒:超大質量黑洞的蘇醒 在浩渺無垠的宇宙中,星辰的閃爍仿佛是時間的漣漪,穿越億萬年的距離,抵達我們的眼眸。而在這片星辰大海的深處,一個驚人的現象正在悄然上演——距離地球3.6億光年之遙的星系中&am…

【C++】空指針訪問成員函數

空指針訪問成員函數 C中空指針也是可以調用成員函數的,但是也要注意有沒有用到this指針 如果用到this指針,需要加以判斷保證代碼的健壯性 class Animal { public:void fun1() {//正常的成員函數}void fun2() {if (this NULL) {return;//如果沒有這個…

Django 一對一關系

作用: 兩個數據庫表建立外鍵關系當外鍵表的數據被刪除時,主表的數據也會一并刪除。 1,添加表模型 Test/app8/views.pyfrom django.db import modelsclass User(models.Model):username models.CharField(max_length50, uniqueTrue)email …

【代碼隨想錄訓練營】【Day 65】【圖論-2】| 卡碼 99

【代碼隨想錄訓練營】【Day 65】【圖論-2】| 卡碼 99 需強化知識點 深度搜索和廣度搜索 題目 99. 島嶼數量 思想:遍歷到為1的節點,再搜索標記,每遇到新的陸地節點,增加計數 深度搜索廣度搜索:此處用 [] 作為待遍…

前端面試必備:深入解析Vue.js中v-if與v-show的原理與應用

前言 在Vue.js中,條件渲染是一個核心的概念,它允許我們根據數據的狀態來動態地顯示或隱藏元素。v-if和v-show是Vue.js提供的兩個最常用的條件渲染指令,它們在表面上看起來很相似,但實際上在背后的工作原理和適用場景上有著顯著的…

2024年度濰坊市職業技能大賽 —網絡搭建(網絡與信息安全管理員)職業技能競賽賽項規程

2024年度濰坊市職業技能大賽 —網絡搭建(網絡與信息安全管理員)職業技能競賽賽項技術文件................................ 一、賽項簡介...................................... 3 二、競賽規程...................................... 3 &#xff08…

【Linux系統】進程替換 自主實現shell(簡易版)

1.先看代碼 && 現象 我們用exec*函數執行新的程序, exec*系列的函數,執行完畢后,后續的代碼不見了,因為被替換了。 execl的返回值可以不關心了,只要替換成功,就不會向后繼續運行,只要…

第5講:建立自己的C函數庫,js調用自己寫的C/C++函數,并包含依賴C/C++第三方靜態庫。

在javascript中,Array有很多內置的功能,比如Array.map,Array.filter,Array.find等等,能用內置的功能就用內置的功能,最好不要自己實現一套,因為底層調用的可能壓根就不是js語言本身,…

[AIGC] awk 和 sed

在Unix系統中,有兩種強大的用于文本操作的命令工具,它們就是awk和sed。這兩個命令工具是每個Linux用戶必備的知識之一,尤其對于需要進行文本處理或數據抽取的開發者來說,更加重要。 在實際開發過程中,我們常常需要處理…

JavaScript中的hasOwnProperty方法詳解

JavaScript中的hasOwnProperty方法詳解 大家好,我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編,也是冬天不穿秋褲,天冷也要風度的程序猿! 什么是hasOwnProperty方法? 在JavaScript中,h…

Wails 安裝初體驗

文章目錄 Wails 安裝說明1. 系統要求2. 安裝步驟3. 構建應用 結論 Wails 安裝說明 Wails 是一個用于構建桌面應用的 Go 框架,結合了現代前端技術。以下是安裝步驟: 1. 系統要求 Go 1.16 或更高版本Node.js 和 npm可選:適用于 Windows、mac…

【機器學習】機器學習的重要方法——強化學習:理論,方法與實踐

目錄 一、強化學習的核心概念 二、強化學習算法的分類與示例代碼 三.強化學習的優勢 四.強化學習的應用與挑戰 五、總結與展望 強化學習:理論,方法和實踐 在人工智能的廣闊領域中,強化學習(Reinforcement Learning, RL&…

轉自羅翔老師的畢業寄語(二)

其實我很想祝大家一帆風順,可是我覺得這不現實。 智者說人這一生至少有三件事是無法避免的,一個是苦難,一個是邪惡,還有一個是人生的終點。所以真的愿我們每時每刻都在當下存儲足夠美好的記憶去對抗人生不期而至的苦楚&#xff0c…

基于源碼詳解ThreadPoolExecutor實現原理

個人博客地址 基于源碼詳解ThreadPoolExecutor實現原理 | iwts’s blog 內容拆分 這里算是一個總集,內容太多,拆分成幾個比較重要的小的模塊: ThreadPoolExecutor基于ctl變量的聲明周期管理 | iwts’s blog ThreadPoolExecutor 工作線程…

模板方法模式在金融業務中的應用及其框架實現

引言 模板方法模式(Template Method Pattern)是一種行為設計模式,它在一個方法中定義一個算法的框架,而將一些步驟的實現延遲到子類中。模板方法允許子類在不改變算法結構的情況下重新定義算法的某些步驟。在金融業務中&#xff…

可信和可解釋的大語言模型推理-RoG

大型語言模型(LLM)在復雜任務中表現出令人印象深刻的推理能力。然而,LLM在推理過程中缺乏最新的知識和經驗,這可能導致不正確的推理過程,降低他們的表現和可信度。知識圖譜(Knowledge graphs, KGs)以結構化的形式存儲了…

基于lightgbm hyperopt的旋轉機械故障診斷(Python)

前置文章: 將一維機械振動信號構造為訓練集和測試集(Python) https://mp.weixin.qq.com/s/DTKjBo6_WAQ7bUPZEdB1TA 旋轉機械振動信號特征提取(Python) https://mp.weixin.qq.com/s/VwvzTzE-pacxqb9rs8hEVw import…