目錄
01 大言模型能否解決「狼-山羊-卷心菜」經典過河難題?
02?加大難度:100只雞、1000只雞如何?
01 大言模型能否解決「狼-山羊-卷心菜」經典過河難題?
最近,菲爾茲獎得主Timothy Gowers分享了他測試GPT-4o的經歷,結果模型在最簡單的題目上竟然出錯了,甚至網友們發現,Claude 3.5也未能幸免。
GPT-4o深夜發布!Plus免費可用!https://www.zhihu.com/pin/1773645611381747712
在經典的「狼-山羊-卷心菜」過河問題上,如今所有的大語言模型都失敗了!
幾天前,菲爾茲獎得主、劍橋大學研究主任Timothy Gowers直接測試了GPT-4o,試圖解決這個動物過河難題。
他提出了一個新的評估標準——廢話比率(crapness ratio),即模型給出的總答案與正確答案之間的比率。
經過測試,Gowers發現大模型的廢話比率可以高達5倍。
一開始,他提出了一個農民帶2只雞過河的題目:一只船只能容納一個人和2個動物,那么農夫帶著兩只雞渡河所需的最少渡河次數是多少?
?沒體驗過OpenAI最新版GPT-4o?快戳最詳細升級教程,幾分鐘搞定:
升級ChatGPT-4o Turbo步驟https://www.zhihu.com/pin/1768399982598909952
別說成年人了,就連小孩子都能立刻給出正確答案。
搞笑的是,ChatGPT的回答分解成了5個步驟,看起來極其愚蠢荒謬。
第一次渡河:農夫帶著兩只雞一起過河;現狀:農夫和兩只雞在河對岸。第二次渡河:農夫把兩只雞留在對岸,然后獨自返回;現狀:農夫在起始岸,兩只雞在對岸。
第三次渡河:農夫帶一只雞過河;現狀:農夫和一只雞在對岸,一只雞在起始岸。
第四次渡河:農夫把雞留在對岸,獨自返回;現狀:農夫在起始岸,一只雞在對岸。
第五次渡河:農夫帶著第二只雞過河。現狀:農夫和兩只雞都在對岸。
因此,農夫帶兩只雞過河所需的最少次數是5次。
這里,ChatGPT必須在邏輯上把「農民」和人聯系起來,把「雞」和動物聯系起來,然后規劃出最佳的過河次數。
對此,LeCun表示,大模型的全新基準——廢話比率。
當然,也有網友為大語言模型打抱不平。
他表示,你可以對任何人做類似的事情。
如果你愿意,可以讓任何一個人不及格。大語言模型與人類的智商相去甚遠,但把它們放在極端的測試中并不能很好地評估它們。
02?加大難度:100只雞、1000只雞如何?
如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!
官網有更詳細介紹:WildCard
為了得到更高的廢話比率,Gowers這次提出了100只雞過河的問題。
雖然沒有公布具體的解題過程,但Gowers表示,GPT-4o竟然答對了。
接下來,再次加大難度,一個農民帶1000只雞過河,模型表現如何?
提示是,1000只雞在河的一邊,農夫需要將999只雞移到河的另一邊,留下1只雞在起點。
然而,他的船上有一個洞,所以在每次渡河開始時,他可以帶上十只雞。但到渡河快結束時,船里進了太多水,如果不想讓任何雞溺水,就只能容納兩只雞。
為了實現目標而不讓任何雞溺亡,農民最少需要渡河幾次?
Gowers表示,這次的廢話比率是125倍。
隨后,Gowers展示了相當長的例子,卻發現ChatGPT的答案比正確答案呈指數級增長。(然而,這更多與它的數學能力有關,所以有點取巧。)
在網友測試的一個案例中,即使被告知農夫根本不需要過河,GPT-4o仍提出了一個9次渡河的復雜解決方案。
而且它忽視了重要的約束條件,比如不能讓雞單獨和狼在一起,這本來是完全可行的,因為農夫根本不需要過河。
在對GPT-4、InstructGPT和ChatGPT進行評估的過程中,研究人員果然發現了LLM犯數學錯誤的一個可能原因——模型似乎傾向于依賴記憶來解題。
在數學領域,記住概念和定義是必不可少的,但具體問題的解決更需要一種通用、可概括的理解。
這對于習慣做奧數題的中國人來說并不難理解。除非考試出原題,單純把例題背下來沒有任何益處,有時候還會誤導思路、適得其反。
作者提出,雖然無法查看GPT-4的訓練數據,但從行為來看,強烈懷疑模型是「死記硬背」了看似合理的示例或解題模式,因而給出了錯誤答案。
他們還發現,在LLM對數學問題的回答中,人類感知到的「有用性」和答案本身的「正確性」這兩個指標高度相關,皮爾遜相關系數高達0.83。
也許這就是為什么Gowers在推文中會用「廢話比率」來調侃LLM。
如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!
官網有更詳細介紹:WildCard
推薦閱讀:
GPT-4替代大學生參加考試,94%成功作弊未被發現!
GPT-4o首次引入!全新圖像自動評估基準發布!