李宏毅2025《機器學習》-第九講:大型語言模型評測的困境與“古德哈特定律”**

摘要:
隨著大型語言模型(LLM)的推理能力日益增強,如何公平、準確地評測其“智力”水平,成了一個極其棘手的問題。本文基于李宏毅教授的最新課程,深入探討了當前LLM評測面臨的困境。文章首先揭示了標準數學和編程測試背后可能存在的“數據污染”問題,即模型可能是在“背答案”而非真正地推理。隨后,文章考察了兩種試圖規避此問題的先進評測方案:以抽象智力測驗為核心的ARC-AGI,以及以全民投票為機制的Chatbot Arena。然而,即便是這些方案,也分別面臨著被“應試技巧”攻破和被“人類風格偏好”干擾的風險。最終,文章以“古德哈特定律”和“眼鏡蛇效應”為警示,引出對當前評測體系的反思:當評測指標本身成為模型優化的唯一目標時,我們是否正在偏離打造真正智能的初衷?


1. 數學題的“假象”:是真推理,還是“背答案”?

當前,評測一個LLM推理能力的主流方法簡單而粗暴:直接用高難度的數學題(如AIME數學競賽題)和編程題來“考試”。模型答對了,就被認為具備強大的推理能力。各大頂尖AI公司的技術報告,無一不將此類榜單的成績作為展示其模型實力的核心證據。

但一個根本性的疑問始終存在:模型是真的在一步步邏輯推理,還是僅僅因為它在海量的互聯網訓練數據中“恰好”見過這道題或極其相似的題目,然后“裝模作樣”地復現出記憶中的答案?

1.1 “換湯不換藥”的測試:當模型遭遇小改動

為了驗證這一疑慮,研究者們進行了一系列精巧的實驗。一篇論文針對著名的GSM8K數學應用題數據集進行了“微擾”測試,在完全不改變題目難度和解題邏輯的前提下,做出一些細微修改:

  • 替換人名: 將題目中的“Sophia”換成其他名字。
  • 替換無關詞匯: 將“侄子”換成其他親屬稱謂。
  • 替換數字: 改變題目中的具體數值。

結果顯示,絕大多數模型在面對這些“換湯不換藥”的題目時,正確率都出現了不同程度的下降。這一現象有力地暗示,模型在訓練中確實對特定的題目模式產生了“記憶”,而非完全依賴純粹的邏輯推理。另一項研究甚至發現,僅僅是將題目中的句子順序顛倒(在不影響語義理解的情況下),同樣會導致模型的正確率下滑。

1.2 “污染”無法根除:數據清洗的局限性

有人可能會提議,解決方案很簡單:只要在訓練數據中,把所有已知的測試題都清洗掉不就行了?然而,這種“數據去污”(Decontamination)的方法在實踐中幾乎不可能徹底執行。

試想,有人可能將GSM8K的題目翻譯成蒙古文發布在某個小眾論壇上,而這個內容恰好被模型的網絡爬蟲抓取并用于訓練。由于頂尖LLM已具備強大的跨語言理解能力,即便它看到的是蒙古文,也相當于“偷看”了這道題。我們不可能將所有測試題翻譯成全世界的所有語言,再去進行地毯式的排查。因此,我們永遠無法100%確定,模型在接受測試時,是否早已對題目“了然于胸”。

2. 尋找“純粹”的試金石:從抽象推理到人類偏好

鑒于傳統題庫的不可靠性,學術界和工業界開始探索更“純粹”、更難被“污染”的評測方法。

2.1 抽象推理的堡壘:ARC-AGI的挑戰與代價

ARC-AGI(Abstraction and Reasoning Corpus - Artificial General Intelligence)是一個旨在測量“純粹智能”的基準測試,由Keras框架的作者Fran?ois Chollet創建。

  • 形式: 它由一系列抽象的圖形智力測驗題組成。系統會給出幾組“輸入-輸出”的范例,要求模型觀察并推斷出其中的轉換規則,然后應用于一個新的輸入圖形上。
  • 優勢: 這類題目高度抽象,在互聯網上幾乎不存在現成的答案,被認為能有效避免“背題”問題。ARC-AGI自2019年問世以來,AI模型的性能提升一直非常緩慢,不像其他基準測試在短時間內就被“刷爆”,因此被視為衡量真正推理能力的“硬骨頭”。
  • 突破與代價: 近期,OpenAI的o1系列模型在ARC-AGI上取得了驚人的突破,其最高性能甚至超越了普通人類,接近頂尖理工科學生的水平。然而,這份成績單的背后是天文數字般的計算成本——據報告披露,模型回答一題就需要耗費相當于1000美元的算力。
  • 能否被“攻破”? 盡管如此,李宏毅教授認為,即便是ARC-AGI也并非牢不可破。既然題目的“范式”是已知的,就完全有可能通過程序自動生成數千萬道類似的題目,對模型進行專項“應試訓練”,從而“破解”這個測試。
2.2 全民公投的舞臺:Chatbot Arena的機制與偏見

既然任何固定的題庫都有被“應試”攻破的風險,那么能否讓全世界的人類用戶來充當“考官”呢?這就是Chatbot Arena背后的思想。

  • 機制: 用戶訪問平臺后,系統會隨機提供兩個匿名的模型(模型A和模型B)。用戶向它們提出同一個問題,然后根據回答的質量,投票選出自己更喜歡的一個。
  • ELO評分系統: 平臺利用這些成對的比賽結果,為每個模型計算出一個類似國際象棋的ELO等級分,從而生成一個動態的、被廣泛引用的LLM排行榜。

這種“全民公投”的方式,因其題目的開放性和不可預測性,被認為很難被傳統方法“攻擊”。但它真的無懈可擊嗎?

3. 當評測本身被“攻擊”:風格、偏見與ELO修正模型

事實證明,Chatbot Arena可以被另一種方式“攻擊”——利用人類固有的認知偏見

3.1 人類的“偏心”:表情包和加粗體的影響力

社區中流傳著一些“傳說”:在Chatbot Arena上,如果你的模型回答更長、更多地使用Emoji、或更善于運用加粗、項目符號等排版格式,它就更容易獲得用戶的青睞。

這背后是一個深刻的洞察:當一個普通人評判一個遠比自己聰明的AI時,他往往無法判斷其回答內容的深層正確性。這就像聽一個諾貝爾獎得主演講,你無法驗證他的理論,只能根據一些表面特征來評價,比如“他講話真風趣”、“PPT做得真漂亮”。同理,用戶在無法辨別兩個AI答案的優劣時,自然會傾向于那個“風格”更討喜的。

3.2 剝離風格濾鏡:修正ELO模型如何還原“真實戰力”

Chatbot Arena的運營方也意識到了這個問題,并開發出了一套更復雜的修正版ELO評分模型來剝離風格偏見。

  • 標準ELO模型: 模型的勝率只取決于雙方的“戰力”(βiβj)之差。
  • 修正ELO模型: 在“戰力”之外,引入了一個偏見項β0。這個偏見項是各種風格因素的加權總和,例如:
    β0 = γ1 * (長度差異) + γ2 * (Emoji數量差異) + ...
  • 通過對海量比賽數據進行統計回歸,系統可以計算出每個風格因素的影響權重(γ值)。如果在最終計算排名時,將這些由風格造成的“偏心分”剔除,就能得到一個更接近模型“真實戰力”的排名。

修正后的結果令人震驚:許多模型的排名發生了巨大變化。例如,以能力強大但“說話無聊”(很少用Emoji)著稱的Claude系列模型,在剔除風格影響后,其排名大幅躍升。這證明,在未經修正的評測中,模型的“口才”和“排版技巧”在很大程度上影響了其最終得分。

4. 總結:“眼鏡蛇效應”的警示——我們究竟在評測什么?

從數學題的“數據污染”,到ARC-AGI的“應試”風險,再到Chatbot Arena的“風格偏見”,我們發現,尋找一個完美、絕對公平的LLM評測指標,或許是一個不可能完成的任務。

這引出了經濟學中一個著名的定律——古德哈特定律(Goodhart’s Law):

“當一項指標成為目標時,它就不再是一個好的指標。”

一旦所有AI公司都將目標設定為“在某個特定排行榜上取得高分”時,它們努力的方向就會從“打造更通用的智能”,異化為“研究如何在這個特定測試中拿高分”。

這個現象可以用一個更廣為人知的故事來詮釋——“眼鏡蛇效應”

英國殖民時期的印度,政府為解決蛇患,頒布法令獎勵民眾上交眼鏡蛇。起初效果顯著,但很快,人們發現了一條“致富之路”:自己在家中大規模養殖眼鏡蛇,然后拿去換取賞金。最終,該政策不僅沒能消滅蛇患,反而導致眼鏡蛇數量激增。

今天我們對LLM排行榜的狂熱追逐,又何嘗不是在“懸賞眼鏡蛇”呢?過分在意一個或幾個評測指標,只會讓模型的進化走向“應試化”的歧途。這堂課的最終結語或許是:我們需要從對排名的執念中跳脫出來,回歸到對智能本質的探索,否則,我們所有的努力都可能被精心設計的評測系統所“異化”。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/93572.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/93572.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/93572.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot集成Chaos Monkey:構建高韌性系統的故障注入實戰指南

Spring Boot集成Chaos Monkey:構建高韌性系統的故障注入實戰指南一、Chaos Engineering核心原理1.1 混沌工程價值矩陣1.2 Chaos Monkey核心攻擊類型二、Spring Boot集成Chaos Monkey2.1 基礎集成配置依賴引入配置文件 - application.yml2.2 高級攻擊策略配置自定義攻…

AtCoder Beginner Contest 416(ABCDE)

A - Vacation Validation 翻譯&#xff1a; 給你一個長度為 N 的字符串 S&#xff0c;它由 o 和 x 以及整數 L 和 R 組成。 請判斷 S 中從第 L 個字符到第 R 個字符的所有字符是否都是 o。 思路&#xff1a; &#xff08;模擬&#xff09; 實現&#xff1a; #include<bits…

【AlphaFold3】網絡架構篇(2)|Input Embedding 對輸入進行特征嵌入

博主簡介&#xff1a;努力學習的22級計算機科學與技術本科生一枚&#x1f338;博主主頁&#xff1a; Yaoyao2024往期回顧&#xff1a;【AlphaFold3】網絡架構篇&#xff08;1&#xff09;|概覽預測算法每日一言&#x1f33c;: 去留無意&#xff0c;閑看庭前花開花落&#xff1b…

秋招Day20 - 微服務 - 概念

什么是微服務&#xff1f;將一個大型的單體項目分割成一個個可以獨立開發和部署的小服務&#xff0c;服務之間松耦合&#xff0c;可以通過輕量級通信機制&#xff08;比如HTTP&#xff09;相互協作微服務帶來了哪些挑戰&#xff1f; 介紹一下一下Dubbo&#xff1f;Dubbo是一個高…

PyTorch 生態四件套:從圖片、視頻到文本、語音的“開箱即用”實踐筆記

寫在前面 當我們談論 PyTorch 時&#xff0c;我們首先想到的是 torch.Tensor、nn.Module 和強大的自動求導系統。但 PyTorch 的力量遠不止于此。為了讓開發者能更高效地處理圖像、文本、音頻、視頻等真實世界的復雜數據&#xff0c;PyTorch 建立了一個強大的官方生態系統。本文…

2023 年 NOI 最后一題題解

問題描述2023 年 NOI 最后一題是一道融合圖論與動態規劃的綜合優化問題&#xff0c;聚焦于帶時間窗約束的多路徑規劃。題目具體要求如下&#xff1a;給定一個有向圖&#xff0c;其中節點代表城市&#xff0c;邊代表交通路線。每條邊具有三個屬性&#xff1a;行駛時間、基礎費用…

Android補全計劃 TextView設置文字不同字體和顏色

1 富文本 1 java中動態加載文本 顏色 String strMsg "今天<font color\"#00ff00\">天氣不錯</font>"; tv_msg.setText(Html.fromHtml(strMsg));字體和顏色 String str2 "今天<font color\"#00ff00\"><big>天氣不…

C語言:詳解單鏈表與例題

C語言&#xff1a;詳解單鏈表與例題 1.單鏈表的實現 2.例題&#xff1a;移除鏈表元素 1.單鏈表的實現 鏈表根據帶頭或不帶頭、單向或雙向、循環或不循環分類為8種&#xff0c;最常用的是單鏈表和雙向鏈表&#xff0c;單鏈表是 不帶頭單向不循環 鏈表。 鏈表由節點組成&#xff…

從0開始學習R語言--Day62--RE插補

對于會有多次測量值的數據&#xff0c;用普通的回歸去插補&#xff0c;往往會忽略掉數據個體本身的特點&#xff0c;畢竟多次的測量值其實就代表了數據個體的不穩定性&#xff0c;存在額外的干擾。而RE的插補原理是結合個體本身的隨機效應和群體的固體效應再加上截距進行插補的…

RESTful API開發指南:使用Spring Boot構建企業級接口

目錄 1. 引言2. RESTful API基礎概念3. Spring Boot環境搭建4. 項目結構設計5. 核心組件開發6. 數據庫集成7. 安全認證8. 異常處理9. API文檔生成10. 測試策略11. 部署與監控12. 最佳實踐 1. 引言 在現代軟件開發中&#xff0c;RESTful API已成為構建分布式系統和微服務架構…

從 Print 到 Debug:用 PyCharm 掌控復雜程序的調試之道

目錄摘要調試工具窗口會話工具欄調試工具欄單步工具欄調試器選項卡調用棧幀&#xff08;Frames&#xff09;變量&#xff08;Variables&#xff09;&#x1f4a1; 表達式求值區域&#xff08;Evaluate expression field&#xff09;&#x1f5b1;? 右鍵菜單&#xff08;Contex…

用于前列腺活檢分級的分層視覺 Transformer:邁向彌合泛化差距|文獻速遞-醫學影像算法文獻分享

Title題目Hierarchical Vision Transformers for prostate biopsy grading: Towardsbridging the generalization gap用于前列腺活檢分級的分層視覺 Transformer&#xff1a;邁向彌合泛化差距01文獻速遞介紹前列腺癌是全球男性中第二常見的確診癌癥&#xff0c;也是第五大致命癌…

Apple基礎(Xcode②-Flutter結構解析)

&#x1f3d7;? 目錄結構速查表&#xff08;your_project/ios/ 下&#xff09;ios/ ├── Runner/ ← 原生 iOS 工程根目錄&#xff08;Xcode 打開它&#xff09; │ ├── AppDelegate.swift ← App 入口&#xff08;類似 Android 的 MainActivity&…

X00229-基于深度強化學習的車聯網資源分配python完整

X00229-基于深度強化學習的車聯網資源分配python完整

面向多模態自監督學習的共享表示與獨有表示解耦

通俗說法&#xff1a;在多模態自監督學習中&#xff0c;將共享信息和獨有信息分離開來 Abstract 問題&#xff1a; 傳統方法通常假設在訓練和推理階段都可以訪問所有模態信息&#xff0c;這在實際應用中面對模態不完整輸入時會導致性能顯著下降。 解決方法&#xff1a;提出了一…

【iOS】weak修飾符

前言前面我們已經學習了解了sideTable&#xff0c;今天來看看在OC中&#xff0c;sideTable是如何在我們使用weak時工作的。在OC中&#xff0c;weak修飾符是一種用于聲明“弱引用”的關鍵字&#xff0c;其核心特性是不參與對象的引用計數管理&#xff0c;而且當被引用的對象被釋…

【JVM篇10】:三種垃圾回收算法對比詳解

文章目錄1. 標記-清除算法2. 復制算法3. 標記-整理算法總結與面試要點在通過 可達性分析等算法識別出所有存活對象和垃圾對象后&#xff0c;垃圾收集器&#xff08;GC&#xff1a;Garbage Collector&#xff09;就需要執行回收操作來釋放垃圾對象所占用的內存。以下是三種最基礎…

JXD進步25.7.30

1.為啥是update&#xff0c;因為你if判斷有問題。或者是你上來就給id賦值了。2. 這個是清空network歷史3.斷點位置打在這里&#xff1a;打在上面它進不來4.

Flutter開發實戰之網絡請求與數據處理

第6章:網絡請求與數據處理 “數據是應用的血液,網絡是連接世界的橋梁。” 在移動應用開發中,與服務器進行數據交互是必不可少的功能。無論是獲取用戶信息、提交表單數據,還是上傳圖片、下載文件,都離不開網絡請求。本章將帶你深入掌握Flutter中的網絡編程技巧。 6.1 網絡…

快速分頁實現熱點功能-索引和order by

需求:分頁求出進三天的發布視頻的權重熱度 權重 / 衰減時間 衰減時間 當前時間 - 視頻發布時間 小根堆來實現這個公式可以很好的利用半衰期來進行解決難點:如果一次性加載太多到springBoot服務器里面會造成堆內存占用過多&#xff0c;分頁又有可能造成深分頁問題&#xff0c;…