李宏毅2025《機器學習》-第九講：大型語言模型評測的困境與“古德哈特定律”**

摘要：
隨著大型語言模型（LLM）的推理能力日益增強，如何公平、準確地評測其“智力”水平，成了一個極其棘手的問題。本文基于李宏毅教授的最新課程，深入探討了當前LLM評測面臨的困境。文章首先揭示了標準數學和編程測試背后可能存在的“數據污染”問題，即模型可能是在“背答案”而非真正地推理。隨后，文章考察了兩種試圖規避此問題的先進評測方案：以抽象智力測驗為核心的ARC-AGI，以及以全民投票為機制的Chatbot Arena。然而，即便是這些方案，也分別面臨著被“應試技巧”攻破和被“人類風格偏好”干擾的風險。最終，文章以“古德哈特定律”和“眼鏡蛇效應”為警示，引出對當前評測體系的反思：當評測指標本身成為模型優化的唯一目標時，我們是否正在偏離打造真正智能的初衷？

1. 數學題的“假象”：是真推理，還是“背答案”？

當前，評測一個LLM推理能力的主流方法簡單而粗暴：直接用高難度的數學題（如AIME數學競賽題）和編程題來“考試”。模型答對了，就被認為具備強大的推理能力。各大頂尖AI公司的技術報告，無一不將此類榜單的成績作為展示其模型實力的核心證據。

但一個根本性的疑問始終存在：模型是真的在一步步邏輯推理，還是僅僅因為它在海量的互聯網訓練數據中“恰好”見過這道題或極其相似的題目，然后“裝模作樣”地復現出記憶中的答案？

1.1 “換湯不換藥”的測試：當模型遭遇小改動

為了驗證這一疑慮，研究者們進行了一系列精巧的實驗。一篇論文針對著名的GSM8K數學應用題數據集進行了“微擾”測試，在完全不改變題目難度和解題邏輯的前提下，做出一些細微修改：

替換人名： 將題目中的“Sophia”換成其他名字。
替換無關詞匯： 將“侄子”換成其他親屬稱謂。
替換數字： 改變題目中的具體數值。

結果顯示，絕大多數模型在面對這些“換湯不換藥”的題目時，正確率都出現了不同程度的下降。這一現象有力地暗示，模型在訓練中確實對特定的題目模式產生了“記憶”，而非完全依賴純粹的邏輯推理。另一項研究甚至發現，僅僅是將題目中的句子順序顛倒（在不影響語義理解的情況下），同樣會導致模型的正確率下滑。

1.2 “污染”無法根除：數據清洗的局限性

有人可能會提議，解決方案很簡單：只要在訓練數據中，把所有已知的測試題都清洗掉不就行了？然而，這種“數據去污”（Decontamination）的方法在實踐中幾乎不可能徹底執行。

試想，有人可能將GSM8K的題目翻譯成蒙古文發布在某個小眾論壇上，而這個內容恰好被模型的網絡爬蟲抓取并用于訓練。由于頂尖LLM已具備強大的跨語言理解能力，即便它看到的是蒙古文，也相當于“偷看”了這道題。我們不可能將所有測試題翻譯成全世界的所有語言，再去進行地毯式的排查。因此，我們永遠無法100%確定，模型在接受測試時，是否早已對題目“了然于胸”。

2. 尋找“純粹”的試金石：從抽象推理到人類偏好

鑒于傳統題庫的不可靠性，學術界和工業界開始探索更“純粹”、更難被“污染”的評測方法。

2.1 抽象推理的堡壘：ARC-AGI的挑戰與代價

ARC-AGI（Abstraction and Reasoning Corpus - Artificial General Intelligence）是一個旨在測量“純粹智能”的基準測試，由Keras框架的作者Fran?ois Chollet創建。

形式： 它由一系列抽象的圖形智力測驗題組成。系統會給出幾組“輸入-輸出”的范例，要求模型觀察并推斷出其中的轉換規則，然后應用于一個新的輸入圖形上。
優勢： 這類題目高度抽象，在互聯網上幾乎不存在現成的答案，被認為能有效避免“背題”問題。ARC-AGI自2019年問世以來，AI模型的性能提升一直非常緩慢，不像其他基準測試在短時間內就被“刷爆”，因此被視為衡量真正推理能力的“硬骨頭”。
突破與代價： 近期，OpenAI的o1系列模型在ARC-AGI上取得了驚人的突破，其最高性能甚至超越了普通人類，接近頂尖理工科學生的水平。然而，這份成績單的背后是天文數字般的計算成本——據報告披露，模型回答一題就需要耗費相當于1000美元的算力。
能否被“攻破”？ 盡管如此，李宏毅教授認為，即便是ARC-AGI也并非牢不可破。既然題目的“范式”是已知的，就完全有可能通過程序自動生成數千萬道類似的題目，對模型進行專項“應試訓練”，從而“破解”這個測試。

2.2 全民公投的舞臺：Chatbot Arena的機制與偏見

既然任何固定的題庫都有被“應試”攻破的風險，那么能否讓全世界的人類用戶來充當“考官”呢？這就是Chatbot Arena背后的思想。

機制： 用戶訪問平臺后，系統會隨機提供兩個匿名的模型（模型A和模型B）。用戶向它們提出同一個問題，然后根據回答的質量，投票選出自己更喜歡的一個。
ELO評分系統： 平臺利用這些成對的比賽結果，為每個模型計算出一個類似國際象棋的ELO等級分，從而生成一個動態的、被廣泛引用的LLM排行榜。

這種“全民公投”的方式，因其題目的開放性和不可預測性，被認為很難被傳統方法“攻擊”。但它真的無懈可擊嗎？

3. 當評測本身被“攻擊”：風格、偏見與ELO修正模型

事實證明，Chatbot Arena可以被另一種方式“攻擊”——利用人類固有的認知偏見。

3.1 人類的“偏心”：表情包和加粗體的影響力

社區中流傳著一些“傳說”：在Chatbot Arena上，如果你的模型回答更長、更多地使用Emoji、或更善于運用加粗、項目符號等排版格式，它就更容易獲得用戶的青睞。

這背后是一個深刻的洞察：當一個普通人評判一個遠比自己聰明的AI時，他往往無法判斷其回答內容的深層正確性。這就像聽一個諾貝爾獎得主演講，你無法驗證他的理論，只能根據一些表面特征來評價，比如“他講話真風趣”、“PPT做得真漂亮”。同理，用戶在無法辨別兩個AI答案的優劣時，自然會傾向于那個“風格”更討喜的。

3.2 剝離風格濾鏡：修正ELO模型如何還原“真實戰力”

Chatbot Arena的運營方也意識到了這個問題，并開發出了一套更復雜的修正版ELO評分模型來剝離風格偏見。

標準ELO模型： 模型的勝率只取決于雙方的“戰力”（βi和βj）之差。
修正ELO模型： 在“戰力”之外，引入了一個偏見項β0。這個偏見項是各種風格因素的加權總和，例如：
β0 = γ1 * (長度差異) + γ2 * (Emoji數量差異) + ...
通過對海量比賽數據進行統計回歸，系統可以計算出每個風格因素的影響權重（γ值）。如果在最終計算排名時，將這些由風格造成的“偏心分”剔除，就能得到一個更接近模型“真實戰力”的排名。

修正后的結果令人震驚：許多模型的排名發生了巨大變化。例如，以能力強大但“說話無聊”（很少用Emoji）著稱的Claude系列模型，在剔除風格影響后，其排名大幅躍升。這證明，在未經修正的評測中，模型的“口才”和“排版技巧”在很大程度上影響了其最終得分。