?? 引言:從人類天才到AI奇才的跨越
想象一下,一個AI模型坐在國際數學奧林匹克(IMO)的考場里,手里拿著筆(好吧,其實是處理token),面對那些讓高中生們頭疼不已的難題。它不是靠死記硬背,而是通過深思熟慮的推理,一步步攻克難關。這聽起來像科幻小說,但2025年,這已成為現實。Google的Gemini 2.5 Pro模型,在一篇名為“Gemini 2.5 Pro Capable of Winning Gold at IMO 2025”的論文中,展示了它解決IMO 2025五道難題的能力,達到了金牌水平。這篇論文由Yichen Huang和Lin F. Yang撰寫,發表于2025年7月28日,揭示了AI在數學推理上的驚人進步。
IMO是數學界的珠穆朗瑪峰,每年吸引全球頂尖青少年參賽。這些問題需要深刻的洞察力、創造性和嚴謹推理,而大型語言模型(LLM)以往在這種級別上常常栽跟頭。論文作者強調,傳統基準如GSMSK或MATH只是高中水平,LLM可以通過模式識別輕松過關,但IMO要求真正的創新和抽象思維。這就好比讓一個只會背菜譜的廚師去發明新菜肴——容易出錯。但Gemini 2.5 Pro,通過一個精心設計的自驗證管道,成功解決了6道問題中的5道,避免了數據污染,確保了公平性。這不僅僅是技術演示,更是AI從“模仿者”向“思考者”轉型的生動故事。
?? 背景:AI數學的痛點與突破
為什么IMO這么難?因為它暴露了LLM的弱點:泛化能力差、容易幻覺(hallucinations),以及依賴訓練數據。論文引用了多項研究,如[7]中提到的LLM在高風險領域如科學發現的可靠性問題。作者選擇IMO 2025的新問題作為測試床,確保模型未見過類似內容