小了 60,500 倍，但更強；AI 的“深度詛咒”

作者：Ignacio de Gregorio

圖片來自 Unsplash 的 Bahnijit Barman

幾周前，我們看到 Anthropic 嘗試訓練 Claude 去通關寶可夢。模型是有點進展，但離真正通關還差得遠。

但現在，一個獨立的小團隊用一個只有一千萬參數的模型通關了寶可夢，比主流前沿 AI 模型小了幾千倍。

舉個例子，它比最先進的 DeepSeek V3 模型小了 60,500 倍。

但這怎么可能呢？這么小的模型怎么能比所謂的“前沿模型”表現得還好？難道 AI 實驗室的錢都打水漂了嗎？

答案是：深度詛咒。這是一個很有意思的現象，任何想了解 AI 中最反直覺的問題之一，以及業界打造 AGI 最靠譜路徑的人，都值得看看。

訓練 AI 處理長線任務

這個小模型是通過強化學習算法（Reinforcement Learning，簡稱 RL）訓練出來的。就像我以前說過很多次的，這個技術就是給 AI 一個目標和一些約束條件，讓它學會一套能達成目標的行動策略。

但這次我想聚焦在三件事上：

為什么 RL 和過去兩年我們用大語言模型（LLM）做的事不一樣，
為什么它對于推動 AI 到新高度至關重要，
還有，為什么這么小的模型能打敗大塊頭們？

我們來深入看看。

從模仿到探索

如果我們看看 AI 的最前沿，有兩種主要的訓練范式：模仿學習和探索學習。

模仿學習顧名思義就是讓模型模仿它的訓練數據。通過這種模仿，模型能識別出數據中的底層模式，然后學著去模仿它們。

在 LLM 的情況下，這個訓練過程叫做“預訓練”，模型會被暴露在互聯網級別的大數據集上，它要學會如何模仿這些內容（當然我們也會加些小技巧，讓模型在推理階段生成相似的內容，而不是一模一樣的句子；不然它就只是個數據庫了）。

模仿學習在讓 AI 行為像人方面非常優秀，而且在我們手上有大量可供模仿的數據時，是最佳選擇。

但它也會促進記憶式的訓練（說到底，就是讓模型模仿數據嘛），這也解釋了為什么 LLM 的表現主要依賴于它們的記憶能力，而不是真正的智能。

也就是說，模仿學習終究是有上限的。因為有很多應用場景，我們希望 AI 能處理的，恰恰卡在兩個問題上：

我們沒那么多數據給它模仿；
我們也不想讓它去“模仿”，尤其是那種背誦式的，而是要它“真正推理”。

說到這，舉個最好的例子就是：推理類任務。

AI 推理的科學

首先，推理類數據（就是人類會明確寫出他們怎么推理的過程）非常少。再者，前面說過了，我們不希望 AI 是模仿，我們希望它“跳出框框”，或者更準確地說，在記憶不起作用的時候，探索出不同的解決方式。

基本上我在講的就是為什么普通的非推理類 LLM 在推理任務上很拉胯——它們不是被訓練來“推理”的，而是訓練來“復讀”的，所以它們只能“執行”它們記住的任務，本質上就是死記硬背而不是邏輯思考。

換句話說，有些任務是需要探索的，就像你也不是每道數學題都能一眼解出來。但是你有那個直覺——數學的“先驗知識”——你能通過嘗試去探索直到找到答案。

所以最近我們就把一個探索階段，也就是 RL 階段，加到了 LLM 上面，讓它們去“探索”。

那這到底是怎么工作的？

理解推理訓練

探索訓練的基本思路就是讓模型輸出不同的答案，然后我們在訓練時實時給予反饋，看哪個答案好，哪個不好。這樣模型就能學會什么行為會帶來好結果，什么不會。

你可以把這個訓練想象成“熱還是冷”游戲：我們告訴模型“熱”或者“冷”，這樣它就能一步步靠近目標（當然實際比這復雜多了，但基本邏輯就是這樣）。在實際操作中，這就變成了大規模的試錯游戲。

第一個真正用上探索訓練的 LLM 是 DeepSeek R1（可能 o3 更早，但他們后來才承認）。

可以想象，這個方法極大地提高了 AI 在推理任務上的表現，于是我們才有了所謂的“推理模型”，像前面提到的 OpenAI 的 o1/o3 或 DeepSeek 的 R1。

在 LLM 的世界里，這種探索訓練讓模型發展出了推理技巧，比如反思（模型能反省自己的“想法”）、回溯（模型承認錯誤并自行糾正）等等。

通俗點說，就是靠“蠻力”試錯，模型學會了怎么最有效地解決問題。這也是為什么 DeepSeek 的結果被認為是重大突破。

在 DeepSeek/OpenAI 出現之前，我們所謂的 RL 其實只是“人類反饋的強化學習”（RLHF），就是模型在兩個選項中學會挑出更合適的那個，以此符合工程師希望的行為。但這當中沒有探索，所以其實說是 RL 有點名不副實。

注意：大多數實驗室現在仍然會用 RLHF，但只是作為進入“真正 RL”前的一個階段。

總結一下，現在這些前沿推理模型的訓練流程分兩個步驟：

通過模仿學習把知識“塞進”模型，造出一個非推理模型（也就是傳統的 LLM）；
然后基于這個“認知基礎”（或者說是直覺引擎，畢竟這個模型對問題處理還是有點直覺的），我們跑一輪探索訓練，讓它靠這些直覺去探索、去學會推理，最終造出一個推理模型。

如果這樣理解更容易，那你可以把“推理”看作：直覺（內置知識和經驗）+ 搜索。

換句話說，推理 = 直覺驅動的探索。

說清楚 RL 在現在 AI 世界的重要性之后，我們還沒回答這個問題：

一個小得不能再小的純 RL 模型，怎么能打敗用 RL 訓練過的、像 Claude 3.7 Sonnet 這樣的推理 LLM？

廣度 vs 深度

幾十年來，AI 一直在“廣”與“深”之間拉扯。

LLM 是“廣”的代表。它們是超大規模的模型，被喂進各種你能找到的數據，目標是實現泛化，也就是在沒見過的數據任務上也能表現不錯。
相對的，像 AlphaGo/AlphaZero 或這次的寶可夢模型，就是“深”的代表。它們只用 RL 訓練，而且只聚焦在一個任務上。

在“基礎模型”出現之前（它們之所以被叫這個名字就是這個原因），AI 一直是“深”的游戲：每個模型只專注一個任務。

而如今，大部分資金都砸在“廣”的模型上。為什么？這樣做有什么代價？

你大概已經猜到了，答案就是：AGI（通用人工智能）之夢。

主流觀點是，超級智能的 AI 應該是通用的。不需要它對每個任務都訓練得很深入（這也不現實），但它應該有一套足夠好的“先驗知識”，能在沒訓練的任務上也有 decent 的表現。

有趣的是，雖然這個觀點沒錯（也確實有證據，比如 AlphaZero 在多個棋類游戲上都超過了專精模型），但超級 AI 的表現卻反著來。

人類歷史上所有達到“超人水平”的 AI（就是遠遠超越人類的）全是單任務模型，比如 AlphaGo（圍棋）。

而到目前為止，沒有一個“廣”的模型，在任何一個任務上做到超人。

這就解釋了為什么我們今天討論的這個寶可夢模型，雖然比 SOTA 小了四個數量級，卻輕松打爆它們：

這個模型放棄了“廣”，換來了在一個任務上的極致表現。

換句話說，它小巧、靈活，只專注一個任務，所以才能練出這個任務的終極能力，甚至反過來打敗“全能型”的選手。它靠的是“開掛式”的探索學習。

這又意味著什么？

不像 LLM，因為太貴，無法讓它們跑非常長時間的探索來找最優策略；小模型恰好相反：它可能在多個任務上都拉，但在那個唯一訓練過的任務上，它能打出神級表現。

總結一句話，這個小團隊之所以能訓練出一個能打爆主流模型的寶可夢 AI，就是因為雖然我們知道 RL 很強，但我們還沒學會怎么在“基礎模型”上正確地跑 RL。

這能不能做到、能不能把 RL 訓練應用到大模型上，就是現在所有頂級 AI 實驗室都在努力搞清楚的問題。

所以，RL 是答案嗎？

這項研究看起來可能有點泄氣：

我們 AI 的路是不是走錯了？
是不是在大模型上燒錢沒意義？
AGI 是不是應該由一堆小的、單任務的模型組成？

我能理解你有這些想法，但我其實恰恰相反地看：

這又一次證明了 RL 是有效的，我們只需要找到方法，把它擴展到更大規模上。

如果我們能在 LLM 的基礎上跑出純 RL，那我們可能就找到了通往新時代 AI 的路：不再是“模仿”智能，而是真正擁有某種程度的“智能”。

這會不會把 AI 推向真正的智能？我們希望如此，但也不能確定。不過這是我們唯一已知的靠譜賭注，那就只能希望它能成功了。

但我們現在搞清楚怎么讓這一步發生了嗎？沒有，那些被吹成“博士水平”的 LLM 連井字棋都玩不好。

總的來說，本文最重要的 takeaway 是：RL，或者說探索學習，依然是唯一一個在某些情況下能做到“超人表現”的方法。

雖然手段不同、技術各異，但從基本原理上看，所有 AI 實驗室走的其實是一條路：直覺驅動的搜索。

你只需要知道這一點，就能明白現在前沿 AI 的真相。他們全都在玩同一個游戲。

剩下的，就只是工程和資本分配而已。

小了 60,500 倍，但更強；AI 的“深度詛咒”

相關文章

nextjs使用02

github 無法在shell里鏈接

當前主流的大模型知識庫軟件對比分析

Java的比較器 Comparable 和 Comparator

基于Qlearning強化學習的太赫茲信道信號檢測與識別matlab仿真

力扣刷題————199.二叉樹的右視圖

文件包含漏洞的小點總結

深度學習處理時間序列（5）

操作系統相關知識點

從0到1：Rust 如何用 FFmpeg 和 OpenGL 打造硬核視頻特效

【并發編程 | 第一篇】線程相關基礎知識

Kafka 偏移量

18.redis基本操作

歷年跨鏈合約惡意交易詳解（一）——THORChain退款邏輯漏洞

通俗易懂的講解SpringBean生命周期

深入理解 `git pull --rebase` 與 `--allow-unrelated-histories`：區別、原理與實戰指南

Matlab_Simulink中導入CSV數據與仿真實現方法

Spring Boot 中 JdbcTemplate 處理枚舉類型轉換和減少數據庫連接的方法的詳細說明，包含代碼示例和關鍵要點

API 安全之認證鑒權

MATLAB繪圖配色包說明