作者:Ignacio de Gregorio
圖片來自 Unsplash 的 Bahnijit Barman
幾周前,我們看到 Anthropic 嘗試訓練 Claude 去通關寶可夢。模型是有點進展,但離真正通關還差得遠。
但現在,一個獨立的小團隊用一個只有一千萬參數的模型通關了寶可夢,比主流前沿 AI 模型小了幾千倍。
舉個例子,它比最先進的 DeepSeek V3 模型小了 60,500 倍。
但這怎么可能呢?這么小的模型怎么能比所謂的“前沿模型”表現得還好?難道 AI 實驗室的錢都打水漂了嗎?
答案是:深度詛咒。這是一個很有意思的現象,任何想了解 AI 中最反直覺的問題之一,以及業界打造 AGI 最靠譜路徑的人,都值得看看。
訓練 AI 處理長線任務
這個小模型是通過強化學習算法(Reinforcement Learning,簡稱 RL)訓練出來的。就像我以前說過很多次的,這個技術就是給 AI 一個目標和一些約束條件,讓它學會一套能達成目標的行動策略。
但這次我想聚焦在三件事上:
- 為什么 RL 和過去兩年我們用大語言模型(LLM)做的事不一樣,
- 為什么它對于推動 AI 到新高度至關重要,
- 還有,為什么這么小的模型能打敗大塊頭們?
我們來深入看看。
從模仿到探索
如果我們看看 AI 的最前沿,有兩種主要的訓練范式:模仿學習和探索學習。
模仿學習顧名思義就是讓模型模仿它的訓練數據。通過這種模仿,模型能識別出數據中的底層模式,然后學著去模仿它們。
在 LLM 的情況下,這個訓練過程叫做“預訓練”,模型會被暴露在互聯網級別的大數據集上,它要學會如何模仿這些內容(當然我們也會加些小技巧,讓模型在推理階段生成相似的內容,而不是一模一樣的句子;不然它就只是個數據庫了)。
模仿學習在讓 AI 行為像人方面非常優秀,而且在我們手上有大量可供模仿的數據時,是最佳選擇。
但它也會促進記憶式的訓練(說到底,就是讓模型模仿數據嘛),這也解釋了為什么 LLM 的表現主要依賴于它們的記憶能力,而不是真正的智能。
也就是說,模仿學習終究是有上限的。因為有很多應用場景,我們希望 AI 能處理的,恰恰卡在兩個問題上:
- 我們沒那么多數據給它模仿;
- 我們也不想讓它去“模仿”,尤其是那種背誦式的,而是要它“真正推理”。
說到這,舉個最好的例子就是:推理類任務。
AI 推理的科學
首先,推理類數據(就是人類會明確寫出他們怎么推理的過程)非常少。再者,前面說過了,我們不希望 AI 是模仿,我們希望它“跳出框框”,或者更準確地說,在記憶不起作用的時候,探索出不同的解決方式。
基本上我在講的就是為什么普通的非推理類 LLM 在推理任務上很拉胯——它們不是被訓練來“推理”的,而是訓練來“復讀”的,所以它們只能“執行”它們記住的任務,本質上就是死記硬背而不是邏輯思考。
換句話說,有些任務是需要探索的,就像你也不是每道數學題都能一眼解出來。但是你有那個直覺——數學的“先驗知識”——你能通過嘗試去探索直到找到答案。
所以最近我們就把一個探索階段,也就是 RL 階段,加到了 LLM 上面,讓它們去“探索”。
那這到底是怎么工作的?
理解推理訓練
探索訓練的基本思路就是讓模型輸出不同的答案,然后我們在訓練時實時給予反饋,看哪個答案好,哪個不好。這樣模型就能學會什么行為會帶來好結果,什么不會。
你可以把這個訓練想象成“熱還是冷”游戲:我們告訴模型“熱”或者“冷”,這樣它就能一步步靠近目標(當然實際比這復雜多了,但基本邏輯就是這樣)。在實際操作中,這就變成了大規模的試錯游戲。
第一個真正用上探索訓練的 LLM 是 DeepSeek R1(可能 o3 更早,但他們后來才承認)。
可以想象,這個方法極大地提高了 AI 在推理任務上的表現,于是我們才有了所謂的“推理模型”,像前面提到的 OpenAI 的 o1/o3 或 DeepSeek 的 R1。
在 LLM 的世界里,這種探索訓練讓模型發展出了推理技巧,比如反思(模型能反省自己的“想法”)、回溯(模型承認錯誤并自行糾正)等等。
通俗點說,就是靠“蠻力”試錯,模型學會了怎么最有效地解決問題。這也是為什么 DeepSeek 的結果被認為是重大突破。
在 DeepSeek/OpenAI 出現之前,我們所謂的 RL 其實只是“人類反饋的強化學習”(RLHF),就是模型在兩個選項中學會挑出更合適的那個,以此符合工程師希望的行為。但這當中沒有探索,所以其實說是 RL 有點名不副實。
注意:大多數實驗室現在仍然會用 RLHF,但只是作為進入“真正 RL”前的一個階段。
總結一下,現在這些前沿推理模型的訓練流程分兩個步驟:
- 通過模仿學習把知識“塞進”模型,造出一個非推理模型(也就是傳統的 LLM);
- 然后基于這個“認知基礎”(或者說是直覺引擎,畢竟這個模型對問題處理還是有點直覺的),我們跑一輪探索訓練,讓它靠這些直覺去探索、去學會推理,最終造出一個推理模型。
如果這樣理解更容易,那你可以把“推理”看作:直覺(內置知識和經驗)+ 搜索。
換句話說,推理 = 直覺驅動的探索。
說清楚 RL 在現在 AI 世界的重要性之后,我們還沒回答這個問題:
一個小得不能再小的純 RL 模型,怎么能打敗用 RL 訓練過的、像 Claude 3.7 Sonnet 這樣的推理 LLM?
廣度 vs 深度
幾十年來,AI 一直在“廣”與“深”之間拉扯。
- LLM 是“廣”的代表。它們是超大規模的模型,被喂進各種你能找到的數據,目標是實現泛化,也就是在沒見過的數據任務上也能表現不錯。
- 相對的,像 AlphaGo/AlphaZero 或這次的寶可夢模型,就是“深”的代表。它們只用 RL 訓練,而且只聚焦在一個任務上。
在“基礎模型”出現之前(它們之所以被叫這個名字就是這個原因),AI 一直是“深”的游戲:每個模型只專注一個任務。
而如今,大部分資金都砸在“廣”的模型上。為什么?這樣做有什么代價?
你大概已經猜到了,答案就是:AGI(通用人工智能)之夢。
主流觀點是,超級智能的 AI 應該是通用的。不需要它對每個任務都訓練得很深入(這也不現實),但它應該有一套足夠好的“先驗知識”,能在沒訓練的任務上也有 decent 的表現。
有趣的是,雖然這個觀點沒錯(也確實有證據,比如 AlphaZero 在多個棋類游戲上都超過了專精模型),但超級 AI 的表現卻反著來。
人類歷史上所有達到“超人水平”的 AI(就是遠遠超越人類的)全是單任務模型,比如 AlphaGo(圍棋)。
而到目前為止,沒有一個“廣”的模型,在任何一個任務上做到超人。
這就解釋了為什么我們今天討論的這個寶可夢模型,雖然比 SOTA 小了四個數量級,卻輕松打爆它們:
這個模型放棄了“廣”,換來了在一個任務上的極致表現。
換句話說,它小巧、靈活,只專注一個任務,所以才能練出這個任務的終極能力,甚至反過來打敗“全能型”的選手。它靠的是“開掛式”的探索學習。
這又意味著什么?
不像 LLM,因為太貴,無法讓它們跑非常長時間的探索來找最優策略;小模型恰好相反:它可能在多個任務上都拉,但在那個唯一訓練過的任務上,它能打出神級表現。
總結一句話,這個小團隊之所以能訓練出一個能打爆主流模型的寶可夢 AI,就是因為雖然我們知道 RL 很強,但我們還沒學會怎么在“基礎模型”上正確地跑 RL。
這能不能做到、能不能把 RL 訓練應用到大模型上,就是現在所有頂級 AI 實驗室都在努力搞清楚的問題。
所以,RL 是答案嗎?
這項研究看起來可能有點泄氣:
- 我們 AI 的路是不是走錯了?
- 是不是在大模型上燒錢沒意義?
- AGI 是不是應該由一堆小的、單任務的模型組成?
我能理解你有這些想法,但我其實恰恰相反地看:
這又一次證明了 RL 是有效的,我們只需要找到方法,把它擴展到更大規模上。
如果我們能在 LLM 的基礎上跑出純 RL,那我們可能就找到了通往新時代 AI 的路:不再是“模仿”智能,而是真正擁有某種程度的“智能”。
這會不會把 AI 推向真正的智能?我們希望如此,但也不能確定。不過這是我們唯一已知的靠譜賭注,那就只能希望它能成功了。
但我們現在搞清楚怎么讓這一步發生了嗎?沒有,那些被吹成“博士水平”的 LLM 連井字棋都玩不好。
總的來說,本文最重要的 takeaway 是:RL,或者說探索學習,依然是唯一一個在某些情況下能做到“超人表現”的方法。
雖然手段不同、技術各異,但從基本原理上看,所有 AI 實驗室走的其實是一條路:直覺驅動的搜索。
你只需要知道這一點,就能明白現在前沿 AI 的真相。他們全都在玩同一個游戲。
剩下的,就只是工程和資本分配而已。