小了 60,500 倍,但更強;AI 的“深度詛咒”

作者:Ignacio de Gregorio

圖片來自 Unsplash 的 Bahnijit Barman

幾周前,我們看到 Anthropic 嘗試訓練 Claude 去通關寶可夢。模型是有點進展,但離真正通關還差得遠。

但現在,一個獨立的小團隊用一個只有一千萬參數的模型通關了寶可夢,比主流前沿 AI 模型小了幾千倍。

舉個例子,它比最先進的 DeepSeek V3 模型小了 60,500 倍。

但這怎么可能呢?這么小的模型怎么能比所謂的“前沿模型”表現得還好?難道 AI 實驗室的錢都打水漂了嗎?

答案是:深度詛咒。這是一個很有意思的現象,任何想了解 AI 中最反直覺的問題之一,以及業界打造 AGI 最靠譜路徑的人,都值得看看。

訓練 AI 處理長線任務

這個小模型是通過強化學習算法(Reinforcement Learning,簡稱 RL)訓練出來的。就像我以前說過很多次的,這個技術就是給 AI 一個目標和一些約束條件,讓它學會一套能達成目標的行動策略。

但這次我想聚焦在三件事上:

  1. 為什么 RL 和過去兩年我們用大語言模型(LLM)做的事不一樣,
  2. 為什么它對于推動 AI 到新高度至關重要,
  3. 還有,為什么這么小的模型能打敗大塊頭們?

我們來深入看看。

從模仿到探索

如果我們看看 AI 的最前沿,有兩種主要的訓練范式:模仿學習和探索學習。

模仿學習顧名思義就是讓模型模仿它的訓練數據。通過這種模仿,模型能識別出數據中的底層模式,然后學著去模仿它們。

在 LLM 的情況下,這個訓練過程叫做“預訓練”,模型會被暴露在互聯網級別的大數據集上,它要學會如何模仿這些內容(當然我們也會加些小技巧,讓模型在推理階段生成相似的內容,而不是一模一樣的句子;不然它就只是個數據庫了)。

模仿學習在讓 AI 行為像人方面非常優秀,而且在我們手上有大量可供模仿的數據時,是最佳選擇。

但它也會促進記憶式的訓練(說到底,就是讓模型模仿數據嘛),這也解釋了為什么 LLM 的表現主要依賴于它們的記憶能力,而不是真正的智能。

也就是說,模仿學習終究是有上限的。因為有很多應用場景,我們希望 AI 能處理的,恰恰卡在兩個問題上:

  1. 我們沒那么多數據給它模仿;
  2. 我們也不想讓它去“模仿”,尤其是那種背誦式的,而是要它“真正推理”。

說到這,舉個最好的例子就是:推理類任務。

AI 推理的科學

首先,推理類數據(就是人類會明確寫出他們怎么推理的過程)非常少。再者,前面說過了,我們不希望 AI 是模仿,我們希望它“跳出框框”,或者更準確地說,在記憶不起作用的時候,探索出不同的解決方式。

基本上我在講的就是為什么普通的非推理類 LLM 在推理任務上很拉胯——它們不是被訓練來“推理”的,而是訓練來“復讀”的,所以它們只能“執行”它們記住的任務,本質上就是死記硬背而不是邏輯思考。

換句話說,有些任務是需要探索的,就像你也不是每道數學題都能一眼解出來。但是你有那個直覺——數學的“先驗知識”——你能通過嘗試去探索直到找到答案。

所以最近我們就把一個探索階段,也就是 RL 階段,加到了 LLM 上面,讓它們去“探索”。

那這到底是怎么工作的?

理解推理訓練

探索訓練的基本思路就是讓模型輸出不同的答案,然后我們在訓練時實時給予反饋,看哪個答案好,哪個不好。這樣模型就能學會什么行為會帶來好結果,什么不會。

你可以把這個訓練想象成“熱還是冷”游戲:我們告訴模型“熱”或者“冷”,這樣它就能一步步靠近目標(當然實際比這復雜多了,但基本邏輯就是這樣)。在實際操作中,這就變成了大規模的試錯游戲。

第一個真正用上探索訓練的 LLM 是 DeepSeek R1(可能 o3 更早,但他們后來才承認)。

可以想象,這個方法極大地提高了 AI 在推理任務上的表現,于是我們才有了所謂的“推理模型”,像前面提到的 OpenAI 的 o1/o3 或 DeepSeek 的 R1。

在 LLM 的世界里,這種探索訓練讓模型發展出了推理技巧,比如反思(模型能反省自己的“想法”)、回溯(模型承認錯誤并自行糾正)等等。

通俗點說,就是靠“蠻力”試錯,模型學會了怎么最有效地解決問題。這也是為什么 DeepSeek 的結果被認為是重大突破。

在 DeepSeek/OpenAI 出現之前,我們所謂的 RL 其實只是“人類反饋的強化學習”(RLHF),就是模型在兩個選項中學會挑出更合適的那個,以此符合工程師希望的行為。但這當中沒有探索,所以其實說是 RL 有點名不副實。

注意:大多數實驗室現在仍然會用 RLHF,但只是作為進入“真正 RL”前的一個階段。

總結一下,現在這些前沿推理模型的訓練流程分兩個步驟:

  1. 通過模仿學習把知識“塞進”模型,造出一個非推理模型(也就是傳統的 LLM);
  2. 然后基于這個“認知基礎”(或者說是直覺引擎,畢竟這個模型對問題處理還是有點直覺的),我們跑一輪探索訓練,讓它靠這些直覺去探索、去學會推理,最終造出一個推理模型。

如果這樣理解更容易,那你可以把“推理”看作:直覺(內置知識和經驗)+ 搜索。

換句話說,推理 = 直覺驅動的探索

說清楚 RL 在現在 AI 世界的重要性之后,我們還沒回答這個問題:

一個小得不能再小的純 RL 模型,怎么能打敗用 RL 訓練過的、像 Claude 3.7 Sonnet 這樣的推理 LLM

廣度 vs 深度

幾十年來,AI 一直在“廣”與“深”之間拉扯。

  • LLM 是“廣”的代表。它們是超大規模的模型,被喂進各種你能找到的數據,目標是實現泛化,也就是在沒見過的數據任務上也能表現不錯。
  • 相對的,像 AlphaGo/AlphaZero 或這次的寶可夢模型,就是“深”的代表。它們只用 RL 訓練,而且只聚焦在一個任務上。

在“基礎模型”出現之前(它們之所以被叫這個名字就是這個原因),AI 一直是“深”的游戲:每個模型只專注一個任務。

而如今,大部分資金都砸在“廣”的模型上。為什么?這樣做有什么代價?

你大概已經猜到了,答案就是:AGI(通用人工智能)之夢

主流觀點是,超級智能的 AI 應該是通用的。不需要它對每個任務都訓練得很深入(這也不現實),但它應該有一套足夠好的“先驗知識”,能在沒訓練的任務上也有 decent 的表現。

有趣的是,雖然這個觀點沒錯(也確實有證據,比如 AlphaZero 在多個棋類游戲上都超過了專精模型),但超級 AI 的表現卻反著來。

人類歷史上所有達到“超人水平”的 AI(就是遠遠超越人類的)全是單任務模型,比如 AlphaGo(圍棋)。

而到目前為止,沒有一個“廣”的模型,在任何一個任務上做到超人。

這就解釋了為什么我們今天討論的這個寶可夢模型,雖然比 SOTA 小了四個數量級,卻輕松打爆它們:

這個模型放棄了“廣”,換來了在一個任務上的極致表現。

換句話說,它小巧、靈活,只專注一個任務,所以才能練出這個任務的終極能力,甚至反過來打敗“全能型”的選手。它靠的是“開掛式”的探索學習。

這又意味著什么?

不像 LLM,因為太貴,無法讓它們跑非常長時間的探索來找最優策略;小模型恰好相反:它可能在多個任務上都拉,但在那個唯一訓練過的任務上,它能打出神級表現。

總結一句話,這個小團隊之所以能訓練出一個能打爆主流模型的寶可夢 AI,就是因為雖然我們知道 RL 很強,但我們還沒學會怎么在“基礎模型”上正確地跑 RL。

這能不能做到、能不能把 RL 訓練應用到大模型上,就是現在所有頂級 AI 實驗室都在努力搞清楚的問題。

所以,RL 是答案嗎?

這項研究看起來可能有點泄氣:

  • 我們 AI 的路是不是走錯了?
  • 是不是在大模型上燒錢沒意義?
  • AGI 是不是應該由一堆小的、單任務的模型組成?

我能理解你有這些想法,但我其實恰恰相反地看:

這又一次證明了 RL 是有效的,我們只需要找到方法,把它擴展到更大規模上。

如果我們能在 LLM 的基礎上跑出純 RL,那我們可能就找到了通往新時代 AI 的路:不再是“模仿”智能,而是真正擁有某種程度的“智能”。

這會不會把 AI 推向真正的智能?我們希望如此,但也不能確定。不過這是我們唯一已知的靠譜賭注,那就只能希望它能成功了。

但我們現在搞清楚怎么讓這一步發生了嗎?沒有,那些被吹成“博士水平”的 LLM 連井字棋都玩不好。

總的來說,本文最重要的 takeaway 是:RL,或者說探索學習,依然是唯一一個在某些情況下能做到“超人表現”的方法。

雖然手段不同、技術各異,但從基本原理上看,所有 AI 實驗室走的其實是一條路:直覺驅動的搜索

你只需要知道這一點,就能明白現在前沿 AI 的真相。他們全都在玩同一個游戲。

剩下的,就只是工程和資本分配而已。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/74183.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/74183.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/74183.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

nextjs使用02

并行路由 同一個頁面,放多個路由,, 目錄前面加,layout中可以當作插槽引入 import React from "react";function layout({children,notifications,user}:{children:React.ReactNode,notifications:React.ReactNode,user:React.Re…

github 無法在shell里鏈接

當我在shell端git push時,我發現總是22 timeout的問題。 我就進行了以下步驟的嘗試并最終得到了解決。 第一步,我先確定我可以curl github,也就是我網絡沒問題 curl -v https://github.com 如果這個時候不超時和報錯,說明網絡…

當前主流的大模型知識庫軟件對比分析

以下是當前主流的大模型知識庫軟件對比分析,涵蓋功能特性、適用場景及優劣勢,結合最新技術動態和行業實踐提供深度選型參考: 一、企業級智能知識庫平臺 1. 阿里云百煉(Model Studio) 核心能力:基于RAG技…

Java的比較器 Comparable 和 Comparator

在 Java 中,Comparable 和 Comparator 是用于對象排序的重要接口。它們提供了不同的排序方式,適用于不同的需求,同時在 Java 底層排序算法中發揮著關鍵作用。本文將從基礎概念、使用方法、排序實現(包括升序、降序)、底…

基于Qlearning強化學習的太赫茲信道信號檢測與識別matlab仿真

目錄 1.算法仿真效果 2.算法涉及理論知識概要 2.1 太赫茲信道特性 2.2 Q-learning強化學習基礎 2.3 基于Q-learning 的太赫茲信道信號檢測與識別系統 3.MATLAB核心程序 4.完整算法代碼文件獲得 1.算法仿真效果 matlab2024b仿真結果如下(完整代碼運行后無水印…

力扣刷題————199.二叉樹的右視圖

給定一個二叉樹的 根節點 root,想象自己站在它的右側,按照從頂部到底部的順序,返回從右側所能看到的節點值。 示例 1: 輸入:root [1,2,3,null,5,null,4] 輸出:[1,3,4] 解題思路:我們可以想到這…

文件包含漏洞的小點總結

文件本地與遠程包含: 文件包含有本地包含與遠程包含的區別:本地包含只能包含服務器已經有的問題; 遠程包含可以包含一切網絡上的文件。 本地包含: ①無限制 感受一下使用phpstudy的文件上傳,開啟phpstudy的apache…

深度學習處理時間序列(5)

Keras中的循環層 上面的NumPy簡單實現對應一個實際的Keras層—SimpleRNN層。不過,二者有一點小區別:SimpleRNN層能夠像其他Keras層一樣處理序列批量,而不是像NumPy示例中的那樣只能處理單個序列。也就是說,它接收形狀為(batch_si…

操作系統相關知識點

操作系統在進行線程切換時需要進行哪些動作? 保存當前線程的上下文 保存寄存器狀態、保存棧信息。 調度器選擇下一個線程 調度算法決策:根據策略(如輪轉、優先級、公平共享)從就緒隊列選擇目標線程。 處理優先級:實時…

從0到1:Rust 如何用 FFmpeg 和 OpenGL 打造硬核視頻特效

引言:視頻特效開發的痛點,你中了幾個? 視頻特效如今無處不在:短視頻平臺的濾鏡美化、直播間的實時美顏、影視后期的電影級調色,甚至 AI 生成內容的動態效果。無論是個人開發者還是團隊,視頻特效都成了吸引…

【并發編程 | 第一篇】線程相關基礎知識

1.并發和并行有什么區別 并發是指多核CPU上的多任務處理,多個任務在同一時刻真正同時執行。 并行是指單核CPU上的多任務處理,多個任務在同一時間段內交替執行,通過時間片輪轉實現交替執行,用于解決IO密集型瓶頸。 如何理解線程安…

Kafka 偏移量

在 Apache Kafka 中,偏移量(Offset)是一個非常重要的概念。它不僅用于標識消息的位置,還在多種場景中發揮關鍵作用。本文將詳細介紹 Kafka 偏移量的核心概念及其使用場景。 一、偏移量的核心概念 1. 定義 偏移量是一個非負整數…

18.redis基本操作

Redis(Remote Dictionary Server)是一個開源的、高性能的鍵值對(Key-Value)存儲數據庫,廣泛應用于緩存、消息隊列、實時分析等場景。它以其極高的讀寫速度、豐富的數據結構和靈活的應用方式而受到開發者的青睞。 Redis 的主要特點 ?高性能: ?內存存儲:Redis 將所有數…

歷年跨鏈合約惡意交易詳解(一)——THORChain退款邏輯漏洞

漏洞合約函數 function returnVaultAssets(address router, address payable asgard, Coin[] memory coins, string memory memo) public payable {if (router address(this)){for(uint i 0; i < coins.length; i){_adjustAllowances(asgard, coins[i].asset, coins[i].a…

通俗易懂的講解SpringBean生命周期

&#x1f4d5;我是廖志偉&#xff0c;一名Java開發工程師、《Java項目實戰——深入理解大型互聯網企業通用技術》&#xff08;基礎篇&#xff09;、&#xff08;進階篇&#xff09;、&#xff08;架構篇&#xff09;清華大學出版社簽約作家、Java領域優質創作者、CSDN博客專家、…

深入理解 `git pull --rebase` 與 `--allow-unrelated-histories`:區別、原理與實戰指南

&#x1f680; git pull --rebase vs --allow-unrelated-histories 全面解析 在日常使用 Git 時&#xff0c;我們經常遇到兩種拉取遠程代碼的方式&#xff1a;git pull --rebase 和 git pull --allow-unrelated-histories。它們的區別是什么&#xff1f;各自適用哪些場景&…

Matlab_Simulink中導入CSV數據與仿真實現方法

前言 在Simulink仿真中&#xff0c;常需將外部數據&#xff08;如CSV文件或MATLAB工作空間變量&#xff09;作為輸入信號驅動模型。本文介紹如何高效導入CSV數據至MATLAB工作空間&#xff0c;并通過From Workspace模塊實現數據到Simulink的精確傳輸&#xff0c;適用于運動控制…

Spring Boot 中 JdbcTemplate 處理枚舉類型轉換 和 減少數據庫連接的方法 的詳細說明,包含代碼示例和關鍵要點

以下是 Spring Boot 中 JdbcTemplate 處理枚舉類型轉換 和 減少數據庫連接的方法 的詳細說明&#xff0c;包含代碼示例和關鍵要點&#xff1a; 一、JdbcTemplate 處理枚舉類型轉換 1. 場景說明 假設數據庫存儲的是枚舉的 String 或 int 值&#xff0c;但 Java 實體類使用 enu…

API 安全之認證鑒權

作者&#xff1a;半天 前言 API 作為企業的重要數字資源&#xff0c;在給企業帶來巨大便利的同時也帶來了新的安全問題&#xff0c;一旦被攻擊可能導致數據泄漏重大安全問題&#xff0c;從而給企業的業務發展帶來極大的安全風險。正是在這樣的背景下&#xff0c;OpenAPI 規范…

MATLAB繪圖配色包說明

本欄目將分享MATLAB數據分析圖表&#xff0c;該貼講述配色包的使用 將配色包colormap_nclCM文件夾添加到路徑close all&#xff08;盡量不要刪&#xff09;&#xff0c;使用map colormap(nclCM(309))時會多出來一張空白圖片。配色資源來自slandarer&#xff1b;找不到合適顏色…