Make RL Great Again：大語言模型時代的強化學習推理丨記深度推理模型論壇

進入2025年，大模型依賴Scaling Law提升性能的方式正面臨邊際遞減。一方面算力成本居高不下，另一方面訓練效率與推理質量難以兼顧。在這種背景下，模型正悄然從“模仿機器”轉向“思考引擎”。

6月7日，以“推理”為核心的智源大會·深度推理模型論壇在北京舉行，清華、北大、南大、上交、港科大、人大等高校的研究者與螞蟻、DeepSeek等業界技術專家同臺，圍繞大模型的“第二增長曲線”展開深入討論。

（回放鏈接：https://event.baai.ac.cn/live/896）

在主旨報告環節，丁寧、俞揚及何俊賢的研究深入探討了強化學習在模型能力進化中的核心作用，揭示了如何通過設計精巧的獎勵機制與算法，讓模型在探索與自我修正中提升推理效率與泛化表現；袁境陽與吳翼著眼于“原生稀疏注意力”與“大規模強化學習系統”，試圖讓大模型從受制于算力瓶頸的“效率負擔”，轉變為在軟硬件協同下高效訓練；劉鵬飛與竇志成探討了“認知工程”與“深度信息獲取”，試圖讓模型從簡單的知識工具，進化為能深度思考、解決真實世界復雜問題的“思考模型”；而張志強的工作揭示了模型訓練背后深刻的數學規律，為龐大的預訓練工程提供了科學的指南。

在最后的圓桌討論中，各位專家學者進一步圍繞深度推理模型的誕生、核心挑戰與未來應用展開了精彩的思想碰撞。這些討論不僅厘清了當下研究的關鍵問題，更為我們描繪了一年內技術落地的可能圖景。

袁境陽：《原生稀疏注意力機制：關注硬件的原生可訓練稀疏注意力大模型》

長文本處理是大模型研究的核心挑戰。傳統的基于 softmax 的注意力機制，其計算成本隨著序列長度的增加而快速上升，成為了性能的主要瓶頸。為了解決這一問題，學術界提出了稀疏注意力概念。雖然稀疏注意力可以幫助直接計算注意力最重要的部分，但仍然面臨以下兩大挑戰：（1）現有的方法主要針對推理階段設計，很少有針對訓練階段設計的工作。（2）很多方法宣稱大幅減少了注意力計算，在實際應用中不能完全發揮出理論優勢。

袁博士所在團隊通過原生可訓練稀疏注意力機制和硬件對齊解決上述問題。

NSA的核心設計理念如上圖所示。可訓練的稀疏架構可以進行端到端的穩定訓練。該工作實現了與硬件對齊的系統設計，保證理論上的計算減少，能實打實的提升運算速度。?

NSA 的核心架構設計包含三個并行分支的注意力框架：（1）壓縮注意力。將長序列中的 token 按序列順序區分為若干長度的相同組，通過可學習的壓縮器將每個組壓縮成單個token。模型能以很低的計算成本快速掃描整個上下文，抓住全局主旨。（2）選擇注意力。保留關鍵的細節，根據第一個分支算出的注意力得分來挑選最相關的組，并用每個組的原始 token 進行更精細的 attention 計算。（3）滑動窗口注意力。讓壓縮和選擇分支能夠更好地學習遠距離依賴，而不是一直關注近處的信息。

最終，通過門控機制，將三個分支的注意力得分加權。

NSA 可以將稀疏索引信息（壓縮的注意力梯度、稀疏信息的梯度、局部信息的梯度）進行自動的反向傳播。通過獨立的注意力分支，間接實現了稀疏索引的可學習，能夠進行端到端的穩定訓練。

之前的很多稀疏算法在論文中得到了很“美”的效果，但實際部署時沒有達到預期性能。這是因為其內存訪問模式是隨機離散的，在GPU 上的計算效率極低。

NSA 采用了分塊處理的方式，內存的讀取還是計算都會以連續的數據塊作為單位，能夠最高效地利用現代 GPU 的張量核心，最大化提升了硬件的吞吐量。

盡管 NSA 是一個稀疏模型，它卻能更好的擬合訓練數據，達到了更低的損失，有力地證明了原生可訓練設計的有效性。實驗結果不哦表明，如果讓模型從一開始就在稀疏的環境中去學習，不僅不會犧牲性能，反而可能因為更好地的過濾無關信息，從而實現了更優的收斂效果。

NAS 在涵蓋知識推理、代碼編程等 7 個主流基準評測任務上以更小的計算量，實現了超越了全量注意力模型的性能。在兼顧強大性能的同時， NSA 在效率上的同的提升也是革命性的。

丁寧:《強化學習驅動的推理模型：密集獎勵、策略和自演化》

丁老師認為，模仿和學習的Scaling Law已經結束，但研究激勵和探索的篇章才剛剛開始。計算量可以換來智能，計算量不僅包括了學習的計算量，還包括搜索的計算量。

監督學習是鼓勵模仿，強化學習是鼓勵探索。強化學習是當前最重要的技術，是典型的訓推一體的架構，理論基礎堅固。強化學習的目標是學習一個最優策略，最大化獎勵。大模型的推理添加了泛化這一維度。

包括 DeepSeekR1 在內的很多大模型，用的都是結果獎勵，沒有使用過程獎勵。而過程獎勵永遠是有用的，它很密集。然而，過程獎勵的擴展是一個難題。RLHF 等方式由人來標注，不可擴展。蒙特卡洛樹搜索在計算上也不可擴展。

為此，丁寧老師團隊提出了免費的密集獎勵方法“Implicit PRM”，相比于 MCTS 可以提升 38 倍的效率。

通過將獎勵表示為策略模型的輸出概率和參考模型的輸出概率的對數似然之比，就能證明模型在理論上學習了一個 Q。通過將兩個時刻的 Q 函數相減，就可以得到任意粒度的免費過程獎勵。

在訓練時，只使用結果獎勵訓練。推理時，可以用過程獎勵推理，可以得到中間每一個 Token 的過程獎勵，使密集獎勵可擴展。Implicit PRM代表的密集獎勵，代表的不是絕對的對與錯，而是該動作相較于其它動作的優劣。

為了應用密集獎勵。丁寧老師提出了PRIME，使用同一個模型初始化一個策略模型和一個免費的過程獎勵模型（Implicit PRM），采樣數據的輸入和輸出，對數據難度進行過濾從而保證有意義的更新，通過結果獎勵在線更新 PRM，獲得免費的過程獎勵。PRIME 是一個通用算法，可提升現有強化學習模型的效率。

為了讓模型在沒有獎勵時自己探索和進化，丁寧老師提出了測試時擴展的工作“TTRL”，在測試時估計一個靠譜的獎勵，使用強化學習執行 Test Time Training，實現模型的“自進化”。

TTRL 采用了投票的方法，針對模型給出的 N 個進行投票，如果模型原始輸出與投票結果一致則置為 1，否則為 0。這個方法的代碼非常簡單，但效果很好。在 AIME、AMC 和 MATH500 等任務上獲得了很好的性能提升，具有很好的泛化性。其效果甚至和真實標簽上訓練的模型效果接近。

TTRL 之所以有效，可能是由于在多數投票的自監督框架下，即使標簽估錯，只要輸出分散，獎勵函數仍會“陰差陽錯”地輸出大量正確獎勵，模型就能繼續進步，TTRL 賦予了模型在錯誤中自我修正的能力。

在使用強化學習訓練推理模型時，一般來說會發現兩個現象：（1）策略熵往往會急劇下降（2）模型效果急劇上升飽和。其中，熵代表隨機、探索和不確定性，獎勵則代表確定性。模型訓練過程中會出現“熵崩潰”現象。

無論用什么樣的模型和數據訓練，訓練過程會擬合出一個曲線，體現出如下所示的數學規律，指出了確定性和不確定性的定量關系：

算法不會影響這一關系，而模型的大小、數據的難度會影響。我們甚至可以通過熵根據小模型預測大模型的系數。

為了通過控制熵打破模型上限，需要要分析熵的變化。對于使用 Softmax 策略的大語言模型，連續兩步間的熵變化正比于對數概率與對應 logit 變化的協方差。對于策略梯度方法，Logits 的改變和動作的“優勢”正相關，反映了模型對動作的自信程度。高概率高優勢的動作會降低熵，低概率高優勢的動作會提高熵。通過影響策略的熵的概率更新，就可以很好地控制熵。具體而言，可以將把這些Token裁剪掉，也可以用KL散度去約束它。

吳翼：《Areal：面向大模型的大規模強化學習系統》

強化學習算法框架下，智能體跟環境進行交互，執行動作，從環境中觀測，不斷通過自我進化、迭代和探索，來最大化獎勵，最后得到一個比較好的策略。所有強化學習的算法核心是探索和利用。相較之下，大語言模型則是將所有正確的“答案”記憶下來。

隨著大語言模型的發展，為了提升模型的指令遵循能力，研究者們嘗試使用強化學習技術訓練模型，獎勵大語言模型的正確行為。此時，大模型便是強化學習框架下的智能體。

指令本身是環境和任務。動作是輸出的所有文字。為了構造獎勵，InstructGPT 采用人類反饋的強化學習，人工地為強化學習尋來呢提供獎勵。由此衍生的 ChatGPT 成功地將強化學習和大模型結合在一起，火爆出圈。

然而，通過 RLHF 做后訓練的范式其實并沒有改變強化學習的 Scaling law。一般來說，RLHF 的迭代次數是很少的，并不會提升模型的能力。

為了通過強化學習提高 AGI 的智能，O1、R1 等模型推出了推理模型，讓大模型像人一樣思考，輸出一些思考的 token，使其輸出更準確，智能化水平更高。

在“有監督微調+強化學習”的推理模型訓練范式下，需要定義獎勵函數。我們并不關心大模型去探索的思考過程，只要最后的答案正確。訓練的時間越久，測試時候思考的時間越久，模型的正確率往往越高。

然而，該場景下的強化學習往往需要耗費大量的計算資源，以 PPO 為例，其“Actor”、“Reference”、“Reward”、“Critic”都是包含大量參數的Transformer 模型，需要復雜的并行化計算。PPO 涉及的運算包含“訓練”、“推理”、“生成”三大類，相互之間具有依賴性。

盡管以“共卡順序執行”的方式實現并行化計算是一種容易實現的方案，具有低GPU等待時間，但是有大量的調度成本和通信開銷。由于不同的大模型計算模式不一樣，需要的并行策略和優化模式也不一樣，運算會非常慢。

在 MLSys 2025 發表的“Real”系統在不同的任務階段時間動態調用不同的計算資源，執行不同的策略，靈活調整并行、順序執行任務的方式。Real 實現了低通信開銷，較低的 GPU 等待時間，具有高訓練吞吐量。

近期，吳翼老師團隊針對基于強化學習的推理模型訓練提出了“AReal”系統。相較于 RLHF 算法，推理 RL 的算法流程相對簡單。然而，推理模型的輸出長度遠高于 RLHF 訓練的模型的輸出長度。隨著訓練的增加，輸出的長度不斷增長，占用的顯存也會越來越多，極易出現“OOM”顯存不足的情況。此外，對于同樣模型的不同版本，輸出長度的變化也十分顯著，不同難度的題目的輸出長度差別也較大。

在 RL 推理任務中，生成和訓練階段使用了超過 90% 的GPU 資源。針對 Batch 中輸出長度各異的情況，吳翼老師團隊提出了“動態 Batching”技術，通過貪心的方法將不同的輸出“打包”，提升 GPU 的使用效率，減少了 Microbatch 的數量。

Areal拋棄了傳統強化學習系統按批次交替進行訓練和生成的模式，用了異步的訓練方式。生成的模型不停工作，不存在等待時間。一旦生成了足夠的數據，訓練節點就開始工作。訓練結束后，訓練模型與生成模型同步模型的權重。

在異步RL中，陳舊度越大，效果越差。為此，Areal 用系統的機制控制生成的吞吐，允許生成模型適度的等待，用一個參數來控制允許的陳舊度程度。此外，吳翼老師團隊改進了PPO算法，讓PPO能容忍舊的數據。

俞揚：《LLM中的強化學習》

今天，一方面強化學習讓大模型變得更好。另一方面，大模型也使得傳統強化學習做得比較好，讓專有模型變得更通用。

當強化學習的框架 4 個要素已經完備具備以后，用強化學習訓練語言模型時不需要數據，智能體完全根據獎勵自己探索。這一點對提升語言模型的泛化能力非常關鍵。2022 年 11 月，OpenAI 開放 ChatGPT 和 PPO 算法，當仍由于計算資源需求大、系統優化困難，難以復現。

2023年5月，斯坦福團隊提出了“DPO”算法，認為監督學習算法和 RLHF 等價，可以代替強化學習方法。我們通常假設強化學習它的獎勵模型是黑盒，但是在 RLHF 框架下，獎勵模型是設定好目標后根據數據學習而來。所以，可以將設定的目標和強化學習目標融合。

然而，雖然二者從數學目標上是等價的，但實際實現的過程中，獎勵的表征函數不一樣，二者使用的數據分布也不同。DPO 隱式表示了獎勵模型，強化學習需要顯式地表達獎勵模型。更重要的是，強化學習框架下，一旦所有的因素具備了以后，不需要訓練數據。相較之下，監督學習方法只能利用有標注數據訓練。

DPO會導致模型泛化性不好，存在各種性能缺陷。如今看來，除了性能上的區別，使用強化學習還會帶來推理模型的進步。

為了減小 LLM RL 的訓練開銷，俞揚教授團隊提出了“ReMax”方法，取消了Value 模型，讓大模型自己輸出一個生成的句子作為基線。可以減少一半的內存開銷，訓練時間也能縮小一半。只要基線選得好，就可以讓語言模型訓練穩定。

另一方面，獎勵模型的訓練仍然往往需要人的數據給出標記。2022年的時候，Anthropic 提出 RLAIF，將語言模型本身的反饋作為一個獎勵信號，訓練強化學習系統。俞揚老師團隊在 ICLR 2024 上提出用AI模型自己的反饋提升自己，用它的評價能力來改進它的生成能力。未來，可以考慮如何把語言模型里要用到的獎勵函數做得更好。

今天，用強化學習增加語言模型的推理能力，已經變成了一個增加語言模型能力的主要途徑。如果在2023年時，業界跟著 DPO 的腳步往前走，就達到不了如今推理模型的高度。所以很多時候，熱點技術也有可能把業界”往坑里帶“。

劉鵬飛：《生成式AI第二幕：認知工程》

大語言模型驅動的生成式人工智能可以生成各種模態的內容，其生成能力有助于解決各種復雜任務。生成式人工智能最核心的技術包括：（1）生成式預訓練。把數據以向量形式存起來。（2）提示工程。通過自然語言讀取數據。

大語言模型是人類延伸的大腦，傳統 AI 的功能是“降勞”，取代重復的體力勞動。生成式 AI 則是“增智”，取代的是重復的腦力勞動。

然而，現有的生成式 AI 技術并沒有在推理和長鏈條任務上做出很好的結果。復雜推理任務對我們來講非常重要，無論做數學推理、工具調用、做智能體，還是做更復雜的深度科學研究，都需要復雜推理的能力。OpenAI 的科學家指出：任何要完成的工作都會遇到障礙，而推理能力有助于繞過這些障礙。

如今，我們需要可以深度思考的模型，生成式 AI 進入了第二幕。在推理時擴展、測試時擴展、RL 擴展等技術出現后，大模型可以進行深度思考，思考的時長越長，解決的單個問題的價值也會更大。

大模型在學習的時候，本質上是在存儲和記憶的層面建立一個思考模型。預訓練中，記憶大量的知識點和概念，以及它們之間的關聯。后訓練本質上通過 SFT等技術更好地學習概念之間的關系邊，測試時訓練則進一步建立了距離較遠、沒有建立關系的節點之間的邊。此時，由于概念的距離非常遠，需要足夠的時間思考。

生成式AI第二幕的核心是延長推理時間并學習人類認知。通過推理式擴展和認知學習，可以使大模型從知識管理工具進化為具備深度思考的認知管理工具。

劉鵬飛指出，認知工程是通過“測試時擴展”的范式系統性地發展 AI 思維能力，超越傳統的預訓練方法。它代表了人工智能系統中通過人類知識模式提煉和 AI 驅動發現可以培養深層認知。如今，知識基礎的質變、測試時擴展基礎的發展為實現“認知工程”提供了支撐。

大模型進入第二幕具有以下新特性：（1）極致的數據高效性。在2022年，劉鵬飛團隊驗證了非推理任務場景下可實現數據高效性，使用 1000 個樣本在高參數的模型上去微調，實現了較好的指令遵循能力。而今天，即使是對于較難的數學、編程等推理任務，使用 811 個樣本也可以將模型微調得很好。

對于 SFT 和 RL 微調技術，數據都需要具有極致的高效性。基礎知識包含足夠多的推理數據，后續只需進行思維的整合和策略的組合與訓練。

通過構建高效的技術棧，前置構建大量的認知數據，接下來進行后訓練和 RL 擴展的壓力就會很小。

此外，認知數據的挖掘非常關鍵，需要考慮以下信息來源：（1）歷史遺失的認知（2）現有資源（3）新型來源。

在生成式 AI 的第二幕，我們要解決的問題要全面走向真實世界，從“非證明數學奧賽”逐漸走向“科學發現”。真實世界中任務的復雜度會越來越高，推理鏈條的長度會越來越長，使用工具、交互的復雜度也會提升。

環境比獎勵更重要。真正做智能體的 RL 訓練時，大概率需要先構建一個環境，而構建環境的工程量非常巨大。

劉鵬飛老師提出了“交互即智能”的概念。未來解決一個復雜任務，需要很長時間思考。人機的交互是必須的，應該在關鍵節點上給出指導信號。每個時代都會有其技術邊界需要的人機共創的接口。

竇志成：《推理模型驅動的深度信息獲取》

現代搜索引擎包含離線和在線部分，在線部分最重要的是檢索排序。根據用戶的搜索內容，反饋給用戶若干鏈接。用戶想得到答案，需要自己瀏覽網頁。

這種搜索方式的優點在于：如果需求簡單，可以毫秒級返回結果。然而，對于復雜信息的查詢，則無法滿足用戶的需求，需要進一步進行加工和處理。

ChatGPT 為人們提供了一種新的信息獲取的方式。這種方式的優點在于：可以處理用戶以自然語言形式描述的復雜信息需求，可以一步到位生成答案，可以理解搜索之外的信息篩選和處理指令。

那么，大模型是不是能夠代替傳統的搜索引擎，成為主要的信息獲取方式？竇志成認為，答案是否定的。

既然獲取的是信息，信息一定要準確才會有效。現在的大模型有以下缺陷：（1）存在幻覺（2）缺乏時效性（3）無法訪問私域數據。

因此，大模型本身無法直接取代搜索引擎。對于用戶而言，正確的信息才是有用的，虛假信息會帶來惡性后果，內容溯源也很重要。

竇志成指出，應該將搜索和大模型結合為“AI 搜索”。發揮各自的優勢，實現以大推理模型驅動的搜索方式。

“AI 搜索”最直接的呈現方式是 RAG，但是此類方法仍然無法勝任復雜信息獲取任務，其回答往往不完整、不準確。相較之下，人類會拆解搜索任務，再有針對性地進行搜索。

他指出，應該在深度推理模型的支撐下做深度搜索。語言模型和推理模型主要完成的是任務和意圖的理解、任務分解和信息合成。而底層的基礎搜索則完成信息的獲取。

目前，現有的開源方法多次調用相同的模型，很難讓模型連貫、順暢、統一地去思考問題，沒有充分把深度推理的優勢發揮出來。為此，竇志成團隊提出了“WebThinker”基于深度推理模型，直接在推理過程完成對問題的拆解、思考，在必要的時候調用搜索、網頁瀏覽，激活寫作檢查、潤色功能，最后合并信息獲取結果。這些工作都在一個推理鏈上完成。

Web Thinker 是一個邊思考、邊搜索、邊寫作的模型。在思考時需要搜索時就激活搜索模塊，彌補了RAG傳統方法無法準確判斷知識邊界的問題。整個過程是端到端的推理鏈。

就模型訓練而言，通過強化學習提升推理模型的工具調用能力。通過手機大規模的困難推理數據集，讓 WebThinker 對每個問題采樣 N 條序列，根據能否正確高效調用工具選擇推理軌跡的正負例數據對。模型訓練采用迭代式的在線 DPO，不斷用訓練好的模型進行新一輪的數據篩選，讓模型與環境交互。

張志強：《Pretrain and test-time scaling of ling models》

張志強團隊針對 Scaling law 的研究分為三個階段：（1）超參數的 Scaling Law。探討影響模型訓練效果的超參數的變化趨勢，預估最優的參數（2）FLOPs2Loss 曲線。基于最優超參數擬合出來的結果，進行小的模型訓練，擬合出一條 FLOPs 與損失函數之間的關聯曲線。（3）Loss/Bmk 的外推預測。不需要訓練的情況下，通過若干小模型，用2%到3%的計算量，換取大尺寸模型的性能，監控訓練進度。

對于密集型模型而言，比較重要的超參數是?batch size 和學習率。

張志強團隊發現最優的batch size 和學習率跟模型的計算量，呈現出對數線性關系。越大的模型，越大的數據，就需要用更小的學習率讓它穩定地訓練。

第二，對于密集型模型，改變這個模型的規模，不會影響超參數的 scaling law 趨勢。當小幅度去調整數據配比，也不會影響 scaling law。做大幅度數據調整時，則會影響 scaling law。

基于最優的學習率，張志強團隊訓練了一批小模型，擬合出了IsoFLOPs 的曲線，可以以此判斷數據的好壞或模型架構的好壞。對于更好的數據，模型傾向于把FLOPs分配給更大的模型、更小的數據。口蹄疫通過對數反比關系，去擬合Loss外推精度。

對于MoE的模型，無論是專家的設置、稀疏度的選擇，還是專家均衡的選擇，都會對Loss有很大的影響。

通過對 MoE 架構做類似的batch size 和學習率的scaling law的推導，發現它的函數形態跟Dense模型蕾絲，都可以得到對數線性關系的擬合。用不同的專家均衡策略，最優的batch size 和學習率是基本一致的。

MoE結構的最優?BS/LR?只跟具體的激活的FLOPs相關，和架構、均衡、數據的關聯性并不大。

張志強團隊提出效率杠桿的概念：Loss相同時，不同架構的激活的FLOPs比值作為這兩個架構之間的杠桿。該團隊提出的第一代摸MoE架構與密集型模型的杠桿效率是2.8倍到4倍之間。隨著FLOPs增加，MoE杠桿效率在擴大。

何俊賢《通過強化學習提升推理模型的性能和效率》

何俊賢老師首先基于數學推理任務，探究了基于規則和模型的驗證器存在哪些不足。

基于規則的驗證器在數學推理任務上的局限性在于現在的基于規則的驗證器沒有辦法正確判斷一些概念是等價的（例如，0.5和1/2）。而數學之外的場景會更加復雜。對于不同的策略模型，隨著模型越來越大，生成會更加多樣，召回率會越來越低，驗證會更困難。相較之下，在靜態驗證中，基于模型的驗證器在長程 CoT 和生成式任務上的性能要好得多。除了在分類任務上好很多，在這種場景下，RL效果也可以得到提升。

在自己訓練驗證器時，很容易出現 Reward Hacking。非常刻意構建越來越強的基于模型的驗證器，就會越來越容易被 Hack。

相較之下，分類模型則很難被Hack，它沒有COT，也沒有推理。

隨著策略模型越來越強，就有能力去利用越來越多的被Hack的模式，得到一個高的獎勵，出現 Reward Hacking 的風險就會越來越大。如果訓練小模型，此類風險就會低一些。

針對 RL 擴展中的數據合成問題，何俊賢團隊提出了“SynLogic”，可以兼顧數據的多樣性和合成效率為邏輯推理合成訓練數據。該方法可以根據任務的需要，通過難度可控的方式合成訓練數據，并且容易進行驗證。

在同樣的訓練步數相同的情況下，消耗相同的算力，并不會減弱其數學推理、編程能力。在消耗同樣的數學數據的情況下，通過混入邏輯推理，可以提升數據利用效率。

何俊賢老師從基于長度的獎勵調整的角度出發，探究了自適應地提升推理效率的問題。

何俊賢老師發現，在做 RL 擴展時，將輸出長度上限截斷為特定值，可以在幾乎不損失準確率的情況下，將生成長度縮減50%以上。

如上圖所示，藍色的線表示正確響應的獎勵，紅色的表示錯誤響應的獎勵。只要長度超過某一個閾值，就把它當成錯誤響應截斷它。這種獎勵調整方法是個階梯函數。

階梯函數中間的突變點不可微，兩邊的梯度是 0。在RL場景下，這種獎勵更加魯棒，不太容易被Hack。階梯參數中間突變點的位置是一個超參數，可以自行調整。這個超參數可以自己調。對于不同的任務，該超參數需要動態變化。

【圓桌環節】

圓桌討論嘉賓：

俞 ? 揚丨南京大學人工智能學院教授?

丁 ? 寧｜清華大學助理教授 ?

劉鵬飛｜上海交通大學副教授

竇志成丨中國人民大學高瓴人工智能學院副院長

張志強丨螞蟻集團基礎智能部技術總監?

何俊賢丨香港科技大學助理教授

趙 ? 鑫丨中國人民大學教授丨主持人

Q1 趙鑫：深度推理模型是怎么誕生的？各位在此方面的研究經歷了哪些階段？

俞揚：在很早以前就有研究者嘗試通過蒙特卡洛樹搜索等方式增強語言模型的推理能力，只不過沒有去嘗試用強化學習來訓練推理模型。

趙鑫：推理模型的理論基礎發展如何？

俞揚：強化學習的理論發展較為完善，算法的收斂性、實驗的復雜度都有相應的分析方法，語言模型的理論基礎（例如，自然語言的語義）仍有很大的探索空間。

丁寧：我們從 Strawberry 開始涉足強化學習研究，這也是我第一次如此喜歡科研。強化學習可以帶來顯著的推理能力提升，我們在整個課題組都在做推理模型以及相關的研究。它的理論基礎很堅固，與大模型的結合特別值得探索。

趙鑫：丁老師團隊最近工作的靈感是怎么誕生的？

丁寧：唯熟而已。我們做了很多實驗，觀測到了“熵崩潰”等現象，進一步借鑒現有的理論就推導出了我們的一系列工作。

劉鵬飛：OpenAI 的 O1 剛出來時，我試著揣測他們的研究動機、團隊構成、交互方式、模型結構等因素。大家重點思考兩個問題：（1）應該基于怎樣的底層的動機，尋找下一個 Scaling Law（2）RL Scaling 可行，如何盡快復現。

趙鑫：你們很早發表了深度推理模型的技術報告，最早是如何開展工作的?

劉鵬飛：O1 剛發布時，我在中秋假期里一直在思考這方面的問題，看了很多論文，做了很多 PPT，團隊立刻開展了相關研究。我給同學們講，偉大的創新一定有很強的機動性。盡管學術界的認知往往落后于工業界。但新范式來臨時，學術界還是有機會的。

竇志成：深度推理和強化學習并不完全等價。有些問題還沒有討論清楚。當時趙老師特別關注 Strawberry 模型，語言任務上很難找到一個確定的任務。我仍然有幾個困惑的地方：（1）強化學習是不是實現推理的主要方法，未來還有沒有新的方法？（2）如果去除一系列附加的依賴，從頭研發，能做到什么程度？（3）在通用的語言任務上，是否有更好的獎勵模型？

趙鑫：您之前還做了RAG的相關研究，是什么時候考慮加入推理模型？

竇志成：我們之前有一個方向就是針對整體 RAG 展開研究，利用自我反思的機制，實現端到端的優化。推理模型為深度搜索打開了一個新的窗口，搜索這么多年沒有一次變革，這是唯一一次機會，以后的搜索會變成深度模型推動的深度搜索。

張志強：我最大的感受就是多問為什么，多看更細致的訓練過程監控。我們做預訓練會有很多自動分析的腳本去看問題。有時是看到了某個現象，再反過來尋找中間的問題。

趙鑫：能不能分享做預訓練級別的大項目的經驗？

張志強：數據決定模型的上限，模型架構訓練的基礎能力決定了成本。組織大規模的數據清洗、系統建設、標準建設工作是很龐大的工程。

何俊賢：從很細微的現象中，挖掘出關鍵的模式很重要。

Q2 趙鑫：O3 已出現了，不知道 R2 何時到來。現在深度推理模型有很多遺留問題，下一步，什么問題比較重要？

俞揚：強化學習的探索不夠。

丁寧：需要討論推理模型的泛化性，如何通過模型自身的獎勵自進化。對于拿不到正信號的問題，如何估算更新方向。

劉鵬飛：如何補充更充分的思考，如何補充更全面的知識。

竇志成：探究通用的獎勵學習技術。如何通過用戶反饋匯聚大量數據。

張志強：如何提升 RL 的運行效率，提升訓練速度，研發更適合做 RL 實驗的基礎模型架構。針對具體領域，提出更好的對比評測基準。