我們推出了MiniMax-M1,這是全球首個開源權重、大規模混合注意力推理模型。MiniMax-M1采用了混合專家系統(Mixture-of-Experts,簡稱MoE)架構,并結合了閃電注意力機制。該模型是在我們之前的MiniMax-Text-01模型(MiniMax等人,2025年)基礎上開發而來的,該模型總共有4560億個參數,每個標記激活459億個參數。M1模型原生支持高達100萬個標記的上下文長度,是DeepSeek R1上下文大小的8倍。此外,MiniMax-M1中的閃電注意力機制使得測試時計算能夠高效擴展——例如,與DeepSeek R1相比,在生成長度為100K個標記時,M1僅消耗25%的浮點運算次數(FLOPs)。這些特性使得M1特別適合處理需要處理長輸入和進行廣泛思考的復雜任務。MiniMax-M1是在涵蓋從傳統數學推理到基于沙盒的真實世界軟件工程環境等各種問題上,利用大規模強化學習(RL)進行訓練的。除了閃電注意力在RL訓練中固有的效率優勢外,我們還提出了一種新穎的RL算法——CISPO,以進一步提高RL效率。CISPO通過裁剪重要性采樣權重而非標記更新,表現優于其他競爭性的RL變體。結合混合注意力機制和CISPO,使得MiniMax-M1在512塊H800 GPU上完成完整的RL訓練僅需三周時間,租賃成本僅為534,700美元。我們發布了兩個版本的MiniMax-M1模型,分別具有40K和80K的思考預算,其中40K模型代表了80K訓練過程中的一個中間階段。在標準基準測試上的實驗表明,我們的模型與強大的開源權重模型(如原始的DeepSeek-R1和Qwen3-235B)相比具有可比性或更優的性能,特別是在復雜的軟件工程、工具利用和長上下文任務方面表現出色。通過高效擴展測試時計算,MiniMax-M1為下一代語言模型智能體推理和解決現實世界挑戰奠定了堅實基礎。我們在https://github.com/MiniMax-AI/MiniMax-M1上公開發布了MiniMax-M1。

1. 引言
大型推理模型(LRMs),如OpenAI o1(OpenAI,2024a)和DeepSeek-R1(DeepSeek-AI等人,2025年),通過大規模強化學習(RL)擴展推理長度,取得了顯著成功。近幾個月來,開源社區和商業組織都紛紛效仿這一趨勢,在奧林匹克數學競賽和競爭性編程等復雜任務上取得了重大進展(Anthropic,2025年;Google DeepMind,2025年;Hu等人,2025年;Kimi Team,2025年;Seed等人,2025年;Yu等人,2025年;Zeng等人,2025年)。LRMs的成功主要歸功于測試時計算的一個新擴展維度——在生成過程中,隨著更多浮點運算次數(FLOPs)被投入到擴展推理過程中,模型性能表現出持續改進,特別是在復雜的現實世界應用中(Jimenez等人,2024年;OpenAI,2025年)。
然而,在傳統的Transformer架構(Vaswani等人,2017年)內持續擴展推理過程具有挑戰性,因為softmax注意力機制具有固有的二次計算復雜度。盡管先前的工作提出了各種技術來緩解這一問題——如稀疏注意力(Beltagy等人,2020年;Lu等人,2025年;Yuan等人,2025年;Zaheer等人,2020年)、線性注意力(Arora等人,2024年;Choromanski等人,2021年;Du等人,2025年;He等人,2024年;Katharopoulos等人,2020年;Peng等人,2024b,2021年;Qin等人,2021年,2022a,b,2024a,c年;Shen等人,2024年;Sun等人,2025年,2023年;Zhang等人,2024年)、帶有delta衰減的線性注意力(Peng等人,2025年;Yang等人,2024a,b年)、狀態空間模型(Dao和Gu,2024年;Glorioso等人,2024年;Gu和Dao,2024年;Gu等人,2020年,2022年,2023年;Gupta等人,2022年;Jamba Team,2024年;Ren等人,2024年)和線性循環神經網絡(RNNs)(Behrouz等人,2024年;Chou等人,2024年;Chung和?,2014年;Hochreiter和Schmidhuber,1997年;Martin和Cundy,2018年;Peng等人,2023年,2024a年;Qin等人,2023年,2024d年;Siems等人,2025年;Sun等人,2024年;von Oswald等人,2025年)——但這些方法尚未在大規模推理模型中得到充分驗證,而且迄今為止,幾乎所有具有競爭力的LRMs仍然依賴于傳統的注意力設計。一個例外是采用了Mamba架構(Dao和Gu,2024年;Gu和Dao,2024年)的Hunyuan-T1模型(騰訊AI實驗室,2025年)。然而,該模型并未開源,且披露的細節很少。在這項工作中,我們的目標是構建并開源一個能夠高效擴展測試時計算并與最先進的推理模型相競爭的大型推理模型。
我們推出了MiniMax-M1,這是一個采用混合專家系統(MoE)架構和閃電注意力機制(Qin等人,2024b年)的推理模型,閃電注意力是線性注意力變體(Qin等人,2022a年)的一種輸入輸出感知實現。MiniMax-M1是在我們之前的MiniMax-Text-01(MiniMax等人,2025年)模型基礎上開發而來的,總共包含4560億個參數,激活459億個參數,并擁有32個專家。在我們的注意力設計中,每七個帶有閃電注意力的transnormer塊(Qin等人,2022a年)后跟一個帶有softmax注意力的Transformer塊。這種設計理論上使得推理長度能夠高效擴展到數十萬個標記,如圖1(右圖)所示。例如,與DeepSeek R1相比,在生成長度為64K個標記時,M1消耗的浮點運算次數(FLOPs)不到50%,而在長度為100K個標記時,這一比例約為25%。這種計算成本的顯著降低使得M1在推理和大規模RL訓練過程中都顯著提高了效率。此外,由于其閃電注意力機制以及與MiniMax-Text-01的一致性,我們的M1模型原生支持高達100萬個標記的上下文長度——是DeepSeek R1上下文大小的8倍,比迄今為止所有可用的開源權重LRMs都要大一個數量級。這些特性使得M1特別適合處理需要處理長輸入和生成擴展思考的復雜現實世界任務。M1與其他領先模型的最大輸入和輸出長度的比較如表1所示。
為了開發我們的M1模型,我們首先在精心策劃的、推理密集型語料庫上的7.5T個標記上繼續對MiniMax-Text-01進行預訓練。隨后,我們進行了監督微調(SFT)
o3 | Gemini 2.5 Pro | Claude 4 | DS-R1 | Qwen3-235B | MiniMax-M1-80k | |
最大輸入 | 200K | 1M | 200K | 128K | 128K | 1M |
最大輸出 | 100K | 64K | 32K | 64K | 32K | 80K |
以注入特定的思維鏈(CoT)(Wei等人,2022年)模式,為M1開發的核心階段——強化學習奠定了堅實基礎。值得注意的是,我們通過兩個關鍵視角的創新提高了M1的RL擴展效率:(1)我們提出了一種新穎的RL算法——CISPO,它放棄了信任區域約束,而是裁剪重要性采樣權重以穩定訓練。這種方法始終利用所有標記進行梯度計算,與GRPO(Shao等人,2024年)和DAPO(Yu等人,2025年)相比,在經驗上實現了更高的效率——例如,在基于Qwen2.5-32B模型(Qwen等人,2025年)的對照研究中,CISPO的速度比DAPO快2倍;(2)盡管M1中的混合注意力設計自然允許高效的RL擴展,但使用這種架構擴展RL時會出現獨特的挑戰。例如,我們發現架構的訓練和推理內核之間存在精度不匹配問題,這阻礙了RL訓練過程中的獎勵增長。我們開發了針對性的解決方案來解決這些挑戰,并成功地使用這種混合架構擴展了RL。最終,我們高效的RL框架使得我們能夠在512塊H800 GPU上在3周內完成MiniMax-M1的完整RL運行——相當于大約53萬美元的租賃成本。
除了方法論上的創新外,我們還為RL訓練策劃了一套多樣化的問題和環境。我們的數據涵蓋了可驗證和不可驗證的問題。對于通常被認為對推理學習至關重要的可驗證問題,我們不僅包含了相關工作中常用的數學推理和競爭性編程問題,還利用了我們之前的數據合成框架SynLogic(Liu等人,2025a年)生成了涵蓋41個不同任務的多樣化邏輯推理問題。此外,我們還根據SWE-bench(Jimenez等人,2024年)構建了復雜軟件工程(SE)環境的沙盒,并在基于執行的真實世界SE問題上進行了RL訓練,以提高M1在具有挑戰性的SE場景中的性能。我們的不可驗證問題涵蓋了問答和創意寫作等廣泛領域,我們使用生成式獎勵模型來提供反饋。
我們訓練了兩個版本的MiniMax-M1模型,分別具有40K和80K個標記的最大生成長度,從而得到了兩個模型——MiniMax-M1-40k和MiniMax-M1-80k。MiniMax-M1-80k在復雜的數學和編碼任務上優于MiniMax-M1-40k,進一步證明了擴展測試時計算的好處。如圖1(左圖)所示,MiniMax-M1總體上超越了之前的領先開源權重模型,如原始的DeepSeek-R1和Qwen-235B,特別是在復雜的軟件工程、工具使用和長上下文任務方面具有優勢。與最新的DeepSeek-R1-0528模型相比,MiniMax-M1在數學和編碼競賽中稍遜一籌,但在更現實的工具使用和長上下文場景中實現了可比或更優的性能。值得注意的是,MiniMax-M1在智能體工具使用基準測試TAU-Bench(Yao等人,2025年)上超越了Gemini 2.5 Pro,并在長上下文理解基準測試上超越了OpenAI o3和Claude 4 Opus。憑借高效的測試時擴展能力,我們認為MiniMax-M1為下一代語言模型智能體解決現實世界挑戰奠定了堅實基礎。
為了促進該領域的合作與進步,我們已在GitHub和Hugging Face上公開了我們的模型。它們現在得到了vLLM和Transformers框架的支持,并分別在vLLM和Transformers上提供了詳細的部署指南。這使得MiniMax-M1能夠輕松集成到現代推理管道中。我們還在minimax.io上提供了商業標準API。
2. 可擴展強化學習(RL)的準備工作:持續預訓練與監督微調(SFT)
在本工作中,我們聚焦于擴展強化學習以增強 Minimax-Text-01 的推理能力。為促進可擴展的 RL 訓練,我們首先對基礎模型進行持續預訓練,以增強其內在推理能力。隨后,我們執行冷啟動監督微調(SFT)階段,將特定的推理模式注入模型,從而為后續的 RL 階段提供更堅實的基礎。
2.1. 持續預訓練:RL 擴展的基礎
為增強基礎模型的推理和長上下文能力,同時確保多樣性,我們使用優化后的數據質量和混合方式,用額外的 7.5 萬億個 token 繼續訓練 MiniMax-Text-01 模型。
訓練數據:我們改進了預訓練的網頁和 PDF 解析機制,并增強了啟發式清洗規則,以確保數學和代碼相關數據的高召回率。我們優先從網頁、論壇和教科書等多種來源提取自然問答(QA)對,同時嚴格避免使用合成數據。此外,我們對 QA 數據進行語義去重,以保持其多樣性和獨特性。進一步地,我們將科學、技術、工程和數學(STEM)、代碼、書籍以及推理相關數據的比例提高到 70%。這顯著增強了基礎模型處理復雜任務的能力,同時不影響其其他通用能力。
訓練方案:我們降低了混合專家(MoE)輔助損失的系數,并調整了并行訓練策略,以支持更大的訓練微批次大小,從而減輕輔助損失對整體模型性能的不利影響。基于 MiniMax-Text-01,我們以 8e-5 的恒定學習率繼續訓練 2.5 萬億個 token,隨后在 5 萬億個 token 上采用衰減計劃,將學習率降至 8e-6。
長上下文擴展:對于具有更高收斂復雜性的混合閃電架構模型,我們觀察到訓練長度過度激進的擴展可能導致訓練過程中突然出現梯度爆炸,這使得優化過程極具挑戰性。我們認為這是由于早期層的參數優化跟不上后期層的變化——對于閃電注意力機制,早期層和后期層具有不同的衰減率,這使得早期層更關注局部信息。我們通過在四個階段中采用更平滑的上下文長度擴展方式來緩解這一問題,從 32K 的上下文窗口長度開始,最終將訓練上下文擴展到 100 萬個 token。
2.2. 監督微調:高效 RL 的聚焦對齊
在持續預訓練之后,我們進行監督微調(SFT),使用高質量示例灌輸期望的行為,如基于反思的思維鏈(CoT)推理,為下一階段更高效、更穩定的 RL 創造一個強大的起點。具體來說,我們精心挑選了具有長 CoT 響應的數據樣本。這些數據樣本涵蓋了數學、編碼、STEM、寫作、QA 以及多輪對話等多個領域。數學和編碼樣本約占所有數據的 60%。
3. 高效 RL 擴展:算法與閃電注意力
如圖 1(右)所示,M1 架構在推理過程中展現出明顯的效率優勢。這自然促進了高效 RL 擴展,能夠生成越來越長的響應。然而,作為使用這種混合架構擴展 RL 的先驅,我們在過程中遇到了獨特的挑戰,RL 過程可能因各種問題而變得不穩定甚至失敗。為解決這些困難,我們開發了針對性的解決方案,使我們能夠成功擴展 M1 的 RL 訓練。此外,我們提出了一種新的 RL 算法,與現有方法相比,實現了更高的 RL 效率。這兩項貢獻共同為訓練 M1 提供了一個高效且可擴展的 RL 框架,完整的訓練周期在 512 個 H800 GPU 上需要 3 周時間——相當于約 53 萬美元的租賃成本。在本節中,我們首先介紹 RL 的一般背景,并介紹我們的新型 RL 算法,然后描述我們在混合架構中面臨的具體挑戰,以及我們為克服這些挑戰而設計的解決方案。
3.1. 使用 CISPO 進行高效 RL 擴展
背景:對于來自數據集 D D D 的問題 q q q,我們用 π \pi π 表示由參數 θ \theta θ 參數化的策略模型,用 o o o 表示策略生成的響應。近端策略優化(PPO)(Schulman 等人,2017)采用以下目標函數來優化策略,以最大化預期回報,并應用了裁剪操作以穩定訓練:
J P P O ( θ ) = E q ~ D , o i ~ π θ o l d ( ? ∣ q ) [ 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ min ? ( r i , t ( θ ) A ^ i , t , c l i p ( r i , t ( θ ) , 1 ? ? , 1 + ? ) A ^ i , t ) ? β D K L ( π θ ∣ ∣ π r e f ) ] , \begin{aligned}\mathcal{J}_{\mathrm{PPO}}(\theta)&=\mathbb{E}_{q\sim\mathcal{D},o_i\sim\pi_{\theta_{\mathrm{old}}}(\cdot|q)}\\&\left[\frac{1}{|o_i|}\sum_{t=1}^{|o_i|}\min\Big(r_{i,t}(\theta)\hat{A}_{i,t},\mathrm{clip}\big(r_{i,t}(\theta),1-\epsilon,1+\epsilon\big)\hat{A}_{i,t}\Big)-\beta D_{KL}(\pi_{\theta}||\pi_{\mathrm{ref}})\right],\end{aligned} JPPO?(θ)?=Eq~D,oi?~πθold??(?∣q)? ?∣oi?∣1?t=1∑∣oi?∣?min(ri,t?(θ)A^i,t?,clip(ri,t?(θ),1??,1+?)A^i,t?)?βDKL?(πθ?∣∣πref?) ?,?
其中 r i , t ( θ ) = π θ ( o i , t ∣ q , o i , < t ) π θ o l d ( o i , t ∣ q , o i , < t ) \begin{array}{r}{r_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{\mathrm{o l d}}}(o_{i,t}|q,o_{i,<t})}}\end{array} ri,t?(θ)=πθold??(oi,t?∣q,oi,<t?)πθ?(oi,t?∣q,oi,<t?)?? 是重要性采樣(IS)權重,用于在離策略更新期間校正分布,因為我們使用 π θ o l d \pi_{\theta_{\mathrm{o l d}}} πθold?? 來收集軌跡,并通過小批量方式多步更新策略。雖然 PPO 需要一個單獨的價值模型來計算優勢 A ^ i , t \hat{A}_{i,t} A^i,t?,但廣義近端策略優化(GRPO)(Shao 等人,2024)消除了價值模型,并將優勢定義為相對于組內其他響應的輸出獎勵:
A ^ i , t = R i ? m e a n ( { R j } j = 1 G ) s t d ( { R j } j = 1 G ) , \hat{A}_{i,t}=\frac{R_{i}-\mathrm{m e a n}(\big\{R_{j}\big\}_{j=1}^{G})}{\mathrm{s t d}(\big\{R_{j}\big\}_{j=1}^{G})}, A^i,t?=std({Rj?}j=1G?)Ri??mean({Rj?}j=1G?)?,
其中 R i R_{i} Ri? 是響應的獎勵, G G G 個響應 { o i } i = 1 G \left\{o_{i}\right\}_{i=1}^{G} {oi?}i=1G? 是針對每個問題采樣的。獎勵要么來自基于規則的驗證器(如在數學問題求解中),要么來自獎勵模型。
令牌裁剪的問題:在我們最初使用混合架構在零 RL 設置下的實驗中,我們觀察到 GRPO 算法對訓練性能產生了不利影響,并且未能有效促進長 CoT 推理行為的出現。通過一系列受控的消融研究,我們最終確定原始 PPO/GRPO 損失中的不良裁剪操作是導致學習性能下降的主要因素。具體來說,我們發現與反思行為相關的令牌(例如,However、Recheck、Wait、Aha),這些令牌通常在推理路徑中充當“分叉點”,往往很少見,并且被我們的基礎模型賦予了較低的概率。在策略更新期間,這些令牌很可能表現出較高的 r i , t r_{i,t} ri,t? 值。因此,這些令牌在第一次同策略更新后就被裁剪掉了,無法為后續的離策略梯度更新做出貢獻。這一問題在我們的混合架構模型中尤為突出,并進一步阻礙了強化學習的可擴展性。然而,這些低概率令牌

通常對于穩定熵(Cui 等人,2025)和促進可擴展 RL(Wang 等人,2025)至關重要。盡管 DAPO 試圖通過增加上裁剪邊界來緩解這一問題(Yu 等人,2025),但我們發現這種方法在我們的設置中效果不佳,該設置涉及每個生成批次 16 輪離策略更新。
CISPO 算法:作為回應,我們提出了一種新算法,該算法明確避免了丟棄令牌,即使是那些與大更新相關的令牌,同時內在地保持熵在合理范圍內,以確保穩定的探索。首先,回顧一下用于離線更新的具有校正分布的樸素 REINFORCE 目標函數:
J R E I N F O R C E ( θ ) = E ( q , a ) ~ D , o i ~ π θ o l d ( ? ∣ q ) [ 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ s g ( r i , t ( θ ) ) A ^ i , t log ? π θ ( o i , t ∣ q , o i , < t ) ] , \begin{aligned}\mathcal{J}_{REINFORCE}(\theta)&=\mathbb{E}_{(q,a)\sim\mathcal{D},o_i\sim\pi_{\theta_{old}}(\cdot\mid q)}\\&\left[\frac{1}{\left|o_i\right|}\sum_{t=1}^{\left|o_i\right|}\mathtt{sg}(r_{i,t}(\theta))\hat{A}_{i,t}\log\pi_{\theta}(o_{i,t}\mid q,o_{i,<t})\right],\end{aligned} JREINFORCE?(θ)?=E(q,a)~D,oi?~πθold??(?∣q)? ?∣oi?∣1?t=1∑∣oi?∣?sg(ri,t?(θ))A^i,t?logπθ?(oi,t?∣q,oi,<t?) ?,?
其中 sg ( ? ) \text{sg}(\cdot) sg(?) 表示停止梯度操作。與 PPO/GRPO 中裁剪令牌更新不同,我們轉而裁剪方程 3 中的重要性采樣權重以穩定訓練。我們將我們的方法稱為 CISPO(裁剪 IS 權重策略優化)。采用 GRPO 的組相對優勢和令牌級損失(Liu 等人,2025b;Yu 等人,2025),CISPO 優化以下目標函數:
J C I S P O ( θ ) = E ( q , a ) ~ D , { o i } i = 1 G ~ π θ o l d ( ? ∣ q ) [ 1 ∑ i = 1 G ∣ o i ∣ ∑ i = 1 G ∑ t = 1 ∣ o i ∣ s g ( r ^ i , t ( θ ) ) A ^ i , t log ? π θ ( o i , t ∣ q , o i , < t ) ] , \begin{align*}\mathcal{J}_{\mathrm{CISPO}}(\theta)&=\mathbb{E}_{(q,a)\sim\mathcal{D},\{o_i\}_{i=1}^G\sim\pi_{\theta_{\mathrm{old}}}(\cdot|q)}\\&\left[\frac{1}{\sum_{i=1}^G|o_i|}\sum_{i=1}^G\sum_{t=1}^{|o_i|}\mathtt{sg}(\hat{r}_{i,t}(\theta))\hat{A}_{i,t}\log\pi_{\theta}(o_{i,t}\mid q,o_{i,<t})\right],\end{align*} JCISPO?(θ)?=E(q,a)~D,{oi?}i=1G?~πθold??(?∣q)? ?∑i=1G?∣oi?∣1?i=1∑G?t=1∑∣oi?∣?sg(r^i,t?(θ))A^i,t?logπθ?(oi,t?∣q,oi,<t?) ?,?
其中 r ^ i , t ( θ ) \hat{r}_{i,t}(\theta) r^i,t?(θ) 是裁剪后的 IS 權重:
r ^ i , t ( θ ) = c l i p ( r i , t ( θ ) , 1 ? ? l o w I S , 1 + ? h i g h I S ) . \hat{r}_{i,t}(\theta)=\mathrm{c l i p}\left(r_{i,t}(\theta),1-\epsilon_{l o w}^{I S},1+\epsilon_{h i g h}^{I S}\right). r^i,t?(θ)=clip(ri,t?(θ),1??lowIS?,1+?highIS?).
我們注意到,如果沒有權重裁剪, J CISPO \mathcal{J}_{\text{CISPO}} JCISPO? 就簡化為標準的策略梯度目標函數。在我們的實驗中,我們沒有通過將 ? l o w I S \epsilon_{l o w}^{I S} ?lowIS? 設置為一個較大的值來對 IS 權重施加下限;相反,我們只調整了 ? h i g h I S \epsilon_{h i g h}^{I S} ?highIS?。盡管由于權重裁剪,方程 4 的梯度略有偏差,但這種方法保留了所有令牌的梯度貢獻,特別是在長響應中。CISPO 在我們的實驗中證明是有效的,有助于減少方差并穩定 RL 訓練。此外,我們利用了 Yu 等人(2025)提出的動態采樣和長度懲罰技術。CISPO 中沒有與其他近期工作(Hu 等人,2025;Yu 等人,2025)類似的 KL 懲罰項。
一般形式:雖然我們在實驗中采用了 CISPO,但在這里我們通過將令牌級掩碼引入 CISPO 目標函數,進一步提出了一種統一的形式。這允許通過超參數調整來控制是否以及在什么條件下應丟棄特定令牌的梯度:
J u n i f y ( θ ) = E ( q , a ) ~ D , { o i } i = 1 G ~ π θ o l d ( ? ∣ q ) [ 1 ∑ i = 1 G ∣ o i ∣ ∑ i = 1 G ∑ t = 1 ∣ o i ∣ s g ( r ^ i , t ( θ ) ) A ^ i , t log ? π θ ( o i , t ∣ q , o i , < t ) M i , t ] . \begin{aligned}\mathcal{J}_{\mathrm{unify}}(\theta)&=\mathbb{E}_{(q,a)\sim\mathcal{D},\{o_i\}_{i=1}^G\sim\pi_{\theta_{\mathrm{old}}}(\cdot\mid q)}\\&\left[\frac{1}{\sum_{i=1}^G|o_i|}\sum_{i=1}^G\sum_{t=1}^{|o_i|}\mathtt{sg}(\hat{r}_{i,t}(\theta))\hat{A}_{i,t}\log\pi_{\theta}(o_{i,t}\mid q,o_{i,<t})M_{i,t}\right].\end{aligned} Junify?(θ)?=E(q,a)~D,{oi?}i=1G?~πθold??(?∣q)? ?∑i=1G?∣oi?∣1?i=1∑G?t=1∑∣oi?∣?sg(r^i,t?(θ))A^i,t?logπθ?(oi,t?∣q,oi,<t?)Mi,t? ?.?
掩碼 M i , t M_{i,t} Mi,t? 等價于 PPO 信任區域中隱式定義的掩碼:
M i , t = { 0 如果 A ^ i , t > 0 且 r i , t ( θ ) > 1 + ? h i g h , 0 如果 A ^ i , t < 0 且 r i , t ( θ ) < 1 ? ? l o w , 1 其他情況 . M_{i,t}=\begin{cases}{0}&{\mathrm{如果}\;\hat{A}_{i,t}>0\;\mathrm{且}\;r_{i,t}(\theta)>1+\epsilon_{\mathrm{h i g h}},}\\ {0}&{\mathrm{如果}\;\hat{A}_{i,t}<0\;\mathrm{且}\;r_{i,t}(\theta)<1-\epsilon_{\mathrm{l o w}},}\\ {1}&{\mathrm{其他情況}.}\end{cases} Mi,t?=? ? ??001?如果A^i,t?>0且ri,t?(θ)>1+?high?,如果A^i,t?<0且ri,t?(θ)<1??low?,其他情況.?
這種統一的損失函數形式可以在一個共同的框架下靈活地表示不同的裁剪策略。
CISPO 的經驗驗證:為驗證 CISPO 的有效性,我們在零 RL 訓練設置中將其與 DAPO 和 GRPO 進行了經驗比較。具體來說,我們將不同的 RL 算法應用于在 Yu 等人(2025)的數學推理數據集上訓練 Qwen2.5-32B-base 模型,并在 AIME 2024 基準上報告性能。如圖 2 所示,CISPO 在相同訓練步數下顯著優于 DAPO 和 GRPO。值得注意的是,CISPO 顯示出比其他方法更高的訓練效率;例如,它僅使用 50% 的訓練步數就達到了與 DAPO 相當的性能。
3.2. 利用閃電注意力高效擴展強化學習(RL)——挑戰與解決方案
如圖1(右)所示,我們強調,與傳統注意力設計相比,我們的混合注意力在本質上能夠實現更高效的強化學習擴展,因為在強化學習訓練中,展開計算和延遲往往是主要的瓶頸。然而,作為使用這種新穎架構開展大規模強化學習實驗的先驅,我們遇到了獨特的挑戰,并制定了針對性的解決方案,具體如下所述。
生成與訓練過程中的計算精度不匹配。強化學習訓練對計算精度高度敏感。在我們的強化學習訓練過程中,我們觀察到訓練模式和推理模式下展開標記(token)的概率存在顯著差異,如圖3(左)所示。這種差異源于訓練內核和推理內核之間的精度不匹配。這一問題是有害的,在我們的實驗中阻礙了獎勵的增長。有趣的是,這一問題并未出現在使用softmax注意力的小型密集模型中。通過逐層分析,我們發現語言模型(LM)輸出層頭部的高幅度激活是誤差的主要來源。為了解決這一問題,我們將LM輸出頭的精度提高到FP32,從而重新對齊理論上相同的兩個概率,如圖3(右)所示。這一調整將訓練和推理概率之間的相關性從大約0.9x提高到了

0.99x。值得注意的是,在整個訓練過程中,這一相關性指標保持穩定,從而實現了獎勵的成功增加。
優化器超參數敏感性。我們采用AdamW(Loshchilov和Hutter,2019)優化器,而 β 1 \beta_{1} β1?、 β 2 \beta_{2} β2?和 e \mathrm{e} e的不當配置可能導致訓練過程中不收斂(Molybog等人,2023)。例如,使用VeRL(Sheng等人,2024)中的默認配置,其中 b e t a s = ( 0.9 , 0.999 ) \mathrm{betas}=(0.9,0.999) betas=(0.9,0.999)且 e p s = 1 e ? 8 \mathrm{eps}=1\mathrm{e-}8 eps=1e?8,就可能導致此類問題。我們觀察到,在MiniMax-M1訓練中,梯度幅值范圍很廣,從1e-18到1e-5不等,且大多數梯度小于1e-14。此外,相鄰迭代之間的梯度相關性較弱。基于此,我們設置 β 1 = 0.9 \beta_{1}=0.9 β1?=0.9、 β 2 = 0.95 \beta_{2}=0.95 β2?=0.95且 e p s = 1 e ? 15 \mathrm{eps}=1\mathrm{e-}15 eps=1e?15。
通過重復檢測實現早期截斷。在強化學習訓練過程中,我們發現復雜的提示可能引發病態的長且重復的響應,其較大的梯度威脅著模型的穩定性。我們的目標是預先終止這些生成循環,而不是對已經重復的文本進行懲罰。由于簡單的字符串匹配對各種重復模式無效,我們開發了一種基于標記概率的啟發式方法。我們觀察到,一旦模型進入重復循環,每個標記的概率就會飆升。因此,我們實施了一條早期截斷規則:如果連續3000個標記的概率都高于0.99,則停止生成。這種方法成功地防止了模型的不穩定性,并通過消除這些病態的長尾情況提高了生成吞吐量。
4. 利用多樣化數據擴展強化學習
在本節中,我們將描述在強化學習階段采用的數據和獎勵。我們在強化學習訓練流程中整合了多樣化的環境,包括可以通過規則驗證的任務和需要通過獎勵模型驗證的一般任務。所有這些環境都通過精心設計的課程整合到強化學習階段中。
4.1. 基于規則驗證的推理密集型任務
下面,我們介紹可以通過確定性規則驗證的數據。對于以下所有任務,我們都采用基于規則的最終正確性作為正確性獎勵,并輔以格式獎勵。
數學推理。我們最初的數學數據集包含數十萬個高質量、競賽級別的問題,這些問題從公共來源和官方數學競賽中精心挑選和組織而來。這些問題涵蓋了廣泛的難度級別,每個問題都配有一個標準參考解決方案。我們的數據清理流程首先移除不完整的樣本以及存在格式或排版錯誤的樣本。隨后,我們在強化學習數據源之間應用基于嵌入的重復數據刪除,并強制與監督微調(SFT)數據集嚴格分離,以避免任何重疊,因為從SFT階段泄露到強化學習階段會阻礙探索并削弱訓練效果。此外,我們還采用n-gram和基于嵌入的方法來消除可能受到常用數學基準測試集污染的數據,從而確保評估的完整性和公平性。我們過濾掉包含多個子問題、基于證明的問題以及容易隨機猜測的二元問題(例如,真/假)。我們將選擇題重新表述為開放式格式,以更好地與我們的強化學習框架相契合。接下來,我們使用內部模型從參考解決方案中提取最終答案,僅保留那些提取的答案能夠被我們的基于規則的答案檢查器正確解析的樣本。最后,我們使用一個強大的推理模型來計算每個問題的pass@10(即模型在10次采樣中至少有一次給出正確答案的概率),并僅保留通過率嚴格在0到0.9之間的樣本,從而為我們的強化學習訓練生成了一個包含近5萬個高質量數學樣本的精選數據集。
邏輯推理。對于邏輯推理數據,我們精心挑選了41個需要非平凡推理能力的邏輯推理任務,如密碼和數獨,然后我們實現了一個數據合成框架來合成所有數據。具體來說,我們利用我們的SynLogic框架(Liu等人,2025a)來實現數據合成流程,該流程具有特定任務的數據生成器和基于規則的特定任務驗證器,從而實現了自動邏輯數據生成。我們在生成過程中精心配置難度參數,確保生成的數據具有適當的學習挑戰性。具體來說,為了防止包含過于困難的實例,我們基于當前強大推理模型的求解極限設定了一個上限難度,要求它們的pass@10率大于零。同樣地,我們使用MiniMax-Text-01模型達到0到0.5通過率的最低難度參數來設定下限難度。這種方法確保了數據在難度和可學習性之間保持平衡。此外,隨著模型在訓練過程中能力的提升,我們在后期階段增加了數據的難度。使用這個框架,我們合成了大約5.3萬個邏輯推理樣本用于強化學習訓練。
競賽編程。對于競賽編程問題,我們從在線評測平臺和流行的編程網站上收集公開可用的問題。對于缺乏測試用例的問題,我們開發了一個基于大語言模型(LLM)的工作流程,并使用MiniMax-Text-01模型生成全面的測試套件。與我們對數學推理數據集的方法類似,我們根據模型采樣的通過率基于質量和難度來過濾問題,保留適度具有挑戰性和高質量的算法問題。通過這個過程,我們生成了3萬個競賽編程數據樣本用于強化學習訓練。
軟件工程。在軟件工程領域,受SWE-bench(Jimenez等人,2024)的啟發,我們通過利用來自公共GitHub倉庫的真實數據來構建可驗證的強化學習環境。我們的數據集主要包括問題和拉取請求(PRs),這些請求封裝了常見的軟件開發挑戰,包括錯誤定位、代碼修復和測試用例合成。為了促進有效的強化學習,我們開發了一個復雜的容器化沙盒環境,該環境模擬了現實的軟件開發工作流程。這個環境允許實際執行代碼,為智能體提出的干預措施的正確性和有效性提供直接且可驗證的反饋。預定義或新生成的測試用例的通過/失敗狀態作為我們強化學習框架的主要獎勵信號。成功執行并通過所有相關測試用例將獲得正獎勵,而編譯錯誤、運行時失敗或測試用例回歸將導致零或負獎勵,從而為策略優化提供明確的信號。通過這個過程,我們精選了數千個高質量的數據樣本。每個樣本都包括一個問題描述(例如,來自問題的錯誤報告)、初始的錯誤代碼以及一組相關的測試用例。這種設置允許我們的強化學習智能體學習準確地定位錯誤、提出正確的代碼修復方案,甚至合成新的、有效的測試用例,其性能可以通過我們沙盒環境中的執行直接驗證。
4.2. 基于模型反饋的一般領域任務
在本節中,我們將強化學習的范圍進一步擴展到更廣泛的一般領域任務。由于這些任務無法通過規則輕松驗證,因此我們使用獎勵模型來提供反饋。
4.2.1. 數據和獎勵模型
我們的一般強化學習數據集總共包含2.5萬個復雜樣本。這些樣本可以大致分為兩類:具有真實答案但難以使用規則驗證的樣本,以及沒有真實答案的樣本。
具有真實答案的任務。這一類別主要包括STEM和其他事實性問題,其中答案是客觀的,但可能有多種有效的表達方式。這種多樣性往往使得基于規則的答案檢查器不準確。我們的數據清理過程與數學推理中使用的類似,但我們使用生成式獎勵模型(GenRM)作為驗證器,而不是依賴基于規則的檢查器。為了評估真實答案與模型響應之間的一致性,我們采用了一個五級獎勵量表來評估這兩個組成部分。首先,我們構建了一個人工標注的獎勵模型基準,該基準涵蓋了廣泛的知識和任務領域中的一系列客觀任務,特別是那些基于規則的檢查器無法準確判斷的模型響應-真實答案對。其次,我們通過比較GenRM選擇的Best-of-N(BoN)響應與幾個基準上的pass@N指標來評估GenRM的有效性。GenRM的性能通過其在人工標注基準上的準確性和BoN與pass@N之間的性能差距來評估。這些指標指導實驗以優化GenRM訓練期間使用的數據分布和提示設計。
沒有真實答案的任務。這一類別涵蓋了更廣泛的任務,包括指令遵循、創意寫作等。提示基于我們的內部標簽系統從大型池中采樣,確保在細粒度域上實現平衡的訓練分布。盡管這些查詢通常是開放式的,沒有真實答案,但我們試圖為每個查詢配對一個參考答案,作為獎勵模型判斷的參考。為此,我們首先通過各種內部和外部模型生成響應,然后這些參考答案將接受我們的內部質量評估。在強化學習訓練過程中,我們采用成對比較框架來評估模型響應。每次比較都會產生-1、0或1的分數,表示模型輸出比參考答案更差、相似或更好。對于特別具有約束條件的指令遵循任務,我們同時使用基于規則的獎勵來評估響應是否滿足約束條件,以及基于模型的獎勵來評估響應的質量。與具有真實答案的設置一樣,我們首先構建一個人工標注的基準,融入來自可靠標注者的多個盲偏好判斷。然后,我們優化評分標準和偏好提示以提高準確性以及潛在的偏差,這將在4.2.2中提及。
為了最小化潛在的偏差,訓練數據還通過多種方法進行優化,如多重盲一致性判斷、位置交換一致性判斷等。一旦訓練出最優的GenRM,就會在訓練數據集上執行瑞士輪評分系統,以確定最適合強化學習訓練的參考答案。
4.2.2. 解決長思維鏈生成式獎勵模型的偏差問題
對于復雜的思維鏈(Chain of Thought,簡稱CoT)推理任務,有效的通用強化學習(Reinforcement Learning,簡稱RL)高度依賴于準確且無偏的獎勵模型。評估此類思維鏈響應頗具挑戰性,我們發現生成式獎勵模型(Generative Reward Models,簡稱GenRMs)更傾向于較長的輸出,而非可能更優的簡潔替代方案,無論實際推理質量如何。這種長度偏差是一個重大問題,因為它可能會嚴重誤導RL策略優化,鼓勵冗長而無實質內容,并引發獎勵黑客行為(reward hacking)。我們最初為提高GenRM保真度所做的努力包括標準的離線策略:(1)通過廣泛的響應長度、來源和質量層級來豐富訓練數據;(2)納入對抗性示例以暴露漏洞;(3)優化模型架構。然而,實證分析表明,在RL訓練過程中,純粹的離線評估和預先防范GenRMs中的長度偏差,往往無法防止長度偏差的出現。
因此,我們的核心策略是在RL訓練期間對長度偏差進行持續的在線監測。我們制定了特定的指標,用于檢測RL策略是否不成比例地延長輸出長度,以在不提高任務成功率或推理深度的情況下最大化GenRMs的獎勵。一旦檢測到這種有害的長度追求行為(表明利用了GenRMs的長度偏差),就會立即觸發GenRMs的重新校準。這種迭代調整對于預先防范與輸出長度相關的獎勵黑客行為至關重要,確保策略優先提升實質性能力,而非表面上的文本膨脹。除了這種自適應方法外,我們還系統地采用了RL側技術,包括獎勵塑形(reward shaping)、值裁剪(value clipping)和歸一化。這些機制使獎勵信號對表面特征(如長度)的極端值不敏感,從而將策略優化引導至長思維鏈推理的實質性質量和正確性上。
4.3. 融入多樣化數據的課程學習
鑒于我們的RL數據涵蓋了廣泛的類別,核心挑戰在于訓練一個能夠在推理密集型任務和通用領域任務上都表現出色的單一策略。為了解決這一問題,我們的方法是在使用CISPO進行RL訓練的過程中,對推理任務和通用領域任務采用精心管理的課程學習和動態加權策略:我們首先從僅包含基于規則獎勵的推理密集型任務開始,然后逐漸融入通用領域任務。這確保了模型在不斷提高其在從復雜指令遵循到開放式思維鏈推理等各種通用任務上的性能的同時,繼續完善其可驗證的技能(例如,數學和代碼方面的技能)。這種混合RL訓練鼓勵模型學習根據上下文應用其推理能力——對可驗證的問題采用嚴謹、逐步的推理,對一般查詢則采用更靈活、自適應的生成方式——所有這些都在一個統一的策略框架內進行。這既防止了專業技能的災難性遺忘,又促進了更廣泛的泛化能力。
5. 將RL擴展到更長的思考過程
我們的首次RL訓練是在輸出長度限制為40K標記的情況下進行的。鑒于M1的混合架構天然支持近乎線性的長序列擴展(如圖1(右)所示),我們在RL訓練期間將生成長度進一步擴展到80K標記。由此產生了一個新模型,我們稱之為MiniMax-M1-80k。
數據。為了高效地訓練我們的RL模型以實現80K的輸出長度,我們利用之前訓練好的40K模型來指導數據過濾過程。首先,我們評估第4節中描述的精選數據集的通過率,并移除容易解決的樣本。然后,我們調整數據分布,以更傾向于更具挑戰性的示例,如困難的數學和編程問題。此外,在觀察到合成推理數據會破壞長上下文RL訓練的穩定性后,我們對其進行了下采樣。具體而言,從這種數據類型生成的輸出往往變得重復且同質化,持續接觸這些模式對模型的整體性能有害。
長度擴展策略。為了逐步增加輸出長度,我們采用了分階段窗口擴展RL策略。我們從40K的輸出長度開始,逐步將其擴展到48K、56K、64K、72K,最終達到80K。這種分階段的方法確保了每一步的訓練穩定性。向后續長度的過渡由一組經驗指標決定。這些指標包括生成序列的困惑度收斂情況,以及輸出長度的第99百分位數是否接近當前上下文窗口限制。這些信號為我們提供了模型擴展能力的寶貴見解,使我們能夠在整個過程中保持穩健的訓練。解決擴展過程中的訓練不穩定性。在擴展過程中,我們在每個長度窗口的訓練后期遇到了一個關鍵問題。具體而言,模型表現出模式崩潰的傾向,即生成序列的后半部分退化為不連貫或混亂的文本。這種現象與困惑度增加相一致,表明生成質量和穩定性受到損害。我們確定了根本原因:在輸出長度擴展過程中,負樣本的長度增加速度遠遠快于正樣本,往往更早達到上下文窗口限制。因此,在生成序列的后半部分積累了不成比例的負梯度。這種不平衡源于GRPO的優勢歸一化本質上的不平等性以及我們采用的標記級損失。為了解決這一問題,我們實施了三個關鍵解決方案:(1)通過提前停止檢測重復模式(連續的高概率標記),以防止重復響應過度消耗上下文窗口;(2)采用樣本級損失和標記級歸一化相結合的方法,以緩解負正樣本不平衡并減輕不利影響;(3)降低梯度裁剪閾值和 ? h i g h I S \epsilon_{h i g h}^{I S} ?highIS?,以進一步穩定生成。
6. 評估
6.1. 核心基準測試
我們在多個關鍵領域對MiniMax-M1進行了全面評估,包括數學、通用編程、軟件工程、推理與知識、長上下文、智能體工具使用、事實性和通用助手能力。我們使用溫度參數 1.0 1.0 1.0和 t o p ? p top-p top?p采樣 0.95 0.95 0.95來評估所有任務。
數學:為評估數學推理能力,我們使用了多個競賽級別的數學基準測試,包括MATH-500(Hendrycks等人,2021年)、AIME 2024和AIME 2025。對于AIME評估,我們采樣32次,并計算平均通過率作為最終得分。
通用編程:我們使用LiveCodeBench(Jain等人,2025年)和FullStackBench(Liu等人,2024年)來評估通用編程能力,這兩個基準測試涵蓋了各種編程任務的代碼生成。對于這兩個基準測試,我們報告的得分是16個樣本的平均通過率。
推理與知識:我們通過GPQA-Diamond(Rein等人,2024年)、MMLU-Pro(Wang等人,2024年)和具有挑戰性的HLE基準測試(Phan等人,2025年)來評估領域知識和推理能力。對于GPQA-Diamond,我們采樣32次并報告平均通過率。對于HLE評估,我們在不使用外部工具的情況下評估模型。此外,我們還使用ZebraLogic(Lin等人,2025年)來衡量邏輯推理能力。
軟件工程:我們使用SWE-bench Verified(Jimenez等人,2024年)來評估軟件工程能力,該基準測試衡量解決實際GitHub問題的能力。我們報告的結果來自無智能體框架(Xia等人,2024年)。與原始流程不同,我們的方法采用兩階段定位過程(不使用任何基于嵌入的檢索機制):首先是粗粒度文件定位,然后是特定文件和代碼元素的細粒度定位。
長上下文:我們使用OpenAI-MRCR(OpenAI,2024b年)來評估長上下文理解能力,該測試在擴展上下文中測試多個相似項目的檢索和消歧能力,以及LongBench-v2(Bai等人,2024年),這是一個具有503道選擇題的具有挑戰性的基準測試,上下文范圍從8k到2M個單詞。
智能體工具使用:我們通過TAU-bench(Yao等人,2025年)來評估工具使用能力,該基準測試模擬了智能體在遵循領域特定策略指南的同時必須使用API工具的動態對話。我們使用GPT-4.1作為用戶模型、通用系統提示2且不使用任何自定義工具來評估TAU-bench。最大交互步數為40。
事實性:為衡量大型語言模型的事實性,我們使用SimpleQA(Wei等人,2024年),這是一個對抗性收集的事實性問答基準測試,包含單一且無可爭議的答案。
通用助手:我們使用MultiChallenge(Sirdeshmukh等人,2025年)來評估通用助手能力,該基準測試評估大型語言模型與人類用戶進行現實多輪對話的能力。我們報告的得分由GPT-4o評判。
數學、編程和其他通用任務的結果。表2展示了我們的模型與最先進的大型推理模型的性能對比。在數學推理方面,MiniMax-M1模型在多個基準測試中表現出色,取得了與近權重模型Seed-Thinking-v1.5(Seed等人,2025年)相當的結果。值得注意的是,MiniMax-M1-80k在AIME 2024上取得了86.0%的成績,在開放權重模型中排名第二,僅次于最新的DeepSeek-R1-0528模型。在通用編程方面,MiniMax-M1-80k在LiveCodeBench上與Qwen3-235B持平,同時在FullStackBench上超越了它,展示了在領先開放權重模型中的強大能力。在推理與知識基準測試中,MiniMax-M1-80k同樣落后于DeepSeek-R1-0528,但與其他頂級開放權重模型相比具有競爭力。在事實性基準測試SimpleQA上,Minimax-M1模型的表現不如DeepSeek-R1,但優于所有其他開放權重模型和Seed-Thinking-v1.5。在MultiChallenge上,兩個MiniMax模型的表現與DeepSeek-R1-0528和Claude 4 Optus相當,僅次于o3和Gemini-2.5-Pro。
復雜場景中的亮點:軟件工程、長上下文和工具使用。得益于我們在強化學習(RL)期間基于執行的軟件工程環境,MiniMax-M1-40k和MiniMax-M1-80k在SWE-bench verified上分別取得了55.6%和56.0%的優異成績。這些結果略低于DeepSeek-R1-0528的57.6%,但顯著超過了其他開放權重模型。利用其1M上下文窗口,M1模型在長上下文理解方面顯著優于所有其他開放權重模型。它們甚至超越了OpenAI o3和Claude 4Opus,在全球排名第二,僅以微小差距落后于Gemini 2.5 Pro。在智能體工具使用場景(TAU-bench)中,MiniMax-M1-40k超越了所有開放權重模型,甚至超越了Gemini-2.5Pro。此外,MiniMax-M1-80k在大多數基準測試中始終優于MiniMax-M1-40k,證實了擴展測試時計算量的好處。
6.2. 強化學習(RL)擴展的影響
為研究強化學習(RL)擴展的影響,我們在整個訓練過程中跟蹤性能和響應長度。圖4分別展示了來自AIME 2024、AIME 2025和LiveCodeBench v5的三個代表性示例。我們觀察到,在訓練過程中,模型性能和響應長度均持續提高。值得注意的是,AIME和LiveCodeBench上的平均響應長度超過了20,000個標記,AIME 2024的準確率從68%大幅提高到80%。重要的是,這些可視化中準確率提高與響應長度增加之間的強相關性強調了擴展強化學習(RL)以促進更廣泛推理過程的重要性。

7. 結論與未來工作
在本研究中,我們介紹并發布了MiniMax-M1,這是世界上第一個具有閃電注意力機制的開放權重、大規模推理模型。這種高效的注意力設計使MiniMax-M1能夠原生支持長達1M個標記的輸入和80K個標記的生成長度,這兩項能力均顯著超過了其他開放權重模型。這些能力使MiniMax-M1特別適合需要長上下文和擴展推理的復雜、現實場景,這一點在其軟件工程、智能體工具使用和長上下文理解基準測試中的出色表現中得到了實證驗證。除了閃電注意力在強化學習(RL)訓練中的固有效率優勢外,本研究還提出了一種新穎的強化學習(RL)算法CISPO來加速訓練。結合架構優勢和CISPO,我們高效地訓練了MiniMax-M1,使用512塊H800 GPU在三周內完成了完整的強化學習(RL)訓練。在全面評估中,MiniMax-M1與DeepSeek-R1和Qwen3-235B一起躋身世界上最好的開放權重模型之列。
展望未來,隨著測試時計算量不斷增加以支持越來越復雜的場景,我們預計這種高效架構在解決現實世界挑戰方面具有巨大潛力。這些挑戰包括自動化公司工作流程(Xu等人,2025年)和開展科學研究(OpenAI,2025年;Si等人,2024年)。現實世界的應用特別需要能夠作為智能體與環境、工具、計算機或其他智能體交互的大型語言模型,這需要在數十到數百輪對話中進行推理,同時整合來自不同來源的長上下文信息。我們設想MiniMax-M1將作為此類應用的強大基礎,具有獨特優勢,我們將全力致力于進一步推動MiniMax-M1朝著這一目標發展。