小米首個推理大模型開源——Xiaomi MiMo，為推理而戰！

名人說：路漫漫其修遠兮，吾將上下而求索。—— 屈原《離騷》
創作者：Code_流蘇(CSDN)（一個喜歡古詩詞和編程的Coder😊）

目錄

一、MiMo的驚人表現：小參數量，大能力
二、雙輪驅動：預訓練+后訓練的聯動創新
1》預訓練階段：見多識廣的推理模式
2》后訓練階段：高效穩定的強化學習

四、開源共享：推動社區協作創新

很高興你打開了這篇博客，更多AI知識，請關注我、訂閱專欄《AI知識圖譜》，內容持續更新中…

在大語言模型不斷迭代發展的今天，一個關鍵問題始終困擾著研究人員：如何在預訓練模型增長瓶頸的情況下，進一步激發模型的推理潛能？

小米團隊針對這一挑戰，推出了首個專為推理（Reasoning）而生的開源大模型——“Xiaomi MiMo”。這一技術突破不僅標志著小米正式進軍大模型研發領域，更為推理能力的提升提供了新的解決方案。

在這里插入圖片描述
圖片來源：Xiaomi MiMo官方

一、MiMo的驚人表現：小參數量，大能力

值得關注的是，MiMo在參數規模上相對"小巧"，僅有7B參數。然而，在實際性能上，它卻展現出了超越預期的能力。在數學推理（AIME 24-25）和代碼競賽（LiveCodeBench v5）這兩個公開測評集上，MiMo-7B已經超越了OpenAI的閉源推理模型o1-mini，以及阿里巴巴Qwen更大規模的開源推理模型QwQ-32B-Preview。

在這里插入圖片描述圖片來源：Xiaomi MiMo官方

在這里插入圖片描述
圖片來源：HuggingFace平臺截圖

那這一結果意味著什么？

它表明在大模型領域，參數數量并非唯一決定性因素，deepseek之前也證明了這種情況，優化的訓練方法和算法同樣至關重要。MiMo用實際表現證明了這一點，為資源受限環境下的高性能AI應用提供了可能性。

二、雙輪驅動：預訓練+后訓練的聯動創新

MiMo的卓越推理能力并非偶然，而是源于其在預訓練和后訓練兩個階段的多層面創新。讓我們深入理解這兩個關鍵環節：

1》預訓練階段：見多識廣的推理模式

在預訓練階段，MiMo團隊的核心目標是讓模型接觸并學習更多樣化的推理模式。具體措施包括：

數據層面：團隊重點挖掘了富含推理過程的語料，并特別合成了約200B tokens的推理數據。

在這里插入圖片描述
圖片來源：Xiaomi MiMo官方

訓練策略：采用了三階段遞進式訓練方法，逐步提高訓練難度，累計訓練達25T tokens。

這種漸進式的訓練方法使模型能夠從簡單到復雜地掌握推理技能，形成了堅實的基礎能力。

2》后訓練階段：高效穩定的強化學習

預訓練之后，MiMo團隊并未止步，而是在后訓練階段進行了進一步的優化：

算法創新：提出了"Test Difficulty Driven Reward"機制，有效緩解了困難算法問題中的獎勵稀疏問題；同時引入"Easy Data Re-Sampling"策略，顯著提升了強化學習訓練的穩定性。
框架優化：設計了"Seamless Rollout"系統，使強化學習訓練加速達2.29倍，驗證過程加速1.96倍。

在這里插入圖片描述
圖片來源：Xiaomi MiMo官方