小米 MiMo:7 B 參數撬動推理巔峰,開源模型的技術突圍
70 億參數超越 320 億對手,高考數學 139 分的背后是訓練策略的全面革新。
2025 年 4 月 30 日,小米開源的首個推理大模型 Xiaomi MiMo-7 B 橫空出世,以??僅 7 B 參數??在數學推理(AIME 24-25)和代碼生成(LiveCodeBench v 5)等權威測評中,超越 OpenAI 閉源模型 o 1-mini 和阿里 320 億參數的 QwQ-32 B-Preview。
更令人驚訝的是,其多模態版本??MiMo-VL-7 B 在 2025 年高考數學新課標 I 卷中斬獲 139 分??,與 2350 億參數的 Qwen 3-235 B 持平,僅比 OpenAI o 3 低 1 分,并將同尺寸的 Qwen 2.5-VL-7 B 甩開 56 分差距。
一、技術架構:小模型的“密度革命”
MiMo 的核心突破在于??用算法密度替代參數規模??,通過預訓練與后訓練的聯動創新實現推理能力躍遷:
-
??預訓練階段:推理數據的精煉合成??
- 構建??2000 億 Token 專項推理語料庫??,涵蓋數學證明、算法競賽等高階場景
- 采用三階段漸進訓練:
- 階段一:基礎邏輯訓練(如代數運算)
- 階段二:中級推理(如幾何證明)
- 階段三:復雜問題求解(如組合優化)
- 引入??Multiple Token Prediction (MTP)?? 技術提升生成準確性
- 總訓練量達 25 萬億 Token,是同等規模模型的 3 倍以上
-
??后訓練階段:強化學習的穩定性突破??
- ??Test Difficulty Driven Reward (TDDR)??:根據題目難度動態分配獎勵系數,高難度題獎勵提升 40%,緩解梯度震蕩
- ??Easy Data Re-Sampling 策略??:將低難度樣本訓練比例從 60%壓縮至 30%,高難度樣本訓練頻率提高 2 倍
- 自研??Seamless Rollout 系統??:通過模型并行與數據并行混合調度,RL 訓練速度提升 2.29 倍
二、性能實測:顛覆規模定律
MiMo 以 7 B 參數實現對大模型的跨級超越:
測試集 | MiMo-7 B | QwQ-32 B | o 1-mini |
---|---|---|---|
AIME-24(數學推理) | 68.2% | 50.7% | 55.4% |
LiveCodeBench v 5(代碼) | 74.8% | 41.9% | 53.8% |
高考數學客觀題(73 分) | 68 分 | - | 65 分 |
![]() |
數據來源:
在特定領域表現尤為突出:
- ??動態規劃算法題??:代碼生成效率比 QwQ-32 B 快 1.5 倍,內存占用降低 40%
- ??多模態推理??:MiMo-VL-7 B 在 OlympiadBench 數學競賽基準得分 59.4%,超越 720 億參數的 QVQ-72 B(20.4%)
- ??GUI 任務??:在 OSWorld-G 測評達 56.1 分,超越專用模型 UI-TARS
三、部署實踐:消費級硬件的福音
MiMo 系列已全模型開源,提供靈活部署方案:
-
??Hugging Face 模型庫??
# 基礎推理示例 from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("XiaomiMiMo/MiMo-7B-Base") model = AutoModelForCausalLM.from_pretrained("XiaomiMiMo/MiMo-7B-Base")input_text = "求解:若x2+y2=25,x+y=7,則x-y=?" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
-
??端側部署優化??
- 支持??RTX 3060 顯卡推理??,延遲<300 ms
- 通過 INT 8 量化+CUDA kernel 優化,在 RTX 4090 實現??30 token/s 生成速度??
- 中文場景專項優化:適配數學符號(√/∑)和 Python 縮進規范
-
??多模態推理實踐??
高考數學題實測流程:# MiMo-VL-7B圖像推理示例 from PIL import Image from transformers import pipelinevl_pipe = pipeline("visual-question-answering", model="XiaomiMiMo/MiMo-VL-7B-SFT") image = Image.open("math_problem.jpg") result = vl_pipe(image, "求橢圓陰影面積", temperature=0.3, top_p=0.95)
四、技術啟示:效率優先的新范式
MiMo 的成功驗證了三條技術路徑的可行性:
- ??推理數據定向合成??:
2000 億 Token 的專項語料庫證明,??數據質量比規模更重要??。通過拒絕采樣生成的長鏈推理(CoT)數據,顯著提升多步推理能力。 - ??難度驅動的 RL 訓練??:
TDDR 機制打破傳統 RL 的獎勵稀疏困境,使模型在奧賽級難題上獲得穩定提升。 - ??系統工程優化??:
Seamless Rollout 系統實現??訓練-驗證加速比>2×??,大幅降低實驗迭代成本。
小米的混合在線強化學習(MORL)框架融合文本推理、多模態感知和 RLHF 信號,盡管面臨多域干擾挑戰,但在 OlympiadBench 等復雜任務中展現出顯著優勢。
從手機端側到高考考場,MiMo 的技術突圍印證了雷軍的判斷:“??設備多樣化的時代,需要把大模型能力下放到端側??”。其開源的??Seamless Rollout 系統??和??混合強化學習框架??已吸引超過 50 家硬件廠商測試端側部署。
隨著小米計劃在 2025 年 Q 3 推出 700 億參數的 MiMo-Pro,并整合米家智能生態,這場以“??算法密度對抗參數規模??”的技術革命,正在重構大模型的競爭規則。
在 Hugging Face 的 Open LLM 數學推理榜單上,7 B 的 MiMo 已穩居前三——千億模型的護城河,第一次被輕量化技術鑿開了裂縫。
模型開源地址:
https://huggingface.co/XiaomiMiMo
技術報告:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
往期回顧:
🔥【三維重建】VGGT:告別漫長等待,幾秒解鎖3D世界的CVPR黑馬
🔥【圖片轉 3D 模型】北大·字節跳動·CMU攜手——單圖15 秒生成結構化3D模型!
🔥【開源項目】FastMCP 讓 MCP 服務器開發像搭積木一樣簡單