【開源模型】高考數學139分!小米MiMo開源模型:7B參數突出重圍

小米 MiMo:7 B 參數撬動推理巔峰,開源模型的技術突圍

70 億參數超越 320 億對手,高考數學 139 分的背后是訓練策略的全面革新。

2025 年 4 月 30 日,小米開源的首個推理大模型 Xiaomi MiMo-7 B 橫空出世,以??僅 7 B 參數??在數學推理(AIME 24-25)和代碼生成(LiveCodeBench v 5)等權威測評中,超越 OpenAI 閉源模型 o 1-mini 和阿里 320 億參數的 QwQ-32 B-Preview。

更令人驚訝的是,其多模態版本??MiMo-VL-7 B 在 2025 年高考數學新課標 I 卷中斬獲 139 分??,與 2350 億參數的 Qwen 3-235 B 持平,僅比 OpenAI o 3 低 1 分,并將同尺寸的 Qwen 2.5-VL-7 B 甩開 56 分差距。


一、技術架構:小模型的“密度革命”

MiMo 的核心突破在于??用算法密度替代參數規模??,通過預訓練與后訓練的聯動創新實現推理能力躍遷:

  1. ??預訓練階段:推理數據的精煉合成??

    • 構建??2000 億 Token 專項推理語料庫??,涵蓋數學證明、算法競賽等高階場景
    • 采用三階段漸進訓練:
      • 階段一:基礎邏輯訓練(如代數運算)
      • 階段二:中級推理(如幾何證明)
      • 階段三:復雜問題求解(如組合優化)
    • 引入??Multiple Token Prediction (MTP)?? 技術提升生成準確性
    • 總訓練量達 25 萬億 Token,是同等規模模型的 3 倍以上
  2. ??后訓練階段:強化學習的穩定性突破??

    • ??Test Difficulty Driven Reward (TDDR)??:根據題目難度動態分配獎勵系數,高難度題獎勵提升 40%,緩解梯度震蕩
    • ??Easy Data Re-Sampling 策略??:將低難度樣本訓練比例從 60%壓縮至 30%,高難度樣本訓練頻率提高 2 倍
    • 自研??Seamless Rollout 系統??:通過模型并行與數據并行混合調度,RL 訓練速度提升 2.29 倍
      architecture.png

二、性能實測:顛覆規模定律

MiMo 以 7 B 參數實現對大模型的跨級超越:

測試集MiMo-7 BQwQ-32 Bo 1-mini
AIME-24(數學推理)68.2%50.7%55.4%
LiveCodeBench v 5(代碼)74.8%41.9%53.8%
高考數學客觀題(73 分)68 分-65 分
curve.png

數據來源:

在特定領域表現尤為突出:

  • ??動態規劃算法題??:代碼生成效率比 QwQ-32 B 快 1.5 倍,內存占用降低 40%
  • ??多模態推理??:MiMo-VL-7 B 在 OlympiadBench 數學競賽基準得分 59.4%,超越 720 億參數的 QVQ-72 B(20.4%)
  • ??GUI 任務??:在 OSWorld-G 測評達 56.1 分,超越專用模型 UI-TARS

三、部署實踐:消費級硬件的福音

MiMo 系列已全模型開源,提供靈活部署方案:

  1. ??Hugging Face 模型庫??

    # 基礎推理示例
    from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("XiaomiMiMo/MiMo-7B-Base")
    model = AutoModelForCausalLM.from_pretrained("XiaomiMiMo/MiMo-7B-Base")input_text = "求解:若x2+y2=25,x+y=7,則x-y=?"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=100)
    print(tokenizer.decode(outputs[0]))
    
  2. ??端側部署優化??

    • 支持??RTX 3060 顯卡推理??,延遲<300 ms
    • 通過 INT 8 量化+CUDA kernel 優化,在 RTX 4090 實現??30 token/s 生成速度??
    • 中文場景專項優化:適配數學符號(√/∑)和 Python 縮進規范
  3. ??多模態推理實踐??
    高考數學題實測流程:

    # MiMo-VL-7B圖像推理示例
    from PIL import Image
    from transformers import pipelinevl_pipe = pipeline("visual-question-answering", model="XiaomiMiMo/MiMo-VL-7B-SFT")
    image = Image.open("math_problem.jpg")
    result = vl_pipe(image, "求橢圓陰影面積", temperature=0.3, top_p=0.95)
    

四、技術啟示:效率優先的新范式

MiMo 的成功驗證了三條技術路徑的可行性:

  1. ??推理數據定向合成??:
    2000 億 Token 的專項語料庫證明,??數據質量比規模更重要??。通過拒絕采樣生成的長鏈推理(CoT)數據,顯著提升多步推理能力。
  2. ??難度驅動的 RL 訓練??:
    TDDR 機制打破傳統 RL 的獎勵稀疏困境,使模型在奧賽級難題上獲得穩定提升。
  3. ??系統工程優化??:
    Seamless Rollout 系統實現??訓練-驗證加速比>2×??,大幅降低實驗迭代成本。

小米的混合在線強化學習(MORL)框架融合文本推理、多模態感知和 RLHF 信號,盡管面臨多域干擾挑戰,但在 OlympiadBench 等復雜任務中展現出顯著優勢。


從手機端側到高考考場,MiMo 的技術突圍印證了雷軍的判斷:“??設備多樣化的時代,需要把大模型能力下放到端側??”。其開源的??Seamless Rollout 系統??和??混合強化學習框架??已吸引超過 50 家硬件廠商測試端側部署。

隨著小米計劃在 2025 年 Q 3 推出 700 億參數的 MiMo-Pro,并整合米家智能生態,這場以“??算法密度對抗參數規模??”的技術革命,正在重構大模型的競爭規則。

在 Hugging Face 的 Open LLM 數學推理榜單上,7 B 的 MiMo 已穩居前三——千億模型的護城河,第一次被輕量化技術鑿開了裂縫。

模型開源地址:
https://huggingface.co/XiaomiMiMo
技術報告:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf


往期回顧:
🔥【三維重建】VGGT:告別漫長等待,幾秒解鎖3D世界的CVPR黑馬
🔥【圖片轉 3D 模型】北大·字節跳動·CMU攜手——單圖15 秒生成結構化3D模型!
🔥【開源項目】FastMCP 讓 MCP 服務器開發像搭積木一樣簡單

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86212.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86212.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86212.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

用vscode破解最新typora1.10.8

1.下載格式化插件防止打開文件一團亂 1&#xff09;下載vscode&#xff1a; Download Visual Studio Code - Mac, Linux, Windows 2&#xff09;vscode下載中文插件重啟 如果沒變中文&#xff0c;在vscode界面按下&#xff1a; ctrl shift p 調出命令行 再輸入&#xff…

在 CI/CD 流程中使用 Jenkins 與 Docker 集成

在 CI/CD 流程中&#xff0c;Jenkins 與 Docker 的集成可以實現自動構建、測試、打包、發布容器鏡像&#xff0c;并部署到測試/生產環境。下面是從概念到落地操作的完整集成方案。 一、常見的集成方式有哪些&#xff1f; 方式描述1?? Jenkins 主機安裝 DockerJenkins 可以直…

閑庭信步使用SV搭建圖像測試平臺:第十課——繼續說說類

&#xff08;本系列只需要modelsim即可完成數字圖像的處理&#xff0c;每個工程都搭建了全自動化的仿真環境&#xff0c;只需要雙擊top_tb.bat文件就可以完成整個的仿真&#xff0c;大大降低了初學者的門檻&#xff01;&#xff01;&#xff01;&#xff01;如需要該系列的工程…

如何改進復雜推理 - 從提示詞設計入手

引言&#xff08;動機&#xff09; 在使用大語言模型&#xff08;如 GPT-4、Claude、DeepSeek 等&#xff09;構建智能問答、輔助決策或復雜任務代理系統時&#xff0c;可能遇到這些問題&#xff1a; 模型回答跳步驟、思路混亂同樣問題&#xff0c;模型表現高度不穩定新任務一…

如何解決和各個經銷商不同軟件對接的問題?湯臣案例分享

一、項目背景 湯臣倍健作為健康產品行業的領軍企業&#xff0c;其營銷云系統與全國經銷商 ERP 系統的數據無縫對接&#xff0c;對于提升業務運營效率和營銷精準度至關重要。傳統數據集成方法在面對經銷商 ERP 系統的多樣性和復雜性時&#xff0c;暴露出諸多問題&#xff0c;如…

Wordvice AI:Wordvice 推出的免費,基于先進的 AI 技術幫助用戶提升英文寫作質量

Wordvice AI&#xff1a;智能寫作助手&#xff0c;助力高效英文寫作 在當今全球化時代&#xff0c;英文寫作已成為眾多學生、研究人員、職場人士必備技能。然而&#xff0c;語法錯誤、表達不流暢、詞匯匱乏等問題常困擾著大家。別擔心&#xff0c;今天就來給大家介紹一款強大的…

【UE5】如何開發安卓項目的udp客戶端

1關于如何打包安卓項目這里就不贅述了 2代碼舉例。最重要的就是這兩句 #if PLATFORM_ANDROID #endif#if PLATFORM_WINDOWS #endif全部代碼如下&#xff1a; Button_Sheng.h: // Fill out your copyright notice in the Description page of Project Settings.#pragma once#in…

2025年6月21和22日復習和預習(python)

一、作業內容 &#xff08;一&#xff09;知識點回顧 用戶輸入處理 使用input()函數獲取用戶輸入的字符串&#xff0c;并存儲到變量中。 條件判斷語句 if-elif-else結構&#xff1a;根據不同條件執行相應代碼塊&#xff0c;適用于多分支判斷。 語音合成技術 導入pyttsx3庫實現…

Vue 樣式穿透語法大全(涵蓋 Vue2、Vue3、Less、Scss 等)

1. 什么是樣式穿透&#xff1f; 樣式穿透是在使用 Vue 組件時&#xff0c;為了修改子組件或第三方組件的樣式而使用的一種特殊語法。當我們使用 scoped 樣式時&#xff0c;由于樣式被限制在當前組件內&#xff0c;要修改子組件的樣式就需要使用樣式穿透。 2. 為什么需要樣式穿…

Python 屬性查找:深入理解__getattribute__與__getattr__

目錄 一、__getattribute__方法詳解 1.1 基本概念 1.2 示例分析 1.3 注意事項 二、__getattr__方法詳解 2.1 基本概念 2.2 示例分析 2.3 注意事項 三、__getattribute__與__getattr__的區別對比 3.1 調用時機 3.2 應用場景 3.3 性能影響 四、屬性查找順序 屬性查找…

打表法從原理到實戰詳解

打表法結合經典案例從原理到實戰詳解 一、打表法基本信息1.1 打表法定義1.2 打表法適用場景1.3 打表法的優缺點 二、打表法經典案例解析2.1 快速計算斐波那契數列2.1.1 問題描述2.1.2 打表思路2.1.3 Java代碼實現2.1.4 復雜度分析 2.2 快速判斷質數&#xff08;埃氏篩法結合打表…

(LeetCode 面試經典 150 題 )121. 買賣股票的最佳時機 (遍歷)

題目&#xff1a;121. 買賣股票的最佳時機 思路&#xff1a;遍歷&#xff0c;維護已遍歷過的元素中的最小值&#xff0c;時間復雜度0(n)。 C版本&#xff1a; class Solution { public:int maxProfit(vector<int>& prices) {int mnprices[0];int mx0;for(int i1;i&…

(洛谷)P4447 [AHOI2018初中組] 分組

題目描述 小可可的學校信息組總共有 n 個隊員&#xff0c;每個人都有一個實力值 ai?。現在&#xff0c;一年一度的編程大賽就要到了&#xff0c;小可可的學校獲得了若干個參賽名額&#xff0c;教練決定把學校信息組的 n 個隊員分成若干個小組去參加這場比賽。 但是每個隊員都…

PLA/PHA生物降解化妝品包裝材料的穩定性與貨架期契合性研究

更多案例&#xff1a;https://npmatc.niicapm.com/ 在可持續發展理念的推動下&#xff0c;化妝品行業正經歷一場綠色變革。環保聚合物在包裝領域的應用已成為重要趨勢&#xff0c;這不僅源于消費者對生態友好產品的需求&#xff0c;更基于全球塑料污染治理的緊迫性。化妝品包裝…

STM32[筆記]--4.嵌入式硬件基礎

4.嵌入式硬件基礎 4.1認識上官二號開發板 主控芯片:STM32F103C8T6高速晶振:8M低速晶振:32.768kLED:5顆KEY:3個 主控芯片內部的資源如下項目介紹內核Cortex-M3Flsah64K*8bitSRAM20K*8bitGPIO37個GPIO,分別為PA0-PB15,PC13-PC15,PD0-PD1ADC2個12bitADC合計12了通道,外部通…

【LLaMA-Factory 實戰系列】一、數據準備篇 - 從文本到多模態的完整流程

【LLaMA-Factory 實戰系列】一、數據準備篇 - 從文本到多模態的完整流程 1. 引言2. LLaMA-Factory 數據格式概述2.1 Alpaca 格式2.2 ShareGPT 格式 3. 文本數據準備3.1 Alpaca 格式示例3.2 ShareGPT 格式示例3.3 預訓練數據格式 4. 多模態數據準備4.1 圖像數據準備4.2 視頻數據…

JuiceFS 集群部署詳細指南:使用 SeaweedFS 作為數據存儲,ETCD 作為元數據存儲

1. 概述 本指南將詳細介紹如何部署一個 JuiceFS 集群,其中數據存儲層采用高性能的分布式對象存儲 SeaweedFS,元數據存儲層采用強一致性的分布式鍵值存儲 ETCD。這種組合方案旨在為用戶提供一個高性能、高可用、易于擴展且數據強一致的分布式文件系統解決方案,特別適用于云原…

【數字后端】- 什么是NDR規則?

NDR是指與工藝庫的默認規則&#xff08;DR&#xff09;不同的特殊物理規則&#xff1a; 常見的有&#xff1a; 間距規則&#xff08;spacing&#xff09;&#xff1a;增加信號線與鄰近線之間的距離&#xff0c;降低Crosstalk串擾。線寬規則&#xff08;width&#xff09;&…

B2B 商城定制的優勢:解鎖企業數字化轉型新動力

精準適配業務流程&#xff0c;貼合企業運營特色? 每一家企業都有獨特的業務流程、運營模式與管理需求。標準化的 B2B 商城往往難以完全滿足企業個性化的業務需求&#xff0c;而定制化商城則能夠深入剖析企業業務細節&#xff0c;從采購、銷售、庫存管理到財務管理等全流程&am…

osg實例繪制

#include <osg/Geometry> #include <osg/Geode> #include <osg/Program> #include <osg/VertexAttribDivisor> #include <osgViewer/Viewer> #include <osgViewer/ViewerEventHandlers> #include <random> // 創建單個立方體幾何體&…