小米首個推理大模型開源——Xiaomi MiMo,為推理而戰!

名人說:路漫漫其修遠兮,吾將上下而求索。—— 屈原《離騷》
創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊)

目錄

    • 一、MiMo的驚人表現:小參數量,大能力
    • 二、雙輪驅動:預訓練+后訓練的聯動創新
      • 1》預訓練階段:見多識廣的推理模式
      • 2》后訓練階段:高效穩定的強化學習
    • 四、開源共享:推動社區協作創新

很高興你打開了這篇博客,更多AI知識,請關注我、訂閱專欄《AI知識圖譜》,內容持續更新中…

在大語言模型不斷迭代發展的今天,一個關鍵問題始終困擾著研究人員:如何在預訓練模型增長瓶頸的情況下,進一步激發模型的推理潛能?

小米團隊針對這一挑戰,推出了首個專為推理(Reasoning)而生的開源大模型——“Xiaomi MiMo”。這一技術突破不僅標志著小米正式進軍大模型研發領域,更為推理能力的提升提供了新的解決方案。

在這里插入圖片描述
圖片來源:Xiaomi MiMo官方

一、MiMo的驚人表現:小參數量,大能力

值得關注的是,MiMo在參數規模上相對"小巧",僅有7B參數。然而,在實際性能上,它卻展現出了超越預期的能力。在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)這兩個公開測評集上,MiMo-7B已經超越了OpenAI的閉源推理模型o1-mini,以及阿里巴巴Qwen更大規模的開源推理模型QwQ-32B-Preview。

在這里插入圖片描述圖片來源:Xiaomi MiMo官方

在這里插入圖片描述
圖片來源:HuggingFace平臺截圖

那這一結果意味著什么?

它表明在大模型領域,參數數量并非唯一決定性因素,deepseek之前也證明了這種情況,優化的訓練方法和算法同樣至關重要。MiMo用實際表現證明了這一點,為資源受限環境下的高性能AI應用提供了可能性。

二、雙輪驅動:預訓練+后訓練的聯動創新

MiMo的卓越推理能力并非偶然,而是源于其在預訓練和后訓練兩個階段的多層面創新。讓我們深入理解這兩個關鍵環節:

在這里插入圖片描述

1》預訓練階段:見多識廣的推理模式

在預訓練階段,MiMo團隊的核心目標是讓模型接觸并學習更多樣化的推理模式。具體措施包括:

  1. 數據層面:團隊重點挖掘了富含推理過程的語料,并特別合成了約200B tokens的推理數據

在這里插入圖片描述
圖片來源:Xiaomi MiMo官方

  1. 訓練策略:采用了三階段遞進式訓練方法,逐步提高訓練難度,累計訓練達25T tokens。

這種漸進式的訓練方法使模型能夠從簡單到復雜地掌握推理技能,形成了堅實的基礎能力。

2》后訓練階段:高效穩定的強化學習

預訓練之后,MiMo團隊并未止步,而是在后訓練階段進行了進一步的優化:

  1. 算法創新:提出了"Test Difficulty Driven Reward"機制,有效緩解了困難算法問題中的獎勵稀疏問題;同時引入"Easy Data Re-Sampling"策略,顯著提升了強化學習訓練的穩定性。
  2. 框架優化:設計了"Seamless Rollout"系統,使強化學習訓練加速達2.29倍,驗證過程加速1.96倍。

在這里插入圖片描述
圖片來源:Xiaomi MiMo官方

這些創新使MiMo在相同的強化學習訓練數據條件下,展現出明顯優于其他模型的潛力。數據顯示,MiMo-7B的數學和代碼領域強化學習能力顯著領先于DeepSeek-R1-Distill-7B和Qwen2.5-32B等廣泛使用的強化學習起步模型。

四、開源共享:推動社區協作創新

小米已將MiMo-7B全系列模型開源至HuggingFace平臺https://huggingface.co/XiaomiMiMo

在這里插入圖片描述
圖片來源:HuggingFace平臺截圖

包括四個不同版本的模型。同時,所有技術細節也已公開,感興趣的開發者和研究人員可以在GitHub上查閱完整的技術報告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf。

在這里插入圖片描述
圖片來源:Xiaomi MiMo官方

這種全面開源的做法,不僅體現了小米對開放創新的支持,也為AI社區提供了寶貴的學習和研究資源。開發者可以基于這些模型進行進一步的優化和應用開發,共同推動推理大模型領域的進步。

MiMo來自"小米大模型Core團隊"的初步嘗試。雖然2025年可能被視為大模型發展的"后半程",但小米團隊堅信AGI(通用人工智能)的征途仍然漫長。小米表示將持續從務實創新出發,勇敢探索未知領域,用思考突破智能邊界,用創造回應每一次好奇。

在這里插入圖片描述
圖片來源:Xiaomi MiMo官方

Xiaomi MiMo的開源發布,為推理大模型領域樹立了新的標桿。它證明了即使在參數量相對較小的情況下,通過優化的訓練方法和算法創新,同樣可以實現卓越的推理性能。這一成果不僅展示了小米在AI領域的技術實力,也為解決大模型推理瓶頸提供了新的思路和方案。

對于開發者和研究人員而言,MiMo的開源無疑提供了一個寶貴的學習和應用資源。我們可以期待,隨著更多開發者參與到MiMo的應用和優化中,這一模型將在各種實際場景中發揮更大的價值,推動AI技術向更加智能和高效的方向發展。


您對Xiaomi MiMo有什么看法或問題?歡迎在評論區分享您的想法,一起探討推理大模型的未來發展!

創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:
http://www.pswp.cn/news/903764.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/903764.shtml
英文地址,請注明出處:http://en.pswp.cn/news/903764.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《2025全球機器學習技術大會:阿里云講師張玉明深度剖析通義靈碼AI程序員》

4 月 18 日 - 19 日,由 CSDN & Boolan 聯合舉辦的 2025 全球機器學習技術大會(ML-Summit)于上海順利舉行。大會聚焦人工智能與機器學習前沿技術,匯聚了來自科技與人工智能領域的數位頂尖專家以及數千名開發者和研究者&#xf…

MySQL事務隔離級別詳解

MySQL事務隔離級別詳解 事務隔離級別概述 MySQL支持四種標準的事務隔離級別,它們定義了事務在并發環境下的可見性規則和可能出現的并發問題: READ UNCOMMITTED(讀未提交) ? 最低隔離級別 ? 事務可以讀取其他事務未提交的數據&…

計算機視覺(CV)技術的優勢和挑戰(本片為InsCode)

計算機視覺(CV)技術是一種利用計算機和算法來模擬人類視覺實現圖像和視頻處理的技術。它在各個領域都有著廣泛的應用,具有許多優勢和挑戰。 優勢: 自動化:CV 技術可以自動識別、分類、跟蹤和分析圖像和視頻數據&…

Android JIT編譯:adb shell cmd package compile選項

Android JIT編譯:adb shell cmd package compile選項 例如: adb shell cmd package compile -m speed -f --full 包名 配置參數指令說明: compile [-r COMPILATION_REASON] [-m COMPILER_FILTER] [-p PRIORITY] [-f] [--primary-dex] …

Android Kotlin 項目集成 Firebase Cloud Messaging (FCM) 全攻略

Firebase Cloud Messaging (FCM) 是 Google 提供的跨平臺消息推送解決方案。以下是在 Android Kotlin 項目中集成 FCM 的詳細步驟。 一、前期準備 1. 創建 Firebase 項目 訪問 Firebase 控制臺點擊"添加項目",按照向導創建新項目項目創建完成后&#x…

搭建PCDN大節點,服務器該怎么配

搭建P2P大節點時,服務器要怎么配呢?需要綜合考慮硬件性能、網絡帶寬、存儲能力、系統架構以及安全性等多個方面,以確保節點能夠高效、穩定地運行。 一、硬件配置 CPU:選擇高性能的多核處理器,以滿足高并發處理需求。核…

(done) 吳恩達版提示詞工程 8. 聊天機器人 (聊天格式設計,上下文內容,點餐機器人)

視頻:https://www.bilibili.com/video/BV1Z14y1Z7LJ/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 別人的筆記:https://zhuanlan.zhihu.com/p/626966526 8. 聊天機器人(Chatbot) …

AtCoder Beginner Contest 403(題解ABCDEF)

A - Odd Position Sum #1.奇數數位和 #include<iostream> #include<vector> #include<stdio.h> #include<map> #include<string> #include<algorithm> #include<queue> #include<cstring> #include<stack> #include&l…

【Game】Powerful——Abandoned Ruins(9)

文章目錄 1、新增古玩2、機關機制3、探索法寶4、智斗強敵5、地圖6、參考 2025 年 1 月迎來的新玩法——荒廢遺跡 每周四個寶藏鏟&#xff08;老玩法&#xff09;或者兩個遺跡線索&#xff08;新玩法&#xff09;&#xff0c;3 個寶藏鏟也可以換一個遺跡線索&#xff0c;之前沒時…

構建網頁版IPFS去中心化網盤

前言&#xff1a;我把它命名為無限網盤 Unlimited network disks&#xff08;ULND&#xff09;&#xff0c;可以實現簡單的去中心化存儲&#xff0c;其實實現起來并不難&#xff0c;還是依靠強大的IPFS&#xff0c;跟著我一步一步做就可以了。 第一步&#xff1a;準備開發環境…

國標GB28181視頻平臺EasyGBS在物業視頻安防管理服務中的應用方案?

一、方案背景? 在現代物業服務中&#xff0c;高效的安全管理與便捷的服務運營至關重要。隨著科技的不斷發展&#xff0c;物業行業對智能化、集成化管理系統的需求日益增長。EasyGBS作為一款基于國標GB28181協議的視頻監控平臺&#xff0c;具備強大的視頻管理與集成能力&#…

[Unity]設置自動打包腳本

背景 我們經常會使用自動打包功能 文件名稱: AutoBuild.csusing System.IO; using System.Linq; using UnityEditor; using UnityEngine;public class AutoBuilder {[MenuItem("Build/GetCurrentBuildTarget")]public static void GetCurrentBuildTarget(){Debug.L…

正點原子STM32H743單片機實現ADC多通道檢測

目標 使用STM32CubeMX工具&#xff0c;配置ADC相關參數&#xff0c;實現在STM32H743單片機上獲取ADC多通道電壓值。共14個ADC引腳&#xff0c;ADC2有5個&#xff0c;ADC3有9個&#xff0c;全部設置單通道 ADC引腳 PF3PF4PF5PF10PC0PC2PC3PH2PH3PA3PB0PB1PA4PA5PA6 STM32cube…

深度學習基礎(四)——計算量(FLOPs)、參數量(Params)、計算速度(FLOPS/TOPS))

一、計算量FLOPs FLOPs&#xff0c;全稱為Floating Point Operations, (s為復數縮寫&#xff09;&#xff0c;浮點運算數&#xff0c;指模型完成一次前向傳播所需的浮點運算次數&#xff0c;可以理解為計算量&#xff08;模型的時間復雜度&#xff09;&#xff0c;用來衡量算法…

電子秤檢測管理系統開發實戰:從數據采集到可視化大屏

簡介 電子秤作為現代工業生產和商業流通中的核心計量設備,其準確性直接關系到產品質量和交易公平。針對仙貝生產企業的電子秤管理需求,我們開發了一套集電子秤檢測信息錄入、產品信息管理、實時稱重數據采集和后臺可視化大屏于一體的綜合管理系統。該系統基于Django框架構建…

Cesium添加WMS,WMTS,地形圖圖,3D Tiles數據

在 Cesium 中&#xff0c;你可以添加 WMS、WMTS、地形圖 和 3D Tiles 數據源。以下是詳細的實現方法&#xff1a; 1. 添加 WMS 服務 WMS&#xff08;Web Map Service&#xff09;是一種動態地圖服務&#xff0c;適用于加載柵格地圖圖層。 代碼示例 const viewer new Cesium…

數據庫基本概念:數據庫的定義、特點、分類、組成、作用

一&#xff1a;數據庫相關概念 1.1 定義 &#xff08;1&#xff09;數據庫&#xff1a;存儲數據的倉庫 &#xff08;2&#xff09;數據庫管理系統&#xff1a;模擬和管理數據庫的大型軟件 &#xff08;3&#xff09;SQL&#xff1a;操作關系型數據庫的編程語言&#xff0c;定義…

【項目篇之消息序列化】仿照RabbitMQ模擬實現消息隊列

實現消息序列化 為什么不使用JSON來序列化直接使用二進制序列化實現序列化方法toBytes()1&#xff1a; 創建內存緩沖區??2 &#xff1a;創建對象序列化通道?3&#xff1a;執行序列化操作?4&#xff1a;提取二進制數據&#xff0c;轉換成byte[]序列化圖示流程&#xff1a;序…

單片機-89C51部分:13、看門狗

飛書文檔https://x509p6c8to.feishu.cn/wiki/LefkwDPU7iUUWBkfKE9cGLvonSh 一、作用 程序發生死循環的時候&#xff08;跑飛&#xff09;&#xff0c;能夠自動復位。 啟動看門狗計數器->計數器計數->指定時間內不對計數器賦值&#xff08;主程序跑飛&#xff0c;無法喂…

C++23/26 靜態反射機制深度解析:編譯時元編程的新紀元

目錄 引言 一、C靜態反射的核心特性 1. 編譯時元數據獲取 2. 元信息操作的語法革新 3. 與現有特性的深度融合 二、應用場景&#xff1a;從理論到實踐 1. 序列化與反序列化 2. 領域特定語言&#xff08;DSL&#xff09;與代碼生成 3. 動態插件系統 4. 調試與元編程增強…