【AI論文】MiroMind-M1:通過情境感知多階段策略優化實現數學推理的開源新進展

摘要:近期,大型語言模型已從流暢的文本生成發展至能在多個領域進行高級推理,由此催生了推理語言模型(RLMs)。在眾多領域中,數學推理堪稱代表性基準,因為它需要精確的多步驟邏輯與抽象推理能力,且這種能力可推廣至其他任務。雖然像GPT-o3這樣的閉源推理語言模型展現出了驚人的推理能力,但其專有屬性限制了透明度和可復現性。盡管許多開源項目旨在彌補這一差距,但其中多數因省略了數據集和詳細訓練配置等關鍵資源而缺乏足夠的開放性,進而阻礙了可復現性。為推動推理語言模型開發實現更高透明度,我們推出了MiroMind-M1系列模型,這是一套基于Qwen-2.5主干構建的完全開源的推理語言模型,其性能可媲美或超越現有的開源推理語言模型。具體而言,我們的模型分兩個階段進行訓練:先在精心整理的、包含71.9萬個數學推理問題及已驗證思維鏈(CoT)軌跡的語料庫上進行監督微調(SFT),隨后在6.2萬個具有挑戰性且可驗證的問題上進行基于驗證的強化學習(RLVR)。為增強RLVR過程的穩健性和效率,我們引入了情境感知多階段策略優化算法,該算法將漸進式長度訓練與自適應重復懲罰相結合,以鼓勵基于情境感知的強化學習訓練。我們的模型在AIME24、AIME25和MATH基準測試中,在基于Qwen-2.5的開源70億(7B)和320億(32B)參數模型中取得了最先進或具有競爭力的性能,且具有更高的標記(token)效率。為便于復現,我們公開了全套資源:模型(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B);數據集(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K);以及所有訓練和評估配置。我們希望這些資源能支持進一步的研究并推動社區發展。Huggingface鏈接:Paper page,論文鏈接:2507.14683

研究背景和目的

研究背景
近年來,大型語言模型(LLMs)在自然語言處理領域取得了顯著進展,尤其是基于Transformer架構的模型,通過大規模預訓練和上下文學習能力,在規劃、推理和問題解決等方面表現出色。然而,盡管這些模型在文本生成上非常流暢,但在復雜推理任務上仍面臨挑戰。推理語言模型(RLMs)作為專門訓練以產生多步思維鏈(CoT)的模型,逐漸成為研究熱點。特別是在數學推理領域,由于其需要精確的多步驟邏輯和抽象推理能力,成為評估RLMs性能的理想基準。

盡管閉源RLMs如GPT-o3和Claude Sonnet 4展示了令人印象深刻的推理能力,但其專有性限制了透明度和可復現性。雖然許多開源項目試圖彌補這一差距,但大多數項目因缺乏關鍵資源(如精心整理的數據集和詳細的訓練配置)而不足以支持完全的可復現性。這種不透明性阻礙了科學創新的進一步發展,尤其是在需要高度透明度和可驗證性的推理任務中。

研究目的
本研究旨在通過開發一個完全開源的RLMs系列——MiroMind-M1,來提高RLMs開發的透明度,并推動該領域的進一步研究。具體目標包括:

  1. 構建一個高質量的數學推理數據集,用于監督微調(SFT)和基于驗證的強化學習(RLVR)。
  2. 提出一種情境感知多階段策略優化(CAMPO)算法,以提高RLVR過程的穩健性和效率。
  3. 開發一系列基于Qwen-2.5主干的開源RLMs,在數學推理基準測試上達到或超過現有開源模型的性能。
  4. 公開所有模型、數據集和訓練配置,以支持進一步的研究和社區發展。

研究方法

數據集構建
研究從多個公開來源收集數學推理問題,包括OpenR1、OpenThoughts、Light-R1和Synthetic-1等數據集。通過嚴格的去重和去污染處理,確保數據質量,并避免與評估基準的數據泄露。最終構建了包含71.9萬個數學推理問題的SFT數據集(MiroMind-M1-SFT-719K)和6.2萬個具有挑戰性且可驗證問題的RLVR數據集(MiroMind-M1-RL-62K)。

模型訓練

  1. 監督微調(SFT): 使用Qwen-2.5-Math-7B作為初始檢查點,在71.9萬個數學推理問題上進行了3個epoch的SFT訓練。采用無填充(no-packing)策略,設置峰值學習率為5.0×10^-5,批量大小為128,最大位置嵌入增加到32,768。
  1. 基于驗證的強化學習(RLVR): 在6.2萬個具有挑戰性且可驗證的問題上進行了RLVR訓練。采用多階段訓練策略,逐步增加最大響應長度,從初始的16,384逐步增加到32,768和49,152。引入CAMPO算法,通過長度漸進式訓練和自適應重復懲罰,提高訓練的穩健性和效率。

CAMPO算法
CAMPO算法通過多階段訓練策略,結合長度漸進式訓練和自適應重復懲罰,鼓勵情境感知的強化學習訓練。具體實現包括:

  • 多階段訓練: 逐步增加最大響應長度,提高訓練效率。
  • 自適應重復懲罰: 通過動態調整重復懲罰系數,減少冗余輸出,提高輸出多樣性。
  • 準確的驗證器: 改進數學驗證器,提高獎勵信號的準確性,減少驗證錯誤對訓練的干擾。

研究結果

模型性能
MiroMind-M1系列模型在AIME24、AIME25和MATH基準測試上取得了顯著性能提升。具體而言:

  • MiroMind-M1-RL-32B在AIME24上達到了77.5%的準確率,在AIME25上達到了65.6%,在MATH500上達到了96.4%。
  • MiroMind-M1-RL-7B在AIME24上達到了73.4%的準確率,在AIME25上達到了57.8%,在MATH500上達到了96.7%。

效率提升
通過CAMPO算法,MiroMind-M1系列模型在保持高性能的同時,顯著提高了標記效率。特別是在較短的響應長度下,MiroMind-M1-RL-32B和MiroMind-M1-RL-7B均表現出比基準模型更高的準確率。

開源貢獻
研究公開了所有模型、數據集和訓練配置,包括MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B和MiroMind-M1-RL-32B模型,MiroMind-M1-SFT-719K和MiroMind-M1-RL-62K數據集,以及詳細的訓練和評估配置。這些資源為進一步的研究和社區發展提供了有力支持。

研究局限

盡管MiroMind-M1系列模型在數學推理任務上取得了顯著進展,但研究仍存在一些局限性:

  1. 數據集覆蓋有限: 盡管研究構建了大規模的數學推理數據集,但仍可能無法覆蓋所有類型的數學問題。特別是某些高度專業化或復雜的數學領域,可能需要更多的數據進行訓練。
  1. 模型規模限制: 當前研究主要基于Qwen-2.5系列的7B和32B參數模型。雖然這些模型在數學推理任務上表現出色,但更大規模的模型可能進一步提高性能。然而,更大規模模型的訓練需要更多的計算資源和數據支持。
  1. 評估穩定性: 在AIME24和AIME25等具有挑戰性的基準測試上,評估結果的穩定性成為一個問題。由于這些基準測試包含的問題數量較少,微小的正確答案數量變化可能導致性能波動較大。

未來研究方向

針對上述研究局限,未來研究可以從以下幾個方面展開:

  1. 擴展數據集覆蓋: 進一步收集和整理更多類型的數學推理問題,特別是那些高度專業化或復雜的數學領域。同時,考慮引入多語言和多領域的推理問題,提高模型的泛化能力。
  1. 開發更大規模的模型: 利用更多的計算資源和數據支持,開發基于更大規模預訓練模型的RLMs。通過增加模型參數和復雜度,進一步提高模型在數學推理任務上的性能。
  1. 提高評估穩定性: 探索更穩定的評估方法和指標,減少因問題數量較少導致的性能波動。例如,可以增加評估問題數量、采用多次運行取平均值等方法,提高評估結果的可靠性和穩定性。
  1. 探索其他推理任務: 將MiroMind-M1系列模型的研究方法應用于其他類型的推理任務,如科學推理、邏輯推理和代碼生成等。通過擴展模型的應用領域,進一步驗證CAMPO算法的有效性和普適性。
  1. 優化訓練過程: 進一步研究CAMPO算法的優化策略,如更精細的長度漸進式訓練計劃、更智能的自適應重復懲罰機制等。通過優化訓練過程,提高模型的訓練效率和性能表現。

總之,本研究通過開發完全開源的MiroMind-M1系列模型,提高了RLMs開發的透明度,并在數學推理任務上取得了顯著進展。未來研究可以從擴展數據集覆蓋、開發更大規模的模型、提高評估穩定性、探索其他推理任務和優化訓練過程等方面展開,進一步推動RLMs領域的發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/90738.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/90738.shtml
英文地址,請注明出處:http://en.pswp.cn/web/90738.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《使用Qt Quick從零構建AI螺絲瑕疵檢測系統》——6. 傳統算法實戰:用OpenCV測量螺絲尺寸

目錄一、概述1.1 背景介紹:從“看見”到“看懂”1.2 學習目標二、圖像預處理:讓目標更突出三、輪廓發現與尺寸測量四、總結與展望一、概述 1.1 背景介紹:從“看見”到“看懂” 在上一篇文章中,我們成功地為應用程序安裝了“眼睛…

《人性的弱點》重構【01】

手上有本《人性的弱點》(韓文橋 譯,浙江文藝出版社,2017.1出版),前些年買的,近期翻出來看看。這門書雖成書于80多年前,但卡耐基對人性洞察之深刻,時至今日,并未覺得過時。…

k8s開啟審計日志

k8s默認是關閉審計功能的,想看的話需要到apiserver的pod中才可以。 開啟此功能是為了進行k8s審計日志的收集,方便我們查看k8s中用戶的各自操作。 開啟此功能之前,我們要先創建個審計策略文件audit-policy.yaml 例如以下的測驗文件 apiVersion…

Kafka MQ 消費者應用場景

Kafka MQ 消費者應用場景 1 消費者自動提交的時機 在 Kafka 中默認的消費位移的提交方式是自動提交,這個由消費者客戶端參數 enable.auto.commit 配置,默認值為 true。當然這個默認的自動提交不是每消費一條消息就提交一次,而是定期提交,這個定期的周期時間由客戶端參數 …

Git版本控制系統

Git作為目前最流行的分布式版本控制系統,已經成為開發者必備的技能之一。本文將全面介紹Git的核心概念、基本操作、分支管理以及與GitHub的協作開發,幫助讀者從零開始掌握Git的使用。 一、Git概述 1.1 Git發展歷史 Git誕生于2005年,由Linu…

如何編譯RustDesk(Unbuntu 和Android版本)

編譯Linux版本的RustDesk備注:官方文檔上,一邊都是基于sciter,這個在后面已經不建議使用了,但是依然可以編譯剛開始的時候看官方的文檔,涉及的東西比較多,也搞的一頭霧水,通過B站上一個視頻&…

Spring中的循環依賴:解密、破局與架構啟示

> 當兩個Bean緊緊相擁,Spring容器卻陷入死鎖——這是Java開發者的經典噩夢 某電商平臺凌晨上線時突然宕機,日志里反復滾動著`BeanCurrentlyInCreationException`的報錯。經排查,**優惠券服務與庫存服務在初始化時相互依賴**,形成致命閉環。這個價值百萬的故障案例,揭開…

DataFrame?(數據框)

一種二維表格型數據結構,類似于電子表格(如 Excel)或 SQL 表,由行(記錄)?和列(字段)?組成。它是數據分析、機器學習和科學計算中最常用的數據結構之一,尤其在 ?Python…

B站視頻評論數據爬取

爬取B站視頻評論數據爬取與分析 如果只要單純的腳本可以直接看項目結構里的b_comments.py 一、技術架構 1、環境配置 Python 3.8PyCharm 2、模塊配置 requests:用于發送HTTP請求time:用于處理時間相關的操作csv:用于讀寫CSV文件json&#xff…

OpenAI最新大模型GPT-4o體驗之Code Copilot AI編程大模型

一、前言GPT-4o("o"代表"全能")具備處理各種文本、聲音和圖像資料的能力,能夠輸出多種格式的文本、聲音和圖像。GPT-4o 的推出標志著 AI 技術的重大突破。它不再局限于單一媒介,而是首次實現了文本、語音和圖…

社交電商推客系統全棧開發指南:SpringCloud+分潤算法+Flutter跨端

一、推客系統概述與市場背景推客系統(TuiKe System)是一種基于社交關系的營銷推廣平臺,通過用戶分享商品或服務鏈接,實現裂變式傳播和精準營銷。近年來,隨著社交電商的蓬勃發展,推客系統已成為企業獲客的重…

網安-中間件-Redis未授權訪問漏洞

目錄 Redis Redis持久化 動態修改配置 使用反彈連接的情況 常見監聽端口的方式 常見建立反彈連接的方式 流程 Linux crontab cron文件存儲路徑 利用Redis實現攻擊 1.webshell提權案例 2.定時任務shell反彈案例 3.SSH Key getshell案例 ?編輯Redis其他利用方式 …

【c++深入系列】:萬字詳解棧和隊列和deque(附模擬實現的源碼)

🔥 本文專欄:c 🌸作者主頁:努力努力再努力wz 💪 今日博客勵志語錄: 石頭能被水滴穿,不是因為水有多強,而是因為它從未停過。 ★★★ 本文前置知識: 模版 棧 那么棧這個…

速通python加密之RSA加密

RSA加密 RSA加密是一種非對稱加密算法(與AES等對稱加密不同),由羅納德李維斯特(Ron Rivest)、阿迪薩莫爾(Adi Shamir)和倫納德阿德曼(Leonard Adleman)于1977年提出&…

Java BeanUtils 類詳解:作用、語法與示例

一、BeanUtils 的核心作用BeanUtils 是 Apache Commons 和 Spring Framework 提供的工具類,主要用于簡化 JavaBean 的操作。核心功能包括:屬性拷貝:對象間同名屬性自動復制動態訪問:通過字符串名稱操作屬性類型轉換:自…

PyCharm高效開發全攻略

安裝與基礎配置下載PyCharm專業版或社區版(免費)并完成安裝。首次啟動時選擇默認設置或自定義主題、字體大小等界面偏好。配置Python解釋器路徑(推薦使用虛擬環境),確保項目依賴隔離。快捷鍵與導航熟悉核心快捷鍵能大幅…

Pycharm 給 python 程序打包EXE的配置和方法

前言: Python 語言的設計變得越來越簡單,它有很多可以使用的庫,所以尤其在人工智能時代,Python語言被廣泛應用。但是Python語言和windows系統的兼容性稍微偏弱,如何生成windows可以執行的exe文件。是要一個很復雜的配置過程,本文就會做一個介紹。 本文,通過一個Python…

【Linux | 網絡】傳輸層(UDP和TCP)

目錄一、再談端口號1.1 端口號1.2 端口號的范圍劃分1.3 常見知名端口號1.4 netstat 命令1.5 進程與端口號的關系1.6 pidof 命令二、UDP協議2.1 UDP協議段格式2.2 如何理解UDP報頭和UDP報文2.2.1 UDP報頭2.2.2 UDP報文和UDP報文的管理2.2.3 UDP封裝過程2.3 UDP的特點2.4 UDP的緩…

mybatisX的自定義模板生成

在idea中使用mybtais的自定義模板生成,可以幫我們省去很多重復的代碼。 打開一個項目,我們要修改的主要就兩個文件,一個是生成的mapper接口,另一個是xml文件: 相應的mapper接口模板為: package ${mapper…

miniz:一個輕量級、高性能的開源壓縮庫

目錄 1.簡介 2.核心特性 3.基本使用示例 4.與 ZLIB 的對比 5.使用場景 6.注意事項 1.簡介 miniz 是一個輕量級、高性能的開源壓縮庫,專注于提供 ZLIB/GZIP 兼容的壓縮和解壓縮功能。它的核心優勢在于體積小巧(單文件實現)、跨平臺支持和…