微軟發布了最新的開源推理模型套件“Phi-4-Reasoning

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

微軟于2025年4月30日發布了最新的開源推理模型套件“Phi-4-Reasoning”,標志著在中等規模語言模型(14B參數)中實現高效復雜推理能力的又一重大突破。盡管大型語言模型(LLM)在自然語言處理任務中已表現出顯著進步,但在數學問題求解、算法規劃與編程等推理密集型任務中,模型規模、訓練策略及推理效率仍是關鍵制約因素。許多表現優異的通用模型常常難以構建多步推理鏈或回溯中間步驟,導致在需要結構化推理的應用場景中表現不佳。同時,簡單擴大模型參數雖有助于推理能力提升,但也帶來巨大的計算與部署成本,限制其在教育、工程或決策支持等實際場景中的應用。

微軟發布Phi-4推理模型家族

此次微軟發布的Phi-4 Reasoning家族包括三個模型:Phi-4-reasoning、Phi-4-reasoning-plus與Phi-4-mini-reasoning,皆基于14B參數的Phi-4主干架構,專為數學、科學及軟件工程等領域的復雜推理任務設計。不同模型版本在計算效率與輸出精度之間提供多樣化選擇。其中,Phi-4-reasoning通過結構化監督微調優化,而Phi-4-reasoning-plus在此基礎上進一步引入基于結果的強化學習機制,特別針對高方差數學競賽類任務進行性能增強。

微軟開放了模型權重及完整訓練細節和評估日志,所有資源已發布于Hugging Face平臺,確保模型的可復現性與研究透明度。

技術構成與訓練方法革新

Phi-4-reasoning系列模型在基礎架構與訓練方法上做出了若干關鍵改進,主要包括:

  • 結構化監督微調(Structured SFT):團隊精心挑選了逾140萬條提示語,重點聚焦于Phi-4基礎模型邊緣能力范圍的“邊界問題”,強調多步驟推理而非簡單事實回憶。訓練數據由“o3-mini”模型在高推理模式下合成生成。
  • 思維鏈格式(Chain-of-Thought):模型輸出中采用顯式的<think>標簽,引導模型將推理過程與最終答案分離,以實現更清晰的推理軌跡。
  • 擴展上下文處理能力:通過調整旋轉位置編碼(RoPE)的基本頻率,使模型可處理最多32K token的輸入,有助于更長的推理路徑和多輪復雜問答。
  • 強化學習優化(Phi-4-reasoning-plus):該版本模型引入“群體相對策略優化”(Group Relative Policy Optimization,GRPO),基于約6400條精挑細選的數學問題進行微調。獎勵函數設計上,鼓勵模型生成正確、簡潔、結構良好的輸出,同時懲罰冗長、重復或格式錯誤的回答。

這種以數據為核心、關注輸出結構的訓練方法顯著提升了模型在推理過程中的泛化能力,能有效應對未見過的符號推理任務。

評估結果與性能表現

Phi-4-reasoning系列在多個推理評估基準上展現出卓越表現,性能甚至可與顯著更大的開源模型媲美:

  • Phi-4-reasoning-plus在特定領域任務上取得優異成績,同時也展現出良好的跨領域泛化能力,如在旅行商問題(TSP)與三滿足問題(3SAT)等組合優化任務中表現穩定,盡管其訓練數據中并未包含相關樣例。
  • 在指令遵循評估(IFEval)與長上下文問答(FlenQA)任務中的出色表現,也證明“思維鏈”訓練格式有助于拓展模型在通用場景中的實用性。
  • 特別是在對高敏感性數據集如AIME 2025進行測試時,微軟公開了50次生成結果的方差分布,結果顯示Phi-4-reasoning-plus在一致性方面可與o3-mini匹敵,顯著優于較小模型如DeepSeek-R1-Distill。

研究結論與未來展望

Phi-4 Reasoning系列模型展現出一種方法上高度嚴謹、規模上適中的小模型推理范式。通過精準的數據選型、結構調參與少量但關鍵的強化學習干預,微軟驗證了14B規模模型在多步驟推理任務中的出色能力,不僅實現了對更大模型的性能追平,甚至在部分任務中實現超越。

模型權重的開放與透明的基準測試也為未來小型LLM的發展設定了新標準。此類模型尤其適合應用于對解釋性、成本與穩定性要求高的領域,如教育、工程及決策支持系統。微軟預計后續將繼續拓展模型在更多STEM學科的適應能力,優化解碼策略,并探索更大規模的長期強化學習方案,以進一步增強模型的復雜推理能力與實用價值。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904085.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904085.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904085.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Elasticsearch入門速通01:核心概念與選型指南

一、Elasticsearch 是什么&#xff1f; 一句話定義&#xff1a; 開源分布式搜索引擎&#xff0c;擅長處理海量數據的實時存儲、搜索與分析&#xff0c;是ELK技術棧&#xff08;ElasticsearchKibanaBeatsLogstash&#xff09;的核心組件。 核心能力&#xff1a; 近實時搜索&…

【angular19】入門基礎教程(三):關于angular里面的響應式數據入門使用

三個框架&#xff0c;都有響應式數據的概念。在angular里面有專門的叫法&#xff0c;響應式數據叫信號,英文名signal。其他兩個框架式沒有專門的名字的&#xff0c;統稱為動態數據。這點可以說&#xff0c;angular還是太細了&#xff0c;細節值得點贊&#xff01;&#xff01; …

GitHub Actions 和 GitLab CI/CD 流水線設計

以下是關于 GitHub Actions 和 GitLab CI/CD 流水線設計 的基本知識總結: 一、核心概念對比 維度GitHub ActionsGitLab CI/CD配置方式YAML 文件(.github/workflows/*.yml).gitlab-ci.yml執行環境GitHub 托管 Runner / 自托管GitLab 共享 Runner / 自托管市場生態Actions Mar…

【網絡編程】HTTP(超文本傳輸協議)詳解

&#x1f984;個人主頁:修修修也 &#x1f38f;所屬專欄:網絡編程 ??操作環境:Visual Studio 2022 目錄 &#x1f4cc;HTTP定義 &#x1f4cc;HTTP工作原理 1.客戶端發起請求: 2.服務器處理請求: 3.客戶端處理響應: &#x1f4cc;HTTP關鍵特性 &#x1f38f;HTTP請求方法 &am…

Centos小白之在CentOS8.5中安裝Rabbitmq 3.10.8

注意事項 安裝以及運行等其他操作&#xff0c;要使用root賬號進行&#xff0c;否則會遇到很多麻煩的事情。 使用命令行進行遠程登錄 ssh root192.168.0.167 安裝make 執行安裝命令 yum -y install make gcc gcc-c kernel-devel m4 ncurses-devel openssl-devel這里有可能會…

SQL筆記——左連接、右連接、內連接

前言&#xff1a;總是忘記表連接的區別&#xff0c;在面試的時候也容易被問到&#xff0c;因此就好記性不如爛筆頭吧 集合運算 有并集、交集、差集 聯合查詢*&#xff08;針對行合并的&#xff09;* union為關鍵字&#xff0c;就是將兩個select的結果求并集&#xff08;此時重…

LeetCode - 19.刪除鏈表的倒數第N個結點

目錄 題目 解法一 雙指針算法 核心思想 執行流程 具體例子 代碼 解法二 兩次遍歷法 核心思想 執行流程 具體例子 代碼 題目 19. 刪除鏈表的倒數第 N 個結點 - 力扣&#xff08;LeetCode&#xff09; 解法一 雙指針算法 核心思想 利用雙指針間隔固定距離(n1)&a…

C# 編程核心:控制流與方法調用詳解

在編程中&#xff0c;控制流和方法調用是構建程序邏輯的兩大基石。它們決定了代碼的執行順序和模塊化協作方式。本文將從基礎概念出發&#xff0c;結合代碼示例&#xff0c;深入解析這兩部分內容。 控制流&#xff1a;程序執行的指揮棒 控制流決定了代碼的執行路徑&#xff0…

Sentinel學習

sentinel是阿里巴巴研發的一款微服務組件&#xff0c;主要為用戶提供服務保護&#xff0c;包括限流熔斷等措施 &#xff08;一&#xff09;主要功能 流量控制&#xff08;限流&#xff09;&#xff1a;比如限制1s內有多少請求能到達服務器&#xff0c;防止大量請求打崩服務器…

Linux中進程的屬性:進程優先級

一、優先級和進程優先級 1.1什么是優先級 優先級就是獲取某種資源的先后順序&#xff0c;比如打飯時排隊&#xff1a;排隊就是在確認優先級 1.2為什么要有優先級 本質上其實是目標資源相對于需求者來說比較少&#xff0c;如CPU&#xff0c;磁盤&#xff0c;顯示器&#xff…

基于LangChain 實現 Advanced RAG-后檢索優化(上)-Reranker

摘要 Advanced RAG 的后檢索優化&#xff0c;是指在檢索環節完成后、最終響應生成前&#xff0c;通過一系列策略與技術對檢索結果進行深度處理&#xff0c;旨在顯著提升生成內容的相關性與質量。在這些優化手段中&#xff0c;重排序優化&#xff08;Reranker&#xff09;作為核…

【云備份】熱點管理模塊

目錄 1.熱點管理文件的基本思路 2.熱點管理類的設計 3.熱點管理類的實現 1.熱點管理文件的基本思路 服務器端的熱點文件管理是對上傳的非熱點文件進行壓縮存儲&#xff0c;節省磁盤空間。 而熱點文件的判斷在于上傳的文件的最后一次訪問時間是否在熱點判斷時間之內。 實…

LeetCode 560. 和為 K 的子數組 | 前綴和與哈希表的巧妙應用

文章目錄 方法思路&#xff1a;前綴和 哈希表核心思想關鍵步驟 代碼實現復雜度分析示例解析總結 題目描述 給定一個整數數組 nums 和一個整數 k&#xff0c;請統計并返回該數組中和為 k 的子數組的數量。 子數組是數組中連續的非空元素序列。 示例 輸入&#xff1a;nums …

Windows配置grpc

Windows配置grpc 方法一1. 使用git下載grph下載速度慢可以使用國內鏡像1.1 更新子模塊 2. 使用Cmake進行編譯2.1 GUI編譯2.2 命令行直接編譯 3. 使用Visual Studio 生成解決方法 方法二1. 安裝 vcpkg3.配置vckg的環境變量2. 使用 vcpkg 安裝 gRPC3. 安裝 Protobuf4. 配置 CMake…

【算法基礎】快速排序算法 - JAVA

一、算法基礎 1.1 什么是快速排序 快速排序&#xff08;Quick Sort&#xff09;是一種高效的分治排序算法&#xff0c;由英國計算機科學家Tony Hoare于1960年提出。它的核心思想是&#xff1a; 選擇一個基準元素&#xff08;pivot&#xff09;將數組分成兩部分&#xff1a;小…

Linux用戶管理命令和用戶組管理命令

一、用戶管理命令 1.1、adduser 添加新用戶 1、基本語法 adduser 用戶名 &#xff08;功能描述&#xff1a;添加新用戶&#xff09; 應用場景1&#xff1a;企業開發&#xff0c;多人協同&#xff08;也會有多人使用相同的一個低權限用戶&#xff09;。 應用場景2&#x…

記錄兩個免費開源又好用的后臺模版vue3

一.element-plus-admin 一套基于vue3、element-plus、typesScript、vite的后臺集成方案 1.簡介 vue-element-plus-admin 是一個基于 element-plus 免費開源的中后臺模版。使用了最新的 Vue3&#xff0c;Vite&#xff0c;Typescript等主流技術開發&#xff0c;開箱即用的中后…

Flip PDF Plus Corp7.7.22電子書制作軟件

flip pdf plus corporate7.7.22中文版由FlipBuilder官方出品的一款企業級的翻頁電子書制作軟件&#xff0c;擁有豐富的模板&#xff0c;主題和動畫場景&#xff0c;每本書最大頁數1000頁&#xff0c;每本書的最大大小1GB&#xff0c;即可以幫助企業用戶制作好豐富的電子書籍。 …

C語言藍橋杯真題代碼

以下是不同屆藍橋杯C語言真題代碼示例&#xff0c;供參考&#xff1a; 第十三屆藍橋杯省賽 C語言大學B組 真題&#xff1a;卡片 題目&#xff1a;小藍有很多數字卡片&#xff0c;每張卡片上都是數字1-9。他想拼出1到n的數列&#xff0c;每張卡片只能用一次&#xff0c;求最大的…

[Windows] Kazumi番劇采集v1.6.9:支持自定義規則+在線觀看+彈幕,跨平臺下載

[Windows] Kazumi番劇采集 鏈接&#xff1a;https://pan.xunlei.com/s/VOPLMhEQD7qixvAnoy73NUK9A1?pwdtu6i# Kazumi是一款基于框架; 開發的輕量級番劇采集工具&#xff0c;專為ACG愛好者設計。通過;自定義XPath規則; 實現精準內容抓取&#xff0c;支持多平臺&#xff08;An…