一個超強的推理增強大模型,開源了,本地部署

大家好,我是 Ai 學習的老章

前幾天介紹了MOE 模型先驅 Mistral 開源的代碼 Agent 大模型——mistralai/Devstral-Small-2505

今天一起看看 Mistral 最新開源的推理大模型——Magistral

Magistral 簡介

Mistral 公司推出了首個推理模型 Magistral 及自研可擴展強化學習 (RL) 流程。團隊采用自下而上的方法,完全基于自有模型和基礎設施構建,不依賴現有實現或其他模型的 RL 軌跡。

Magistral 強化編碼與開發用例:相比非推理模型,它通過涉及外部工具或 API 的序列化多步驟操作,顯著提升項目規劃、后端架構、前端設計和數據工程能力。

Mistral 的技術棧探索了純 RL 訓練大語言模型的極限,開發出強制模型使用特定推理語言的方法,并證實僅用文本數據的強化學習能保持初始模型大部分能力。這種方法還能維持或提升多模態、指令遵循和函數調用能力。

1. 純強化學習訓練:從頭開始通過強化學習(RL only)訓練的 Mistral Small 24B  2.推理軌跡微調:基于 Magistral Medium 生成的推理軌跡微調的 Mistral Small 24B,3.最終版 Magistral Small:在 Magistral Medium 軌跡微調基礎上進一步強化學習優化的 Mistral Small 24B

設計理念是像人類一樣縝密思考,同時具備跨專業領域的知識儲備、可追蹤驗證的透明推理流程,以及深度的多語言適應能力。

Magistral 特性

  • 與通用模型不同,Magistral 針對多步邏輯進行了微調,提高了可解釋性,并以用戶語言提供可追溯的思維過程。
  • Magistral 基于 Mistral Small 3.1(2503)構建,?增強了推理能力
  • Magistral 提供兩種版本:Magistral Small(240 億參數開源版),Magistral Medium(企業版)
  • Magistral Small 融合了來自 Magistral Medium 的冷啟動數據
  • Magistral Small 參數量 24B, 可本地部署,量化后能適配單張 RTX 4090 顯卡或 32GB 內存的 MacBook
  • Magistral 上下文窗口 128k ,?但超過?40k?后性能可能下降,官方建議將模型最大長度設置為 40k

Magistral 測評數據

Magistral Medium 只用 24B 參數秒殺 DeepSeek-V3,某些領域 (GPQA Diamond) 可以和 DeepSeek-R1 掰手腕,不過應該是舊版 R1,如果跟 R1-0528 比,那還是差這檔次呢

Mistral 也雞賊,拿去刷榜的是企業版 (Medium),開源版數據就沒那么全了

注:GPQA Diamond 是 GPQA 數據集的子集。GPQA 數據集包含 448 道由生物學、物理學和化學領域專家編寫的高質量選擇題,而 Diamond 子集是其中質量最高的部分,包含 198 條結果,其選取的是兩個專家均答對且至少 2/3 非專家答錯的問題,這些問題具有很高的難度。

ModelAIME24 pass@1AIME25 pass@1GPQA DiamondLivecodebench (v5)
Magistral Medium 模型73.59%64.95%70.83%59.36%
Magistral Small 模型70.68%62.76%68.18%55.84%

MediumSmall 強了 2 個百分點的樣子

另:看論文中,Magistral 對中文相對沒那么友好,畢竟法國公司。不過拿去寫代碼應該問題不大,Livecodebench (v5) 上強于 V3 一大截

Magistral Small 部署

截至發文 modelscope.com 尚未更新模型文件,網絡不佳的同學可以坐等一下:https://www.modelscope.cn/models/mistralai/

網絡暢通就去huggingface:https://huggingface.co/mistralai/Magistral-Small-2506

模型文件 50GB,感覺至少需要 4 張 4090 才能啟動

啟動模型:

# 需要升級到最新版:
pip install -U vllm --extra-index-url [https://wheels.vllm.ai/0.9.1rc1](https://t.co/kuf2vI0hva "https://wheels.vllm.ai/0.9.1rc1") --torch-backend=auto
vllm serve mistralai/Magistral-Small-2506 --tokenizer_mode mistral --config_format mistral --load_format mistral --tool-call-parser mistral --enable-auto-tool-choice --tensor-parallel-size 2

量化版對顯卡的要求至少可以打個對折起步

比如Ollama上量化后模型文件只有14GB

Magistral 量化版匯總:

  • llama.cpp:https://huggingface.co/mistralai/Magistral-Small-2506_gguf
  • lmstudio(llama.cpp, MLX):https://lmstudio.ai/models/mistralai/magistral-small
  • ollama?(llama.cpp):?https://ollama.com/library/magistral
  • unsloth?(llama.cpp):?https://huggingface.co/unsloth/Magistral-Small-2506-GGUF

Magistral 使用

官方有該模型的最佳參數:

  • top_p: 0.95
  • temperature: 0.7
  • max_tokens: 40960

我在論文中還看到了史上最簡潔的系統提示詞

A user will ask you to solve a task. You should first draft your thinking process (inner
monologue) until you have derived the final answer. Afterwards, write a self-contained
summary of your thoughts (i.e. your summary should be succinct but contain all the critical
steps you needed to reach the conclusion). You should use Markdown and Latex to format
your response. Write both your thoughts and summary in the same language as the task
posed by the user.
Your thinking process must follow the template below:
<think>
Your thoughts or/and draft, like working through an exercise on scratch paper. Be as casual
and as long as you want until you are confident to generate a correct answer.
</think>
Here, provide a concise summary that reflects your reasoning and presents a clear final
answer to the user.
Problem:
{problem}

雖然簡介,但是也包括了一個系統提示詞的所有結構:

  1. 雙階段思考
    • 第一階段:要求模型在Thought Process標簽內進行詳細的思考過程(內部獨白)
    • 第二階段:在標簽外提供簡潔但完整的總結和最終答案
  2. 思考可見化
    • 這種設計讓用戶能夠看到模型的"思考過程",增加透明度
    • 類似于"思考鏈"(Chain-of-Thought) 提示技術,但更加結構化
  3. 格式要求
    • 要求使用 Markdown 和 LaTeX 進行格式化,適合數學和科學問題的展示
    • 強調結構化輸出,使回答更加清晰易讀
  4. 語言適應
    • 要求模型使用與用戶提問相同的語言回答,增強用戶體驗
  5. 問題占位符:{problem}是一個占位符,將被實際問題替換

最后就是官方建議的聊天模板:

<s>[SYSTEM_PROMPT]system_promptA user will ask you to solve a task. You should first draft your thinking process (inner monologue) until you have derived the final answer. Afterwards, write a self-contained summary of your thoughts (i.e. your summary should be succinct but contain all the critical steps you needed to reach the conclusion). You should use Markdown to format your response. Write both your thoughts and summary in the same language as the task posed by the user. NEVER use \boxed{} in your response.Your thinking process must follow the template below:
<think>
Your thoughts or/and draft, like working through an exercise on scratch paper. Be as casual and as long as you want until you are confident to generate a correct answer.
</think>Here, provide a concise summary that reflects your reasoning and presents a clear final answer to the user. Don't mention that this is a summary.Problem:[/SYSTEM_PROMPT][INST]user_message[/INST]<think>
reasoning_traces
</think>
assistant_response</s>[INST]user_message[/INST]

其他資源

試用:https://chat.mistral.ai/chat
論文:https://mistral.ai/static/research/magistral.pdf
API:http://console.mistral.ai/

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個🌟,謝謝你看我的文章,我們下篇再見!

搭建完美的寫作環境:工具篇(12 章)
圖解機器學習 - 中文版(72 張 PNG)
ChatGPT、大模型系列研究報告(50 個 PDF)
108 頁 PDF 小冊子:搭建機器學習開發環境及 Python 基礎?
116 頁 PDF 小冊子:機器學習中的概率論、統計學、線性代數?
史上最全!371 張速查表,涵蓋 AI、ChatGPT、Python、R、深度學習、機器學習等

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84511.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84511.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84511.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL體系架構解析(五):讀懂MySQL日志文件是優化與故障排查的關鍵

MySQL文件 日志文件 在服務器運行過程中&#xff0c;會產生各種各樣的日志&#xff0c;比如常規的查詢日志&#xff0c;錯誤日志、二進制日志、 redo 日志和 Undo 日志等&#xff0c;日志文件記錄了影響 MySQL 數據庫的各種類型活動。 常見的日志文件有&#xff1a;錯誤日志…

湖南省網絡建設與運維賽項競賽規程及樣題

湖南省職業院校技能競賽樣題 賽題說明 一、競賽內容 “網絡建設與運維”競賽共分三個部分&#xff0c;其中&#xff1a; 第一部分&#xff1a;職業規范與素養 &#xff08; 5 分&#xff09; 第二部分&#xff1a;網絡搭建及安全部署項目 &#xff08; 50 分&#xff09…

華為云Flexus+DeepSeek征文 | 基于華為云ModelArts Studio搭建AnythingLLM聊天助手

華為云FlexusDeepSeek征文 | 基于華為云ModelArts Studio搭建AnythingLLM聊天助手 引言一、ModelArts Studio平臺介紹華為云ModelArts Studio簡介ModelArts Studio主要特點 二、AnythingLLM介紹AnythingLLM 簡介AnythingLLM主要特點AnythingLLM地址 三、安裝AnythingLLM應用下載…

板凳-------Mysql cookbook學習 (十--5)

6.11 計算年齡 2025年6月11日星期三 --創建表、初始化數據 drop table if exists sibling; create table sibling (name char(20),birth date );insert into sibling (name,birth) values(Gretchen,1942-04-14); insert into sibling (name,birth) values(Wilbur,1946-11-28)…

SAP RESTFUL接口方式發布SICF實現全路徑

其他相關資料帖可參考&#xff1a; https://blog.csdn.net/woniu_maggie/article/details/146210752 https://blog.csdn.net/SAPmatinal/article/details/134349125 https://blog.csdn.net/weixin_44382089/article/details/128283417 【業務場景】 外部系統不想通過RFC (需…

在windows中安裝或卸載nginx

首先在nginx的安裝目錄下cmd查看nginx的版本&#xff1a; 在看windows的服務中是否nginx注冊為服務了 如果注冊了服務就先將服務卸載了 在nginx的安裝目錄cmd執行命令 NginxService.exe uninstall “NginxService”是對應的注冊的服務名稱 關閉所有的相關nginx的服務這個也…

FaceFusion 技術深度剖析:核心算法與實現機制揭秘

在 AI 換臉技術蓬勃發展的浪潮中&#xff0c;FaceFusion 憑借其出色的換臉效果和便捷的操作&#xff0c;成為眾多用戶的首選工具。從短視頻平臺上的創意惡搞視頻&#xff0c;到影視制作中的特效合成&#xff0c;FaceFusion 都展現出強大的實用性。而這一切的背后&#xff0c;是…

2. Web網絡基礎 - 協議端口

深入解析協議端口與netstat命令&#xff1a;網絡工程師的實戰指南 在網絡通信中&#xff0c;協議端口是服務訪問的門戶。本文將全面解析端口概念&#xff0c;并通過netstat命令實戰演示如何監控網絡連接狀態。 一、協議端口核心知識解析 1. 端口號的本質與分類 端口范圍類型說…

嵌入式學習筆記 - freeRTOS vTaskPlaceOnEventList()函數解析

vTaskPlaceOnEventList( &( pxQueue->xTasksWaitingToSend ), xTicksToWait ); 函數第一個參數為消息隊列等待插入鏈表&#xff0c; void vTaskPlaceOnEventList( List_t * const pxEventList, const TickType_t xTicksToWait ) { configASSERT( pxEventList ); /…

Ubuntu 配置使用 zsh + 插件配置 + oh-my-zsh 美化過程

Ubuntu 配置使用 zsh 插件配置 oh-my-zsh 美化過程 引言zsh 安裝及基礎配置oh-my-zsh 安裝及美化配置oh-my-zsh 安裝主題美化配置主題自定義主題 插件安裝及配置官方插件查看及啟用插件安裝 主題文件備份.zshrcre5et_self.zsh-theme 同步發布在個人筆記Ubuntu 配置使用 zsh …

Xilinx FPGA 重構Multiboot ICAPE2和ICAPE3使用

一、FPGA Multiboot 本文主要介紹基于IPROG命令的FPGA多版本重構&#xff0c;用ICAP原語實現在線多版本切換。需要了解MultiBoot Fallback點擊鏈接。 如下圖所示&#xff0c;ICAP原語可實現flash中n1各版本的動態切換&#xff0c;在工作過程中&#xff0c;可以通過IPROG命令切…

springMVC-11 中文亂碼處理

前言 本文介紹了springMVC中文亂碼的解決方案&#xff0c;同時也貼出了本人遇到過的其他亂碼情況&#xff0c;可以根據自身情況選擇合適的解決方案。 其他-jdbc、前端、后端、jsp亂碼的解決 Tomcat導致的亂碼解決 自定義中文亂碼過濾器 老方法&#xff0c;通過javaW…

mysql-innoDB存儲引擎事務的原理

InnoDB 存儲引擎支持 ACID 事務&#xff0c;其事務機制是通過 Redo Log&#xff08;重做日志&#xff09;、Undo Log&#xff08;回滾日志&#xff09; 和 事務日志系統 來實現的。下面詳細解析 InnoDB 事務的工作原理。 1.事務的基本特性&#xff08;ACID&#xff09; 特性描…

在GIS 工作流中實現數據處理

通過將 ArcPy 應用于實際的 GIS 工作流&#xff0c;我們可以高效地完成數據處理任務&#xff0c;節省大量時間和精力。接下來&#xff0c;本文將結合具體案例&#xff0c;詳細介紹如何運用 ArcPy 實現 GIS 數據處理的全流程。 數據讀取與合并 假設我們有多個 shapefile 文件&a…

第十四屆藍橋杯_省賽B組(C).冶煉金屬

題目如下: 拿到題我們來看一下&#xff0c;題目的意思&#xff0c;就是求出N個記錄中的最大最小值&#xff0c;言外之意就是&#xff0c;如果超過了這個最大值不行&#xff0c;如果小于這個最小值也不行&#xff0c;所以我們得出&#xff0c;這道題是一個二分答案的題目&#x…

??Android 如何查看CPU架構?2025年主流架構有哪些??

在開發安卓應用或選購手機時&#xff0c;了解設備的CPU架構至關重要。不同的架構影響性能、兼容性和能效比。那么&#xff0c;??如何查看安卓設備的CPU架構&#xff1f;2025年主流架構有哪些&#xff1f;不同架構之間有什么區別&#xff1f;?? 本文將為你詳細解答。 ??1.…

飛算 JavaAI 2.0.0:開啟老項目迭代維護新時代

在軟件開發領域&#xff0c;老項目的迭代與維護一直是開發團隊面臨的難題。代碼邏輯混亂、技術棧陳舊、開發效率低下等問題&#xff0c;讓老項目改造猶如一場 “噩夢”。而飛算 JavaAI 2.0.0 版本的正式上線&#xff0c;通過三大核心能力升級&#xff0c;為老項目開發帶來了全新…

Linux初步介紹

Linux是一種開源的類Unix操作系統內核&#xff0c;廣泛應用于服務器、桌面、嵌入式設備等各種計算平臺。它由Linus Torvalds于1991年首次開發&#xff0c;因其穩定性、安全性和靈活性&#xff0c;被全球開發者和企業廣泛采用。 特點&#xff1a; 開放性&#xff08;開源&#…

OneNet + openssl + MQTT

1.OneNet 使用的教程 1.在網絡上搜索onenet&#xff0c;注冊并且登錄賬號。 2.產品服務-----物聯網服務平臺立即體驗 3.在底下找到立即體驗進去 4.產品開發------創建產品 5.關鍵是選擇MQTT&#xff0c;其他的內容自己填寫 6.這里產品以及開發完成&#xff0c;接下來就是添加設…

行為設計模式之Memento(備忘錄)

行為設計模式之Memento&#xff08;備忘錄&#xff09; 前言&#xff1a; 備忘錄設計模式&#xff0c;有點像vmware快照可以回滾&#xff0c;idea的提交記錄同樣可以混滾&#xff0c;流程引擎中流程可以撤銷到或者回滾到某個指定的狀態。 1&#xff09;意圖 在不破壞封裝性的…