一个超强的推理增强大模型,开源了,本地部署

发布日期: 2025-06-11

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是Ai学习的老章
前几天介绍了MOE模型先驱Mistral开源的代码Agent大模型——mistralai/Devstral-Small-2505
今天一起看看Mistral最新开源的推理大模型——Magistral
Mistral公司推出了首个推理模型Magistral及自研可扩展强化学习(RL)流程。团队采用自下而上的方法，完全基于自有模型和基础设施构建，不依赖现有实现或其他模型的RL轨迹。
Mistral的技术栈探索了纯RL训练大语言模型的极限，开发出强制模型使用特定推理语言的方法，并证实仅用文本数据的强化学习能保持初始模型大部分能力。这种方法还能维持或提升多模态、指令遵循和函数调用能力。
2. 推理轨迹微调：基于MagistralMedium生成的推理轨迹微调的MistralSmall24B
设计理念是像人类一样缜密思考，同时具备跨专业领域的知识储备、可追踪验证的透明推理流程，以及深度的多语言适应能力。
与通用模型不同，Magistral针对多步逻辑进行了微调，提高了可解释性，并以用户语言提供可追溯的思维过程。
Magistral基于MistralSmall3. 1（2503）构建，增强了推理能力
Magistral提供两种版本：MagistralSmall（240亿参数开源版）,MagistralMedium（企业版）
MagistralSmall融合了来自MagistralMedium的冷启动数据
MagistralSmall参数量24B,可本地部署，量化后能适配单张RTX4090显卡或32GB内存的MacBook
Magistral上下文窗口128k，但超过40k后性能可能下降,官方建议将模型最大长度设置为40k

Mistral也鸡贼，拿去刷榜的是企业版(Medium),开源版数据就没那么全了
注:GPQADiamond是GPQA数据集的子集。GPQA数据集包含448道由生物学、物理学和化学领域专家编写的高质量选择题，而Diamond子集是其中质量最高的部分，包含198条结果，其选取的是两个专家均答对且至少2/3非专家答错的问题，这些问题具有很高的难度。
Model
AIME24pass@1
AIME25pass@1
GPQADiamond
Livecodebench(v5)
MagistralMedium模型
73. 59%
64. 95%
70. 83%
59. 36%
MagistralSmall模型
70. 68%
62. 76%
68. 18%
55. 84%
Medium比Small强了2个百分点的样子
另：看论文中，Magistral对中文相对没那么友好，毕竟法国公司。不过拿去写代码应该问题不大，Livecodebench(v5)上强于V3一大截
截至发文modelscope. com尚未更新模型文件，网络不佳的同学可以坐等一下:https ://www. modelscope.cn/models/mistralai/
网络畅通就去huggingface:https ://huggingface. co/mistralai/Magistral-Small-2506
模型文件50GB，感觉至少需要4张4090才能启动
启动模型：
量化版对显卡的要求至少可以打个对折起步
比如Ollama上量化后模型文件只有14GB
Magistral量化版汇总：
`llama. cpp`[1]：https ://huggingface. co/mistralai/Magistral-Small-2506_gguf[ 2]
`lmstudio`（llama. cpp,MLX）[3]：https ://lmstudio. ai/models/mistralai/magistral-small[ 4]
`ollama`(llama. cpp)[5]:https ://ollama. com/library/magistral[ 6]
`unsloth`(llama. cpp)[7]:https ://huggingface. co/unsloth/Magistral-Small-2506-GGUF[ 8]
官方有该模型的最佳参数：
top_p:0. 95
temperature:0. 7
max_tokens:40960
我在论文中还看到了史上最简洁的系统提示词
虽然简介，但是也包括了一个系统提示词的所有结构：
双阶段思考：
第一阶段：要求模型在ThoughtProcess标签内进行详细的思考过程（内部独白）
第二阶段：在标签外提供简洁但完整的总结和最终答案
思考可见化：
这种设计让用户能够看到模型的\“思考过程\“，增加透明度
类似于\“思考链\“(Chain-of-Thought)提示技术，但更加结构化
格式要求：
要求使用Markdown和LaTeX进行格式化，适合数学和科学问题的展示
强调结构化输出，使回答更加清晰易读
语言适应：
要求模型使用与用户提问相同的语言回答，增强用户体验
问题占位符：{problem}是一个占位符，将被实际问题替换
最后就是官方建议的聊天模板：

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！
搭建完美的写作环境：工具篇（12章）图解机器学习-中文版（72张PNG）ChatGPT、大模型系列研究报告（50个PDF）108页PDF小册子：搭建机器学习开发环境及Python基础116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料
llama. cpp:https ://github. com/ggml-org/llama. cpp

lmstudio（llama. cpp,MLX）:https ://lmstudio. ai/

ollama(llama. cpp):https ://ollama. com/
https ://ollama. com/library/magistral:https ://ollama. com/library/magistral
unsloth(llama. cpp):https ://huggingface. co/unsloth

ZejunCao

https://zejuncao.github.io/2025/06/11/1000002687-2648999283-1/