一个超强的推理增强大模型,开源了,本地部署


一个超强的推理增强大模型,开源了,本地部署

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
前几天介绍了MOE模型先驱Mistral开源的代码Agent大模型——mistralai/Devstral-Small-2505
今天一起看看Mistral最新开源的推理大模型——Magistral
Mistral公司推出了首个推理模型Magistral及自研可扩展强化学习(RL)流程。团队采用自下而上的方法,完全基于自有模型和基础设施构建,不依赖现有实现或其他模型的RL轨迹。
Mistral的技术栈探索了纯RL训练大语言模型的极限,开发出强制模型使用特定推理语言的方法,并证实仅用文本数据的强化学习能保持初始模型大部分能力。这种方法还能维持或提升多模态、指令遵循和函数调用能力。
2. 推理轨迹微调:基于MagistralMedium生成的推理轨迹微调的MistralSmall24B
设计理念是像人类一样缜密思考,同时具备跨专业领域的知识储备、可追踪验证的透明推理流程,以及深度的多语言适应能力。
与通用模型不同,Magistral针对多步逻辑进行了微调,提高了可解释性,并以用户语言提供可追溯的思维过程。
Magistral基于MistralSmall3. 1(2503)构建,增强了推理能力
Magistral提供两种版本:MagistralSmall(240亿参数开源版),MagistralMedium(企业版)
MagistralSmall融合了来自MagistralMedium的冷启动数据
MagistralSmall参数量24B,可本地部署,量化后能适配单张RTX4090显卡或32GB内存的MacBook
Magistral上下文窗口128k,但超过40k后性能可能下降,官方建议将模型最大长度设置为40k

Mistral也鸡贼,拿去刷榜的是企业版(Medium),开源版数据就没那么全了
注:GPQADiamond是GPQA数据集的子集。GPQA数据集包含448道由生物学、物理学和化学领域专家编写的高质量选择题,而Diamond子集是其中质量最高的部分,包含198条结果,其选取的是两个专家均答对且至少2/3非专家答错的问题,这些问题具有很高的难度。
Model
AIME24pass@1
AIME25pass@1
GPQADiamond
Livecodebench(v5)
MagistralMedium模型
73. 59%
64. 95%
70. 83%
59. 36%
MagistralSmall模型
70. 68%
62. 76%
68. 18%
55. 84%
Medium比Small强了2个百分点的样子
另:看论文中,Magistral对中文相对没那么友好,毕竟法国公司。不过拿去写代码应该问题不大,Livecodebench(v5)上强于V3一大截
截至发文modelscope. com尚未更新模型文件,网络不佳的同学可以坐等一下:https ://www. modelscope.cn/models/mistralai/
网络畅通就去huggingface:https ://huggingface. co/mistralai/Magistral-Small-2506
模型文件50GB,感觉至少需要4张4090才能启动
启动模型:
量化版对显卡的要求至少可以打个对折起步
比如Ollama上量化后模型文件只有14GB
Magistral量化版汇总:
`llama. cpp`[1]:https ://huggingface. co/mistralai/Magistral-Small-2506_gguf[ 2]
`lmstudio`(llama. cpp,MLX)[3]:https ://lmstudio. ai/models/mistralai/magistral-small[ 4]
`ollama`(llama. cpp)[5]:https ://ollama. com/library/magistral[ 6]
`unsloth`(llama. cpp)[7]:https ://huggingface. co/unsloth/Magistral-Small-2506-GGUF[ 8]
官方有该模型的最佳参数:
top_p:0. 95
temperature:0. 7
max_tokens:40960
我在论文中还看到了史上最简洁的系统提示词
虽然简介,但是也包括了一个系统提示词的所有结构:
双阶段思考:
第一阶段:要求模型在ThoughtProcess标签内进行详细的思考过程(内部独白)
第二阶段:在标签外提供简洁但完整的总结和最终答案
思考可见化:
这种设计让用户能够看到模型的\“思考过程\“,增加透明度
类似于\“思考链\“(Chain-of-Thought)提示技术,但更加结构化
格式要求:
要求使用Markdown和LaTeX进行格式化,适合数学和科学问题的展示
强调结构化输出,使回答更加清晰易读
语言适应:
要求模型使用与用户提问相同的语言回答,增强用户体验
问题占位符:{problem}是一个占位符,将被实际问题替换
最后就是官方建议的聊天模板:

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料
llama. cpp:https ://github. com/ggml-org/llama. cpp

lmstudio(llama. cpp,MLX):https ://lmstudio. ai/

ollama(llama. cpp):https ://ollama. com/
https ://ollama. com/library/magistral:https ://ollama. com/library/magistral
unsloth(llama. cpp):https ://huggingface. co/unsloth


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录