Mistral的首个强推理模型:拥抱开源,推理速度快10倍


Mistral的首个强推理模型:拥抱开源,推理速度快10倍

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:泽南
强推理终于要卷速度了。
大模型强推理赛道,又迎来一位重量级玩家。
本周二,欧洲人工智能公司MistralAI发布了Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解决更复杂的任务。

直接使用:https ://chat. mistral.ai/chat
模型开源:https ://huggingface. co/mistralai/Magistral-Small-2506
论文:https ://mistral. ai/static/research/magistral. pdf

新模型在一些其他高要求测试中也表现出色,包括研究生水平的问答基准测试GPQADiamond和用于编程挑战的LiveCodeBench。
Mistral进一步展示了一些实际使用的案例。
MagistralMedium展示了自身的编程能力,一次生成输出的代码就能模拟出重力、摩擦力。
除了通过Benchmark和编程等「必考题」,Magistral模型还擅长在多种语言中保持高保真推理。它尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语、中文等语言的推理。
借助LeChat中的FlashAnswers,MagistralMedium还能实现比大多数竞争对手多达10倍的token吞吐量。Mistral称,这基本可以实现大规模的实时推理和用户反馈。
因为以上一系列特性,Mistral认为Magistral非常适合需要长时间思考和更高准确度的通用任务,相比非推理类的大模型,提升更为明显。
在技术报告中,Mistral表示Magistral应用了自主研发的可扩展强化学习流水线,其并非依赖现有实现和从先前模型中提炼出的强化学习痕迹,而是采用自下而上的方法,完全依赖自己的模型和基础设施。
在Magistral工作中研究人员发现,基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力。
有趣的是,Magistral的核心设计原则是使用与用户相同的语言进行推理。在未经任何处理的数学和编程问题上进行强化学习通常会导致模型在推理过程中出现混合语言。在没有语言限制的初步实验中,Mistral工程人员也经常观察到混合英语、中文和俄语单词的输出。虽然这些输出是连贯的,但为了避免语言切换,他们在计算对话(由问题、想法、答案组成)的奖励时,首先通过删除LaTeX内容和代码块对这三个部分进行归一化,然后对每个部分应用fastText分类器。如果分类器指示所有三个部分都使用相同的语言,则会额外给予0. 1的奖励。
这样简单的修改足以使模型能够紧密跟踪用户的语言,最大限度地减少代码切换,同时保持推理任务的性能。尽管只将原始英语问题翻译成几种语言,但我们能观察到Magistral模型能够成功生成任意语言的思维链、系统提示。
Mistral进一步在系统提示中指定了格式和语言要求,如下图所示。实验发现强化学习训练对这些系统提示非常敏感。例如,系统提示中的「尽可能随意,尽可能长」部分增加了模型的熵,从而改善了模型的探索能力。

在使用成本方面,Mistral把MagistralMedium定位为一款独特的高端产品,因此价格也是大幅上涨。
它的每百万输入token价格为2美元,每百万输出token是5美元,相比老款MistralMedium3价格大幅上涨,后者输入成本仅为0. 4美元,输出成本为2美元。
然而,与外部竞争对手相比,MagistralMedium的定价策略却显得极具竞争力。它的输入成本比OpenAI最新型号便宜,与Gemini2. 5Pro的价格处于同一水平,输出成本也远低于这两款产品。
看起来,推理速度比竞品快10倍的竞争优势确实很大。
MagistralAPI与其他领先LLM的推理成本对比。
在Magistral推出之后,Mistral的目标是从此版本开始快速迭代模型。
参考内容:
https ://mistral. ai/news/magistral

©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录