微软开源MAI-DS-R1:敏感提示响应比DeepSeek-R1提升200%,风险降50%


微软开源MAI-DS-R1:敏感提示响应比DeepSeek-R1提升200%,风险降50%

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

微软发布并开源MAI-DS-R1模型,是DeepSeekR1模型的一个新版本。微软人工智能团队用35万个敏感主题的示例对这个模型进行了后训练,以提高其在该类主题上的响应能力,并优化其风险配置,同时保留了其推理能力和竞争力。
MAI-DS-R1能够成功响应99.3%与被屏蔽主题相关的提示,比DeepSeekR1提升了2.2倍,与Perplexity的R1-1776相当。
MAI-DS-R1在内部评估中的满意度指标也高于DeepSeekR1和R1-1776,分别提升了2.1倍和1.3倍。
MAI-DS-R1在减少有害内容方面表现优于DeepSeekR1和R1-1776,根据HarmBench评估,在“思考”过程和最终“答案”回应中,此类内容减少了50%以上。
MAI-DS-R1在一般知识、推理、数学和编程基准测试中,保持了DeepSeekR1模型原有的推理能力。
MAI-DS-R1后训练
使用约35万个被屏蔽主题的示例,对MAI-DS-R1模型进行了精心准备的后训练,采用多种策略:
收集和筛选查询关键词;
将关键词转换为多个问题;
将问题翻译成多种语言;
使用DeepSeekR1和内部模型为这些问题生成答案及相应的思考链(CoT)。
此外,还加入了来自Tulu3SFT数据集的11万个安全和风险示例(涵盖CoCoNot、WildJailbreak和WildGuardMix)。

推荐阅读
•动手设计AIAgents:Coze版(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•RAG全景图:从RAG启蒙到高级RAG之36技,再到终章AgenticRAG!
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录