强化学习数据合成框架SynLogic及语音大模大模型评估


强化学习数据合成框架SynLogic及语音大模大模型评估

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

今天是2025年5月29日,星期四,北京,晴
我们来看两个事情,一个是看看大模型推理及语音模型评估进展,包括大模型推理prompt策略及DeepSeek-R1更新以及语音大模型评估。
另外一个事情,还是回到数据合成的事情,看看强化学习数据合成框架SynLogic,代码也开源了,可以用起来。
1、大模型推理prompt策略及DeepSeek-R1更新
先来看两张图,包括大模型推理中的3个prompt策略以及主动学习的课程从中可以看到一些技术细节。
另外,最近DeepSeek-R1更新并发布一个新版本,为DeepSeek-R1-0528,https ://huggingface. co/deepseek-ai/DeepSeek-R1-0528/
从民间测评的结果来看,主要是在代码能力上有提升,并且在思考长度上有增加。
2、语音大模型评估

其中找到一个可以找icon的网站,在:https ://www. flaticon.com/

看下实现架构图,关键组件如下:
1)任务选择。手机谜题问题和现有评估基准中选择35个多样化的逻辑任务。这些任务包括数独、24点游戏、密码破译等,具体涉及到的35个推理任务如下:
2)参数识别。为每个任务识别控制难度的关键参数,如数独中的网格大小或数学路径中的缺失数字,用于生成不同难度的数据实例;
3)逻辑实例生成。通过手动实现的基于规则的生成器将任务特定的规则形式化为代码,确保生成的实例符合任务的结构。例如,数独生成器会确保每个数字在网格中的唯一性。
4)难度控制。使用强推理模型(如DeepSeekR1)设定难度的上限,使用聊天模型设定难度的下限,确保生成的数据具有适当的复杂性和可学习性。
5)提示形式化。将抽象的逻辑实例转换为自然语言提示,以便于LLM的训练和评估。例如,提示模板会要求模型逐步思考并给出最终答案。
6)验证套件。为每个任务实现一个专用的验证器,自动检查模型输出的正确性。这既用于训练监督,也用于自动评估数据集的质量。
1、https ://huggingface. co/deepseek-ai/DeepSeek-R1-0528/
2、https ://github. com/MiniMax-AI/SynLogic
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录