大爆发:Qwen、DeepSeek、小米组团开源最新推理大模型
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
5.1前国内多款大模型集中开源,卷的飞起:阿里Qwen3系列、小米MiMo-7B、Qwen2.5-Omni-3B、DeepSeek-Prover-V2-671B。
Qwen3系列
Qwen3是Qwen系列中的最新一代大语言模型,提供了一套完整的密集型和混合专家(MoE)模型。基于广泛的训练,Qwen3在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展,一图胜千言:
小米MiMo-7B
开源专为推理任务设计的MiMo-7B系列模型,包括基础模型、SFT模型、从基础模型训练的RL模型以及从SFT模型训练的RL模型的checkpoint。
MiMo-7B其推理潜力卓越,甚至超越了更大的32B模型。经过强化学习(RL)训练后,MiMo-7B-RL在数学和代码推理任务上表现出色,与OpenAI的o1-mini相当。
预训练:为推理而生的基础模型
优化了数据预处理流程,增加预训练数据中的推理模式密度。采用三阶段数据混合策略进行预训练。MiMo-7B-Base在大约25Ttokens上进行了预训练。
将多tokens预测作为额外的训练目标,这不仅提升了模型性能,还加速了推理过程。
DeepSeek-Prover-V2-671B
DeepSeek-Prover-V2,这是一款为Lean4中的形式化定理证明而设计的开源大语言模型:
其初始化数据是通过由DeepSeek-V3驱动的递归定理证明流程收集的。
冷启动训练过程首先提示DeepSeek-V3将复杂问题分解为一系列子目标。已解决子目标的证明被整合到一个连贯的思维链中,并结合DeepSeek-V3的逐步推理,为强化学习创建一个初始的冷启动。这一过程能够将非形式化和形式化的数学推理整合到一个统一的模型中。
https ://hf-mirror.com/deepseek-ai/DeepSeek-Prover-V2-671B
Qwen2.5-Omni-3B
Qwen2.5-Omni系列此前已经开源了一个7B版本,此次放出一个更小尺寸Qwen2.5-Omni-3B,为响应开发者轻量级GPU适配需求。
Qwen2.5-Omni是一款端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多样化模态,并同时以流式方式生成文本和自然语音响应。
https ://hf-mirror.com/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e
推荐阅读
•对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
•一篇搭建AI大模型应用平台架构的全面指南
•RAG全景图:从RAG启蒙到高级RAG之36技,再到终章AgenticRAG!
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。