刚刚，DeepSeek发布最新大模型

发布日期: 2025-04-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

就在刚刚，DeepSeek上传了最新大模型：DeepSeek-Prover-V2-671B
首先，从名字也能看出，该模型的参数量为671B，采用的基础模型架构为Deepseek-V3，也因此，很多配置都与DeepSeek-V3一样。比如MoE中间层大小为2048，moe_layer_freq设置为1，表明每层都是MoE层，每个MoE层包含1个共享专家和256个路由专家，每个token会激活8个专家。最大可处理163,840长度的上下文。
一模型架构
基于671B参数规模的混合专家（MoE）架构，动态调用数学领域专家模块，结合检索增强生成技术整合外部数学知识库，支持128Ktoken长文本处理。
二性能突破
1专精高阶数学领域（抽象代数、拓扑学等），生成符合形式化验证的证明步骤
采用多头潜在注意力（MLA）机制，显存占用减少93.3%，推理吞吐量提升5.76倍
2结合清华大学的kTransformers框架，可通过CPU-GPU混合架构降低硬件门槛。使用单张NVIDIA4090显卡即可实现流畅推理，显著减少部署成本，单张NVIDIA4090显卡即可流畅部署，不需要H100多卡集群。
三应用场景
1-科研辅助：为数学家提供自动化证明工具，不知道具体表现如何，如果性能可以，那真的可以加速猜想验证以及定理发现。
2-教育领域：用于生成教学案例或验证学生提交的证明过程逻辑严密性。-3-工业验证：在芯片设计、密码学等领域辅助形式化验证，确保算法安全性。
去年发布的V1.5还是参数只有7B的小模型，今年就直接升级成671B的大模型了。DeepSeek看起来是把这个模型用来重点突破数学领域，给科研和提供提供大模型支持。
huggingface地址：
https ://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main