仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
就在刚刚,DeepSeek上传了最新大模型:DeepSeek-Prover-V2-671B
首先,从名字也能看出,该模型的参数量为671B,采用的基础模型架构为Deepseek-V3,也因此,很多配置都与DeepSeek-V3一样。比如MoE中间层大小为2048,moe_layer_freq设置为1,表明每层都是MoE层,每个MoE层包含1个共享专家和256个路由专家,每个token会激活8个专家。最大可处理163,840长度的上下文。
一模型架构
基于671B参数规模的混合专家(MoE)架构,动态调用数学领域专家模块,结合检索增强生成技术整合外部数学知识库,支持128Ktoken长文本处理。
二性能突破
1专精高阶数学领域(抽象代数、拓扑学等),生成符合形式化验证的证明步骤
采用多头潜在注意力(MLA)机制,显存占用减少93.3%,推理吞吐量提升5.76倍
2结合清华大学的kTransformers框架,可通过CPU-GPU混合架构降低硬件门槛。使用单张NVIDIA4090显卡即可实现流畅推理,显著减少部署成本,单张NVIDIA4090显卡即可流畅部署,不需要H100多卡集群。
三应用场景
1-科研辅助:为数学家提供自动化证明工具,不知道具体表现如何,如果性能可以,那真的可以加速猜想验证以及定理发现。
2-教育领域:用于生成教学案例或验证学生提交的证明过程逻辑严密性。-3-工业验证:在芯片设计、密码学等领域辅助形式化验证,确保算法安全性。
去年发布的V1.5还是参数只有7B的小模型,今年就直接升级成671B的大模型了。DeepSeek看起来是把这个模型用来重点突破数学领域,给科研和提供提供大模型支持。
huggingface地址:
https ://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main