突发(2025-04-30):DeepSeek-Prover-V2-671B 发布,专精于数学定理证明


突发(2025-04-30):DeepSeek-Prover-V2-671B 发布,专精于数学定理证明

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

DeepSeek开源最新模型DeepSeek-Prover-V2-671B,专精于数学定理证明。
该模型基础架构为Deepseek-V3,拥有2048个MoE中间层、且每层都是MoE层,每个MoE层包含1个共享专家和256个路由专家,每个token会激活8个专家。
DeepSeek-Prover-V2-671B最大可处理163,840tokens的上下文,比DeepSeek-V3的128k有约28%的提升。
☆一键收藏:
https ://sota.jiqizhixin.com/project/deepseek-prover-v2-671b


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录