DeepSeek R1 最新版本模型，排名第三🥉

发布日期: 2025-05-29

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是Ai学习的老章
DeepSeek-R1默默地小版本升级，老规矩是先放出模型，后更新README
官方公布的模型信息有：
DeepSeek-R1-0528是DeepSeekR1模型的最新版本，通过增加计算资源和优化算法，显著提升了推理能力和深度
相比前版，模型在复杂推理任务（如数学、编程、逻辑）上表现更优，性能接近顶级模型（如O3和Gemini2. 5Pro）
推理深度：在AIME2025测试中，准确率从70%提升至87. 5%，平均每题使用token数从12K增至23K
其他优化：降低幻觉率、增强函数调用支持、改进代码生成体验
artificialanalysis. ai也更新了大模型智力最新排名
R1目前可以排第三了🥉
前两天辟谣、删文的Unsloth（DeepSeek新模型V3-0526性能比肩GPT4. 5？纯属乌龙！）也迅速跟进，发布了量化版本R1-0528，即便如此，，，部署成本很高
Q4_K_M跑起来也要500GB显存起步了
满血我昨天稍微测试了两个问题，感觉代码能力确实不错，比Qwen3强多了
我个人对DeepSeek同步开源的一个小型模型感兴趣——DeepSeek-R1-0528-Qwen3-8B
这个模型是从DeepSeek-R1-0528中提炼出思维链，对Qwen38B基础模型进行后训练而得。
通过蒸馏技术，在AIME2024上达到86. 0，超越Qwen3-8B(+10%)，媲美更大模型！

明天我准备本地部署测试一下
看介绍，它的模型架构与Qwen3-8B完全相同，只是与DeepSeek-R1-0528共享相同的分词器配置，所以，部署的话与Qwen3-8B没啥区别。
应该一张4090就OK了
最后，就本地部署而言，我最喜欢的还是Qwen3:32B，不知道DeepSeek-R1-0528-Qwen3-8B能不能惊艳我。
制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！
搭建完美的写作环境：工具篇（12章）图解机器学习-中文版（72张PNG）ChatGPT、大模型系列研究报告（50个PDF）108页PDF小册子：搭建机器学习开发环境及Python基础116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等

ZejunCao

https://zejuncao.github.io/2025/05/29/2648998903-2648998903-1/