仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大家好,我是Ai学习的老章
DeepSeek-R1默默地小版本升级,老规矩是先放出模型,后更新README
官方公布的模型信息有:
DeepSeek-R1-0528是DeepSeekR1模型的最新版本,通过增加计算资源和优化算法,显著提升了推理能力和深度
相比前版,模型在复杂推理任务(如数学、编程、逻辑)上表现更优,性能接近顶级模型(如O3和Gemini2. 5Pro)
推理深度:在AIME2025测试中,准确率从70%提升至87. 5%,平均每题使用token数从12K增至23K
其他优化:降低幻觉率、增强函数调用支持、改进代码生成体验
artificialanalysis. ai也更新了大模型智力最新排名
R1目前可以排第三了🥉
前两天辟谣、删文的Unsloth(DeepSeek新模型V3-0526性能比肩GPT4. 5?纯属乌龙!)也迅速跟进,发布了量化版本R1-0528,即便如此,,,部署成本很高
Q4_K_M跑起来也要500GB显存起步了
满血我昨天稍微测试了两个问题,感觉代码能力确实不错,比Qwen3强多了
我个人对DeepSeek同步开源的一个小型模型感兴趣——DeepSeek-R1-0528-Qwen3-8B
这个模型是从DeepSeek-R1-0528中提炼出思维链,对Qwen38B基础模型进行后训练而得。
通过蒸馏技术,在AIME2024上达到86. 0,超越Qwen3-8B(+10%),媲美更大模型!
明天我准备本地部署测试一下
看介绍,它的模型架构与Qwen3-8B完全相同,只是与DeepSeek-R1-0528共享相同的分词器配置,所以,部署的话与Qwen3-8B没啥区别。
应该一张4090就OK了
最后,就本地部署而言,我最喜欢的还是Qwen3:32B,不知道DeepSeek-R1-0528-Qwen3-8B能不能惊艳我。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等