不吹不黑,9道题实测DeepSeek-R1-0528的小更新


不吹不黑,9道题实测DeepSeek-R1-0528的小更新

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

DeepSeek这家公司真是个神仙公司,总是在不经意间给人偷袭。
昨天吃饭时候突然看到一条消息:
打开DeepSeek官网推送,_最新一条发布消息还是V3-0324。
打开HuggingFaceR1的模型主页,commit还是4个月前的。
上一次这种情况还是上一次,和V3-0324只上传了模型文件checkpoint如出一辙的路子。
等到了凌晨1点,终于在HuggingFace上出现了新的模型:DeepSeek-R1-0528。
但是,模型升级了什么能力,性能有什么提升,官方倒是一个字儿都不提。直到今天晚上8点,官方终于发布了评测结果。
相比老版本,各项能力均有不小的提升。在数学方面接近o3,与Gemini2. 5Pro互有胜负。既然如此,那就老规矩,直接实测。
提示词:写一个功能完备的俄罗斯方块,使用前端技术
当我点击运行,看到这个界面的那一刻,直观感受是美观度很在线。
其次,这个界面的完成度很高,功能划分合理,各个控件工作正常,配色也不单调。
方块的旋转,加速下落,消除功能一切正常。
说实话,这效果,你说是一个正儿八经的网页游戏,我也信。
提示词:20个小球在旋转的6边形内弹跳,考虑重力,弹力,摩擦力等物理规律。用p5js
这个题目是我们的老朋友了,但这次的效果有种耳目一新的感觉。
还是第一感觉,界面明显漂亮,UI,配色给人的感觉就两个字:高级!
而且它添加了很多参数控件,页面底下还有物理量的讲解。
我在提示词里可是一点都没提这些,新模型就都给我弄上了。
它的这种“自作多情”,我还挺喜欢!
随着测试的加深,就慢慢发现了本次模型的一个特点:前端界面做的很漂亮,但是。。。
请继续看下面的测试。
提示词:生成一个水桶模拟器,桶里面装有水,桶可以按照某一点晃动,水会做出符合物理规律的运动。使用前端技术。
这次是一个失败的案例。
水平面呢,这是跳动的音符?或者是cosine函数?
我试了很多次,用了多个提示词,都没有办法达到期待的效果。
虽然画面还是同样的漂亮,但整个物理过程没表现出来。
下面是Gemini2. 5Pro的效果:
好就是好,不好就是不好,咱们玩的就是真实。
提示词:用p5. js创建皮拉内西的世界。
这个完成度只有0分。
把文字介绍和操作说明,做成网页了,功能效果是一点没有。
当然,我也不能排除多试几次,可能会有更好效果的可能性。
但是,一次成功率是一个很重要的印象分。
对比之下,Claude4的效果非常好。
上面都是编程类型的。
测试结论:这次升级,前端设计界面,美观度提升明显;涉及到实际功能使用和交互,真的没有提升感啊,华而不实。
别忘了它还是个推理模型,这次推理能力如何,请看下面的测试。
这是一道上个版本始终答不对的问题,看下新版本表现。
78635(有3个数字是正确的,但位置都不对)
16384(有1个数字正确且位置对,有1个数字正确但位置不对)
92741(有2个数字正确且位置对,有1个数字正确但位置不对)
56483(有1个数字正确且位置对,有1个数字正确但位置不对)
67153(有2个数字正确且位置对,有2个数字正确但位置不对)
推理出这五位数是什么?
正确答案:17253
大家先看一下这个思维链的长度:
最后的用时将近12分钟,得到了错误的答案为61325。
仔细看思维链,感觉思维过程有点混乱,有点看不太懂。中间有一部分,还给切换成了英文:
而且在验证答案的过程中,出现了明显的问题:
与78635相比,数字5的位置是正确的,但结论说位置错误。
看看o4-mini的效果:
只用了10秒就跑出了结果。
不吹不黑,都是只roll了一次结果。
5米长杆能否通过1米宽,2米高的门?
这题目是个老朋友了,虽然啰啰嗦嗦的考虑的5分钟,但总算学会在3维空间内思考问题,并最后给出了可以的结论。
整个过程就是做了非常多的假设和过度思考,弄了一堆公式进行计算。和之前的推理表现一样,感觉reason策略实质没有改进。
相比之下,o4-mini就高效了很多:
在一条街上,有5座房子,喷了5种颜色;
每座房子里住着不同国籍的人;每个人喝不同的饮料,抽不同品牌的香烟,养不同的宠物。
问题:谁养鱼?
提示:英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽PallMall香烟的人养鸟、黄色房子的主人抽Dunhill香烟、住在中间房子的人喝牛奶、挪威人住第一间房、抽Blends香烟的人住在养猫人的隔壁、养马的人住抽Dunhill香烟的人隔壁、抽BlueMaster的人喝啤酒、德国人抽Prince香烟、挪威人住蓝色房子隔壁、抽Blends香烟的人有一个喝水的邻居。
DeepSeekR1这一题答对了,用时189秒。
o4-mini的答案:
用时30秒左右。
题目长这样,反正我是不会,直接给答案:
这个题目是MIT积分大赛2023年的压轴题,难度应该不小。
先看DeepSeek:
在思考了7分钟之后,给出了正确答案,可以可以!
我们看看o4-mini的:
共用时16秒,这速度是把DeepSeek秒杀了,佩服佩服!
从6、7、8三道题看,6是纯推理题,7是智力题,8是数学题,三道题R1-0528和o4-mini都答对了,但R1的推理速度实在是太慢了,被秒的那种。
不是啊,卷什么前端页面呀,推理被o4-mini吊着打,最重要的推理内核原地踏步。。
提示词:给我以马斯克,特朗普的爱恨情仇为主题,写一个结合政治,科技,商战的小说。
中规中矩,自行体验吧。
从我们上面的几个例子来看,大概可以做如下总结:
编程能力有提升,主要是加强了网页的美观程度。
推理能力如果有提升,也不是很明显,而且有时候思维过长,在速度和准确性上与o4-mini模型还有差距。
写作方面不好说,只能说我对测试的例子是满意的。建议大家自己去实际体验。
除此之外,好像也就没什么特别明显的变化。
这下就突然明白DeepSeek为什么这次如此低调,可能在它们眼里,这次确实是一个小版本。
不过社区网友对这个新模型表示欢迎,反应也很热烈:
(在他自己的测试中是唯一一个取得了满分的模型。)
在LiveCodeBench中,排名第四,仅次于o4-mini。
不过,还是要强调,在DeepSeek眼中,这只是一个小更新。
那我问你,真正的下一代R2,什么时候来?


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录