不吹不黑，9道题实测DeepSeek-R1-0528的小更新

发布日期: 2025-05-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

DeepSeek这家公司真是个神仙公司，总是在不经意间给人偷袭。
昨天吃饭时候突然看到一条消息：
打开DeepSeek官网推送，_最新一条发布消息还是V3-0324。
打开HuggingFaceR1的模型主页，commit还是4个月前的。
上一次这种情况还是上一次，和V3-0324只上传了模型文件checkpoint如出一辙的路子。
等到了凌晨1点，终于在HuggingFace上出现了新的模型：DeepSeek-R1-0528。
但是，模型升级了什么能力，性能有什么提升，官方倒是一个字儿都不提。直到今天晚上8点，官方终于发布了评测结果。
相比老版本，各项能力均有不小的提升。在数学方面接近o3，与Gemini2. 5Pro互有胜负。既然如此，那就老规矩，直接实测。
提示词：写一个功能完备的俄罗斯方块，使用前端技术
当我点击运行，看到这个界面的那一刻，直观感受是美观度很在线。
其次，这个界面的完成度很高，功能划分合理，各个控件工作正常，配色也不单调。
方块的旋转，加速下落，消除功能一切正常。
说实话，这效果，你说是一个正儿八经的网页游戏，我也信。
提示词：20个小球在旋转的6边形内弹跳，考虑重力，弹力，摩擦力等物理规律。用p5js
这个题目是我们的老朋友了，但这次的效果有种耳目一新的感觉。
还是第一感觉，界面明显漂亮，UI，配色给人的感觉就两个字：高级！
而且它添加了很多参数控件，页面底下还有物理量的讲解。
我在提示词里可是一点都没提这些，新模型就都给我弄上了。
它的这种“自作多情”，我还挺喜欢！
随着测试的加深，就慢慢发现了本次模型的一个特点：前端界面做的很漂亮，但是。。。
请继续看下面的测试。
提示词：生成一个水桶模拟器，桶里面装有水，桶可以按照某一点晃动，水会做出符合物理规律的运动。使用前端技术。
这次是一个失败的案例。
水平面呢，这是跳动的音符？或者是cosine函数？
我试了很多次，用了多个提示词，都没有办法达到期待的效果。
虽然画面还是同样的漂亮，但整个物理过程没表现出来。
下面是Gemini2. 5Pro的效果：
好就是好，不好就是不好，咱们玩的就是真实。
提示词：用p5. js创建皮拉内西的世界。
这个完成度只有0分。
把文字介绍和操作说明，做成网页了，功能效果是一点没有。
当然，我也不能排除多试几次，可能会有更好效果的可能性。
但是，一次成功率是一个很重要的印象分。
对比之下，Claude4的效果非常好。
上面都是编程类型的。
测试结论：这次升级，前端设计界面，美观度提升明显；涉及到实际功能使用和交互，真的没有提升感啊，华而不实。
别忘了它还是个推理模型，这次推理能力如何，请看下面的测试。
这是一道上个版本始终答不对的问题，看下新版本表现。
78635（有3个数字是正确的，但位置都不对）
16384（有1个数字正确且位置对，有1个数字正确但位置不对）
92741（有2个数字正确且位置对，有1个数字正确但位置不对）
56483（有1个数字正确且位置对，有1个数字正确但位置不对）
67153（有2个数字正确且位置对，有2个数字正确但位置不对）
推理出这五位数是什么？
正确答案：17253
大家先看一下这个思维链的长度：
最后的用时将近12分钟，得到了错误的答案为61325。
仔细看思维链，感觉思维过程有点混乱，有点看不太懂。中间有一部分，还给切换成了英文：
而且在验证答案的过程中，出现了明显的问题：
与78635相比，数字5的位置是正确的，但结论说位置错误。
看看o4-mini的效果：
只用了10秒就跑出了结果。
不吹不黑，都是只roll了一次结果。
5米长杆能否通过1米宽，2米高的门？
这题目是个老朋友了，虽然啰啰嗦嗦的考虑的5分钟，但总算学会在3维空间内思考问题，并最后给出了可以的结论。
整个过程就是做了非常多的假设和过度思考，弄了一堆公式进行计算。和之前的推理表现一样，感觉reason策略实质没有改进。
相比之下，o4-mini就高效了很多：
在一条街上，有5座房子，喷了5种颜色；
每座房子里住着不同国籍的人；每个人喝不同的饮料，抽不同品牌的香烟，养不同的宠物。
问题：谁养鱼？
提示：英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽PallMall香烟的人养鸟、黄色房子的主人抽Dunhill香烟、住在中间房子的人喝牛奶、挪威人住第一间房、抽Blends香烟的人住在养猫人的隔壁、养马的人住抽Dunhill香烟的人隔壁、抽BlueMaster的人喝啤酒、德国人抽Prince香烟、挪威人住蓝色房子隔壁、抽Blends香烟的人有一个喝水的邻居。
DeepSeekR1这一题答对了，用时189秒。
o4-mini的答案：
用时30秒左右。
题目长这样，反正我是不会，直接给答案：
这个题目是MIT积分大赛2023年的压轴题，难度应该不小。
先看DeepSeek:
在思考了7分钟之后，给出了正确答案，可以可以！
我们看看o4-mini的：
共用时16秒，这速度是把DeepSeek秒杀了，佩服佩服！
从6、7、8三道题看，6是纯推理题，7是智力题，8是数学题，三道题R1-0528和o4-mini都答对了，但R1的推理速度实在是太慢了，被秒的那种。
不是啊，卷什么前端页面呀，推理被o4-mini吊着打，最重要的推理内核原地踏步。。
提示词：给我以马斯克，特朗普的爱恨情仇为主题，写一个结合政治，科技，商战的小说。
中规中矩，自行体验吧。
从我们上面的几个例子来看，大概可以做如下总结：
编程能力有提升，主要是加强了网页的美观程度。
推理能力如果有提升，也不是很明显，而且有时候思维过长，在速度和准确性上与o4-mini模型还有差距。
写作方面不好说，只能说我对测试的例子是满意的。建议大家自己去实际体验。
除此之外，好像也就没什么特别明显的变化。
这下就突然明白DeepSeek为什么这次如此低调，可能在它们眼里，这次确实是一个小版本。
不过社区网友对这个新模型表示欢迎，反应也很热烈：
（在他自己的测试中是唯一一个取得了满分的模型。）
在LiveCodeBench中，排名第四，仅次于o4-mini。
不过，还是要强调，在DeepSeek眼中，这只是一个小更新。
那我问你，真正的下一代R2，什么时候来？