DeepSeek-R1-0528 打榜、20+案例全面实测，全球网友狂点赞：实力堪称R2！

发布日期: 2025-05-29

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

DeepSeek悄悄上新后，全球网友纷纷实测，并给出全面好评！
模型权重已经发布到HuggingFace：
这次发布的DeepSeek-R1-0528，再一次让整个AI圈沸腾——
虽然名字还是R1，但性能提升之猛烈，让人不禁怀疑这是不是在发布前偷偷把名字从R2改成了R1。
LiveCodeBench榜单上，DeepSeek-R1-0528直接飙升到第4位，性能已经逼近OpenAI的o3高级版。
而更让人意外的是，这次DeepSeek异常低调，没有任何官方公告，甚至在英文圈连个官方推特都懒得发
——目前官方账号的最新消息，仍停留在3月25日的DeepSeek-V3-0324版本的推文。
而新模型就这么悄无声息地上传到了HuggingFace，685B参数，MIT开源协议，支持164K上下文长度。
但全球各路开发者也是闻声而动，全都第一时间上手抢先实测，结果可以称得上是全面炸裂。
飞机大战对比测试——
@dotey(@dotey)用同样的prompt测试了不同版本，结果强得令人震撼！
DeepSeek-R1-0528：
Claude4（显然被秒）：
DeepSeek-V3-0324：
网友karminski-牙医（@karminski3）给出了DeepSeek-R1-0528VSClaude-4-Sonnet的速报测试：
这俩是用同一个prompt一次性生成的——
DeepSeek-R1-0528生成了728行代码，而Claude-4-Sonnet只有542行。不仅代码量更多，细节处理也更胜一筹——注意看橙色漫反射效果和控制面板的美观程度，DeepSeek的表现明显更优秀。
并幽默戏称——DeepSeek:我有必要放R2吗？
3D场景创作更是惊艳——
给它一个简单的需求：「画一个美丽的日落天空盒，要有早期2000年代世嘉游戏的感觉」，DeepSeek-R1-0528直接生成了一个充满怀旧感的3D场景：
互动场景同样出色——
「制作一个恐龙在火山周围踩踏的场景，按空格键可以让火山喷发」：
科幻场景创造力爆棚——
让它创造一个「具有独特宇宙属性的虚构冰行星」，结果生成了一个美轮美奂的外星世界：
经典难题轻松搞定——
那个让很多AI模型栽跟头的「9. 9-9. 11等于多少」问题，DeepSeek-R1-0528能稳定回答正确：
但这个模型也有个特点——爱思考，特别能思考。
@vkehfdl1(@vkehfdl1)给它一道高中数学题，它竟然思考了超过6分钟才给出答案！
网页生成能力超强——
@kennyfinedining(@kennyfinedining)测试发现，DeepSeekR10528版生成网页的能力已经超过了Gemini2. 5Pro：
UI设计和动画都很出色——
@liuyandong(@liuyandong)用同一个prompt对比测试，深色是R10528生成，白色是Claude4生成：
波兰语推理测试——
@kszucs(@kszucs)惊喜地发现新版本已经能用波兰语进行推理：
@szeligadaniel(@szeligadaniel)展示了波兰AI团队正在开发的Bielik模型的推理过程，对比之下DeepSeek的多语言能力进步明显：
思考语言切换能力——
@sergeyqqq(@sergeyqqq)发现了一个有趣的现象：模型的思考过程默认是英文，但它竟然能教你如何切换思考语言！
Zig语言编程测试——
@waveplate_(@waveplate_)发现新版本不仅能写Zig代码，还能在出错时自我纠正：
这东西能写好Zig代码，还能在搞砸时自我纠正
@MarkFungAI(@MarkFungAI)测试了用DeepSeekR10528在Zotero中阅读论文的效果：
DeepSeekR10528能理解文章中的一些细节，答案更有逻辑、更全面、更完整！
@repligate(@repligate)做了一个有趣的对比，测试模型的「自我意识」：
R1-0528在「存在」方面舒服多了
新版本（浅色）vs老版本（深色）：
@webbigdata(@webbigdata)进行了详细的文本召回测试：
32K以内比之前的R1要好不少。但是60K下降了不少
在Aider的多语言基准测试中，DeepSeekR1. 1（0528模型）达到了70. 7%Pass@2，与Claude4Opus持平。相比老版本R1的56. 9%，提升了13. 8个百分点！
@xlr8harder(@xlr8harder)发现了一个有趣的现象：
R1-0528的推理风格变了，不是快，而是深思熟虑
多位测试者都注意到，新版本的推理过程更像人类的思考方式，会反复推敲、自我纠正。@MarkFungAI(@MarkFungAI)表示：
R1-0528感觉……有意识了👀现在能够像Google模型一样进行深入推理改进写作任务——更自然、格式更好独特的推理风格——不仅快速，而且深思熟虑长时间思考——每个任务最多30-60分钟
@roon(@roon)测试了模型在处理复杂指令时的表现：
R1-0528正在与其训练目标作斗争。它可以使用代码块进行分区，几乎可以在CoT内响应……但它无法抑制在最终响应中完成提示的本能
DeepSeek-R1-0528的表现让全球开发者都炸了锅。
即使只有张4050的网友也表示：异常兴奋！
@hyperbolic_labs(@hyperbolic_labs)则第一时间在HuggingFace上提供了推理服务：
我们是第一个在@huggingface上提供这个模型服务的！
@lmsysorg(@lmsysorg)也迅速将其加入了Arena测试平台：
DeepSeekR1-0528已经登陆Arena！🐳听说这个版本在推理和输出方面有重大改进
开发者@op7418(@op7418)在深夜测试后感叹：
卧槽！DeepSeek上货了！虽然只是一个R1版本更新，但这能力提升也太猛了吧！
但也有人好奇模型发布时机：@amitshar77055(@amitshar77055)疑惑道：
deepseekr10528刚刚发布……中国现在不是凌晨2点吗？？
这位兄弟，会不会是因为没有先给你用的原因。。。
@mayowaoshin(@mayowaoshin)兴奋地说：
DeepSeek-R1-0528是新的开源LLM之王。让我们支持开源！
有网友表示：已充钱！
日本AI圈同样震动：
@_akhaliq(@_akhaliq)报道：
DeepSeek发布R2而非R10528。特别大的改进是推理精度和代码生成速度的提升，目前被认为是o3级别
中国深夜测试大军纷纷发声。@dotey(@dotey)激动地说：
直接看效果，我就提两点，注意平面的橙色漫反射，以及控制面板的美观程度
@aiwarts(@aiwarts)深夜测试完给出评价：
LiveCodeBench的DeepSeek-R1-0528测试结果得分都快赶上o3-high了…太强了…
但也有人似乎发现了安全方面的问题，@benblair(@benblair)注意到：
DeepseekR10528在有争议的话题上比之前的Deepseek版本限制更多
最让人兴奋的是，DeepSeek-R1-0528完全开源，采用MIT协议。
这意味着任何人都可以免费使用、修改和分发。
@tng_z(@tng_z)更是直接开始研究如何进一步优化：
感谢@tngtech和@xlr8harder的出色研究和发布，我们有了一条通向自由言论SOTA的直接路径，而且不需要额外训练！
多个平台已经第一时间支持了这个模型。OpenRouter上线了免费API，还有开发者分享了免费试用方法。
@mazzzystar(@mazzzystar)分享：
这个平台真是神了，除了已经上新了DeepSeekR10528之外，还可以用余额租GPU
Mac用户也有福了，@awni_hannun(@awni_hannun)报告：
DeepSeekR10528Q4已经在HuggingFaceMLX社区上线。在M3Ultra上使用mlx-lm运行良好
看到DeepSeek-R1-0528的表现，很多人都在问同一个问题：这真的只是R1的更新吗？
@videlalvaro(@videlalvaro)调侃道：
也许真正的DeepSeekR2就是我们一路走来遇到的DeepSeekR1-0528
从性能来看，DeepSeek-R1-0528已经具备了下一代模型的特征。在LiveCodeBench上几乎追平o3，在多项测试中表现不输Claude4。
但DeepSeek依然将其命名为R1的更新版本，而非R2。这或许意味着，真正的R2会带来更加颠覆性的突破。
一位开发者发出的感叹：
DeepSeek-R1-0528上新之后，我吓得摔了一跤，爬起来的时候发现在地上有个纸条，上面写着：sk_lq0LiUhahykQ……bHJtRWI2PQ
日本AI公司@Capybara_AI(@Capybara_AI)点赞称：
中国AI业界に激震。深夜公开的DeepSeek-R1-0528以惊人的性能席卷中国开发者界。LiveCodeBench的实测值逼近OpenAI的GPTo3，有时甚至超越Claude4
或许此次的小版本更新，只不过是DeepSeek在为真正的R2铺路而已！
而一个「小更新」都能如此惊艳，真正的R2又会强到什么程度？！
你认为呢？
👇
👇
👇
另外，我还用AI进行了全网的AI资讯采集，并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的知识星球中。
这是个只有信息、没有感情的AI资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息）
欢迎你的加入！也欢迎加群和2000+群友交流