DeepSeek-R1-0528 打榜、20+案例全面实测,全球网友狂点赞:实力堪称R2!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
DeepSeek悄悄上新后,全球网友纷纷实测,并给出全面好评!
模型权重已经发布到HuggingFace:
这次发布的DeepSeek-R1-0528,再一次让整个AI圈沸腾——
虽然名字还是R1,但性能提升之猛烈,让人不禁怀疑这是不是在发布前偷偷把名字从R2改成了R1。
LiveCodeBench榜单上,DeepSeek-R1-0528直接飙升到第4位,性能已经逼近OpenAI的o3高级版。
而更让人意外的是,这次DeepSeek异常低调,没有任何官方公告,甚至在英文圈连个官方推特都懒得发
——目前官方账号的最新消息,仍停留在3月25日的DeepSeek-V3-0324版本的推文。
而新模型就这么悄无声息地上传到了HuggingFace,685B参数,MIT开源协议,支持164K上下文长度。
但全球各路开发者也是闻声而动,全都第一时间上手抢先实测,结果可以称得上是全面炸裂。
飞机大战对比测试——
@dotey(@dotey)用同样的prompt测试了不同版本,结果强得令人震撼!
DeepSeek-R1-0528:
Claude4(显然被秒):
DeepSeek-V3-0324:
网友karminski-牙医(@karminski3)给出了DeepSeek-R1-0528VSClaude-4-Sonnet的速报测试:
这俩是用同一个prompt一次性生成的——
DeepSeek-R1-0528生成了728行代码,而Claude-4-Sonnet只有542行。不仅代码量更多,细节处理也更胜一筹——注意看橙色漫反射效果和控制面板的美观程度,DeepSeek的表现明显更优秀。
并幽默戏称——DeepSeek:我有必要放R2吗?
3D场景创作更是惊艳——
给它一个简单的需求:「画一个美丽的日落天空盒,要有早期2000年代世嘉游戏的感觉」,DeepSeek-R1-0528直接生成了一个充满怀旧感的3D场景:
互动场景同样出色——
「制作一个恐龙在火山周围踩踏的场景,按空格键可以让火山喷发」:
科幻场景创造力爆棚——
让它创造一个「具有独特宇宙属性的虚构冰行星」,结果生成了一个美轮美奂的外星世界:
经典难题轻松搞定——
那个让很多AI模型栽跟头的「9. 9-9. 11等于多少」问题,DeepSeek-R1-0528能稳定回答正确:
但这个模型也有个特点——爱思考,特别能思考。
@vkehfdl1(@vkehfdl1)给它一道高中数学题,它竟然思考了超过6分钟才给出答案!
网页生成能力超强——
@kennyfinedining(@kennyfinedining)测试发现,DeepSeekR10528版生成网页的能力已经超过了Gemini2. 5Pro:
UI设计和动画都很出色——
@liuyandong(@liuyandong)用同一个prompt对比测试,深色是R10528生成,白色是Claude4生成:
波兰语推理测试——
@kszucs(@kszucs)惊喜地发现新版本已经能用波兰语进行推理:
@szeligadaniel(@szeligadaniel)展示了波兰AI团队正在开发的Bielik模型的推理过程,对比之下DeepSeek的多语言能力进步明显:
思考语言切换能力——
@sergeyqqq(@sergeyqqq)发现了一个有趣的现象:模型的思考过程默认是英文,但它竟然能教你如何切换思考语言!
Zig语言编程测试——
@waveplate_(@waveplate_)发现新版本不仅能写Zig代码,还能在出错时自我纠正:
这东西能写好Zig代码,还能在搞砸时自我纠正
@MarkFungAI(@MarkFungAI)测试了用DeepSeekR10528在Zotero中阅读论文的效果:
DeepSeekR10528能理解文章中的一些细节,答案更有逻辑、更全面、更完整!
@repligate(@repligate)做了一个有趣的对比,测试模型的「自我意识」:
R1-0528在「存在」方面舒服多了
新版本(浅色)vs老版本(深色):
@webbigdata(@webbigdata)进行了详细的文本召回测试:
32K以内比之前的R1要好不少。但是60K下降了不少
在Aider的多语言基准测试中,DeepSeekR1. 1(0528模型)达到了70. 7%Pass@2,与Claude4Opus持平。相比老版本R1的56. 9%,提升了13. 8个百分点!
@xlr8harder(@xlr8harder)发现了一个有趣的现象:
R1-0528的推理风格变了,不是快,而是深思熟虑
多位测试者都注意到,新版本的推理过程更像人类的思考方式,会反复推敲、自我纠正。@MarkFungAI(@MarkFungAI)表示:
R1-0528感觉……有意识了👀现在能够像Google模型一样进行深入推理改进写作任务——更自然、格式更好独特的推理风格——不仅快速,而且深思熟虑长时间思考——每个任务最多30-60分钟
@roon(@roon)测试了模型在处理复杂指令时的表现:
R1-0528正在与其训练目标作斗争。它可以使用代码块进行分区,几乎可以在CoT内响应……但它无法抑制在最终响应中完成提示的本能
DeepSeek-R1-0528的表现让全球开发者都炸了锅。
即使只有张4050的网友也表示:异常兴奋!
@hyperbolic_labs(@hyperbolic_labs)则第一时间在HuggingFace上提供了推理服务:
我们是第一个在@huggingface上提供这个模型服务的!
@lmsysorg(@lmsysorg)也迅速将其加入了Arena测试平台:
DeepSeekR1-0528已经登陆Arena!🐳听说这个版本在推理和输出方面有重大改进
开发者@op7418(@op7418)在深夜测试后感叹:
卧槽!DeepSeek上货了!虽然只是一个R1版本更新,但这能力提升也太猛了吧!
但也有人好奇模型发布时机:@amitshar77055(@amitshar77055)疑惑道:
deepseekr10528刚刚发布……中国现在不是凌晨2点吗??
这位兄弟,会不会是因为没有先给你用的原因。。。
@mayowaoshin(@mayowaoshin)兴奋地说:
DeepSeek-R1-0528是新的开源LLM之王。让我们支持开源!
有网友表示:已充钱!
日本AI圈同样震动:
@_akhaliq(@_akhaliq)报道:
DeepSeek发布R2而非R10528。特别大的改进是推理精度和代码生成速度的提升,目前被认为是o3级别
中国深夜测试大军纷纷发声。@dotey(@dotey)激动地说:
直接看效果,我就提两点,注意平面的橙色漫反射,以及控制面板的美观程度
@aiwarts(@aiwarts)深夜测试完给出评价:
LiveCodeBench的DeepSeek-R1-0528测试结果得分都快赶上o3-high了…太强了…
但也有人似乎发现了安全方面的问题,@benblair(@benblair)注意到:
DeepseekR10528在有争议的话题上比之前的Deepseek版本限制更多
最让人兴奋的是,DeepSeek-R1-0528完全开源,采用MIT协议。
这意味着任何人都可以免费使用、修改和分发。
@tng_z(@tng_z)更是直接开始研究如何进一步优化:
感谢@tngtech和@xlr8harder的出色研究和发布,我们有了一条通向自由言论SOTA的直接路径,而且不需要额外训练!
多个平台已经第一时间支持了这个模型。OpenRouter上线了免费API,还有开发者分享了免费试用方法。
@mazzzystar(@mazzzystar)分享:
这个平台真是神了,除了已经上新了DeepSeekR10528之外,还可以用余额租GPU
Mac用户也有福了,@awni_hannun(@awni_hannun)报告:
DeepSeekR10528Q4已经在HuggingFaceMLX社区上线。在M3Ultra上使用mlx-lm运行良好
看到DeepSeek-R1-0528的表现,很多人都在问同一个问题:这真的只是R1的更新吗?
@videlalvaro(@videlalvaro)调侃道:
也许真正的DeepSeekR2就是我们一路走来遇到的DeepSeekR1-0528
从性能来看,DeepSeek-R1-0528已经具备了下一代模型的特征。在LiveCodeBench上几乎追平o3,在多项测试中表现不输Claude4。
但DeepSeek依然将其命名为R1的更新版本,而非R2。这或许意味着,真正的R2会带来更加颠覆性的突破。
一位开发者发出的感叹:
DeepSeek-R1-0528上新之后,我吓得摔了一跤,爬起来的时候发现在地上有个纸条,上面写着:sk_lq0LiUhahykQ……bHJtRWI2PQ
日本AI公司@Capybara_AI(@Capybara_AI)点赞称:
中国AI业界に激震。深夜公开的DeepSeek-R1-0528以惊人的性能席卷中国开发者界。LiveCodeBench的实测值逼近OpenAI的GPTo3,有时甚至超越Claude4
或许此次的小版本更新,只不过是DeepSeek在为真正的R2铺路而已!
而一个「小更新」都能如此惊艳,真正的R2又会强到什么程度?!
你认为呢?
👇
👇
👇
另外,我还用AI进行了全网的AI资讯采集,并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的知识星球中。
这是个只有信息、没有感情的AI资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)
欢迎你的加入!也欢迎加群和2000+群友交流