实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
节前更新似乎已经是DeepSeek的惯例了。刚刚,DeepSeek在Huggingface平台开源了R1的新版本DeepSeek-R1-0528。
项目地址:https ://huggingface. co/deepseek-ai/DeepSeek-R1-0528
据悉,新版本主要是在推理精度和代码生成速度的升级。在LiveCodeBench基准测试中,DeepSeek-R1-0528的性能可以媲美OpenAI的o3(High)版本。
DeepSeek官方对该版本的介绍是一次“小版本试升级”。不过,目前DeepSeek并没有发布有关新版本训练方法的技术报告。
不少用户都第一时间去实测了最新的DeepSeekR1-0528,并整理出了升级亮点:
现在能够像Google模型作深入推理;
改进的写作任务,更自然、格式更好;
独特的推理风格,不仅快速,而且深思熟虑;
长时间思考,每项任务最多30-60分钟;
编程能力显著优化。
有实测用户表示,DeepSeekR1-0528似乎是唯一一个始终正确回答“9. 9-9. 11是多少”的模型。
但他也称,“从我尝试的编码问题来看,它的性能比旧的R1好,但它落后于o3和Claude4。”
也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了6分钟多才做出回应。”
值得注意的是,R1的思维链(CoT)行为似乎发生了重大变化。有网友评价,“之前的看起来就像o系列的推理,现在的则与Gemini类似。”也有网友认为,“无论如何,它的CoT更加‘面向用户’。”
活动推荐
6月27~28日的AICon北京站将继续聚焦AI技术的前沿突破与产业落地,围绕AIAgent构建、多模态应用、大模型推理性能优化、数据智能实践、AI产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索AI应用的无限可能!
今日荐文
21页PDF实锤Grok3“套壳”Claude?Grok3玩自曝,xAI工程师被喷无能!
印度国家级大模型上线两天仅300余次下载,投资人直呼“尴尬”:韩国大学生模型都有20万!
顶刊论文“飙脏话辱骂第二作者”,期刊回应;刚上线就卡塞?昆仑万维:已限流;马斯克宣布回归7x24小时工作状态|AI周报
用印度程序员冒充AI的“独角兽”彻底倒闭了!伪AI烧光5亿美元,连微软和亚马逊都被“坑”了
全球最强编码模型Claude4震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug
你也「在看」吗?👇