Qwen3 果真拉垮了吗？实测

发布日期: 2025-05-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是Ai学习的老章
阿里Qwen3令人失望？
阿里Qwen3全部情报汇总，本地部署指南，性能全面超越DeepSeekR1
我看了一些网友评价，很多说效果远远不如官方公布的结果，还有说幻觉严重
有些是直接用ollama运行的量化版，效果不好很正常
有些是在官方网站上测试的，这个就见仁见智了，我还是觉得个例的参考价值不大
用脑经急转弯和弱智吧的问题去测试大模型，属实脑经不转弯。
先看两个独立测评
evalscope做了测试，结果：
Qwen3-32B模型在思考模式下，其准确率与QwQ-32B相当（在Accuracy折线上两者重合），都达到了最好的水平。
随着问题难度的增加，模型的输出长度都随问题难度增加而增加，这表明模型在解答更复杂问题时需要更长的”思考时间”，与Inference-TimeScaling现象相符。
推上karminski3测试了其写代码能力
极简结论：Qwen3是可以本地部署的最强开源写代码大模型
看上去没有任何一个结果特别强，但是！
每个测试都发挥很稳定，这导致最终得分特别高，得分329.6分，排在了排行榜的第四名！是目前开源模型第一名！
Fiction.Livebench公布了Qwen3的长上下文召回测试结果
Qwen3-235b-a22b在“0”token测试中得分100.0，随着上下文长度增加，成绩有所下降，在4k时得分69.0，16k时得分67.7，大于16K上下文，Fiction未作测试。
结果有点出乎预料：
Qwen3系列模型整体没有超过QwQ-32b，但与其他公司的模型相比具有一定竞争力。在小上下文窗口方面，Qwen-max表现不错，Qwen3系列中的部分模型在小窗口下的表现可能也存在优势，但文中未详细对比Qwen3各模型在小窗口与其他模型的差异。
如果运行30B的模型，优先选择Qwen3-32B而非MoE的Qwen3-30B-A3B。
看xhs有人说体感甚至不如QwQ-32B，上面三个独立测评中也提到，某些领域Qwen3确实不如QwQ，我就找几个问题测试一下，大家也感受感受
不欺负它，出一道小学一年级下学期的题目，顺便考察视觉能力
这道题很简单，之前测试过GPT-4.1解题也错误，GPT-4o就可以回答正确
QwQ:32B不支持图片输入
Qwen3-235B-A22B：十分钟还在思考
关闭思考模式后，Qwen3解答正确
提示词：
结果：代码生成很快，运行顺畅无bug，但是只有一个球。
Qwen3小球上数字不对，但是功能上是实现了的
提示词：阅读全文，文中共几次父亲的背影？分别有何深意，输出SVG格式，3:4，小红书风格：——省略1328字
QwQ:32B拉垮到不忍直视
Qwen3也很拉跨，但是稍微好点
标准答案是Claude3.7找到了原文，针对原文做了深意理解，然后还完美呈现出来了，🐮🐮🐮🐮🐮🐮
后面我还分别用他俩做了基于英文素材的写作，还有Base64解码等测试，两者半斤八两，解码测试都惨不忍睹。不展示了，跟Gemini2.5Pro和Claude3.7还有距离。
制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！
搭建完美的写作环境：工具篇（12章）图解机器学习-中文版（72张PNG）ChatGPT、大模型系列研究报告（50个PDF）108页PDF小册子：搭建机器学习开发环境及Python基础116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等