Qwen3 果真拉垮了吗?实测


Qwen3 果真拉垮了吗?实测

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
阿里Qwen3令人失望?
阿里Qwen3全部情报汇总,本地部署指南,性能全面超越DeepSeekR1
我看了一些网友评价,很多说效果远远不如官方公布的结果,还有说幻觉严重
有些是直接用ollama运行的量化版,效果不好很正常
有些是在官方网站上测试的,这个就见仁见智了,我还是觉得个例的参考价值不大
用脑经急转弯和弱智吧的问题去测试大模型,属实脑经不转弯。
先看两个独立测评
evalscope做了测试,结果:
Qwen3-32B模型在思考模式下,其准确率与QwQ-32B相当(在Accuracy折线上两者重合),都达到了最好的水平。
随着问题难度的增加,模型的输出长度都随问题难度增加而增加,这表明模型在解答更复杂问题时需要更长的”思考时间”,与Inference-TimeScaling现象相符。
推上karminski3测试了其写代码能力
极简结论:Qwen3是可以本地部署的最强开源写代码大模型
看上去没有任何一个结果特别强,但是!
每个测试都发挥很稳定,这导致最终得分特别高,得分329.6分,排在了排行榜的第四名!是目前开源模型第一名!
Fiction.Livebench公布了Qwen3的长上下文召回测试结果
Qwen3-235b-a22b在“0”token测试中得分100.0,随着上下文长度增加,成绩有所下降,在4k时得分69.0,16k时得分67.7,大于16K上下文,Fiction未作测试。
结果有点出乎预料:
Qwen3系列模型整体没有超过QwQ-32b,但与其他公司的模型相比具有一定竞争力。在小上下文窗口方面,Qwen-max表现不错,Qwen3系列中的部分模型在小窗口下的表现可能也存在优势,但文中未详细对比Qwen3各模型在小窗口与其他模型的差异。
如果运行30B的模型,优先选择Qwen3-32B而非MoE的Qwen3-30B-A3B。
看xhs有人说体感甚至不如QwQ-32B,上面三个独立测评中也提到,某些领域Qwen3确实不如QwQ,我就找几个问题测试一下,大家也感受感受
不欺负它,出一道小学一年级下学期的题目,顺便考察视觉能力
这道题很简单,之前测试过GPT-4.1解题也错误,GPT-4o就可以回答正确
QwQ:32B不支持图片输入
Qwen3-235B-A22B:十分钟还在思考
关闭思考模式后,Qwen3解答正确
提示词:
结果:代码生成很快,运行顺畅无bug,但是只有一个球。
Qwen3小球上数字不对,但是功能上是实现了的
提示词:阅读全文,文中共几次父亲的背影?分别有何深意,输出SVG格式,3:4,小红书风格:——省略1328字
QwQ:32B拉垮到不忍直视
Qwen3也很拉跨,但是稍微好点
标准答案是Claude3.7找到了原文,针对原文做了深意理解,然后还完美呈现出来了,🐮🐮🐮🐮🐮🐮
后面我还分别用他俩做了基于英文素材的写作,还有Base64解码等测试,两者半斤八两,解码测试都惨不忍睹。不展示了,跟Gemini2.5Pro和Claude3.7还有距离。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录