Qwen3 对比DeepSeek R1、Gemma3、Llama4

发布日期: 2025-06-27

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是Ai学习的老章
Reddit看到一个帖子：#Qwen3对比phi4、gemma3、deepseekr1/v3以及llama3/4[ 1]
评论区各路大佬给出了自己使用各种大模型体验，比如个模型的特点、擅长的领域、实用技巧等等，对我来说还是很有用的。尤其是SomeOddCodeGuy[ 2]的分享。
ps：Qwen3在海外真是粉丝众多啊，感觉热度甚至比DeepSeek都高，毕竟Qwen提供的不同参数、适合不同任务的模型太多了
Qwen3
总体而言，虽然我有能力使用Qwen3235b模型，但实际使用中更倾向于选择32b版本。两者差异微乎其微，在盲测中我敢打赌大多数人无法区分。某些情况下，32b版本甚至能给出更优质的答案——这可能是因为密集型架构经过长期验证已臻成熟，而235b版本尚属新生事物。我主要将这些模型作为生产力工具使用：在启用/no_think参数执行任务级工作时，它们能完美遵循指令。我还使用了略微修改的chatml提示模板，主动注入think和/think标签，使其输出风格与qwen2. 5保持一致。和qwen2. 5一样，它在直接任务处理方面表现卓越。
Gemma3
在我接触过的所有模型中，这款展现出最高的\“情商\“。我有几个工作流程需要LLM尝试评估我对某件事的感受——是否感到沮丧、是否期待特定类型的答案等。我需要助手帮助我找到正确答案，其中关键就在于LLM不能忽视我的情绪走向，直到我沮丧放弃为止。Gemma在这方面的表现优于我见过的任何模型。虽然它的说话风格对我来说太\“社交媒体化\“，因此更适合幕后工作。在llama. cpp/koboldcpp支持Qwen2. 5视觉模型之前，我也用它处理图像相关任务
DeepseekV3
拿到M3Ultra版MacStudio后我就开始折腾这个。体验不错，确实好用，但还没喜欢到要为它独占整台工作站的程度。我平时大量编程，发现它在评审其他LLMs输出方面比自行生成强得多。比如Qwen3做代码审查时总爱夸大其词：\“哎呀这段代码有个小问题…简直是世界末日\“。但若把同样内容交给DeepseekV3判断，通常会得到更理性的回应：\“不至于，它太夸张了。问题确实存在，但理由如下…\“不过首次尝试解决问题时，往往还是会遗漏重要细节，这时就需要推理模型来补漏。它同时也是个优秀的RAG模型。
DeepseekR10528
在llama. cpp加入MQA支持后，我就把M3Ultra设备切换到这个方案且再没回头。现在能完美运行32k上下文的q5_K_M量化版本，推理速度也完全在可接受范围内。说实话这个模型太惊艳了。配合Gemini2. 5Pro使用，基本满足了我所有需求。它的输出质量轻松超越我测试过的所有本地模型，现在几乎所有任务都在用它。我正全面重构工作流以它为核心。
Llama3. 370b
除Deepseek外，这个模型堪称\“知识最渊博\“。测试纯知识问答（不调用外部工具）时，它几乎总能击败其他模型。情商表现与Gemma相当，但体积更大、推理更耗时。不过编码能力一般，在RAG场景下表现尤为突出。
Llama3. 3405b
把这玩意儿放到Discord另一端，保准让人以为是个真人。它的\“常识\“储备多到用不完。编程能力也差不多，知识量爆炸，情商比我见过的某些人还高，而且特别擅长\“读懂言外之意\“。但在Mac上运行简直慢得…我的天，慢到令人发指。
Llama4侦察版
我们从不讨论Llama4侦察版
Llama4独行侠版
实际上我非常喜欢用Llama4Maverick作为主力工作模型。RAG任务？表现惊艳。路由选择、内容摘要等小型任务？堪称完美。而且速度极快。虽然编码能力不是最强，知识储备也不是最广…说实话Llama3. 3在这两方面都更胜一筹。但我从未见过它在RAG、摘要、\“选择分类\“这类任务上出错。只是体积太大，我找不到理由使用整个M3版本
其他
Scout其实还不错！特别擅长处理超长文档的摘要任务。堪称上下文处理之王！
Maverick是个出色的模型。我特别喜欢用它来编程（不过更常用的是qwen3-235b）。
PS：买个外接SSD来存储和加载模型吧。:)
我还没机会尝试MistralSmall3. 2，但之前用MistralSmall3. 124b时有点吃力。和22b版本不同，这个版本感觉…怎么说呢，输出干巴巴的，内容重复，还容易犯迷糊。
我对尝试Magistral、Devstral和MistralSmall3. 2特别期待。准备加载它们跑几个工作流看看表现。我一直是Mistral模型的粉丝，所以很看好这几个新版本。
其他分享
Qwen332bq4是我日常处理、编程、常识查询和文字工作的首选模型。Gemma327b则擅长多模态任务和写作。
在处理某些复杂问题时，我会用DeepSeekR1来完成\“创意性解读\“任务。可惜无法在本地运行。蒸馏模型挺有意思，但只有在真正需要额外推理能力的任务时才有用。
真希望能以像样的速度运行Llama3. 370B——它介于早期LLMs和当前LLMs之间：前者具有出色的\“深度\“但缺乏指令跟随能力，后者指令跟随优秀却缺失语义深度。
Gemma3——我常用的\“新锐LLM\“。主要使用12B版本。在Ollama上运行稍慢。有趣的是，几乎没怎么用过它的视觉功能。
MistralSmall3. 2——差点成为我另一个常用\“新锐LLM\“。相比其他LLMs，我更喜欢它的输出效果，但依然不及早期模型。
Qwen3——尽管赞誉有加，但我始终找不到喜欢它的使用场景。频繁添加/no_think指令实在烦人。
在数据分析和精确遵循指令方面，任何低于320亿参数（某些情况下700亿参数）的模型都无法与Phi-4推理增强版相提并论。
Phi不知为何招来不少骂声，或许是因为它在ERP方面毫无用处？我喜欢它那种冷静客观的语调、简洁的回复风格，以及在技术任务（主要是物理和生物化学领域，不过MedGemma-27B已接管了生物化学细分领域）上的出色表现。还有个Phi-4-25B的自融合版本在某些任务上表现更优异。
在我进行代码编写、任务处理和常识查询时，Qwen3和Gemma3是唯一值得在消费级（<3千元）硬件上运行的模型。目前我几乎只运行Qwen3-32b和30b-a3b版本，根据使用场景通常选择mlx8位或mlxdwq4位量化模式。Phi系列表现尚可但稍显落后，公平地说我还没用过llama4，因为我的设备只能运行小量化版本。
我最常用的模型，按优先级排序：
Phi-4-25B，用于技术研发和Evol-Instruct（偶尔也用Phi-414B以获得更快推理速度）
Gemma3-27B，用于创意写作、RAG检索增强生成，以及帮我理解陌生程序代码
MedGemma-27B，用于协助解读医学期刊论文
Tulu3-70B，对于Phi-4-25B来说技术研发难度过高。
我曾喜欢Qwen2. 5，但对Qwen3无感。它总是啰嗦冗长，即便关闭\“思考\“模式，对同一提示给出的回答范围也非常狭窄，即使将温度参数调得很高。这对于Evol-Instruct等需要输出多样性的任务（如创意写作）是个缺点。幸运的是Gemma3在创意写作上表现惊艳，而Phi-4擅长Evol-Instruct，所以我不觉得遗憾。
Tulu3是基于Llama3针对STEM领域深度重训练的模型，目前我用着效果不错。希望将来能配台硬件设备，让我流畅运行Tulu3-405B版本。至于Llama4和Deepseek，至今还没找到合适的应用场景。
所以phi4在数学/逻辑方面表现不错？
在数学和逻辑方面。当我用标准测试提示进行评估时，它在数学：子弹碎片和科学：中子反射方面表现非常出色，但在科学：弯曲载荷方面表现一般，在数学：纱线单位方面表现相当差。
其\“放大版\“Phi-4-25B模型在除数学题yarn_units外的所有提示任务上都比14B版本有所提升，但在该数学任务上仍表现欠佳。
对我来说，它作为研发助手表现大多不错，但偶尔也会表现不佳，这时我就会切换到Tulu3-70B。
有什么特定任务是它能做而Qwen3做不到的吗？

Phi-4在这项任务上表现优异是意料之中的，因为微软研究人员正是Evol-Instruct技术的发明者，他们内部使用该技术生成合成数据来训练下一代Phi模型。他们肯定会针对这项任务专门训练模型，而Qwen团队则没有这样做的必要。
不过正如我所说，Qwen3的回答容易啰嗦，而Phi-4在大多数STEM任务上表现优异且回答简洁，所以我更偏爱Phi-4。如果你不介意Qwen3的这个特点，用它也完全没问题。
Qwen3在生物化学/医学类任务中表现相当出色，不过这方面我们有更专业的MedGemma，其表现优于Phi-4和Qwen3。
若想查阅我的测试输入输出记录：
Qwen3-32B测试记录：http ://ciar. org/h/test. 1746856197.q3. txt
Phi-4-25B测试记录：http ://ciar. org/h/test. 1739505036.phi425. txt
Phi-4(14B)模型测试结果：http ://ciar. org/h/test. 1735287493.phi4. txt
本次测试包含42个提示词模板，每个模型需对每个提示进行五次推理。这种设计既能评估模型稳定输出优质结果的能力，也能展示模型在需要多样性的任务（如指令评估和创意写作）中生成差异化回答的表现。因此每个测试输出文件包含42×5=210组提示/响应对。
注意模型规模的差异。将Qwen3-32B与Phi-4-25B进行对比最为公平。我尚未评估更小规模的Qwen3模型，但将Phi-4（14B）与Qwen3-14B进行对比可能会很有启发性。
制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！
搭建完美的写作环境：工具篇（12章）图解机器学习-中文版（72张PNG）ChatGPT、大模型系列研究报告（50个PDF）108页PDF小册子：搭建机器学习开发环境及Python基础116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料

SomeOddCodeGuy:https ://www. reddit.com/user/SomeOddCodeGuy/

ZejunCao

https://zejuncao.github.io/2025/06/27/1000002706-2648999773-1-1751017764/