Qwen3 对比DeepSeek R1、Gemma3、Llama4


Qwen3 对比DeepSeek R1、Gemma3、Llama4

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
Reddit看到一个帖子:#Qwen3对比phi4、gemma3、deepseekr1/v3以及llama3/4[ 1]
评论区各路大佬给出了自己使用各种大模型体验,比如个模型的特点、擅长的领域、实用技巧等等,对我来说还是很有用的。尤其是SomeOddCodeGuy[ 2]的分享。
ps:Qwen3在海外真是粉丝众多啊,感觉热度甚至比DeepSeek都高,毕竟Qwen提供的不同参数、适合不同任务的模型太多了
Qwen3
总体而言,虽然我有能力使用Qwen3235b模型,但实际使用中更倾向于选择32b版本。两者差异微乎其微,在盲测中我敢打赌大多数人无法区分。某些情况下,32b版本甚至能给出更优质的答案——这可能是因为密集型架构经过长期验证已臻成熟,而235b版本尚属新生事物。我主要将这些模型作为生产力工具使用:在启用/no_think参数执行任务级工作时,它们能完美遵循指令。我还使用了略微修改的chatml提示模板,主动注入think和/think标签,使其输出风格与qwen2. 5保持一致。和qwen2. 5一样,它在直接任务处理方面表现卓越。
Gemma3
在我接触过的所有模型中,这款展现出最高的\“情商\“。我有几个工作流程需要LLM尝试评估我对某件事的感受——是否感到沮丧、是否期待特定类型的答案等。我需要助手帮助我找到正确答案,其中关键就在于LLM不能忽视我的情绪走向,直到我沮丧放弃为止。Gemma在这方面的表现优于我见过的任何模型。虽然它的说话风格对我来说太\“社交媒体化\“,因此更适合幕后工作。在llama. cpp/koboldcpp支持Qwen2. 5视觉模型之前,我也用它处理图像相关任务
DeepseekV3
拿到M3Ultra版MacStudio后我就开始折腾这个。体验不错,确实好用,但还没喜欢到要为它独占整台工作站的程度。我平时大量编程,发现它在评审其他LLMs输出方面比自行生成强得多。比如Qwen3做代码审查时总爱夸大其词:\“哎呀这段代码有个小问题…简直是世界末日\“。但若把同样内容交给DeepseekV3判断,通常会得到更理性的回应:\“不至于,它太夸张了。问题确实存在,但理由如下…\“不过首次尝试解决问题时,往往还是会遗漏重要细节,这时就需要推理模型来补漏。它同时也是个优秀的RAG模型。
DeepseekR10528
在llama. cpp加入MQA支持后,我就把M3Ultra设备切换到这个方案且再没回头。现在能完美运行32k上下文的q5_K_M量化版本,推理速度也完全在可接受范围内。说实话这个模型太惊艳了。配合Gemini2. 5Pro使用,基本满足了我所有需求。它的输出质量轻松超越我测试过的所有本地模型,现在几乎所有任务都在用它。我正全面重构工作流以它为核心。
Llama3. 370b
除Deepseek外,这个模型堪称\“知识最渊博\“。测试纯知识问答(不调用外部工具)时,它几乎总能击败其他模型。情商表现与Gemma相当,但体积更大、推理更耗时。不过编码能力一般,在RAG场景下表现尤为突出。
Llama3. 3405b
把这玩意儿放到Discord另一端,保准让人以为是个真人。它的\“常识\“储备多到用不完。编程能力也差不多,知识量爆炸,情商比我见过的某些人还高,而且特别擅长\“读懂言外之意\“。但在Mac上运行简直慢得…我的天,慢到令人发指。
Llama4侦察版
我们从不讨论Llama4侦察版
Llama4独行侠版
实际上我非常喜欢用Llama4Maverick作为主力工作模型。RAG任务?表现惊艳。路由选择、内容摘要等小型任务?堪称完美。而且速度极快。虽然编码能力不是最强,知识储备也不是最广…说实话Llama3. 3在这两方面都更胜一筹。但我从未见过它在RAG、摘要、\“选择分类\“这类任务上出错。只是体积太大,我找不到理由使用整个M3版本
其他
Scout其实还不错!特别擅长处理超长文档的摘要任务。堪称上下文处理之王!
Maverick是个出色的模型。我特别喜欢用它来编程(不过更常用的是qwen3-235b)。
PS:买个外接SSD来存储和加载模型吧。:)
我还没机会尝试MistralSmall3. 2,但之前用MistralSmall3. 124b时有点吃力。和22b版本不同,这个版本感觉…怎么说呢,输出干巴巴的,内容重复,还容易犯迷糊。
我对尝试Magistral、Devstral和MistralSmall3. 2特别期待。准备加载它们跑几个工作流看看表现。我一直是Mistral模型的粉丝,所以很看好这几个新版本。
其他分享
Qwen332bq4是我日常处理、编程、常识查询和文字工作的首选模型。Gemma327b则擅长多模态任务和写作。
在处理某些复杂问题时,我会用DeepSeekR1来完成\“创意性解读\“任务。可惜无法在本地运行。蒸馏模型挺有意思,但只有在真正需要额外推理能力的任务时才有用。
真希望能以像样的速度运行Llama3. 370B——它介于早期LLMs和当前LLMs之间:前者具有出色的\“深度\“但缺乏指令跟随能力,后者指令跟随优秀却缺失语义深度。
Gemma3——我常用的\“新锐LLM\“。主要使用12B版本。在Ollama上运行稍慢。有趣的是,几乎没怎么用过它的视觉功能。
MistralSmall3. 2——差点成为我另一个常用\“新锐LLM\“。相比其他LLMs,我更喜欢它的输出效果,但依然不及早期模型。
Qwen3——尽管赞誉有加,但我始终找不到喜欢它的使用场景。频繁添加/no_think指令实在烦人。
在数据分析和精确遵循指令方面,任何低于320亿参数(某些情况下700亿参数)的模型都无法与Phi-4推理增强版相提并论。
Phi不知为何招来不少骂声,或许是因为它在ERP方面毫无用处?我喜欢它那种冷静客观的语调、简洁的回复风格,以及在技术任务(主要是物理和生物化学领域,不过MedGemma-27B已接管了生物化学细分领域)上的出色表现。还有个Phi-4-25B的自融合版本在某些任务上表现更优异。
在我进行代码编写、任务处理和常识查询时,Qwen3和Gemma3是唯一值得在消费级(<3千元)硬件上运行的模型。目前我几乎只运行Qwen3-32b和30b-a3b版本,根据使用场景通常选择mlx8位或mlxdwq4位量化模式。Phi系列表现尚可但稍显落后,公平地说我还没用过llama4,因为我的设备只能运行小量化版本。
我最常用的模型,按优先级排序:
Phi-4-25B,用于技术研发和Evol-Instruct(偶尔也用Phi-414B以获得更快推理速度)
Gemma3-27B,用于创意写作、RAG检索增强生成,以及帮我理解陌生程序代码
MedGemma-27B,用于协助解读医学期刊论文
Tulu3-70B,对于Phi-4-25B来说技术研发难度过高。
我曾喜欢Qwen2. 5,但对Qwen3无感。它总是啰嗦冗长,即便关闭\“思考\“模式,对同一提示给出的回答范围也非常狭窄,即使将温度参数调得很高。这对于Evol-Instruct等需要输出多样性的任务(如创意写作)是个缺点。幸运的是Gemma3在创意写作上表现惊艳,而Phi-4擅长Evol-Instruct,所以我不觉得遗憾。
Tulu3是基于Llama3针对STEM领域深度重训练的模型,目前我用着效果不错。希望将来能配台硬件设备,让我流畅运行Tulu3-405B版本。至于Llama4和Deepseek,至今还没找到合适的应用场景。
所以phi4在数学/逻辑方面表现不错?
在数学和逻辑方面。当我用标准测试提示进行评估时,它在数学:子弹碎片和科学:中子反射方面表现非常出色,但在科学:弯曲载荷方面表现一般,在数学:纱线单位方面表现相当差。
其\“放大版\“Phi-4-25B模型在除数学题yarn_units外的所有提示任务上都比14B版本有所提升,但在该数学任务上仍表现欠佳。
对我来说,它作为研发助手表现大多不错,但偶尔也会表现不佳,这时我就会切换到Tulu3-70B。
有什么特定任务是它能做而Qwen3做不到的吗?

Phi-4在这项任务上表现优异是意料之中的,因为微软研究人员正是Evol-Instruct技术的发明者,他们内部使用该技术生成合成数据来训练下一代Phi模型。他们肯定会针对这项任务专门训练模型,而Qwen团队则没有这样做的必要。
不过正如我所说,Qwen3的回答容易啰嗦,而Phi-4在大多数STEM任务上表现优异且回答简洁,所以我更偏爱Phi-4。如果你不介意Qwen3的这个特点,用它也完全没问题。
Qwen3在生物化学/医学类任务中表现相当出色,不过这方面我们有更专业的MedGemma,其表现优于Phi-4和Qwen3。
若想查阅我的测试输入输出记录:
Qwen3-32B测试记录:http ://ciar. org/h/test. 1746856197.q3. txt
Phi-4-25B测试记录:http ://ciar. org/h/test. 1739505036.phi425. txt
Phi-4(14B)模型测试结果:http ://ciar. org/h/test. 1735287493.phi4. txt
本次测试包含42个提示词模板,每个模型需对每个提示进行五次推理。这种设计既能评估模型稳定输出优质结果的能力,也能展示模型在需要多样性的任务(如指令评估和创意写作)中生成差异化回答的表现。因此每个测试输出文件包含42×5=210组提示/响应对。
注意模型规模的差异。将Qwen3-32B与Phi-4-25B进行对比最为公平。我尚未评估更小规模的Qwen3模型,但将Phi-4(14B)与Qwen3-14B进行对比可能会很有启发性。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料

SomeOddCodeGuy:https ://www. reddit.com/user/SomeOddCodeGuy/


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录