花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了


花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
Reddit看到一个帖子:104个量化模型在大海捞针测试中的表现[ 1]
作者在H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达1万词元(约覆盖小说前5章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复述。
选择的模型都是可以在32GB显存GPU可运行的量化模型
评分标准:所有模型在每个温度值下都进行了多次测试(例如在0. 0、0. 1、0. 2、0. 3等温度下分别进行多次测试),这些结果被汇总为最终得分。
\“得分\“列表示LLM成功解决提示的测试百分比(即正确返回异常行的情况)。
所有测试的上下文长度均设置为16k——这是为了平衡模型在实际使用中在这个上下文范围内的表现,并为列表中的思维模型提供足够的推理空间。
Model
量化方式
实验依据
得分
Llama_3. 2_3B
iq4
0
Llama_3. 2_3B
q5
0
Llama_3. 2_3B
q6量化
0
Llama_3. 1_8B_Instruct
iq4
43
Llama_3. 1_8B_Instruct
q5
13
Llama_3. 1_8B_Instruct
q6量化
10
Llama_3. 3_70B_Instruct
iq1
13
Llama_3. 3_70B_Instruct
iq2
100
Llama_3. 3_70B_Instruct
iq3
100
Llama_4_Scout_17B
iq1
93
Llama_4_Scout_17B
iq2
13
Llama_3. 1_Nemotron_8B_UltraLong
iq4
60
Llama_3. 1_Nemotron_8B_UltraLong
q5
67
Llama_3. 3_Nemotron_Super_49B
iq2
无思
93
Llama_3. 3_Nemotron_Super_49B
iq2
思考
80
Llama_3. 3_Nemotron_Super_49B
iq3
思考
100
Llama_3. 3_Nemotron_Super_49B
iq3
无思
93
Llama_3. 3_Nemotron_Super_49B
iq4
思考
97
Llama_3. 3_Nemotron_Super_49B
iq4
无思
93
Mistral_Small_24B_2503
iq4
50
Mistral_Small_24B_2503
q5
83
Mistral_Small_24B_2503
q6量化
77
Phi_4
iq3
7
Phi_4
iq4
7
Phi_4
q5
20
Phi_4
q6量化
13
Qwen2. 5_14B_Instruct
iq4
93
Qwen2. 5_14B_Instruct
q5
97
Qwen2. 5_14B_Instruct
q6量化
97
Qwen2. 5_Coder_32B
iq4
0
Qwen2. 5_Coder_32B_Instruct
q5
0
QwQ_32B
iq2
57
QwQ_32B
iq3
100
QwQ_32B
iq4
67
QwQ_32B
q5
83
QwQ_32B
q6量化
87
Qwen3_14B
iq3
思考
77
Qwen3_14B
iq3
无思
60
Qwen3_14B
iq4
思考
77
Qwen3_14B
iq4
无思
100
Qwen3_14B
q5
无思
97
Qwen3_14B
q5
思考
77
Qwen3_14B
q6量化
无思
100
Qwen3_14B
q6量化
思考
77
Qwen3_30B_A3B
iq3
思考
7
Qwen3_30B_A3B
iq3
无思
0
Qwen3_30B_A3B
iq4
思考
60
Qwen3_30B_A3B
iq4
无思
47
Qwen3_30B_A3B
q5
无思
37
Qwen3_30B_A3B
q5
思考
40
Qwen3_30B_A3B
q6量化
思考
53
Qwen3_30B_A3B
q6量化
无思
20
Qwen3_30B_A6B_16_Extreme
q4
无思
0
Qwen3_30B_A6B_16_Extreme
q4
思考
3
Qwen3_30B_A6B_16_Extreme
q5
思考
63
Qwen3_30B_A6B_16_Extreme
q5
无思
20
Qwen3_32B
iq3
思考
63
Qwen3_32B
iq3
无思
60
Qwen3_32B
iq4
无思
93
Qwen3_32B
iq4
思考
80
Qwen3_32B
q5
思考
80
Qwen3_32B
q5
无思
87
Gemma_3_12B_IT
iq4
0
Gemma_3_12B_IT
q5
0
Gemma_3_12B_IT
q6量化
0
Gemma_3_27B_IT
iq4
3
Gemma_3_27B_IT
q5
0
Gemma_3_27B_IT
q6量化
0
DeepSeek_R1_Qwen3_8B
iq4
17
DeepSeek_R1_Qwen3_8B
q5
0
DeepSeek_R1_Qwen3_8B
q6量化
0
深度求索R1蒸馏版千问32B
iq4
37
深度求索R1蒸馏版千问32B
q5
20
深度求索R1蒸馏版千问32B
q6量化
30
Cogito_v1_Preview__Qwen_14B_
iq3
3
Cogito_v1_Preview__Qwen_14B_
iq4
13
Cogito_v1_Preview__Qwen_14B_
q5
3
DeepHermes_3_Mistral_24B_Preview
iq4
无思
3
DeepHermes_3_Mistral_24B_Preview
iq4
思考
7
DeepHermes_3_Mistral_24B_Preview
q5
思考
37
DeepHermes_3_Mistral_24B_Preview
q5
无思
0
DeepHermes_3_Mistral_24B_Preview
q6量化
思考
30
DeepHermes_3_Mistral_24B_Preview
q6量化
无思
3
GLM_4_32B
iq4
10
GLM_4_32B
q5
17
GLM_4_32B
q6量化
16
原作提到,这个测试方法并非完全科学严谨,但最终结果何其实际感受还是相符的:
Gemma327B在某些场景表现惊艳,但遇到大上下文时性能简直断崖式下跌!
Qwen3-32B非常出色,但面对大上下文时总会过度思考。使用\“/nothink\“指令略有改善,在实际测试中我通常都会加上这个指令——除非具体用例确实需要高级推理能力
即便Llama3. 370B受限于32GB显存只能运行更低精度的量化版本,其表现依然极具竞争力。我认为Qwen3-32B的用户值得将它重新纳入实验对比——尽管这个模型相对较老。
在量化权重时确实存在一个\“断崖式下跌\“的临界点,但这个临界点在不同模型间差异巨大
英伟达NemotronSuper49B量化模型表现极为出色,在处理类似的大上下文任务时尤为聪明。与Llama3. 370B类似,建议在某些工作流中尝试使用
NemotronUltraLong8B实际表现优异——在长上下文场景中稳定超越本就不俗的Llama3. 18B
QwQ模型的表现远超其参数规模,但推理所需的大量token让我更倾向于选择榜单上的其他模型
Qwen3-14B堪称同量级中的冠军选手
-theend-
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录