不服跑个分,全球最快推理模型,GLM-Z1-Air系列震撼发布
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
最近用R1的模型上线了,在我们场景上回答的质量确实好,但一直有个困扰,infra同学把显卡的油水都榨干了,最后tps也仅仅勉强到45token/s。
最直接的问题就是完读率相关的指标会受很大的影响。
这背后的核心问题是输出速度和内容过长的问题。
大家都知道cot/长思考模型好,但实际真上了线就发现,长思考是有代价的。
特别是在一些简单和实际应用的场景下,等10s回答,显卡功率拉满,计算1+1=2,看中间一堆自我反思,对用户体验是有伤害的。
传统的解法一般有那么几个:第一个产品交互上面做一些交互优化,是加很多过场动画,让用户感知不到的时间流逝,第二个是把思维链折叠,让用户的感知变弱。
上面这些都治标不治本,真正要解决的核心问题是输出速度。
能折腾的我也都折腾了,什么蒸馏到小模型上,做量化,用DPO削减生成长度,但通过后训练来削减COT的风格,总是有代价,模型在效果上有些折损。
提速度的时候,很难确保效果和速度的两全。
就在纠结头痛的时候,智谱的哥们跟我说,给你说个好消息。
你记不记得去年这个图,也就是当时市面模型的TPS,输出速度。
哥们说,这次又得刷新你的认知了,这个图完整的情况得是这样了,GLM-Z1-AirX长思考模型,速度远超这些,tps可以到150-200左右。
你给我个接口试试?好的,我掏出我的祖传脚本,把GLM-Z1-AirX加进去。
通过这个“跑分”脚本,就能知道生成速度的耗时。
通过如下的方式执行:
厂商
模型
上下文总长度
用时
输入token
输入解析(含网络延迟)
输出token
生成用时
生成速度
OpenAI
gpt-3.5-turbo
2250
14.62s
1070
0.47s
1180
14.15s
83.42token/s
通义千问
qwen-turbo
1440
18.17s
690
1.12s
750
17.05s
43.99token/s
智谱glm-z1-airx
glm-z1-airx
2017
9.46s
691
0.43s
1278
8.57s
149.13token/s
在一众dense模型,MoE模型,非长思考模型中都遥遥领先。不仅仅是生成token的速度(TPS)遥遥领先,就连生成第一个字的速度也是遥遥领先(TTFT),双杀。
除了在互联网的C端场景上,思维链模型这么快有啥用呢?
有这样一个场景,反诈Agent,根据用户通话ASR的结果识别诈骗电话并处置,这时候每一分每一秒都是对用户保驾护航的责任感体现。
输入ASR:”这里是XX公安局,您名下的账户涉嫌洗钱,请立刻将资金转移到安全账户配合调查。”输出正文部分:
这个场景在几秒就可以给出指令调用方式和关键参数信息,并且保证识别效果,进行相应处置。反诈APP背后有了这样的大模型能力和速度加持,就会有更多的人避免财产被不法分子侵害诈骗。所以模型再怎么快也不为过。
哥们说,除模型开源外,基座、推理两类模型也已同步上线智谱MaaS开放平台(bigmodel.cn),面向企业与开发者提供API服务。
本次上线的基座模型提供两个版本:GLM-4-Air-250414和GLM-4-Flash-250414,其中后者完全免费。
上线的推理模型分为三个版本,分别满足不同场景需求:
GLM-Z1-AirX(极速版):
定位国内最快推理模型,推理速度可达200tokens/秒,比常规快8倍;
GLM-Z1-Air(高性价比版):
价格仅为DeepSeek-R1的1/30,适合高频调用场景;
GLM-Z1-Flash(免费版):
支持免费使用,旨在进一步降低模型使用门槛。
以上脚本由「赛博禅心」提供支持。