智谱发布最快的推理模型！效果媲美 DeepSeek R1，速度吊打，快 8 倍！

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

从GPT-4o&o1到Claude3.5&3.7，再到DeepSeek-V3&R1，大家都在卷智商，卷大参数。
但今天智谱AI给我们带来了一个全新的方向：在卷智商的同时，我们也需要把反应速度卷起来！
这里先问大家一个问题，有没有觉得在试用各大厂商的推理模型时候，看着他们一个字一个字的往外蹦，实在是太慢了，导致很多时候不太愿意用。
这次，智谱团队带着全新的AI“三板斧”来了，是大家用得起的“斧”，也是一把小巧的“斧”，更是是一把非常锋利的“斧”：
GLM-4（基座通用）：9B的对话模型和32B的基础模型
GLM-Z1-Air（极速推理）：9B和32B的推理模型
GLM-Z1-Rumination（深度沉思）：32B的沉思模型
此外，顶级域名“z.ai”也正式上线，目前z.ai集合了沉思模型、推理模型、对话模型。
智谱MaaS平台：https ://bigmodel.cn
Z.ai：https ://chat.z.ai
开源地址：https ://huggingface.co/THUDM
这次的基座模型仅仅只有32B，相比DeepSeek-R1上千亿的模型来说轻便太多了。
当然，在轻便小巧的同时，它还不丢失强大的性能以及丰富的功能。
因为Air模型在训练时加入了代码、推理类数据，也支持多语言工具调用、联网搜索等Agent功能。此外，z还有一大亮点，在Z.ai平台上它支持实时预览HTML/CSS/JS代码运行结果（像调IDE一样对话调代码）
比如：
设计一个支持自定义函数绘制的绘图板，可以添加和删除自定义函数，并为函数指定颜色。
在各项基准测试，比肩各大厂商的大参数模型。
在32B的GLM-4-Air-0414的基础上，他们引入了更多推理类数据，并在对齐阶段深度优化了通用能力，推出了全新的深度思考模型GLM-Z1-Air，以及变种版本GLM-Z1-AirX和GLM-Z1-Flash。
在多项基准测试上，媲美OpenAI-o1mini以及DeepSeek-R1。API调用价格也是R1模型的1/30，可以说是性价比之王了。
但是重点来了，极速版GLM-Z1-AirX是国内速度天花板！！！
有8倍推理速度，最高达到200tokens/秒！！！
可能大家对这个没有什么概念，一起来看一段对比视频感受一下。
结果非常明显，在双方都获得正确答案同时，AirX是快了不少的。
我仔细研究过后，发现他们采用了冷启动与扩展强化学习策略，并针对数学、代码、逻辑等关键任务进行了深度优化训练。
最后，GLM-Z1-Flash也是唯一免费API调用的推理模型。
智谱团队真的是费劲心思，让大家体验到AI的红利啊。
也许会有网友质疑到，为啥需要这么快的模型，只要卷智商不就可以了。
这里我也是思考了一下这个问题。高速推理的模型更加适用家用和商业机器人大脑，以及自动驾驶的快速决策，因为这两个场景对于速度上有着极高的要求。
如果觉得32B还是太大，智谱团队还温馨的提供了9B版本的方便大家，在自己的电脑上试用，然而性能还是意外的强。
当我们以为推理模型可能，到了AI发展的阶段性顶部的时候，他们又推出了沉思模型GLM-Z1-Rumination，也是首个开源DeepResearch的模型。
大家可能对这个概念不是很了解。比如R1的模型是可以反复推理以及思考确定性的答案，例如：数学题。
但是沉思模型擅长回答开放性以及不确定性的问题，这些问题需要我们人类反复思考斟酌，甚至要上网查一百个资料、搜索数据库……至少花上半天的时间才能完成。
这些问题通通被沉思模型在几分钟内解决。
再来个具象化的类比：
搜索模型：本科生
反思模型：硕士
沉思模型：博士
一句话概括此模型的能力就是：自主提出问题—搜索信息—构建分析—完成任务，非常适合研究型写作和复杂检索任务。
官方推荐配置：
32B：1张H100/A100或者更先进的NVIDIA旗舰显卡
或者4张4090/5090/3090
GLM-Z1-AirVSDeepSeekR1：速度测试
这里我问了一个有些难度的数学问题，非常考验模型推理能力+数学知识。
求所有满足下式存在正整数(x,y)的素数(p)：[x(y^2-p)+y(x^2-p)=5p.]
先说结论，在答案都对的情况下，GLM-Z1-AirX用时2分钟，然而DeepSeek-R1用时4分钟，快了一倍。这个速度还是很夸张的。
GLM-Z1-Air回答：
DeepSeek-R1回答：
沉思模型测试
这里我想让它帮我做一个综述初稿。
中低资源语言的机器翻译有哪些最新方法:上网查学术资料（如ACLAnthology、arXiv）,汇总不同方法的优劣,按照年份、语言类别等进行分类,甚至尝试写个survey初稿.
我们可以看到，它先采用思考方式发出提问，然后进行网络搜索，最后收集资料，再进行新的一轮，直到任务结束。
在我去客厅做杯咖啡的时间，它就把综述呈现给我了，如果让我亲自来做估计得好几天。
最后，如下图所示，把段落重点都写的非常清晰，最后还带上了参考文献，真的是省时又省力。
顶级域名Z.ai也上线了。其中支持模型有：
GLM-4-32B（基座模型）：具备强大代码生成能力，支持全新Artifacts功能，打造交互式开发体验。
Z1-32B（推理模型）：超强推理性能，在线体验最高达200Tokens/秒的极速输出。
Z1-Rumination-32B（沉思模型）：可以体验DeepResearch的强大能力，适合做深度调研。
智谱这次“三板斧”的发布，也是加速了国产大模型生态的发展。其深度思考模型弥补了国产生态上长期缺失的一环——“思考+执行”的闭环。
更加是奠定了大模型接下来的发展趋势-小而精
随着Z.ai正式开放、MaaS平台上线、模型全量开源，会不会迸发出新的一波AI应用热潮呢。
大家可以在评论区讨论一下自己的使用体验。
如果喜欢这样的内容，请点赞+关注，我会持续为大家追踪最新热点。我是Jack，我们下期再见。
推荐阅读
（点击标题可跳转阅读）
《机器学习100天》视频讲解
公众号历史文章精选
我的深度学习入门路线
重磅！
1700多页的《人工智能学习路线、干货分享全集》PDF文档
扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。
长按扫码，申请入群
感谢你的分享，点赞，在看三连