比R1快8倍，智谱开源GLM-Z1系列，实测 Agentic AI 也能极速深度推理！

发布日期: 2025-04-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

太卷了，智谱一口气开源6个模型，即新一代开源模型GLM-4-32B-0414系列，包含基座、推理、沉思模型，MITLicense，不限制商用。
不想自己部署的小伙伴可以直接登录全新站点https ://chat.z.ai/试用。
此次开源最大的亮点是具有深度思考能力的推理模型GLM-Z1-32B，主打一个“为快不破”：国内迎来最快的推理模型。
GLM-Z1-AirX（极速版）：国内最快推理模型，推理速度高达200tokens/s，8倍于常规速度；
GLM-Z1-Air（高性价比版）：价格仅为DeepSeek-R1的1/30，适合高频调用场景；
GLM-Z1-Flash（免费版）：支持免费使用，进一步降低模型使用门槛。

GLM-Z1-AirX加持的AgenticRAG
AgenticRAG过程应用于问答的一个代表性示例，主要由2大流程组成：
离线流程，文档被分割成块，编码成向量，并存储在向量数据库（ES/Milvus）中。
线上流程
Agentic路由，根据查询类型，Agent从多种检索选项中检索相关数据，
生成，将原始问题和检索到的内容送入大模型（GLM-Z1-AirX）中，生成最终答案。
AgenticRAG问答流程（GLM-Z1-AirX）
总结类型Query:A股行情经历了怎样的变化
GLM-Z1-AirX仅在【12.8s】就给出了长达2246字的答案，并且答案也比较丰富，全面。
这个速度直接让你的RAG系统直接赢在了thinking线上，可能别人还在thinking，你已经给出答案了。
这里以DeepSeek-R1作为对比，thinking阶段就花费20s，最终答案1764字，总耗时63.3s
GLM-Z1-AirX流式使用指南

GLM-Z1-AirX加持的MCP应用
选这个场景测试，是因为不少小伙伴对MCP与FunctionCall的关系有困惑，比如“mcp和functioncall可以共存吗？”，今天以GLM-Z1-AirX作为基础模型对剖析MCP应用的工作流程：
MCP主机——LLM应用程序（例如Cursor），管理连接
MCP客户端——与MCP服务器保持一对一连接
MCP服务器——为LLM提供上下文、工具和能力
在MCPClient.py，首先利用list_tools让MCPServer上所有可用的工具信息
将第一步拼接的工具信息（名称、描述、参数）传给大模型（GLM-Z1-AirX），这里可以用支持FuncitonCall的大模型，也可以采用ReAct的方式。
GLM-Z1-AirX会选择使用哪个工具，之后通过call_tool让MCPServer执行工具并返回结果
工具执行的结果存入消息历史，一起送入GLM-Z1-AirX，给出解析的答案
最后，可以看一个GLM-Z1-AirX以ReAct方式调用工具的示例，3.6s完成，非常快速！