比R1快8倍,智谱开源GLM-Z1系列,实测 Agentic AI 也能极速深度推理!


比R1快8倍,智谱开源GLM-Z1系列,实测 Agentic AI 也能极速深度推理!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

太卷了,智谱一口气开源6个模型,即新一代开源模型GLM-4-32B-0414系列,包含基座、推理、沉思模型,MITLicense,不限制商用。
不想自己部署的小伙伴可以直接登录全新站点https ://chat.z.ai/试用。
此次开源最大的亮点是具有深度思考能力的推理模型GLM-Z1-32B,主打一个“为快不破”:国内迎来最快的推理模型。
GLM-Z1-AirX(极速版):国内最快推理模型,推理速度高达200tokens/s,8倍于常规速度;
GLM-Z1-Air(高性价比版):价格仅为DeepSeek-R1的1/30,适合高频调用场景;
GLM-Z1-Flash(免费版):支持免费使用,进一步降低模型使用门槛。

GLM-Z1-AirX加持的AgenticRAG
AgenticRAG过程应用于问答的一个代表性示例,主要由2大流程组成:
离线流程,文档被分割成块,编码成向量,并存储在向量数据库(ES/Milvus)中。
线上流程
Agentic路由,根据查询类型,Agent从多种检索选项中检索相关数据,
生成,将原始问题和检索到的内容送入大模型(GLM-Z1-AirX)中,生成最终答案。
AgenticRAG问答流程(GLM-Z1-AirX)
总结类型Query:A股行情经历了怎样的变化
GLM-Z1-AirX仅在【12.8s】就给出了长达2246字的答案,并且答案也比较丰富,全面。
这个速度直接让你的RAG系统直接赢在了thinking线上,可能别人还在thinking,你已经给出答案了。
这里以DeepSeek-R1作为对比,thinking阶段就花费20s,最终答案1764字,总耗时63.3s
GLM-Z1-AirX流式使用指南

GLM-Z1-AirX加持的MCP应用
选这个场景测试,是因为不少小伙伴对MCP与FunctionCall的关系有困惑,比如“mcp和functioncall可以共存吗?”,今天以GLM-Z1-AirX作为基础模型对剖析MCP应用的工作流程:
MCP主机——LLM应用程序(例如Cursor),管理连接
MCP客户端——与MCP服务器保持一对一连接
MCP服务器——为LLM提供上下文、工具和能力
在MCPClient.py,首先利用list_tools让MCPServer上所有可用的工具信息
将第一步拼接的工具信息(名称、描述、参数)传给大模型(GLM-Z1-AirX),这里可以用支持FuncitonCall的大模型,也可以采用ReAct的方式。
GLM-Z1-AirX会选择使用哪个工具,之后通过call_tool让MCPServer执行工具并返回结果
工具执行的结果存入消息历史,一起送入GLM-Z1-AirX,给出解析的答案
最后,可以看一个GLM-Z1-AirX以ReAct方式调用工具的示例,3.6s完成,非常快速!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录