一粒「扣子」,开启了Agent的全生命周期进化


一粒「扣子」,开启了Agent的全生命周期进化

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:杜伟
2025年被很多人称为Agent爆发元年,它们可以极大地具像化大模型的能力,并改变PC、移动等端侧人机交互的范式,尤其是跨场景的多任务自动执行显著提升了操作的便捷性和智能化程度。
自年初首个通用Agent产品Manus出现以来,Agent受到了前所未有的关注,互联网大厂和大模型初创企业将它作为竞逐的AI重心之一,并利用MCP、A2A等协议扩展Agent的能力边界以及赋能的应用场景。
昨日,在火山引擎Force2025大会上,除了最新版本的豆包大模型1. 6系列之外,Agent成为另一个焦点。
大会开发者主论坛以「基于AI云原生的Agent开发新范式」为主题,展示了全面升级的「扣子」如何利用Agent来重塑生产力。
扣子罗盘技术负责人王新盟
全新升级后的扣子已经由原来的Agent开发平台进化为了一个「全生命周期平台」,覆盖了以下四大组成部分:
扣子开发平台,低代码Agent开发;
Eino框架,开源的大模型应用开发框架,全代码开发;
扣子罗盘,Agent效果调优;
扣子空间,Agent协作。
可以说,更完备的扣子产品矩阵进一步适应大模型时代多样化的Agent开发、调优需求,最大可能地提供智能化的体验。
我们接下来一一来看。
Agent终于有了「全生命周期」平台
首先是扣子开发平台,作为新一代AI应用开发平台,旨在让没有任何代码开发经验的人也能快速、低门槛地构建基于大模型的Agent或应用,并支持一键发布到飞书、微信公众号、豆包等渠道。
总结一波,扣子开发平台从智能体IDE、应用IDE、丰富的插件和工作流模板以及企业级安全能力四大方面来赋能Agent开发体验。
其中智能体IDE方便开发者高效地开发、调试Chatbot类的Agent,还提供上千个插件供开发者使用,支持搭建工作流并利用基于火山引擎搭建的知识库;同时基于火山方舟平台,支持了业界大多数模型;打通主流发布渠道,尤其是C端,比如豆包、飞书、微信、抖音、小程序等渠道,让用户更方便地使用基于扣子搭建出的Agent。
此外,一些开发者仍然希望通过拖拉拽的方式搭建GUI形态的应用,针对这种特定的开发需求,2024年上线的应用IDE赋予了大模型的能力。企业级安全与数据保护能力支持私网连接客户的VPC(虚拟私有云),避免了公网访问带来的一些潜在风险。
不仅如此,为了达到低门槛、零门槛构建Agent的目的,预置的大量Agent模板让开发者可以一键复制,快速构建一个成熟可用的Agent,比如智能客服助手模板、文章转博客模板、智能助教模板,实现了开箱即用。
扣子开发平台让零基础开发Agent成为了可能,而面对更习惯写代码的开发者,同样推出了一个Agent构建框架——Eino,并进行开源。
作为一个用Go语言编写的LLM应用开发框架,Eino既从LangChain和LlamaIndex等开源社区的优秀框架中汲取灵感,又借鉴了实际应用,兼顾简洁性、可扩展性、可靠性与有效性。
Eino的亮点之一在于将Agent开发的一些核心模块,比如ChatTemplate、Document解析、Embedding模型、Retriever检索等提炼成了一些标准化组件。这样一来,无论是对于开源或闭源模型,还是在代码中处理文档或者向量数据,都可以通过抽象好的统一接口进行调用。
同时面对复杂任务拆解和多工具协同,Eino提供了灵活的编排能力,通过可视化拖拽或者代码开发的方式来轻松编排一个Agent流程。此外还支持完善的流处理功能,并提供了极强的工具链。
目前,字节内部基于Eino开发的系统数量已经超过了300,在GitHub上的星标数量达到了4. 3k,这表明越来越多的内外部开发者都开始对使用该框架开发Agent产生了兴趣。以抖音电商为例,基于Eino搭建的智能客服工作流程可以让Agent代替人工客服,整体效率提升了50%以上。
GitHub地址:https ://github. com/cloudwego/eino
上面这些内容都是关于Agent的搭建,但搭建成功只是完成了第一步,还需要持续的优化迭代以及全生命周期的运用。火山引擎通过扣子罗盘构建了Agent全生命周期体系,贯穿Agent开发、效果评测、线上观测和效果优化等四个阶段。
其中开发阶段主要涉及撰写和调试Prompt、搭建工作流(知识库、MCP),可以选择以低代码或全代码方式完成;接着进入评测阶段,通过Agent的效果量化来判断是否达到了准出标准;在发布上线之后进入第三个阶段——观测,通过实时收集和分析线上运行的数据,让Agent从黑盒运行变成透明决策;最后到了线上调优阶段,针对暴露出的每一个问题进行精准的分析与解决。
当然,并不是到调优阶段就停止了,相反优化后的Agent会重新进入到新一轮的开发、效果评测、线上观测以及效果优化,如此循环往复,达到用户满意为止。
再具体到效果评测阶段,扣子罗盘在评测流程方面做到了以下四点:
灵活的评测集版本管理,让开发者方便地管理和生成评测集。未来也会预置更多评测集,并开箱即用;
评测对象支持Prompt、扣子Agent,未来还将基于A2A协议支持自定义Agent;
预置大量开箱即用的评估器,覆盖通用Agent评测的各个方面,包括任务完成度评估、正确性评估、工具选择评估以及轨迹评估等,并成为国内首家支持Agent轨迹评估的线上商业化平台;
丰富的评测报告以供直观的查看与分析。
到了线上观测阶段,则需要一整套的观测体系来洞察Agent的运行情况,包括运行性能(token消耗、请求量和能力)、运行效果以及用户的问题以及分类。综合下来,开发者可以更有针对性地根据用户兴趣来调整Agent。对于一些细节问题,比如针对线上运行的一些Badcase,进行问题点定位并展开定向优化。
为此,扣子罗盘提供了一整套的AIAgent观测功能。在数据上报方面,针对扣子的Agent进行提前预置,系统可以自动上报数据,因而可以在罗盘上查看这些Agent的所有数据。另外针对全代码开发者自定义的Agent,同样提供了SDK,供他们按照协议上报数据。同时针对开发者用得比较多的其他框架(比如LongChain)也进行适配,支持一键将数据上报至扣子罗盘。
不仅如此,火山引擎认为线上运行数据的价值远不止用来观测。在扣子罗盘上,开发者可以根据线上用户的query分析与分组,获得用户行为的分析报告;也可以将线上的query进行自动评测以获得线上效果的报告。这样一来,开发者可以实时掌握Agent线上运行效果的优劣变化,并通过多种方式(比如用户的点踩)来识别Badcase。
当然这些Badcase也可以基于预置的评估器来识别,过程中构建Agent的Badcase集,这些集在经过系统预置的人工标注之后可以沉淀为评测集,为后续的例行迭代和评测提供支持。
此外,扣子罗盘还将与火山方舟的Prompt优化能力和模型微调能力贯通。王新盟表示,以上这些功能已在本周正式发布上线,并开启了企业灰度测试。总之,有了扣子罗盘,Agent的迭代与调优进入到了透明可视化时代,告别了「盲人摸象」。
最后是扣子空间,它是一个通用AIAgent平台,今年4月首次上线,并拿下了当月国内AI产品增速榜的第一。扣子空间并不是一个Agent,而是一群高质量Agent的协同办公场所,集中了精通各项技能的通用实习生以及各行各业的领域专家。在各种Agent的协作下,用户可以更高效地解决实际工作任务。
利用扣子空间,用户可以分析市场调研报告、选择高考院校和专业,还能够获得专家能力的深度支持。此外通过MCP协议来不断地扩展能力边界,比如联动高德生成旅游攻略、联动飞书进行文档撰写等。接下来,火山引擎还将上线更多高质量、覆盖各行各业的专家Agent。
可以预见,未来更加完善的扣子平台将成为大模型时代Agent发展的「基础设施」。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录