Agent做PPT的开源实践:代码端看MultiAgentPPT实现思路


Agent做PPT的开源实践:代码端看MultiAgentPPT实现思路

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

今天是2025年6月25日,星期四,北京,晴
我们回答文档智能进展,来看一个自动生成PPT的项目,其中流程的设计,以及用到的爬虫代码以及Agent的prompt都可借鉴。

我们可以看看3个核心问题。
1、整体的实现流程是什么?
先从工作流的控制看起,如下:
其中可以具象化的整体实现流程如下图所示,分成4个Agent,
其中:
大纲生成Agent,根据用户需求生成初步内容大纲。
Topic拆分Agent,将大纲内容细分为多个主题;
ResearchAgent,并行工作,多个智能体分别对每个主题进行深入调研;
SummaryAgent,汇总输出,将调研结果汇总生成PPT内容,实时流式返回前端。
整个后端的逻辑在:https ://github. com/johnson7788/MultiAgentPPT/tree/main/backend。
2、其中的数据从哪儿来?
既然是要生成内容,尤其是其中生成大纲以及内容,都会用到RAG,所以就会有知识库。
那么,知识库如果需要做到实时,那么就需要进行更新,所以可以爬虫,从代码上看,其从weixin_search. py中可以看到,其使用搜索搜索微信公众号文章,先关机关键词搜索搜狗,获取链接,然后使用get_real_url获取真实链接,最后使用真实链接获取公众号内容。
其中获取公众号内容如下:
3、从底层实现代码看每个子agent的执行逻辑

其中:slide_outline,使用rag,检索抓取形成的文章内容,然后组织成如下prompt送入LLM进行生成:
slide_agent进一步分为第一个问题中的research_topic、split_topic、summary_writer几个工作组件,如下:
其中:
split_topic专门负责分析写作大纲并将其拆分成独立的研究主题,作用的prompt如下:
research_topic,根据拆分的主题,动态创建并行的研究员进行资料搜集,使用的prompt如下:
SummaryAgent进行文章撰写和内容整合,作用的prompt如下,使用的XML语言表示:
1、https ://github. com/johnson7788/MultiAgentPPT
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录