竞赛总结:AFAC2024 AIGC金融多模态研究报告智能生成


竞赛总结:AFAC2024 AIGC金融多模态研究报告智能生成

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

赛题名称:AFAC2024挑战组-赛题三AIGC金融多模态研究报告智能生成
赛题类型:RAG、智能文档
赛题任务:将用户问题转化为可执行的APIs
https ://tianchi.aliyun.com/competition/entrance/532200
数字金融科技迅猛发展,呈现出广阔的应用前景。作为金融行业的核心组成部分,研报在投研、投顾等领域具有重要作用。然而,研报生成面临诸多挑战。
首先,研报类型多样,包括宏观经济、行业分析、公司研究、策略报告等(如图1所示为某行业分析研报示例),不同类型的研报对数据和信息的处理有不同的要求和操作。
其次,金融业务场景中需要大量的专业知识、数据分析和趋势分析。目前,大模型技术的飞速进步为金融服务带来了前所未有的变革,成为了智慧金融发展的必然趋势。
然而,大模型难以直接满足智能投研、智能投顾中复杂金融业务场景的需求。因此,通过大模型建立金融研报生成智能体Agent,突破大模型存在数据时效性、长文本总结、长文本生成、图表生成、图表理解等问题,智能化地生成具备真实性和可用性的研究报告,更好地服务基金、资管、投行等机构和海量意向客户。
本任务构建了一个金融场景下多模态研报智能生成任务,增强智能投研和投顾报告生成的可用性,提升金融服务效率和水平。
参赛团队通过深入探索如何将大模型技术与金融领域的数据进行深度融合,提出创新的金融研报生成智能体解决方案,并在智能投研、投顾等场景中加以应用。
通过本任务的探索和实践,我们期待融合大模型技术和金融数据共同推动金融科技领域的创新和发展,为金融服务的数字化和智能化升级提供强有力的支持。
本任务需要参赛队伍基于金融数据源(如:股票数据、新闻、年报、个股报告等,具体数据源信息在任务数据中描述),智能地生成投研报告,报告的内容元素包含两类:
图表信息(类型:表格、柱状图、折线图、饼图、散点图)
文本分析内容(生成内容需要给出数据来源,如:数据库中明细数据、新闻链接等)。
本任务的研报生成任务分为:个股和行业两种研报生成。
A榜阶段指定个股公司:宁德时代、天能股份、骆驼股份、亿纬锂能、安孚科技
A榜阶段任务题目:生成上述5家指定公司下一交易日的投资评级分析
根据对上述5支股票预测的投资评级,来计算5支股票的股价差计算收益。股价差计算收益详见后面(五、评分规则和脚本)。采用下面公式计算该5支股票下一交易日的平均股价差计算收益。
1(持有)
预期股价差>=0
0(卖出)
预期股价差<0
子任务1的输出:
图或表
评级类型+事实+趋势及分析(原因或产生影响)
示例输入:生成宁德时代下一交易日的投资评级分析
示例输出:
根据图表可知,宁德时代前5天的股价呈现先下降后上升的趋势,根据宁德时代的近三年的财务报表数据[citation:],净资产收益率不断增加,说明公司状况良好,同时根据近日新闻[citation:],国内新能源汽车销量大增。但目前国外局势不太稳定[citation:]。因此,宁德时代下一交易日的投资评级为:持有
A榜阶段指定行业:新能源锂电池行业、新能源储能行业
A榜阶段任务题目:生成上述两个行业下一交易日的投资评级分析
针对上述两个指定行业,参赛队伍各自行选择10支股票(合计20支股票),根据对指定行业自选20支股票预测的投资评级,来计算两个行业的股价差计算收益。股价差计算收益详见后面(五、评分规则和脚本)。采用下面公式计算两个行业下一交易日的平均股价差计算收益,
1(持有)
强于大市或中性,即预期股价差>=0
0(卖出)
弱于大市,即预期股价差<0
子任务2的输出:
图或表
Top10股票+评级类型+事实+趋势及分析(原因或产生影响)
示例输入:生成新能源锂电池行业下一交易日的投资评级分析
示例输出:
本赛题为开放性赛题,不直接提供训练数据。本任务提供赛题所需要的参考数据来源如下:
财经新闻:
股票数据:(按天获取收盘价)
公司年报:
原材料价格:
证券信源:
评测指标分为客观指标和人工指标,权重各占50%。
A榜提交阶段,分数仅展示客观指标(其中股价差计算收益在下一交易日结束后计算)。B榜阶段增加人工评测指标(取客观指标前20位的提交结果交由专家评审团打分)。
客观指标占总评分的50%,包含以下4类评估方式:
元素类型限制(ElementScore,10分)
文本质量自动评估指标(PPLScore,10分)
大模型相对评估(GPTScore,10分)
股价差计算收益(RSPS,ReturnonStockPriceSpread)
人工指标占总评分的50%,采用以下表格中共10类评估方式和权重:
多源数据召回:引入多源数据提高数据的多样性,丰富内容深度;
多模态数据处理:结合图表与文本,使市场波动更直观呈现,突破单模态分析的局限性;
检索排序器及其优化算法:高效筛选高质量数据,符合大语言模型偏好;
微调股价预测大模型:专业金融大语言模型,克服ChatGPT预测含糊和数据隐私问题,提供可解释的预测结果;
多智能体协同优化:任务一和任务二的智能体协同生成行业下一日投资评级,引入行业视角提升个股预测精准度。
面向金融研报生成的多智能体协同框架,我们通过多源检索增强与排序优化高效筛选实时专业信息,多模态数据处理构建NLP友好的数据格式。对FinGPT进行LoRA微调,应对大模型预测含糊的问题,并保护隐私。基于AutoGen多智能体协同框架实现自动化信息检索、研报生成、个股和行业投资评级。
在信息收集上,选择从互联网爬取股票数据和新闻信息,通过AKShare、财经新闻API和百度爬虫BaiduSpider获取沪深300指数、中证500指数、新能源板块、AIGC板块和5G板块的多源数据,实现了金融领域权威财经数据、舆情新闻、个股及行业研报的聚合。并使用大模型作为数据质量评估工具,对收集的数据进行筛选和重排序,为生成真实且可用的研究报告提供了丰富的数据支持。
在模型层面,采用专门为金融市场设计的FinGPT-Forecaster作为基础模型,结合高效灵活的LoRA微调技术,训练用于投资评级分析的股价预测模型。Prompt充分利用股票信息,延续思维链设计理念,选用deepseek和GPT-4ominiAPI,确保高质量数据生成,提升模型的预测性能。同时,自主研发的模型能够满足私有数据的隐私保护需求,并可以针对具体业务进行优化。
在股价预测大模型和多种模型API的加持下,我们使用多Agent协同自动化整个任务流程,包括信息检索,研报生成,个股和行业投资评级。Agent克服了传统大模型的局限,具备扩展性和灵活性,自主决策并执行任务,从而实现任务流程的完全自动化,避免人工干预。基于这些特性,我们构建了一个智能体协同框架,用于自动化完成赛题中的个股和行业研报生成任务。
个股研报生成任务核心是通过用户代理调用各种工具来协调各个专家,生成符合任务要求的文本内容。用户只需指定股票名称和代码,流程编排助手根据提示词生成工作流。首先从AKShare、百度爬虫以及新闻助手API获取到结构化文本数据,涵盖公司介绍、相关新闻、金融基本面、最近一周行情等,并对股票行情数据进行可视化,生成相关图表反映行情波动;通过股价预测大模型驱动的个股分析专家Agent,针对输入数据进行分析,输出包括积极发展、潜在担忧、预测和分析以及数据来源内容。专家进一步对分析文本进行引用标注,完成标注后,按照赛题要求进行字数控制与JSON格式生成,最终产出个股分析报告。
行业研报生成任务的核心与个股研相似,并在此基础上增加了针对性的Agent以完成更细化的工作。通过包含行业名称及相关股票信息的提示词驱动,流程编排助手据此生成工作流。方案通过百度爬虫和官方新闻助手获取行业及股票相关网页的HTML文件,生成反映行业板块行情和成交量的图表。网页解析专家负责解析HTML文件,提取关键文本用于研报分析。随后,网页重排专家筛选出最重要的10个网页,再由GPT4o驱动的行业分析专家进一步处理,生成行业分析文本。在任务二中,为了结合行业的整体走势以及发展情况,个股分析专家在任务一的基础上引入行业分析文本,来形成个股的最终预测分析;最终产出完整的行业分析报告。
1.数据源:股票价格数据、新闻数据、财务报表、行业报告。
2.数据收集:使用API(如YahooFinance、AlphaVantage)获取实时和历史股票价格数据;使用网络爬虫获取相关新闻数据和行业报告;从金融数据库获取公司财务报表。
3.数据预处理:对收集到的数据进行清洗、去重、格式转换等预处理操作,确保数据的质量和一致性。
1.GPT-4oAPI使用:利用GPT-4o的能力生成文本分析内容,结合股票数据、新闻和财务数据。
2.图表生成:使用Matplotlib或Plotly生成柱状图、折线图、饼图、散点图等。
3.综合输出:将图表和文本分析内容整合成完整的投研报告。
AutoGen是一种先进的多智能体对话框架,能够构建复杂的LLM(大语言模型)应用。它具有以下关键技术特点:
多智能体支持:支持创建多个对话代理,允许它们之间进行复杂的交互和消息传递。可以根据需求设置智能体的自主性、数量及其交互方式。多智能体支持:支持创建多个对话代理,允许它们之间进行复杂的交互和消息传递。可以根据需求设置智能体的自主性、数量及其交互方式。
高度可定制化:允许用户定制智能体的功能,集成大语言模型、人类操作和各种工具,以适应不同的应用场景和需求。
自动化工作流:简化了复杂的LLM工作流,通过自动化管理和优化提升模型的性能。可以大大减少模型的运维复杂性和提高分析效率。
为了支持高效的数据处理和报告生成,本解决方案集成了以下工具:
数据可视化:使用mplfinance绘制股票价格图表,提供直观的市场趋势视图。
财报分析:通过ReportAnalysisUtils进行财报内容分析,提取财务数据和趋势。
报告生成:利用reportlab生成结构化的PDF投资报告,方便用户阅读和分析。
市场分析师智能体(analyst):整合从数据源获取的信息,进行综合分析。负责收集和处理财经数据,生成初步的投资分析。
用户代理智能体(user_proxy):与市场分析师智能体协作,利用工具集生成图表和详细的投资报告。负责处理图表生成和最终报告编排。
影子分析师智能体(analyst_shadow):处理内容超长的情况,确保分析结果在大语言模型的处理范围内。通过分解分析内容,保持信息的完整性和可读性。
在金融研报生成任务中,面临大模型参数更新的后滞性、多变数据源的管理困难性、复杂工作流的任务可控性、受约束任务的结果合规性等挑战,DATAGURU队创新性地提出了几种令人眼前一亮的设计技巧:
实时检索与整合:采用检索增强生成(RAG)方法,保存行业数据作为知识库确保研报内容紧跟市场变化和最新动态。
多模态数据预处理:利用数据管理(DM)范式和多模态大模型,对非结构化数据进行预处理,构建金融知识库,提高数据利用率和研报生成效率。
多智能体协作:通过多智能体(Multi-Agent)协作,实现复杂工作流的分工与合成。明确角色分工、成果交付、协调和监控设计,提升任务可控性和研报质量。
后验证策略:引入后验证(PostValidation)策略,对大模型生成的研报内容进行规则验证,确保内容合规、准确,避免法律风险和信任危机。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录