下半年为数不多的大模型系列比赛开启啦!聊一聊AFAC2025大赛解题思路


下半年为数不多的大模型系列比赛开启啦!聊一聊AFAC2025大赛解题思路

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

作为往届AFAC参赛获奖选手,最近看到第三届AFAC2025开赛了,看完官网比赛介绍,给我的直观感受就是赛题对大模型、Agent和MCP等新技术比较青睐,赛题也不是单纯依赖文本大模型而是多智能体、多模态等技术来解决,另外本次比赛奖金非常高,单赛题冠军5万元。
同时绿色通道获奖优秀选手将有机会获得企业校招绿色通道。
除此之外本届AFAC2025金融智能创新大赛还设立了我们经常说的创意赛道
初创组旨在发掘、培育并赋能具有颠覆性创新理念与前沿技术实力的创业团队及种子企业,以推动社会和产业的持续革新与健康发展。参赛者可聚焦于金融科技、数字生活等众多领域拓展新方向、新技术及新产品的发展与应用,推动产业转型升级,催生出一批具有高成长性和市场竞争力的项目。
本赛组推荐的应用方向四大方向,同时,也欢迎参赛项目根据自身研究方向、研究热点等自行拟定项目选题。
初创组申报项目领域建议:
方向一、推动新质生产力发展
方向二、推动普惠金融发展
方向三、推动金融数据要素发展
方向四、推动养老金融发展
申报的项目建议在创意、思路、技术等方面有所创新,同时项目需具备可开发、可落地、可复制、可推广的特点。鼓励项目与实践相结合,紧跟国家的指导规划,充分体现行业应用融合。
更多比赛细节,大家可以查看官网:https ://tianchi. aliyun.com/specials/promotion/afac2025
下面我们围绕几个挑战组的算法赛题,我们初步聊一聊解题思路
基于大模型的时间序列预测赛题
比赛链接:https ://tianchi. aliyun.com/competition/entrance/532352/information
作为一站式理财服务平台,蚂蚁财富为广大投资者提供了便捷且高效的基金交易功能,每天支撑大规模基金申购和赎回交易。精准预测基金产品在未来一段时间的申购量和赎回量具有重大意义:从平台角度,定量把握基金产品的申赎情况,一方面能够科学地指导平台落实各项流动性管理动作,从而降低由平台垫资而产生的资金成本,另一方面能够揭示行业板块间的资金流向,有针对性地部署申赎预警和运营策略,从而避免AUM流失。从用户角度,根据基金产品的申赎数据,可以提前提示相关机构锁定基金份额、做好交易准备,同时结合投资研判给到的干预策略,有效降低用户的收益摩擦、保证用户的收益体感。
本赛题提供20只基金的历史申购和赎回时间序列以及有限个平台侧关键特征(数据样例见任务数据部分),参赛者需要(1)借助大模型自行获取和构造其他有效特征,(2)训练1个时序模型,有效建模产品收益和市场行情波动,预测每只基金在2025/7/25-2025/7/317天内每天的申购量和赎回量。我们最终结合大模型使用能力和模型预测精度综合判定参赛者成绩。需要注意的是,参赛者只能使用开源大模型(<64B),最终成绩综合申赎预测精度和大模型使用能力综合判定。
本次赛题为基于大模型的时间序列预测赛题,综合考虑穿越特征使用风险和最新数据上传时效性,本赛题利用时间差,T日预测结果于T+6日公布预测精度排名。
基于这个基金申赎预测比赛的特点,核心解题思路应该围绕大模型特征工程展开,因为大模型使用能力占40%评分权重。建议采用三层大模型应用策略:首先利用开源大模型(如Qwen、ChatGLM等<64B模型)根据基金代码批量提取基金基本信息(类型、投资方向、风险等级、历史业绩特征等),构造静态特征;其次结合时间序列数据让大模型识别申赎行为模式,生成动态特征如市场情绪评分、波动规律编码、异常事件标识等;最后利用大模型的文本理解能力,结合日期信息生成宏观环境特征(政策影响、市场事件、季节性因素等)。
在建模方面,建议采用LightGBM+LSTM的集成架构,其中大模型构造的特征作为重要输入。关键是要详细记录每个大模型调用的prompt设计、输出结果和特征转换过程,确保llm_record. docx文档的完整性。同时要注意WMAPE指标对大额交易预测精度要求更高,建议在训练时使用对应的加权损失函数。整个流程要严格按时间序列划分避免数据泄漏,并确保代码完全可复现。
下面是几个笔者大致拍了2个特征
使用场景:根据fund_code获取基金详细信息
预期特征:
fund_type(基金类型)
investment_sector(投资板块)
fund_company_tier(基金公司等级)
establishment_years(成立年限)
fee_level(费率水平)
使用场景:结合时间信息生成宏观市场特征
预期特征:
market_sentiment(市场情绪评分)
liquidity_environment(流动性环境评分)
policy_impact(政策影响评分)
seasonal_factor(季节性因子)
使用场景:分析申赎行为模式
预期特征:
volatility_pattern(波动模式编码)
cyclical_strength(周期性强度)
stability_score(稳定性评分)
长文本、多素材一致性智能核验技术
比赛链接:https ://tianchi. aliyun.com/competition/entrance/532351/information
在金融保险行业中,电子保单、保险条款、营销物料等素材的合规性与一致性关乎业务的稳健发展。当前,行业普遍依赖人工核验多源文件内容,存在两大痛点:一是效率瓶颈,长文档(如条款文本、免责声明)的逐项比对耗时耗力;二是动态规则适配难,随着经济发展,保险市场环境也在不断变化,同时,保险产品类目众多,产品迭代频繁,这种动态性为合规校验系统提出了更高的要求。
本赛题聚焦长文本、多素材一致性智能核验技术,要求通过自然语言处理、知识图谱等技术,构建覆盖文本语义对齐等自动化比对引擎,支持动态规则库(如免责条款定义、监管要求)的实时适配。解决该问题将显著提升合规效率、降低运营风险,助力保险业智能化转型。推动保险业从“人工合规”迈向“智能合规”,助力企业规避风险,加速电子投保、智能核赔等场景的规模化落地。
以售卖场景的素材一致性为例,售卖平台上的保险产品一般包含如下素材:保险条款、投保须知、免责条款、售卖页介绍图等,这些素材中约定了保障、免责、产品介绍、必要告知等核心内容。部分关键信息可能会被多处定义,售卖平台需要保证这些定义的一致性,以某责任的赔付比例为例,如果条款、投保须知中定义的赔付比例都为80%,而售卖介绍图片中将比例错配为90%,那么用户在理赔时便可能会产生纠纷、诉讼风险。这就要求对产品物料、售卖素材等进行严格的一致性校验,从而满足监管要求,同时保障客户的合法权益。
本赛题的设计基于保险产品的售卖素材(包含保险条款、投保须知、健康告知、投保页图片等(均已通过文本转换工具转换为markdown格式)),根据实际情况,产品下对应的素材中可能会包含若干风险点(比如,同一个概念在不同文档中的定义不一致)。一款产品可能会包含若干道题目,每道题目均包含一条自然语言规则,如“该产品的免责条款定义一致”。
参赛者需要设计一个风险检测模型,该模型可以结合本赛题给定的保险产品售卖素材和合规规则要求,对产品是否存在风险点进行识别并给出最终结论,模型的性能将通过参赛者给出的风险预测标签来计算和评估。
本赛题不提供训练数据,如有必要,参赛选手可选用公开数据集来构造训练数据(但不允许检索赛题原始文件进行比对分析,也不允许对A榜、B榜数据进行人工打标)。选手可根据情况选择使用多Agent编排、SFT、RL、RAG等技术来解决该问题。
为了帮助参赛选手更好地理解赛题定义,本赛题提供20道题目作为样例数据,详细阐释各个产品中对应的风险点和识别过程,此外,样例集内也会附加相关的解释文档以供参考。
提醒:参赛者被允许使用任意开源且参数量小于等于72B的模型(或对应的API),不可以使用未开源的大模型API。
这是一个保险行业文档合规性检测的NLP挑战赛,核心是要识别多份保险素材(条款、须知、图片转文本等)之间的一致性风险点。
核心解题思路:
构建一个多阶段的风险检测系统,结合语义理解、知识抽取和规则匹配来识别文档间的不一致性。
首先对输入的多份markdown文档进行结构化解析,提取关键信息如保障范围、免责条款、赔付比例等核心概念;然后使用开源大模型(如Qwen3-14B等)进行语义对齐和概念抽取,将不同文档中的相同概念进行映射和比较;
接着构建动态规则引擎,根据给定的自然语言规则(如\“免责条款定义一致\“)生成具体的检验逻辑;
最后通过多Agent协同工作模式,让不同Agent分别负责文档解析、概念抽取、规则匹配和风险判断,形成完整的检测流水线。
技术实现路径:
使用RAG技术构建保险领域知识库,结合向量数据库存储文档片段和概念映射关系;采用SFT微调小参数模型专门处理保险术语的语义理解任务;设计基于图神经网络的概念关系建模,捕捉不同文档间的语义依赖;利用NVIDIACuDF加速大规模文档的并行处理,NIM容器化部署模型推理服务。整个系统输出二分类结果,判断产品是否存在合规风险点,并提供风险定位和解释能力。
思维链压缩
在金融场景中,复杂推理任务广泛存在于风险评估、财务审计、合规检查等关键流程中。这些任务通常要求模型执行多步、严谨的复杂逻辑推理,并综合运用法律、财务、经济等多学科知识进行判断。
当前的大型推理语言模型虽然具备较强的复杂推理能力,但在处理此类任务时往往依赖冗长的思维链(Chain-of-Thought,CoT)来增强推理的准确性,保证推理过程的完整性与可解释性。然而,过长、冗余的推理链不仅带来计算资源的高消耗与响应延迟,为推理带来许多不必要的噪声,也限制了模型在实际金融业务场景中的部署和应用。
因此,本任务聚焦于长思维链的压缩,旨在探索如何在不降低推理准确性的前提下,优化模型推理路径,高效压缩冗余内容,从而降低资源成本、提升执行效率,并增强模型在金融行业中的实用性与智能化水平。
1、构建高效的推理链压缩方法
促进金融领域具备长思维链压缩能力的大型推理语言模型的应用和发展,有效保留关键推理逻辑,剔除冗余内容,显著提升推理效率与模型响应性能。
2、保持高准确率和可解释性
在实现思维链高质量压缩的同时,确保输出结果具有金融专业所要求的高准确性,推理过程结构清晰、逻辑严谨,满足审计、监管等合规需求。
3、支持金融复杂任务
模型应能够处理包括财务报表解析、法规条款比对、风控判断等在内的多样化、高复杂度金融任务,并具备跨文档理解与跨学科知识整合的能力。
4、推动方法迁移与落地
构建具备通用性与可扩展性的推理优化方法框架,具备向法律、医疗、工程等其他高精度、高可靠性需求场景迁移的能力,推动模型在更多实际应用中的落地。
比赛的核心挑战是在金融复杂推理任务中实现思维链压缩,即在保持推理准确性的前提下,将4k-12k长度的CoT压缩为更高效的推理路径。
我们可以大致设计以下解决方案:
1. 推理路径优化策略
关键步骤提取:通过注意力机制识别CoT中的关键推理节点,过滤冗余描述和重复计算
逻辑链重构:将冗长的线性推理重组为层次化的推理树,突出核心逻辑分支
模板化压缩:针对金融领域常见推理模式(财务比率计算、风险评估等)构建标准化推理模板
2. 多阶段推理压缩
预处理阶段:识别问题类型(表格推理/计算推理/逻辑推理),提取关键信息和约束条件
核心推理阶段:使用压缩后的推理链执行核心计算和逻辑判断
验证阶段:通过反向验证确保压缩过程未丢失关键信息
3. 技术实现路径
知识蒸馏:使用完整CoT训练teacher模型,用压缩CoT训练student模型(也可以SFT)
强化学习优化:以推理准确率和效率为奖励函数,优化压缩策略
金融领域适配:集成金融专业知识图谱,增强领域特定推理能力
4. 质量保证机制
多路径验证:对关键计算步骤采用多种方法验证
可解释性保持:确保压缩后的推理链仍能清晰展示逻辑脉络
鲁棒性测试:在不同难度等级的问题上验证压缩效果的一致性
通过该方案,预期实现CoT长度压缩50-70%的同时,保持95%以上的推理准确率,显著提升模型在金融场景中的实用性和部署效率。
当今金融科技正经历前所未有的变革,智能投研、智能投顾等应用展现出广阔前景。金融研究报告(研报)作为金融领域的核心产出,在基金管理、资产管理、投行等机构决策中起着重要作用。然而,实现研报的自动高质量生成面临诸多挑战。一方面,研报类型多样(宏观经济/策略、行业/子行业、公司/个股等),不同报告需要处理不同形式的数据和专业知识;另一方面,尽管大型预训练语言模型的迅猛发展为自动化研报生成提供了新机遇,直接将大模型应用于复杂金融场景仍存在明显不足。
本任务致力于解决通用预训练大模型财务分析能力缺失、信息获取与整合不足以及大模型幻觉与结构化输出困难三大核心问题,通过引入Agent系统、检索增强生成(RAG)技术、工具库、模型上下文协议(MCP)以及Agent2Agent(A2A)协议等前沿技术,提升大模型在金融场景中的可用性,实现自动化生成具有决策价值的专业研报。
本任务需要参赛团队研发一个能够自动撰写三大类季度/年度跟踪型金融研报(宏观经济/策略研报、行业/子行业研报、公司/个股研报)的智能Agent系统,需实现生成研报质量及构建使用技术两部分的目标。
生成研报应满足:
1. 多模态呈现:包含图表(如股票/指数走势图、关键金融、宏观或行业指标对比图、财务报表表格等)与文字说明,图文一致;
2. 专业性和深度:行业术语规范、分析方法应用合理,掌握基本财务常识,避免常识性错误,分析具备一定原创性,避免机械摘录原始资料;
3. 数据融合与事实溯源:整合实时权威数据源(如Wind、国家统计局、证券交易所、主流新闻),为所有数据与事实提供明确的来源引用;
4. 格式与逻辑:满足中国证券业协会《发布证券研究报告暂行规定》排版与披露要求,论点-论据链完整,章节衔接流畅。
基于这个金融研报智能Agent系统比赛,我来提供一个紧凑的解题思路:
其实生成研报不是特别简单,也不是传统RAG,也不是提示语调整就能做好,通过对比现在Grok、Gemini以及Openai的Deepresearch产品,我们发现核心在于Agents技术架构设计,为此我们针对这个赛题可以大致拍一下Agent架构:
多Agent协同框架
设计4个专业Agent:数据采集Agent、分析建模Agent、可视化Agent、内容撰写Agent
采用链式推理模式,每个Agent专注特定任务并传递结构化结果
建立自检反馈循环,确保输出质量
数据获取与处理
构建统一的数据接口层,集成Wind、同花顺、东方财富等公开数据源
实现网络爬虫模块,自动抓取财经新闻、公司公告、宏观政策文件
建立数据清洗与标准化流程,确保数据质量和一致性
RAG增强系统
构建金融知识库,包含行业分析方法、财务分析框架、估值模型等
实现实时检索机制,根据分析需求动态获取相关知识和数据
建立事实溯源机制,为所有数据和结论提供明确来源
然后针对不同类型研报,我们需要采取针对不同分类研报生成策略
公司研报
自动抓取三大财务报表,计算关键财务比率(ROE、毛利率、现金流等)
构建同行对比分析模块,横向比较竞争优势
实现DCF等估值模型,支持敏感性分析
集成ESG评估和公司治理分析
行业研报
聚合行业统计数据,分析产业链上下游关系
构建行业生命周期模型,预测发展趋势
实现政策影响评估,量化外部变量对行业的影响
支持3年期情景模拟分析
宏观研报
自动抓取核心宏观指标(GDP、CPI、利率等)
构建宏观变量传导路径模型
实现政策解读和影响评估
建立风险预警指标体系
其实现现关键点如下:
多模态内容生成
集成matplotlib/plotly等可视化库,自动生成专业图表
建立图文一致性检查机制
支持表格、图片直接嵌入Word文档
质量控制
建立专业术语词典,确保表述规范
实现逻辑一致性检查,避免前后矛盾
构建事实验证机制,减少幻觉问题
格式标准化
严格按照中国证券业协会规定设计模板
实现自动排版和格式化
确保论点-论据链完整性
这个方案通过模块化设计实现了技术创新性和实用性的平衡,能够自动生成符合监管要求的高质量研报,同时保证了系统的可扩展性和落地潜力。
看完这几个AFAC2025的核心赛题,可以明显感受到本届比赛对技术深度和实用性的双重要求。无论是基于大模型的时间序列预测、多源文档一致性校验,还是思维链压缩和智能研报生成,都需要参赛者在掌握前沿AI技术的同时,深度理解金融业务场景。
特别值得一提的是,单赛题冠军5万元的高额奖金以及企业校招绿色通道的机会,为优秀选手提供了丰厚的回报和职业发展契机。比赛设置的初创组更是为有志于金融科技创业的团队打开了新天地。
从技术角度来看,这次比赛几乎涵盖了当前AI领域的所有热点:多智能体协作、RAG技术应用、长文本处理、多模态生成等,是检验和提升技术实力的绝佳平台。同时,比赛强调开源模型的使用限制(64B-72B参数),也为更多团队参与创造了公平竞争的环境。
机会难得,时不我待!对于想要在AI+金融领域深耕的同学和团队来说,AFAC2025绝对是一个不容错过的舞台。无论你是在校学生、企业研发人员,还是初创团队,都能在这里找到适合的赛道。
赶紧登录天池平台报名参赛吧:https ://tianchi. aliyun.com/specials/promotion/afac2025
期待看到更多技术高手在这个舞台上展现才华,也期待AFAC2025能催生出更多优秀的金融科技解决方案!
最后提醒大家别忘了
报名,下面是具体时间安排:
同时官方给出了选手交流群,欢迎大家组队交流
本次思路解读是个人打比赛经验分享,仅供大家借鉴


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录