智启Alpha：LLM-MCTS框架进行量化投资因子挖掘 | Arxiv 论文

发布日期: 2025-07-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

在风云变幻的金融市场中，如何精准预测价格波动，获取超额收益（即“Alpha”）一直是量化投资领域的核心挑战。传统的Alpha因子挖掘依赖于人类的智慧和经验，耗时耗力且效率不高。而近年来兴起的自动化方法，如基于遗传编程或强化学习的技术，虽有进步，却往往受限于搜索效率低下，或者生成难以理解的“黑箱”Alpha因子。
https ://arxiv. org/pdf/2505. 11122
NavigatingtheAlphaJungle:AnLLM-PoweredMCTSFrameworkforFormulaicFactorMining
近日，清华大学的余诗、段一彤和李建三位研究者带来了一项突破性成果——一个将大型语言模型（LLMs）与蒙特卡洛树搜索（MCTS）深度融合的全新框架，旨在克服现有方法的局限性，高效、精准地挖掘可解释的公式化Alpha因子。这项研究无疑为量化投资的未来发展指明了新的方向。
当前Alpha因子挖掘方法大致可分为两大类：基于神经网络和基于公式的方法。
神经网络方法：虽然能通过深度学习捕捉复杂模式，隐式构建Alpha，但其结果往往缺乏可解释性，难以理解其背后的经济逻辑，在实际投资中如同“黑箱”操作，难以建立信任。
公式化方法：旨在发现由显式数学表达式表示的Alpha因子。传统上，这些因子由人类专家手工构建，例如经典的Fama-French因子。近年来，自动化技术如遗传编程和强化学习也开始涉足，试图自动发现这些公式。
量化投资领域对自动化挖掘Alpha因子的探索由来已久，其发展脉络清晰，大致可分为传统方法和基于大型语言模型的新兴方法。
早期以及目前主流的自动化公式化Alpha因子挖掘方法主要依赖于遗传编程（GP）。GP通过模拟生物进化过程来发现和优化公式，具有强大的探索能力。
GPLearn(Linetal.[2019b])：较早的工作，利用遗传编程并结合时间序列操作符来构建Alpha因子。
AutoAlpha(Zhangetal.[2020])：通过多样化的低深度Alpha因子初始化策略，提升了Alpha挖掘的效率，避免了模型过于复杂。
AlphaEvolve(Cuietal.[2021])：则通过计算图的方式来演化更复杂的Alpha因子，旨在捕捉更深层次的市场模式。
除了遗传编程，也有其他创新方法涌现：
AlphaGen(Yuetal.[2023])：采用强化学习来优化Alpha因子集合的整体表现，这标志着Alpha挖掘从单一因子优化向组合优化迈进。
AlphaForge(Shietal.[2024])：提出了一种基于深度学习的生成-预测结构，利用深度学习的强大特征提取能力来辅助Alpha的生成和筛选。
近年来，随着大型语言模型（LLMs）能力的突飞猛进，它们也被引入到Alpha因子挖掘领域，展现出巨大的潜力。
FAMA(Lietal.[2024b])：该方法利用LLM进行上下文学习（in-contextlearning），从多样化的Alpha因子中进行学习，并通过经验链（chain-of-experience）机制学习过去成功的挖掘案例，旨在解决公式同质化的问题。这与本研究的方法形成对比，FAMA侧重于经验学习，而本研究则更侧重于MCTS驱动的树搜索推理。
其他LLM-based探索：
Kouetal.(Kouetal.[2024])：通过多智能体框架从多模态数据（不仅仅是传统的量价数据）中挖掘Alpha。
QuantAgent(Wangetal.[2024c])：引入了一个带有知识库的双循环LLM精炼系统来优化Alpha。
AlphaAgent(Tangetal.[2025])：则关注挖掘抗衰减（decay-resistant）的Alpha因子，并加入了对Alpha原创性和复杂性的控制，甚至可能包含人类反馈循环。
值得注意的是，尽管这些新兴的LLM-based方法展现出潜力，但由于缺乏详细的框架描述和开源代码，它们的可复现性受到限制。因此，本研究的对比基准中未包含这些方法，以确保实验结果的严谨性和可信度。
树搜索方法被广泛应用于增强LLMs的探索能力，特别是在LLM-based智能体和推理领域。它们允许不同层级的探索，从而更有效地解决复杂问题。
Chain-of-Thoughts(CoT)(Weietal.[2022])：作为基础，CoT通过引导LLM生成一系列中间推理步骤来提升其推理能力。
TreeofThoughts(ToT)(Yaoetal.[2024])：在此基础上更进一步，ToT将问题分解为多个推理步骤，并应用树搜索来探索每个步骤的多种可能性，从而在更大的搜索空间中找到最优解。
LATS(Zhouetal.[2023])：将LLM视为更通用的智能体，在推理和行动层面都进行探索，使其能够更灵活地解决问题。
RethinkMCTS(Lietal.[2024a])：将代码生成任务建模为推理问题，并应用蒙特卡洛树搜索（MCTS）在“思维层面”进行搜索，有效地提升了代码生成的质量和效率。
在金融市场中，Alpha因子挖掘是一个旨在从海量复杂金融数据中识别预测信号的关键任务。我们考虑一个金融市场，其中包含支股票，并在个交易日内进行观测。
对于每支股票和每个交易日，其状态由一个特征向量描述。
原始特征通常包括每日的开盘价、最高价、最低价、收盘价（OHLC）、交易量以及成交量加权平均价（VWAP）等。
完整的市场历史数据被组织成一个张量。未来收益则被组织成一个矩阵，其中表示股票在第天之后特定未来期间的实际收益。
为了捕捉时间序列模式，我们使用一个长度为的回溯窗口。一个Alpha因子的作用是将该窗口内的历史特征数据映射到一个预测得分向量。
其中，每个代表了该Alpha因子对股票在未来预期收益的量化预测。Alpha因子挖掘的最终目标是发现一个多样化的Alpha因子集合。
这些独立Alpha因子的输出，即，聚合后形成一个综合预测信号，其中是模型参数。
本研究提出的Alpha因子挖掘框架，巧妙地将大型语言模型（LLM）与蒙特卡洛树搜索（MCTS）相结合，以实现Alpha因子的自动化发现和优化。整个框架的核心是一个迭代过程，其概览如图1所示。
这个迭代过程主要包含以下三个关键步骤：
选择(Selection)：
利用树的上限置信区间（UCT）准则来选择一个最有潜力的节点（即一个Alpha公式）。UCT是一种在探索（尝试新路径）和利用（利用已知最佳路径）之间取得平衡的策略。
扩展(Expansion)：
一旦节点被选中，LLM会介入，根据对特定评估维度的表现反馈，生成一个经过优化的新Alpha因子。LLM在这里扮演双重角色：首先，基于表现不佳的评估维度，提出有针对性的优化建议；其次，将这些建议转化为具体的Alpha公式。
评估(Evaluation)：
新生成的Alpha因子随后会通过回测进行评估。这些评估结果将用于形成MCTS树中的新节点。
这个迭代的优化和评估过程会持续进行。每个树的扩展次数可以根据已发现Alpha因子的整体质量进行调整。最终，那些满足预定义标准（例如，信息系数IC或排名信息系数RankIC阈值）的高性能Alpha因子会被收集到一个有效Alpha因子知识库中。
在MCTS框架中，“选择”步骤是实现探索和利用平衡的关键。搜索树中的每个节点代表一个Alpha因子，它由其公式和优化历史组成。一个动作对应于对节点应用的特定优化操作。每个节点都维护一个值，表示从节点开始并执行动作所获得的最大累积奖励（例如，回测性能）。
与标准MCTS通常会选择到叶节点才进行扩展和模拟不同，我们的方法允许任何节点被选中进行扩展。这是因为每个Alpha因子的优化都可以通过回测立即评估，从而无需单独的模拟阶段。
每个节点都关联一个多维评估得分向量，其中是第个评估维度的得分，是最高得分。
为了引导优化方向，使其侧重于弱项但又保持探索多样性，我们随机选择一个维度进行改进。选择维度的概率由下式给出：
其中是一个维全1向量，是控制随机性的温度参数，Softmax函数将分数归一化为概率分布。这使得得分较低的维度被优先考虑。
一旦选定维度，LLM就会生成有针对性的优化建议，以提高该维度的性能。为了使这些建议更具实用性，我们采用少样本学习（few-shotlearning），使用来自有效Alpha因子知识库的Alpha因子作为示例（详细信息见附录C. 2）。
框架中的评估步骤对于评估候选Alpha公式对现有有效Alpha因子知识库的潜在贡献至关重要。与传统MCTS不同，我们绕过了模拟阶段，直接评估Alpha因子的回测性能，从而将搜索引向有前景的表达式。
为了解决这个问题，我们采用相对排名方法。一个Alpha因子在诸如信息系数（IC）这样的指标上的相对排名计算如下：
其中是知识库中大小为的一个Alpha因子，是指示函数。这确保了评估标准是自适应的，避免了固定阈值可能在早期过于严格或后期过于宽松的问题。
为了提供更细粒度的优化反馈，我们从多个维度评估Alpha公式。这些维度的选择可以根据具体需求进行定制。在本研究中，我们以五个关键方面为例进行多维评估：
有效性(Effectiveness)：预测准确性。
稳定性(Stability)：预测准确性的一致性。
换手率(Turnover)：每日交易量是否在期望范围内。
多样性(Diversity)：对有效Alpha知识库新颖性的贡献。
过拟合风险(OverfittingRisk)。
除了过拟合风险，其他每个维度的得分都是基于相关的、相对排名的回测指标计算的。第个维度的得分由给出，其中表示与该维度相关的特定回测指标（例如，对于有效性，可以是IC）的相对排名。
对过拟合风险的评估是独特的。我们利用LLM来生成这个分数（具体提示见附录J. 3），它会考虑Alpha公式及其优化历史，从而融入了定性的、类似专家判断的评估。
为了缓解Alpha公式的同质化，并防止在Alpha挖掘过程中过度利用常见的结构模式，我们引入了频繁子树规避（FSA）机制。这种方法受到AutoAlpha(Zhangetal.[2020])中观察的启发，即公式化Alpha的内在模式受到其“根基因”的显著影响。
我们将根基因定义为Alpha公式表达式树中源自其叶节点（即原始特征）的子树。在识别根基因时，我们抽象掉了操作符的具体参数值，仅关注树的结构。

如图2所示，我们的FSA方法通过识别和阻止这些频繁重复的根基因结构来运作。
我们首先从一个包含先前发现的有效Alpha因子的知识库（AlphaZoo）中挖掘频繁闭合根基因。一个频繁子树被称为“闭合的”，如果它的任何直接超树（即，该子树加上一个额外的节点）不共享相同的支持计数；这有助于识别最大的常见模式。
然后，我们选择Top-k个最频繁的闭合子树（例如，图中），并引导LLM避免生成包含这些特定子表达式的新Alpha公式。
实验在中国A股市场的真实数据上进行。为确保市场代表性，实验分别针对两个股票池：沪深300指数（大盘股、流动性好）和中证1000指数（中小盘股）。
定义了两个不同的预测目标：股票的10日收益率和30日收益率，买卖均以收盘价执行。数据集按时间顺序划分为：
训练期：2011年1月1日至2020年12月31日
测试期：2021年1月1日至2024年11月30日
研究团队将框架与多种公式化Alpha挖掘方法进行比较，包括：
DSO(DeepSymbolicOptimization)：基于深度学习的符号优化框架。
GP(GeneticProgramming)：传统的遗传编程方法。
AlphaGen：基于强化学习的公式化Alpha挖掘框架。
AlphaForge：具有生成-预测架构，为公平比较挖掘能力，仅使用其Alpha挖掘网络。
LLM-based方法：
CoT(Chain-of-Thought)：提示LLM进行分步推理直接生成Alpha因子。
ToT(Tree-of-Thought)：使LLM能够以树状结构探索不同的推理路径。
FAMA：利用LLM和上下文示例来使公式多样化，并使用“经验链”从过去的成功中学习。
LLM选择：本研究及其所有基于LLM的基线都使用OpenAI的GPT4. 1模型作为LLM骨干。
为了进行公平严格的比较，性能基准是基于受控的搜索次数（或等效地，Alpha生成数量）来衡量的。这种方法很适合，因为框架和所有基线都固有地涉及一个独特的搜索过程，每次迭代都会产生一个新的候选Alpha公式。
搜索计数设置：
对于基于LLM的方法（包括本研究的方法），报告的是在搜索次数为1,000、2,000或3,000次时达到的最佳性能。
对于其他方法，搜索次数从一个较小的值逐渐增加，直到性能收敛，上限为600,000次（是LLM-based方法最大值的200倍），以确保公平的效率比较。
运行时限制：为了考虑实际限制，任何单一实验运行的最大实际运行时长限制为24小时。这种实验设计旨在实现两个关键比较：
在相似的、明确定义的计算预算下，公平评估本框架与其他基于LLM的方法。
与非LLM方法进行鲁棒的搜索效率比较。
本实验评估了我们生成的Alpha因子与基线方法在预测性能上的表现。
模型选择：使用两个代表性的机器学习模型：
LightGBM：高效的梯度提升框架。
三层多层感知器（MLP）：用于捕捉复杂的非线性关系。
Alpha集大小：对于每种Alpha挖掘方法，我们生成了三种不同大小的Alpha集——10、50和100个Alpha因子——作为这些模型的输入特征，以便全面比较不同规模的挖掘Alpha集。
数据预处理：输入Alpha因子和目标收益率在训练前都进行了截面排名归一化，以减轻异常值的影响。
预测性能指标：使用量化金融中的标准指标进行评估：信息系数（IC）和排名信息系数（RankIC）。
图3展示了LightGBM和MLP模型在不同方法挖掘的Alpha因子上的平均预测性能（详细结果见附录H）。
我们的框架在所有指标上始终优于基线方法。这表明我们框架挖掘的Alpha因子对未来股票收益具有卓越的预测能力，并且可以有效地转化为交易盈利能力。
本实验进行了消融研究，以评估我们框架中的三个关键组件：MCTS、多维反馈和FSA。
表1展示了这些组件对预测性能的影响。当纳入有效性（Effectiveness）和多样性（Diversity）作为反馈时，MCTS展现出优于CoT和ToT的预测性能。
随着额外反馈维度的整合，性能逐步提高。值得注意的是，虽然换手率（Turnover）反馈略微降低了IC和RankIC，但通过降低交易成本，它却**提升了实际交易指标（AR、IR）。
FSA的整合进一步改善了LightGBM和MLP模型在所有指标上的表现。
这些结果强调了MCTS、多维反馈和FSA对我们框架有效性的单独和集体贡献。
本实验评估了不同方法挖掘的Alpha公式的可解释性。
可解释性定义：我们将Alpha公式的可解释性定义为其阐明合理逻辑、特定市场现象或投资策略的能力。
量化评估：为了量化这一点，我们从每种方法中随机选择一个Alpha公式，并使用LLM来对其可解释性进行排名。这个过程重复了50次，并计算每种方法的平均排名。为了减轻单一LLM可能带来的潜在偏差，我们聚合了来自三个不同LLM的排名。
研究结果表明，我们框架挖掘的公式的可解释性仅次于CoT方法。值得注意的是，我们的方法在公式可解释性方面显著超越了非LLM-based方法。这表明我们的方法实现了令人信服的权衡：在提供强大预测性能的同时，保持了高度的可解释性。
整个MCTS流程是一个迭代优化的过程，旨在高效地探索和发现高性能的Alpha因子。
首先，如图5所示，我们通过LLM生成一个初始的Alpha公式。这个公式随后进行多维评估，其结果将作为MCTS搜索树的根节点（V0）。
在这个示例中，目标搜索计数（targetsearchcount）被初始化为3。
这个目标是动态调整的：每当新生成的节点取得新的最高分数时，目标搜索计数就会增加1，这鼓励框架对有前景的搜索路径进行更深入的探索。
在根节点V0构建完成后，MCTS过程进入节点扩展阶段。如图6所示，根节点V0被扩展，生成了它的第一个子节点V1。
优化维度选择：根据公式（2）进行采样，选择一个用于优化的维度（在本例中，选择了稳定性维度）。
LLM生成建议与公式：随后，LLM会生成有针对性的优化建议。基于这些建议，LLM会产生一个优化后的Alpha公式，图中用高亮显示了修改部分。
评估与节点生成：这个优化后的Alpha公式会接受相同的多维评估过程，从而产生带有得分的节点V1。
更新优化历史：V1的优化历史会更新，包含此次特定优化步骤的摘要和评估分数的相应变化。
计数更新：最后，如果V1的得分是新的最高分，目标搜索计数会更新，同时当前搜索计数也会增加。
扩展过程继续进行，如图7所示。
节点选择：根据UCT准则，节点V1被选中进行下一次扩展。
LLM生成与评估：与上一步类似，LLM会基于采样的优化维度生成一个改进的Alpha公式，该公式随后被评估，从而创建节点V2。
累计优化历史：值得注意的是，V2的优化历史是累积的，它包含了从根节点V0到V1再到V2的所有优化步骤和分数演变。
计数更新：当前搜索计数随即增加。
Alpha公式的生成被分解为两个步骤，旨在提高LLM遵循指令的精确度和生成公式的质量：
生成Alpha画像（AlphaPortrait）：
Alpha画像是一种文本表示，包括Alpha因子的名称、简洁的描述以及用伪代码表示的公式。
这种两步法将Alpha因子的概念设计与其具体构建解耦，从而降低了LLM遵循指令的复杂性，并提高了生成公式的质量。
从画像推导Alpha公式：
在生成Alpha公式时，LLM被指示使用符号参数（例如，移动平均操作符的回溯窗口），而不是固定的数值。
同时，LLM会提出几组潜在的参数值（在我们的实验中是三组）。
随后，我们对每组参数值导出的Alpha因子进行回测，并选择表现最佳的配置。
这种策略使得对每个生成的Alpha公式的探索和利用更加高效。
在每次优化迭代中，一旦选择了一个需要改进的维度，我们就会利用LLM生成相关的优化建议。我们采用少样本学习（few-shotlearning），使用来自有效Alpha知识库中的Alpha因子作为示例。针对不同的评估维度，我们量身定制了示例选择策略：
有效性（Effectiveness）和稳定性（Stability）：
为了选择多样而有效的示例，我们首先过滤有效Alpha知识库，只保留那些与当前Alpha因子相关性超出前η%（例如，η=50%）的Alpha因子。
从这个过滤后的子集中，我们选择在有效性或稳定性方面得分最高的Top-k个Alpha因子（例如，k=3）作为少样本示例。
这个两阶段过程通过防止高度相似的Alpha因子主导示例集，从而确保了多样性。
多样性（Diversity）：
为了鼓励探索新颖的Alpha结构，我们从有效Alpha知识库中选择与当前Alpha因子相关性最低的Top-k个Alpha因子作为少样本示例。
换手率（Turnover）和过拟合风险（OverfittingRisk）：
对于这些维度，我们采用零样本（zero-shot）方法，直接提示LLM生成优化建议，而无需显式示例。
首先，LLM会创建一个“Alpha画像”。这其实是一个文本表示，它包含了Alpha因子的名称（比如“动量因子”）、一个简洁的描述（解释它的经济逻辑或计算方式），以及用伪代码表示的公式。这种先有概念设计（Alpha画像），再有具体实现（Alpha公式）的两步走策略，有效地解耦了任务的复杂性。它减轻了LLM直接从零开始生成复杂代码的负担，让LLM能更专注于概念层面的设计，从而显著提升了最终生成公式的质量。
在从Alpha画像生成具体Alpha公式时，我们指示LLM使用符号参数（例如，移动平均线中的“回溯窗口长度”会用一个符号变量表示），而不是直接给出固定的数值。同时，LLM会为这些符号参数建议几组可能的数值（在我们的实验中，是三组）。我们随后会对由每组参数值推导出的Alpha因子进行回测，并最终选择性能最佳的参数配置。这种策略让每一次Alpha公式的生成都更具效率和利用价值，因为我们能在一个概念公式下探索其最佳的数值参数组合。
尽管我们提出的Alpha因子挖掘框架取得了令人鼓舞的进展，但仍存在一些值得讨论的局限性：
新颖性和复杂性的差距
虽然我们的方法能够生成有效的Alpha公式，但在实现与人类专家开发的公式相同水平的新颖性和复杂性方面仍存在差距。该框架有时可能难以产生高度复杂或非常规的Alpha因子。
LLM内部知识库的限制
生成的Alpha因子的多样性固有地受到LLM内部知识库的限制。这反过来可能限制了与某些非LLM方法相比，所探索的搜索空间的广度。因此，将我们的方法扩展到需要探索庞大而多样Alpha前景的超大规模Alpha挖掘任务时，可能会面临挑战。
未来研究方向
解决这些局限性，例如通过纳入增强新颖性的机制或扩展有效搜索空间，构成了未来研究的重要方向。这意味着未来的工作可以专注于如何让LLM生成更具创造性的公式，以及如何更有效地利用其知识库来探索更广阔的Alpha因子空间。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~