LLM炒股 真能跑赢大盘?深度剖析LLM金融策略的真实表现 | Arxiv 论文


LLM炒股 真能跑赢大盘?深度剖析LLM金融策略的真实表现 | Arxiv 论文

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大型语言模型(LLM)在金融领域的应用,尤其是资产定价和股票交易方面,正引起广泛关注。我们经常看到关于LLM驱动的AI代理如何从非结构化金融数据中生成投资决策的报道。
然而,这些研究大多在短时间框架和有限的股票范围内进行评估,这可能因为幸存者偏差和数据窥探偏差而导致其有效性被高估。
CanLLM-basedFinancialInvestingStrategiesOutperformtheMarketinLongRun?
https ://arxiv. org/pdf/2505. 07078
本文分享下来自爱丁堡大学、加州大学洛杉矶分校和牛津大学的研究人员合作发表了一篇论文,对LLM在金融投资策略中的泛化能力和鲁棒性进行了批判性评估。他们提出了一个名为FINSABER的回测框架,用于在更长周期和更广泛的股票范围内评估基于时机的投资策略。
研究人员对超过二十年、涵盖100多种股票进行了系统性的回测,结果显示,LLM策略的实际表现远不如短期、窄范围评估中看起来那么出色。
近年来,大型语言模型(LLM)在金融决策领域的应用可谓风生水起,特别是在生成“买入”、“持有”或“卖出”等投资指令方面。这些所谓的LLM时机型投资策略充分利用了LLM解释历史和实时数据的能力,旨在实现自主交易。从基于情感分析的交易到复杂的多智能体系统,越来越多的研究开始探索LLM作为自主金融代理的潜力。
然而,我们必须警惕当前LLM投资研究中普遍存在的评估实践缺陷。大多数研究的回测评估都存在以下问题:
评估周期短:通常只在几个月到一年多的时间范围内进行。
股票范围窄:只涉及少数几只股票。
代码发布缺失:很多研究没有公开代码,这极大地限制了结果的可复现性。
在金融投资领域,我们常常听到各种“神奇”的策略,宣称能战胜市场。然而,这些策略的评估结果真的可靠吗?今天的文章将深入探讨金融策略评估中的常见陷阱,并强调为什么更广和更长的回测对于得出可靠结论至关重要。
在深入探讨评估方法之前,我们先了解一下两种主要的投资策略:
时机型策略(Timing-BasedStrategies):这类策略的目标是捕捉短期价格波动。它们根据价格、技术指标或模型输出等市场数据,每天生成“买入”(+1)、“卖出”(-1)或“持有”(0)信号,通过系统化的交易规则进行操作。
选择型策略(Selection-BasedStrategies):这类策略旨在识别有望跑赢大盘的资产子集。它们通过排名信号(如市值、动量等)定期选择表现最好的前K个资产,或根据特定阈值进行选择。与时机型策略不同,选择型策略更侧重于跨市场截面的超额收益(alpha),而不是对单个交易的时机把握。
金融数据的特性——噪音大、非平稳、范围有限——使得回测(Backtesting)变得尤为脆弱,极易受到以下三种主要偏误的影响,这些偏误都会夸大策略的感知表现,并导致误导性结论。
如论文中的表1所示,许多近期方法的回测期都不到一年,涉及的股票数量也少于十只,并且往往只与“买入并持有”这样的简单基线进行比较。这种短期和窄范围的评估极易导致以下三种常见的偏误:
幸存者偏差(Survivorshipbias):在数据中排除了已退市或失败的股票,导致对策略表现的乐观估计。
未来信息偏差(Look-aheadbias):不经意间在决策中使用了未来的信息,从而夸大了策略的历史表现。
数据窥探偏差(Data-snoopingbias):通过在相同数据上反复测试策略来提高其性能,导致结果的虚假繁荣。
这些偏误可能导致对LLM策略性能的误导性评估,并削弱其声称优于传统方法的有效性。因此,一个核心问题浮出水面:LLM驱动的投资策略能否经受住更长周期和更广泛的鲁棒性评估?

FINSABER包含三个核心模块:
多源数据模块(Multi-sourceDataModule):为LLM基准测试提供丰富的数据。它整合了从2000年到2024年的结构化和非结构化数据,如历史股票价格、金融新闻和公司财报(10-K,10-Q)。为了防止未来信息偏差,所有数据输入都与回测窗口对齐,只使用窗口开始日期之前可用的信息。此外,通过明确包含已退市股票,解决了幸存者偏差问题。
模块化策略基础(ModularStrategyBase):这是一个可扩展的模块,可以轻松集成各种自定义方法,包括基于规则的、机器学习(ML)、强化学习(RL)和LLM驱动的策略。
偏误感知两步回测流程(Bias-awareTwo-stepBacktestingPipeline):这是FINSABER的核心,用于系统性地缓解各种偏误。
FINSABER的两步流程工作原理如下:
第一步:选择型策略。在每个回测窗口开始时,选择型策略会在定期更新的、历史准确的成分股列表上运行(例如,包括已退市股票的标普500指数)。这进一步缓解了股票选择过程中的幸存者偏差,确保评估不受限于有限或幸存的股票集合。
第二步:时机型策略。随后,包括基于规则、机器学习、强化学习和LLM驱动的方法在内的时机型策略将用于执行每日交易决策。
为了缓解数据窥探偏差,FINSABER采用滚动窗口评估,覆盖多样化且动态变化的资产选择和扩展的时间范围。窗口大小和步长都是可定制的,这使得能够模拟不同市场环境下的真实情况。这种流程确保了广泛的股票覆盖,并防止了对狭窄数据集或短评估周期的过度拟合。
FINSABER采用了三类评估指标:
回报指标:衡量盈利能力,包括年化回报率(AnnualisedReturn,AR)累计回报率(CumulativeReturn,CR)。
风险指标:量化不确定性和下行风险,包括年化波动率(AnnualisedVolatility,AV)最大回撤(MaximumDrawdown,MDD)。
风险调整指标:评估资本效率,包括夏普比率(SharpeRatio,SPR)索蒂诺比率(SortinoRatio,STR)。
研究人员复现了之前LLM策略被证明有效的特定股票(TSLA,NFLX,AMZN,MSFT)在特定时期(2022年10月6日至2023年4月10日)的评估设置。他们还纳入了更广泛的基准,包括传统基于规则的、机器学习和深度学习方法。
复现结果显示,即使在LLM策略“偏爱”的设置中,LLM投资者也并非普遍优越。例如,FinMem仅在TSLA上表现显著出色,而传统基准在其他股票上仍具竞争力或更优。这警示我们不要对选择性评估的结果过度乐观。
更重要的是,LLM策略表现出较高的年化波动率和较大的最大回撤,表明其风险较高。此外,底层语言模型的选择对策略性能有显著影响,且更大的模型(GPT-4o)并不总是优于更小的模型(GPT-4o-mini),这暗示模型选择本身可能引入数据窥探偏差。研究还发现,即使评估期仅延长两个月,LLM策略的表现也会出现大幅波动,进一步证明了其不稳定性和对评估周期的敏感性。
当评估周期延长到20年(2004-2024)时,LLM投资者的感知优势显著减弱。在大多数股票中,“买入并持有”等传统策略持续位居前列。只有TSLA是LLM投资者(FinMem,FinAgent)在年化回报率上明显领先的唯一案例,而对于NFLX、AMZN和MSFT,传统策略表现持平或更优。这表明之前报道的LLM优势很可能是短暂的、有选择性的,并且对评估周期高度敏感。
为了克服偏误,研究引入了FINSABER中的综合评估设置。该设置整合了系统性选择策略,以扩展和多样化股票池,从而明确解决幸存者偏差和数据窥探偏差。他们使用了三种无偏的股票选择方法:随机选择五只(RANDOMFIVE)、动量因子(MOMENTUMFACTOR)和波动效应(VOLATILITYEFFECT)。每种选择策略在每个滚动窗口开始时执行,作为再平衡机制。
在这些更公平、更系统的评估下,之前关于LLM投资者优势的结论得到了进一步验证:

传统方法更具优势:在VOLATILITY-based选择中,传统方法表现更加突出:“买入并持有”获得了最高的夏普比率(0. 703)、索蒂诺比率(1. 291)和年化回报率(7. 898%),而PPO和ARIMA也展现出强大的综合性能。LLM方法则相对落后,FinAgent虽然提供了适度的回报,但夏普比率较低(0. 241),且回撤较大。
值得注意的是,研究指出,即使考虑到预训练模型(如GPT-4o)可能在训练期间接触过部分数据(即潜在的数据泄露),LLM在公平评估下仍未能超越传统策略,这进一步引发了对其现实世界优势的质疑。
尽管如此,LLM策略在绝对年化回报率方面仍有潜力,例如FinAgent在动量选择设置中获得了最高的年化回报(13. 950%)。然而,其在夏普比率和最大回撤指标上相对较弱的表现,明确表明LLM驱动方法在实际应用前需要改进风险管理。
在金融投资中,一个关键问题在于策略能否根据不同的市场状况进行适当的调整。金融市场在不同的经济、金融和政治环境下,其可预测性和不确定性是会随时间变化的。有些策略能够利用这些变化,而另一些则可能难以适应。
研究人员在FINSABER的综合设置下,结合了介绍的三种股票选择策略,对所有时机型策略在不同市场环境下的夏普比率(SPR)进行了分析。
分析结果令人深思:
传统规则型和预测型方法依然表现出色。ATRBand、TurnoftheMonth和ARIMA在所有市场环境中都实现了正的夏普比率。而作为被动基准的“买入并持有”策略,在牛市中夏普比率为0. 61,盘整市为0. 48,但在熊市中仅为-0. 28。
没有主动策略在牛市中超越“买入并持有”的夏普比率。这表明许多策略,包括LLM策略,可能难以充分利用强劲的上涨趋势。
强化学习(RL)算法居中。A2C和DDPG能够部分捕捉上涨趋势并限制损失;而PPO和SAC则随着波动而波动,一旦市场条件恶化就表现不如ARIMA。
LLM策略表现不佳。FinAgent在牛市中夏普比率为0. 12,熊市中为-0. 38;FinMem则从-0. 19滑落至-0. 97。这表明LLM策略在风险得到回报时过于谨慎,而在风险受到惩罚时又过于激进。尽管FinAgent比FinMem表现稍好,在熊市中的不足相对“买入并持有”减半,并在中性市场条件下保持了小的正夏普比率,但它仍然落后于所有规则型或预测型基准。
在现实条件下,LLM产生的超额收益(alpha)的脆弱性与有效市场假说(EMH)相符。EMH认为资产价格反映了所有可用信息,使得通过基于信息的交易持续获得超额回报变得困难。尽管LLM可以访问大量文本语料库,但它们未能提取出能够持续超越短期窗口的信号,这表明观察到的收益可能源于狭窄的评估设置,而非真正的超额收益。
在自然语言处理(NLP)和其他领域观察到的规模法则(即模型越大性能越好)并未有效应用于金融领域。研究表明,增加模型大小并不能可靠地提高投资性能。例如,FinMem使用GPT-4o并没有优于其更小的版本。这表明金融市场对可提取信号存在内在限制,无论模型容量如何。此外,简单的模型如ARIMA或基于规则的系统在风险调整指标上常常优于LLM,这表明缺乏金融逻辑(如趋势检测、波动性目标或回撤控制)的复杂性几乎没有价值。
LLM对市场环境的适应性差。LLM在牛市中倾向于过度保守,而在市场下行时又过度激进,这与强调动态风险管理的自适应市场假说(AMH)相矛盾。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录