大模型理解股市“图”与“文”:VISTA模拟专业股票操盘手 | Arxiv 论文


大模型理解股市“图”与“文”:VISTA模拟专业股票操盘手 | Arxiv 论文

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

股票市场风云变幻,价格预测一直是个让投资者又爱又恨的“老大难”问题。最近一项名为VISTA(Vision-LanguageInferenceforStockTime-seriesAnalysis)的创新框架创造性地将视觉信息(股票走势图)与文本信息(历史价格数据)相结合,然后一股脑地“喂”给一个强大的视觉-语言模型(VLM)。
VISTA:Vision-LanguageInferenceforTraining-FreeStockTime-SeriesAnalysis
https ://arxiv. org/pdf/2505. 18570
研究人员将它与ARIMA等传统基线模型以及仅依赖文本的LLM预测方法进行了严格的对比测试。结果令人振奋:VISTA的预测性能最高可超越这些基线模型89. 83%!
在高度复杂且充满噪声的金融市场中,传统的预测方法往往难以应对价格波动的非线性和随机性。论文中甚至通过斯托克韦尔变换(Stockwelltransform)的分析,形象地展示了股票价格信号与随机噪声的惊人相似性,这无疑凸显了预测的内在难度。然而,VISTA正是在这种挑战下,凭借其创新的多模态、零样本学习方法,找到了突破口。
或许你会问:既然数值本身就能提供给LLM,为什么还需要麻烦地把时序数据转换成图表,再用VLM来分析呢?VISTA的研究者们对此给出了一个极具说服力的“灵魂拷问”和案例研究。
人类的认知方式本身就是多模态的。神经科学研究表明,我们的大脑处理符号(数字)和视觉信息走的是不同但相互整合的路径。视觉皮层擅长模式识别,而内侧顶间沟和前额叶皮层则负责数字和逻辑推理。当金融分析师和交易员盯着K线图和折线图时,他们并不是在看一堆随机的线,而是在识别趋势、周期、支撑位和阻力位等这些单凭一串数字难以察觉的“emergentpatterns”(涌现模式)。VISTA抓住了这一点,它相信机器也需要像人一样,通过视觉来辅助理解。
举个例子:考虑这样一组股价数据:[100,102,101,100,101,102,101,100,101,100]。如果只把这串数字给一个**纯文本的LLM(如GoogleGemma)**,它可能会预测[102,101],仅仅反映出一种持续的随机波动。它看到了波动,但没有看到波动背后的“结构”。
然而,当VISTA同时接收到这串数字和它对应的折线图时,预测结果却变成了[101,100]。为什么会有如此大的差异?因为在折线图中,模型清晰地识别出101是一个反复触及但未能突破的“阻力位”,并且整个走势呈现出一个技术分析中常见的“下降三角形”形态——这是一个典型的看跌信号!
这个案例完美地说明了:视觉信息为模型提供了原始数字无法提供的结构和空间线索。没有图表,模型只是简单地推断波动;有了图表,模型开始对“涌现模式”进行推理,从而使预测更加稳健和富有洞察力。
VISTA的核心目标是进行短期股票价格预测。简单来说,如果给我们一系列历史股价数据,比如从到,VISTA的任务就是预测接下来个时间步的股价,即。
它通过两种方式接收信息:
纯文本模式(针对LLM):直接提供股票价格的数值序列。
多模态模式(针对VLM):除了数值序列,还会提供一张清晰直观的折线图,将这些历史股价数据可视化。
这项研究的核心问题在于探究:
多模态输入是否优于纯文本?简单来说,模型在看到股票走势图后,预测能力是否会比只看到数字更好?
思维链(Chain-of-Thought,CoT)推理是否有效?如果模型在给出预测前,先“思考”并描述它的推理过程,预测结果会不会更准确、更具解释性?
为了公平比较,VISTA进行了一项巧妙的对比实验:它为每个视觉-语言模型(VLM)匹配了一个架构相似的大型语言模型(LLM)。这样,性能上的差异就可以主要归因于是否加入了视觉输入。
实验中,所有模型都接收相同的历史股票价格数据,但呈现方式不同:

在多模态设置中,模型除了文本提示,还会收到一张历史股价折线图。这让VLM能够在生成预测时,除了数值序列,还能整合视觉上的时间模式,从而更全面地理解数据。
在初步比较之后,研究团队进一步探索了思维链(CoT)提示能否进一步提升预测准确性。CoT的核心思想是让语言模型在给出最终答案前,先生成中间的推理步骤。VISTA假设,鼓励模型分解思考过程,不仅能让预测更清晰,也能带来更准确和一致的结果。
为此,VISTA对VLM的提示进行了修改,加入了更详细的指令,鼓励模型先描述它是如何得出预测的,然后再提供最终预测。修改后的CoT提示大致如下:

数据集与预处理:研究使用了法国CAC40指数中的四家代表性公司(AccorSA、BNPParibasSA、CapgeminiSE和AirLiquideSA)的日线历史收盘价数据,时间跨度从2014年1月1日到2020年1月1日。所有数据都经过了Min-Max归一化处理,将数值缩放到[0,1]之间,以保持价格波动的原始结构。
模型选择:为了精准地评估视觉输入的作用,研究团队精心挑选并配对了五组LLM-VLM模型,它们在架构上(如:核心语言骨干、参数量、Transformer深度)尽可能保持一致,主要区别在于VLM包含了视觉编码器和跨模态融合层。这些模型包括:
T5-Base(LLM)vs. GoogleDePlot(VLM):DePlot将图表转换为“伪文本”,让T5直接处理。
Llama-3. 1-8B-Instruct(LLM)vs. LLaVA-1. 5-7B-HF(VLM):LLaVA通过CLIP编码器将视觉信息映射到LLM嵌入空间。
Phi-3-mini-128k-instruct(LLM)vs. Phi-3-vision-128k-instruct(VLM):这是微软推出的紧凑型模型系列,效率高,适合低参数环境。
Gemma-3-27B-ITLLMvs. Gemma-3-27B-ITVLM:统一架构的先进多语言模型,评估大规模视觉-语言集成效果。
DeepSeek-R1-Distill-Qwen-1. 5B(LLM)vs. DeepSeek-VL-2-Tiny(VLM):DeepSeek模型家族,用于探究低参数量下多模态训练的影响。
评估指标:每个预测任务都使用过去100天的股票价格数据,预测未来5天的价格。性能通过四种标准回归指标来衡量:均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)。这些指标从不同角度评估预测质量,兼顾了误差大小和可解释性。
实验结果清楚地表明,在所有模型对和所选公司中,视觉-语言模型(VLM)的预测性能均优于其纯语言模型(LLM)的对应版本。
T5与DePlot:DePlot在四家公司中的三家表现更好,例如,在BNPParibas上,MSE降低了49. 7%,在Capgemini上降低了44. 17%。这表明即使是“图表即伪文本”的模型也能从视觉信息中获益。
Llama-3与LLaVA:LLaVA展现了惊人的提升!在Accor上,MSE从0. 0413降至0.0046,**提升了88. 9%**;在Capgemini上也降低了72. 22%。这强有力地证明了视觉上下文在时间序列预测中的巨大影响力。
Gemma-LLM与Gemma-VLM:Gemma模型对也显示出一致的改进,例如Accor的MSE降低了40. 8%,Capgemini降低了58. 82%。

DeepSeek-R1与DeepseekVL2:尽管提升幅度略小,但DeepseekVL2依然优于纯文本模型。
总结而言,视觉-语言模型通过纳入折线图形式的视觉输入,显著提升了生成模型在股票价格预测任务中的准确性,MSE通常能降低40%至80%。
为了探讨CoT提示的效果,研究人员对比了VLM在“正常提示”和“CoT提示”下的表现。
DePlot:在大多数公司上,正常提示的MSE更低,但CoT提示在AirLiquide和Capgemini上带来了改进,这说明其效果可能依赖于具体情况。
Deepseek-vl2:CoT提示带来了更一致的提升,例如在Capgemini上MSE降低了34. 94%,在BNPParibas上也表现出色。
LLaVA:结果比较复杂。CoT提示在所有四家公司上都导致了更高的MSE,这表明LLaVA可能不适合这种推理式的提示方式。
Gemma:CoT提示在所有公司上都带来了持续的改进,例如Accor的MSE降低了19%。
Phi3:CoT提示也带来了积极效果,在Accor和Capgemini上均有显著改善。
总体来看,思维链提示在大多数VLM和股票预测场景中都能提升预测性能,尤其是在Deepseek-vl2、Gemma和Phi3模型上表现突出。虽然并非万能药,但CoT提示在许多情况下被证明是一种有效的策略,特别是与那些能够利用这种额外推理结构的模型结合时。这表明,对于一些模型,引导其进行逐步推理确实能帮助它们更好地理解并预测时间序列数据。
为了进一步验证VISTA的实力,研究将其与经典的ARIMA模型进行了对比。ARIMA是一种专门针对单变量自相关信号设计的模型,在有限数据和短期预测时,通常表现不俗。
结果显示,通用型语言模型DeepSeek-R1(未经时间序列归纳偏置优化)的表现逊于ARIMA,这符合传统模型在特定领域往往优于通用大模型的认知。然而,VISTA(具体是DeepSeek-VL2变体)却超越了ARIMA模型和纯文本的DeepSeek-R1。这充分证明了VISTA引入视觉表示的能力,使其能够更有效地捕捉时间序列中细微的变化,从而实现更优异的预测性能。
为了确定VISTA的优势是否确实来源于视觉-语言的融合,研究人员进行了一项消融实验:他们故意向输入图片中注入“椒盐噪声”,同时保持文本化的历史价格数据不变,然后观察预测准确度的变化。
结果发现,随着噪声系数的增加,MSE单调上升。例如,Accor股票在7%的图像损坏率下,MSE几乎翻了一倍。这表明,视觉通道是决定性因素。如果模型仅仅依赖文本化的数字,那么图像中的噪声应该不会影响预测。但实际观察到的却是,一旦图表中的显著结构被噪声掩盖,模型的预测准确度就会下降。
这有力地证明了VISTA的性能提升并非仅仅来自语言骨干,而是来源于真正的视觉-语言融合。折线图提供了坡度、极值对齐、三角形形态等空间线索,这些是纯文本表示无法传达的。VISTA能够利用这些额外的信号。这项消融实验提供了明确的证据,表明高质量的视觉输入并非可有可无的“装饰”,而是实实在在地提升了短期股票预测的准确性。这正是多模态推理在金融时间序列分析中的核心驱动力。
VLM能够捕捉到单一模态(无论是纯文本还是纯图像)可能遗漏的互补模式和深层结构。实验结果显示,VLM比纯文本的LLM在预测准确性上有了显著提升,MSE通常能降低40%到80%,甚至最高可达89. 83%。这就像人类交易员同时看图表和数据一样,能做出更全面的判断。
无需训练,但使用大型VLM进行推理仍然需要一定的计算资源。此外尽管CoT提示增加了模型推理的透明度,但VLM内部复杂的决策过程仍然是一个“黑箱”。模型识别出的“趋势”或“阻力位”是否与人类的金融分析逻辑完全一致,以及其泛化能力在面对极端市场波动或“黑天鹅”事件时的表现,仍需进一步验证。
在实际的金融投资决策中,通常需要结合宏观经济数据、公司基本面、新闻事件、市场情绪以及更复杂的风险管理策略。VISTA提供了一个强大的技术视角,可以作为辅助工具,但不能替代全面的金融分析和专业的投资判断。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录