ICLR 2025 | 一行代码！FreDF频域损失稳定提升时间序列预测精度

发布日期: 2025-04-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文由浙江大学、中南大学、上海交通大学、Tiktok、北京大学、南洋理工大学联合完成。第一作者王浩为浙江大学硕博连读生，发表NeurIPS、ICLR、KDD、WWW、TOIS等顶级会议和期刊十余篇。通讯作者为北京大学李昊轩助理研究员和南洋理工大学陶大程教授。
时间序列预测在气象预报、工业设备维护、医疗监测等领域具有关键应用价值。本文揭示现有方法忽略了标签序列中的自相关性，导致训练目标有偏。进一步，提出一种基于频域标签训练的新范式——FreDF，只需加入一行代码，即可在主流模型上实现预测精度的稳定提升。
论文标题：FreDF:LearningtoForecastintheFrequencyDomain
论文地址：https ://openreview.net/forum?id=4A9IdSa1ul
代码地址：https ://github.com/Master-PLC/FreDF
被忽视的标签自相关性
时间序列中的自相关性指的是「序列在不同时间步之间的相关性」，在时间序列预测中，这种自相关性既存在于模型的输入序列（历史观测值之间的相关性），也存在于标签序列（不同步标签之间的相关性）。然而，现有方法（如Transformer、LSTM等）主要聚焦于输入序列的自相关建模，普遍忽视了标签序列自相关性的影响。
具体而言，主流的直接预测范式（DirectForecast，DF）通过多任务学习同时预测多步标签，其损失函数为：
其中，为标签，为预测值。该方法隐式假设标签序列在给定输入时条件独立（这样极大似然才等价于最小化MSE）。但时间序列预测任务中，标签序列往往呈现显著的自相关性。因此，现有DF方法与时序数据生成机制存在失配。
【形式化】根据定理3.1：当标签之间的相关系数大于0时，DF方法的损失函数相比对数似然函数有偏。
使用频域标签训练时间序列模型
Motivation
FreDF的核心是利用傅里叶变换将标签序列投影到频域。在频域中，不同标签之间的相关性被有效抑制。这一预期符合直觉：频率k处的频谱分量一般不依赖于频率k’<k处的频谱分量生成。论文中的定理3.3进一步验证了这一点。
由于频域中标签之间的相关性被抑制，根据定理3.1，在频域计算的损失函数（如MSE、MAE）相对对数似然函数无偏。
图1.标签序列中的自相关性分析。
案例分析：图1（a）展示了自相关性在生成标签序列中的影响：第t时刻的标签不仅和输入有关，也和上一时刻的状态有关。图2（b-d）量化了给定输入后，不同标签在时域和频域的自相关强度。结果表明：标签序列的自相关性在时域中显著，在频域中被抑制。
实现方法
受Motivation节启发，FreDF提出了一种基于频域标签的模型训练方法，具体步骤如下：
使用傅里叶变换将标签序列从时域转换到频域：。标签序列的自相关性在频域中被有效抑制。类似地，将模型的时域预测值由时域变换到频域：。
计算频域损失：。
融合时频损失：。这一步是可选的——频域损失单独使用，即可吃下绝大多数性能收益。
FreDF方法支持多种预测模型（如Transformer、MLP等），其实现非常简单：只需在模型的损失函数中添加频域损失即可。以下是一个基于PyTorch的简单实现示例，其中outputs为模型的时域预测值，batch_y为标签序列。

图2.FreDF工作流。
实验结果
FreDF可以显著提高预测性能。以ETTm1数据集为例，FreDF将iTransformer的MSE降低了0.019，这一改进与过去1.5年中该数据集性能提升相当（Fedformer到TimesNet，MSE降低了0.017）。这说明通过处理标签中的自相关性，FreDF可以显著提升模型的预测性能。
FreDF在短期预测任务上也有显著提升。在M4数据集上，FreDF增强的FreTS在3个指标上均平均优于原生FreTS和基线模型。FreDF在长期和短期预测任务上都展现出了良好的性能，证明了其作为一种通用预测范式的潜力。
论文还进行了消融实验，研究时域损失、频域损失对模型性能的贡献。结果表明：仅使用频域损失即可取得显著的性能改进，而适当融合时域损失可以进一步优化性能。
进一步细化消融实验，研究权重α对性能的影响。在绝大多数情况下，频域损失的性能均优于时域损失（α=1vsα=0）。这说明即使不对α做调节，直接将时域损失替换为频域损失，也可以有效提升时序预测性能，真正实现「一行代码涨点」。此外，预测性能一般在α接近1（如0.8或0.9）时最佳。这意味着在时域和频域损失之间取得适当的平衡，并适当强调频域损失，可以获得较好的预测结果。
通过可视化预测序列发现，FreDF生成的预测序列与真实标签序列之间的拟合度更高，能够更准确地捕捉到标签序列中的高频成分，同时抑制明显的噪声和异常波动。这说明频域损失可以在一定程度上抑制时域损失的过拟合，保持较好的泛化能力。
论文还测试了FreDF在不同神经网络架构上的表现，包括iTransformer、DLinear、Autoformer和Transformer等，证明了其与模型无关的特性：可以切实有效提升大多数主流时序预测模型的精度。
结论
自相关性的处理是时间序列预测的核心问题。现有方法聚焦输入中的自相关性的处理，而对标签中的自相关性尚未给予广泛关注。特别是，现有的多任务预测方法，其损失函数假设掉了标签中的自相关性，导致其相对似然函数有偏。
FreDF提出了一种基于频域标签的训练方法，既保留了多任务预测的特性，又有效避免了标签自相关性带来的偏差。作为一种模型无关的损失函数，实验结果表明，其在多个预测模型上均表现出一致的性能提升。
不快来试一下？让FreDF成为你性能优化的「最后一棒」！
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com