显著提升表示学习效果!一种适用于时间序列的频域数据增强方法。


显著提升表示学习效果!一种适用于时间序列的频域数据增强方法。

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

↑↑↑关注后\“星标\“kaggle竞赛宝典
kaggle竞赛宝典
作者:圆圆的算法笔记
适用于时间序列的频域数据增强方法,显著提升表示学习效果
今天给大家介绍的这篇文章来自KDD2025,提出了一种适用于时间序列的数据增强方法,核心思路是在频域进行重要成分的保留和非重要成分的变换,使得增强后的数据既能保证和原始数据语义相同,又能提升数据的多样性。
论文标题:FreRA:AFrequency-RefinedAugmentationforContrastiveLearningonTimeSeriesClassification
下载地址:https ://arxiv. org/pdf/2505. 23181v1
1
研究背景
数据增强是深度学习中常用的一种方法,特别是在对比学习等表示学习方法中,数据增强更是必不可少的一环。对于原始数据,通过数据增强生成变体数据作为正样本,随机负采样作为负样本,让模型拉近正样本对之间的距离,推远负样本对之间的距离,是表示学习的核心。因此,数据增强对于表示学习的效果至关重要。
在时间序列领域,目前使用的数据增强方法,大多数还来自于图像领域。例如对时间序列进行缩放、增加趋势项、增加噪声等。然而,这些方法是否真的适用于时间序列领域呢?文中通过计算原始序列和其类别标签之间的互信息如下图,可以发现,大部分数据增强方法都会降低互信息,表明这些数据增强方法对原始数据的语义改变很大。
为了解决上述问题,本文提出了一种更适用于时间序列的数据增强方法。相比原来方法在时域进行数据增强,本文在频域进行数据增强,充分利用频域中的独立性(每个成分语义独立)、全局性(频域表示描述时间序列全局信息)。
2
建模方法
数据增强生成的数据,保持和原始数据相同语义,且具有多样性,是生成质量好坏的两个核心点。针对该需求,文中提出在频域进行数据增强。一方面,频域表示下,各个主成分是相对独立的,可以比较清晰的判断各个成分对语义的贡献;另一方面,频域信息描述的是序列的全局信息,不像时域每个片段描述的是局部信息。
具体来说,文中的数据增强方法可以表示成如下公式,xf对应时间序列映射到频域的频域表示,两个w对应两组参数。第一组参数的作用是筛选对语义影响大的关键频域成分,第二组参数的作用是对影响不大的频域成分进行变换。
在具体实现上,首先使用一个轻量级的网络生成一个向量,向量每个值对应每个频域成分的重要度。两组w参数都基于这个向量生成。第一组参数使用gumblesoftmax进行建模,生成一组接近1和0的数值,用来筛选各个频域成分中的重要部分。第二组参数先使用重要度分划定阈值筛选出不重要的频域成分,再使用一个缩放因子,对不重要的频域成分进行变换,进而实现对原始数据的数据增强,生成多样性数据。
在训练方法上,主要采用对比学习的方式训练上述轻量级网络。对于原始数据,以及经过上述方式生成的数据,视为正样本对,拉近二者距离,推远其他负样本距离。此外,引入了一个正则化loss,约束重要度高的频域不能太多。
训练好的数据增强网络,可以灵活的用于各类时间序列分类方法中,用于数据。
3
实验效果
整体的实验结果如下表,本文提出的数据增强方法可以大幅提升各个数据集上时间序列分类的效果。
对于各个模块和超参数,文中也进行了相应的消融实验。
END
如果觉得有帮助麻烦分享在看点赞~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录