仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
在机器学习领域,学术研究的进展常常推动着现实世界应用的进步。然而,从学术基准测试的成功到实际部署,中间存在着不少潜在的“陷阱”。
最近,来自Yandex和HSEUniversity的研究团队在一项新研究中,深入分析了现有的表格深度学习基准测试。
TabReD:AnalyzingPitfallsandFillingtheGapsinTabularDeepLearningBenchmarks
https ://openreview. net/pdf?id=L14sqcrUC3
在实际应用中,数据的分布会随着时间逐渐变化。例如,电力市场预测、航班延误估计、共享单车需求等任务中,数据的时间依赖性非常明显。
然而,大多数学术研究中仍然采用随机划分数据集的方式,而不是基于时间戳进行划分。这种做法虽然可以得出在独立同分布(I. I.D.)数据上的结论,但却与数据的实际应用场景产生了巨大的差距。
在工业环境中,数据集往往经过了复杂的数据采集和特征工程流程,包含大量预测性特征。
然而,学术基准测试中这类特征丰富的数据集却非常稀缺。相反,工业环境中常见的这类数据集往往属于专有数据,无法被学术界获取。
为了填补这一空白,研究者们推出了TabReD——一个包含八个行业级表格数据集的基准测试。这些数据集全部来自真实世界的工业应用,涵盖了从金融到外卖服务等多个领域。
与学术数据集不同,TabReD的每个数据集都提供了基于时间戳的训练、验证和测试划分,并且由于采用了生产机器学习管道和Kaggle竞赛论坛中的预处理步骤,这些数据集的特征数量也更为丰富。
目前,表格深度学习的基准测试数据集主要来自以下几个来源:
UCI和OpenML数据库:这两个公共数据仓库是传统的表格数据集来源,涵盖了数千个数据集。然而,这些数据集并不能覆盖所有表格机器学习的应用场景,尤其是工业环境中常见的数据特征,如时间变化和丰富的特征工程,往往被忽视。
Kaggle竞赛平台:Kaggle是一个包含众多机器学习竞赛的平台,其中许多竞赛的数据集来自解决实际问题的团队,因此具有很高的应用价值。然而,许多流行的基准测试仍然过度依赖UCI和OpenML,而忽视了Kaggle上丰富的表格数据集。实际上,Kaggle上的数据集经过精心筛选后,完全可以作为高质量的基准测试数据。
通过对100个独特的分类和回归数据集的分析,研究者们发现现有基准测试存在以下主要问题:
数据泄露问题
在100个数据集中,有11个存在数据泄露问题。这些问题源于数据准备错误、近似重复实例或不适当的测试数据划分。例如,“BikeSharingDemand”和“electricity”数据集就存在数据泄露。尽管一些泄露问题已被文献报告,但由于机器学习领域缺乏数据集淘汰的通用协议,这些问题数据集仍在被使用。
数据来源不明或合成数据
有13个数据集的来源不明,或者数据是合成的,但缺乏生成过程的详细信息。这些数据集的实用性值得怀疑,因为它们可能无法真实反映实际应用场景。
非表格数据的误用
25个数据集并不符合表格数据的定义,例如一些数据集是将图像数据展平为数组形式,或者从原始数据中提取的同质化特征。这些数据集虽然在某些任务中有用,但它们在实际应用中的价值有限。
数据集规模和特征数量有限
大多数学术基准测试的数据集包含的特征少于60个,样本数量少于10万。这些数据集往往只包含高级统计信息,而实际工业应用中通常会利用尽可能多的信息和数据。然而,这种工业级的表格数据集在公开数据中非常稀缺。
缺乏时间戳元数据
除了专注于分布偏移的基准测试外,其他基准测试几乎没有讨论数据划分问题。研究发现,53个现有数据集(不包括有问题的数据集)可能包含与时间相关的数据漂移,但在这些数据集中,只有15个提供了时间戳用于基于时间的划分。
与现有的基准测试相比,TabReD有以下几个显著特点:
TabReD的所有数据集都包含时间戳,并且按照时间划分训练集、验证集和测试集。这种基于时间的划分方式更贴近实际应用场景,能够更好地模拟数据分布的渐进式变化。与TableShift和WildTab等基准测试相比,TabReD更关注普遍存在的渐进式时间变化,而不仅仅是极端的分布偏移。
TabReD的数据集来自真实的工业应用,经过了复杂的数据采集和特征工程流程,特征数量丰富。这种特征丰富的场景在工业环境中非常常见,但在学术基准测试中却往往被忽视。
数据集名称
样本数量
特征数量
来源
任务描述
SberbankHousing
28K
392
Kaggle
房地产价格预测
EcomOffers
160K
119
Kaggle
预测用户是否会兑换优惠券
HomesiteInsurance
260K
299
Kaggle
保险计划接受预测
HomeCreditDefault
381K(1. 5M)
696
Kaggle
贷款违约预测
CookingTime
319K(12. 8M)
192
新数据集
餐厅订单烹饪时间估计
DeliveryETA
350K(17. 0M)
223
新数据集
杂货配送快递预计到达时间预测
MapsRouting
279K(13. 6M)
986
新数据集
导航应用的实时路况预计到达时间预测
Weather
423K(16. 9M)
103
新数据集
天气预测(温度)
在实验中,研究者使用Optuna进行超参数调优,并为深度学习模型选择了AdamW优化器。所有数据集都基于时间戳划分为训练集、验证集和测试集,以模拟实际应用中的时间变化。为了确保结果的统计显著性,测试集结果在15个随机种子上进行了聚合。
在实验中还评估了多种技术,包括经典的非深度学习基线(如XGBoost、LightGBM、CatBoost、随机森林和线性模型),以及多种表格深度学习模型(如MLP、FT-Transformer、DCNv2、ResNet、SNN和Trompt)。此外,他们还测试了数值特征嵌入技术、检索增强模型(如TabR和ModernNCA)以及改进的训练方法(如数据增强和辅助训练目标)。
实验结果表明,在TabReD基准测试中,表现最好的模型是XGBoost和带有数值嵌入的MLP(MLP-PLR)。这些发现表明,数值特征嵌入技术在新的评估场景中仍然具有实用性。此外,模型集成(如MLP集成和MLP-PLR集成)也带来了显著的性能提升。
然而,一些在学术基准测试中表现出色的技术在TabReD上的表现却不尽如人意。例如,FT-Transformer虽然在某些数据集上表现良好,但由于其注意力模块导致计算复杂度较高,训练速度较慢。其他模型如SNN、DCNv2、ResNet和Trompt的表现甚至不如简单的MLP基线。
检索增强模型(如TabR和ModernNCA)在TabReD上的整体表现也不如预期。尽管在Weather数据集上TabR取得了第二好的结果,但在其他数据集上,这些模型的优势并未得到体现。
研究者们进一步分析了时间变化和特征丰富性对模型性能的影响。他们通过随机划分数据集和减少特征数量来模拟学术基准测试中的常见设置。结果表明:
时间变化:在时间划分的数据集上,XGBoost的性能优势有所减弱,而基于检索的模型(如TabR)在随机划分的数据集上表现更好。这表明时间变化对模型的性能有显著影响。
特征丰富性:减少特征数量后,检索增强模型(如TabR)的表现有所提升,而改进的训练方法(如MLPaug. rec.)在特征较少的数据集上表现更好。这表明特征工程的复杂性对模型性能有重要影响。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~