仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文题目:Accuratepredictionsonsmalldatawithatabularfoundationmodel
论文地址:https ://www.nature.com/articles/s41586-024-08328-6
代码地址:https ://priorlabs.ai/tabpfn-nature/
以往的表格数据处理方法多依赖于传统机器学习模型(如基于树的模型)或针对特定数据集单独训练的深度学习模型,而TabPFN通过在大量合成数据上进行预训练,学习到了一个通用的表格数据预测算法,能够直接应用于新的表格数据集,无需针对每个数据集重新设计或训练模型。
本文架构为每个表格单元分配独立的表示,并采用双向注意力机制,使单元能够同时关注其所在行的其他特征(样本内的特征)和所在列的其他样本(特征间的样本),这种设计使得模型对样本和特征的顺序具有不变性,并且能够更高效地处理和扩展到更大的表格数据。
为了训练TabPFN,作者开发了一种基于SCM的合成数据生成方法,该方法能够生成具有不同因果结构、特征类型和功能特性的多样化合成数据集,这些数据集涵盖了真实世界表格数据的各种特征和挑战,如缺失值、异常值、不平衡数据等。
本文的主要研究方法是提出并实现了一种名为TabPFN(TabularPrior-dataFittedNetwork)的新型表格数据基础模型。该模型通过在大量合成数据上进行预训练,利用上下文学习(In-ContextLearning,ICL)机制,学习到一个通用的表格数据预测算法,能够直接应用于新的表格数据集进行预测。
a展示了TabPFN的预训练和使用流程的高级概述。左侧显示了TabPFN在合成数据上的预训练过程,右侧展示了如何将预训练好的模型应用于新的真实世界数据集。
b展示了TabPFN的网络架构。该架构基于标准的Transformer编码器,但针对表格数据进行了适应性调整。图中详细展示了如何将输入数据(表格)转换为模型可以处理的形式,并通过双向注意力机制(行内注意力和列内注意力)来处理表格中的每个单元格。
a展示了生成合成数据集的高级流程,包括采样数据集的大小、特征数量、复杂性等超参数。
b详细展示了如何基于这些超参数构建结构因果模型(SCM),并通过计算图生成数据。图中展示了如何通过根节点注入随机噪声,并通过图的边应用不同的计算映射(如小神经网络、离散化机制等)来生成数据。
c展示了最终生成的合成数据集,包括特征和目标值的分布。
a展示了TabPFN与其他几种标准预测器(如线性回归、多层感知机、CatBoost等)在几个简单函数上的表现。每个子图对应一个不同的函数,包括线性函数、二次函数、异方差噪声函数、步函数等。图中用橙色表示真实函数,蓝色表示模型预测。
b展示了TabPFN在模拟双缝实验中的表现,能够预测出复杂的多模态光强分布。图中还对比了CatBoost在相同任务上的表现,显示TabPFN在预测复杂分布时的优势
本图a展示了TabPFN与几种基线方法(如XGBoost、CatBoost、随机森林等)在默认配置和经过调优的配置下的平均性能比较。图中使用了ROCAUC(分类任务)和负RMSE(回归任务)作为评估指标。b展示了TabPFN与CatBoost在每个数据集上的性能对比,每个点代表一个数据集的平均分数。c展示了随着超参数搜索时间的增加,TabPFN和基线方法的性能如何提高。图中对比了TabPFN的默认配置和经过4小时调优的配置。总之,TabPFN在默认配置下优于经过长时间调优的基线方法,在大多数数据集上表现出优势,且在超参数搜索方面效率高,短时间内就能达到或超过基线方法。
–END–
关注“学姐带你玩AI”公众号,回复“小样本机器”
领取小样本机器学习论文合集+开源代码
往期精彩阅读
👉kaggle比赛baseline合集
👉经典论文推荐合集
👉人工智能必读书籍
👉本专科硕博学习经验
评论区留言参与讨论嗷