Kaggle知识点:Table2Image 表格图像化分类模型
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
本文提出了一种名为Table2Image的创新框架,通过将表格数据转换为真实且多样化的图像表示,利用深度学习方法实现高性能分类。针对表格数据中的多重共线性问题,作者提出方差膨胀因子(VIF)初始化方法,通过统计特征关系增强模型稳定性和鲁棒性。
https ://arxiv.org/pdf/2502.20260
https ://github.com/duneag2/table2image
此外,结合SHAP解释性分析和分布差异最小化技术,构建了可解释性框架,同时利用原始表格数据及其图像表示提供双重洞察。实验表明,该方法在准确率、AUC和可解释性上优于当前主流深度学习模型,且具有轻量化和可扩展性优势。
表格数据广泛存在于金融、医疗等领域,但其深度学习应用仍落后于图像、文本等领域。目前,梯度提升决策树(GBDT)(如XGBoost、LightGBM)因其高效性和可解释性占据主导地位。然而,深度学习在多模态融合和统一优化方面潜力巨大,亟需解决以下挑战:
计算资源需求:基于Transformer的模型参数量大,需轻量化设计。
可解释性不足:多数深度学习模型缺乏透明性,限制其在关键领域的应用。
数据特性差异:表格数据高度结构化且信息密集,传统深度学习难以直接提取隐含关系。
Table2Image的核心思路:将表格数据转换为真实图像,利用CNN提取模式。相比此前方法(如DeepInsight、IGTD)生成的任意映射图像,本文更注重图像的真实性和多样性,以提升分类性能。
表格数据中,特征间常存在多重共线性(线性相关性),传统统计方法(如VIF)可检测并缓解,但深度学习模型通常依赖正则化(如Dropout)隐式处理,效果有限。
VIF定义:衡量特征因共线性导致的方差膨胀程度,公式为:
其中是特征对其他特征的回归决定系数。VIF>10表示严重共线性。
在模型初始化阶段,根据VIF调整权重分配,减少冗余特征的影响,提升训练稳定性。
结合表格特征重要性和图像模式分析,提供更全面的模型决策解释。基于博弈论,量化每个特征对预测的贡献:
如果分类任务有≤10类(比如猫狗鸟),直接套用FashionMNIST(10种服装图)。如果1020类,混合FashionMNIST和MNIST(手写数字图)。
每类对应多张图片,随机分配表格数据,避免死板(比如所有“猫”数据不固定映射到同一张猫图)。
表格特征+随机噪声(像电视雪花屏的乱码),把表格和噪声压缩成一个“密码”(潜在特征z),解码器根据“密码”z和表格特征,生成一张28×28的图片。
生成的图片输入一个轻量级CNN(2层卷积+2层全连接),输出分类结果(猫/狗/鸟)。
表格中常有“重复信息”(比如“身高”和“体重”高度相关),导致模型学歪。
计算每个特征的VIF值(方差膨胀因子),数值越大说明越“冗余”。
初始化模型时,冗余特征的权重调低(公式:权重=1/VIF),让模型少关注它们。
最终把原始特征和VIF优化后的特征拼接,一起输入模型。
不仅告诉用户“模型为什么预测是猫”,还要解释:
表格里哪些特征重要(比如“胡须长度”权重高)。
生成的图片里哪些区域重要(比如耳朵部分被重点关注)。
测试数据:使用两大权威基准库OpenML-CC18(67个数据集)和TabZilla(34个高难度数据集),仅测试20类以内的分类任务。
对比模型:包括传统强手(XGBoost、LightGBM)、经典机器学习(SVM、随机森林)和前沿深度学习模型(FT-Transformer、TabPFN等)。
Table2Image-VIF在27/67个数据集上ACC第一,26/67个AUC第一。原始Table2Image在23/67个数据集上双指标第二。
Table2Image(62.7万)远小于巨无霸模型(如TabM的3790万),但比纯MLP(7千)稍大。
实验证明,每类随机映射多张图片(如“猫”对应不同猫图)比固定单图(如HACNet)平均ACC提升约4%,AUC提升2%。
表格特征重要性:显示“左侧重量”对预测影响最大。
图像区域重要性:生成的天平图片中,左侧区域被高亮标注。
抗干扰测试:打乱特征顺序后,解释结果的MSE误差低,说明框架鲁棒。
论文主要思路为用真实图像解锁深度学习潜力,性能匹敌GBDT。同时解读表格和图像,适合医疗/金融等高要求场景,单暂不支持回归任务。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流