Kaggle赛题解析:NeurIPS 2025 Ariel Data Challenge


Kaggle赛题解析:NeurIPS 2025 Ariel Data Challenge

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

赛题名称:NeurIPS-ArielDataChallenge2025
赛题类型:数值回归
赛题任务:从有噪声的观测数据中恢复真实的系外行星光谱
https ://www. kaggle.com/competitions/ariel-data-challenge-2025
当系外行星(即围绕太阳以外恒星运行的行星)从其宿主恒星前方经过时,少量星光会穿过行星的大气层。这种技术被称为凌星光谱学(transitspectroscopy),它使研究人员能够分析系外行星的大气成分。然而,这些信号极其微弱,常常被仪器和恒星本身产生的复杂且随时间变化的噪声所掩盖。
欧洲空间局(ESA)的Ariel任务旨在2029年发射后,对1000颗系外行星进行特征分析。本次竞赛将使用来自Ariel任务的模拟数据。本次比赛是基于2024年同类竞赛的延续,数据集已更新,更加真实,其中包含了恒星临边昏暗效应、经过验证的恒星-行星对、更多样化的大气模型以及Ariel的实际观测节律。这带来了与泛化、数据效率和整合多次观测相关的新挑战。
您的工作有助于加速系外行星研究领域的发展,直接支持科学家们为ESA即将进行的Ariel任务做准备,并加深我们对这些遥远世界的理解,最终有助于回答天文学中最深刻的问题之一:我们在宇宙中是孤独的吗?
本次挑战赛要求您创建模型,以清理混乱的望远镜数据,从而看到系外行星大气中微弱的化学痕迹。
您的目标是从这些有噪声的观测数据中恢复真实的系外行星光谱。具体来说,您需要为每个planet_id预测出光谱的平均值(mean)和不确定性(uncertainty)。
表征系外行星的化学成分是天文学中一个重要的活跃项目。欧洲空间局的Ariel任务将通过观测约1000颗系外行星凌星其宿主恒星时的数据来收集信息。即使Ariel搭载了强大的仪器,所获得的数据仍将基于有限数量的光子并包含相当多的噪声。本次竞赛的挑战在于,利用模拟的Ariel数据,提取系外行星大气的化学光谱。
相较于去年的挑战,本次迭代有以下特点:
包含更多的训练和测试数据。
为每个行星使用独一无二的恒星模型。
某些行星具有重复观测的数据。
物理模型得到了升级。
本次竞赛使用一个隐藏测试集。当您提交的Notebook被评分时,实际的测试数据(包括一个完整长度的提交示例)将提供给您的Notebook。预计隐藏测试集中将包含大约1100颗系外行星。
本次比赛通过使用高斯对数似然(GaussianLog-likelihood,GLL)函数来评估预测光谱()及其对应的不确定性()与真实像素级光谱()之间的差异。
每个配对的GLL值将对所有波长和整个测试集进行求和,以得出最终的GLL值()。最终的GLL值将使用以下转换函数转换为分数:
其中:
表示提交结果与真实值完美匹配的情况,AIRS的不确定度为10ppm,FSG1的不确定度为1ppm。
是使用训练数据集的均值和方差作为所有实例的预测来定义的。
不同通道的权重如下:
FGS1:
AIRS-Ch0:每光谱点
最终分数将返回一个在区间内的浮点数,分数越高表示模型性能越好。任何低于0的分数都将被视为0。
您必须为每个planet_id预测一个平均值和不确定性。提交文件必须包含567列:最左边的列必须是planet_id,接下来的283列必须是光谱,其余列是不确定性。
2025年6月26日:比赛开始日期。
2025年9月17日:
参赛截止日期:您必须在此日期前接受比赛规则才能参赛。
团队合并截止日期:这是参赛者加入或合并团队的最后一天。
2025年9月24日:最终提交截止日期。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录