Kaggle竞赛复盘: BirdCLEF+ 2025 (14个高分方案)
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
↑↑↑关注后\“星标\“kaggle竞赛宝典
kaggle竞赛宝典
作者:宅码
Kaggle竞赛复盘:BirdCLEF+2025(14个高分方案)
竞赛名称
BirdCLEF+2025
竞赛关键词
声学信号处理、物种识别、半监督学习、稀有事件检测
竞赛组织者
CornellLabofOrnithology
竞赛起始时间
Mar11,2025-Jun6,2025
竞赛总览
本次Kaggle比赛旨在通过机器学习技术识别未被充分研究的物种的声学特征,以支持生物多样性监测。参赛者需开发计算方法处理连续音频数据,识别不同分类群的物种声音。比赛的核心任务包括:在哥伦比亚马格达莱纳河谷中部/ElSilencio自然保护区的声景数据中识别物种;在有限标注数据下训练机器学习模型,尤其针对稀有和濒危物种;利用未标注数据提升模型的检测和分类能力。成功的解决方案将有助于更准确地理解生态恢复项目的效果趋势,支持保护行动的调整和优化。比赛由多家机构联合组织,包括ChemnitzUniversityofTechnology、FundaciónBiodiversaColombia、GoogleResearch等。
竞赛网址
https ://www. kaggle.com/competitions/birdclef-2025
竞赛描述
Goalofthecompetition
移动和栖息地多样的物种是生物多样性变化的重要指标,因为它们的群落和种群动态的变化可以表明生态恢复工作的成功或失败。然而,在大面积区域进行传统的基于观察者的生物多样性调查既昂贵又在后勤上具有挑战性。相比之下,被动声学监测(PAM)结合现代机器学习技术,使得保护工作者能够在更广的空间尺度上进行采样,并具有更高的时间分辨率,从而更深入地洞察恢复干预措施与生物多样性之间的关系。
在本次比赛中,您将运用机器学习专业知识,通过声学特征识别研究不足的物种。具体来说,您将开发计算方法来处理连续音频数据,并通过声音识别来自不同分类群的物种。最有效的解决方案将展示在有限标记数据下训练可靠分类器的能力。如果成功,您的工作将有助于增强生物多样性监测的持续努力,包括在哥伦比亚马格达莱纳河谷低地的研究项目。
Context
湿润的热带雨林是地球上生物多样性最丰富且最古老的生态系统,对于气候调节和水资源保护至关重要。然而,雨林正面临严重威胁。在哥伦比亚这个生物多样性丰富的国家,马格达莱纳河谷的低地是生物多样性热点,栖息着许多濒危物种。超过70%的马格达莱纳河谷低地雨林被广阔的牧场所取代,用于养牛业,而在森林碎片的残余部分,非法伐木现象普遍。保护最后的森林残余和湿地已成为迫切需要。
哥伦比亚生物多样性基金会(FBC)与当地社区、土地所有者和组织合作,以保护、恢复和连接森林和湿地的碎片。ElSilencio自然保护区成立于2012年,保护着5,407英亩的热带低地森林和湿地。这里是多样化野生动物的家园,包括295种鸟类、34种两栖动物、69种哺乳动物、50种爬行动物和近500种植物,ElSilencio是区域保护和可持续发展的典范。
该保护区的一大部分,之前用于广泛的牲畜养殖,目前正在进行生态恢复项目。通过Kaggle比赛,我们旨在自动检测和分类来自ElSilencio自然保护区的不同分类群的声音景观,以期更好地理解恢复项目的生态过程。
本次Kaggle比赛的更广泛目标包括:
(1)在哥伦比亚中部马格达莱纳河谷/ElSilencio自然保护区的声景数据中识别不同分类群的物种。
(2)使用非常有限的训练样本来训练稀有和濒危物种的机器学习模型。
(3)使用未标记的数据增强机器学习模型,以提高检测/分类能力。
感谢您的创新,研究人员和保护实践者将更容易准确理解恢复活动的效果趋势。因此,他们将能够更有效地评估威胁并定期调整他们的保护行动。
本次比赛由以下机构合作组织(按字母顺序):开姆尼茨工业大学、哥伦比亚生物多样性基金会、GoogleResearch、iNaturalist、洪堡研究所、康奈尔大学鸟类学实验室的K. LisaYang保护生物声学中心、LifeCLEF、哥伦比亚生态声学网络、伦敦大学学院和Xeno-canto。
评估指标
本次比赛的评估指标是一个版本的宏平均ROC-AUC,该版本跳过没有真实正标签的类别。
对于每个row_id,你需要预测某个物种存在的概率。每个物种对应一列。每一行涵盖五秒的音频窗口。
工作笔记奖标准(可选)
BirdCLEF最佳工作笔记奖的评判标准:
原创性。一篇论文的价值取决于其呈现新颖或创新技术材料的程度。论文是否展示了先前未知的结果?它是否推动了知识的前沿?是否提出了解决旧问题的新方法或对旧问题的新观点?或者,另一方面,它是否只是对已知信息的重复?
质量。一篇论文的价值取决于所描述工作的内在特性或卓越程度。该工作是否以高度的彻底性进行?是否展示了高水平的工程技能?是否描述了一个具有高度优雅性的实验?或者,另一方面,所描述的工作是否只是一般性质的?
贡献。一篇论文的价值在于其对艺术进步的整体贡献程度。这与原创性不同。一篇论文可能非常原创,但可能涉及一个非常小的,甚至无关紧要的问题。另一方面,一篇论文可能通过收集和分析已知的数据和事实并指出其重要性而做出巨大贡献。或者,对已知但晦涩或复杂的现象、理论、系统或操作技术的精彩阐述可能对艺术是一个非常真实的贡献。显然,一篇论文在原创性和贡献上都可能得分很高。也许重要的问题是,阅读这篇论文的工程师是否能够因此更有效地从事他的专业工作?
呈现。论文的价值取决于读者能多容易地理解作者试图表达的内容。无论其他标准如何,如果材料没有被清晰有效地呈现,那么论文就不是好的。论文写得好吗?作者的意思清楚吗?表格、图表和插图清晰吗?它们的意义是否显而易见?论文中呈现的信息是否完整?同时,论文是否简洁?
提交的BirdCLEF工作笔记的评估:
每篇工作笔记将由两位评审进行评审,并取平均分。最高分:15。
a)工作和贡献的评估
●5分:出色的工作和重大贡献
●4分:良好、扎实且具有一定重要性的工作
●3分:扎实的工作但贡献有限
●2分:边缘工作和微小贡献
●1分:工作不符合科学标准
b)原创性和新颖性
●5分:开创性
●4分:开创性作品
●3分:领先一步
●2分:又一篇关于……的论文
●1分:这已经被多次提及
c)可读性和组织性
●5分:优秀
●4分:写得很好
●3分:可读
●2分:需要大量工作
●1分:工作不符合科学标准
前排方案分享
1
1st_place_solution_multiiterative_noisy_student_is_all_you_need
Rank:1
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583577
1)方案介绍
该方案通过使用声事件检测(SED)模型对20秒的音频块进行处理,采用多迭代NoisyStudent自训练方法结合MixUp数据增强,处理焦点训练数据与伪标签声音景观。伪标签经幂次变换以减少噪声。伪标签采样器根据每个声音景观中标签的最大值之和分配权重。针对两栖类和昆虫类标签组,使用来自Xeno-Canto的扩展物种数据训练了单独的模型。最终采用来自不同训练迭代的模型进行集成。推理通过平均相邻块重叠的帧预测,随后进行平滑和deltashift推理。
竞赛高分方案《1st_place_solution_multiiterative_noisy_student_is_all_you_need》的图片集(可左右滑动)
2)核心技巧
●多迭代NoisyStudent自训练
该方案采用了多迭代NoisyStudent自训练方法,通过将混合伪标签数据与训练数据进行MixUp,显著提高了模型的泛化能力。作者指出,简单的伪标签数据加入训练并未奏效,但通过0. 5的固定混合权重,NoisyStudent方法可以迫使模型学习到更鲁棒的特征。通过多次迭代,每次调整伪标签的幂次值,逐步提高清晰标签的影响,作者在比赛中实现了显著的性能提升。
●声音事件检测(SED)模型与推理方法
方案中使用了SED模型对音频数据进行处理,利用模型的帧预测,作者创新性地通过相邻音频块的帧预测的平均值进行推理,而不是仅使用中心块的最大值。这种方法被视作一种1D滑动窗口分割方案,类似于大型图像的2D滑动窗口分割。该方法有效地避免了丢弃有价值的预测数据,提升了推理结果的可靠性和准确性。
●伪标签的幂次变换
在多迭代自训练过程中,作者通过对伪标签进行幂次变换来减少噪声,并保留有用的信号。他们发现直接对概率进行温度缩放会提高噪声的概率,而通过幂次变换,可以防止噪声的放大,并保留重要的标签信号。此方法显著提高了后续迭代中模型的收敛性和性能提升。
3)方案总结
此解决方案在鸟类声音识别比赛中取得了第一名,主要通过多迭代NoisyStudent自训练方法提高模型的泛化能力。其核心在于创新性地将SED模型的帧预测用于推理,通过MixUp增强混合伪标签和训练数据,使模型在自训练过程中学习到更鲁棒的特征。此外,通过对伪标签进行幂次变换,有效减少了噪声对训练的负面影响。最终通过集成来自不同训练迭代的多种模型,作者实现了对公开和私有测试集的高鲁棒性。
2
2nd_place_journey_down_the_rabbit_hole_of_pseudo_labels
Rank:2
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583699
1)方案介绍
该解决方案通过半监督学习的方法解决了鸟类声音识别任务。首先,团队下载了额外的Xeno-Canto数据,并进行了数据清洗和预处理。然后,使用5秒的随机音频片段进行模型训练,尝试了多种选择片段的方法以减少误报。为了应对验证困难的问题,采用了多种验证策略,确保每个类至少有一个样本。模型方面,使用了Spec→2DCNN的方法,选择了tf_efficientnetv2_s和eca_nfnet_l0作为骨干网络。训练时,采用了多种采样策略和平衡策略,并尝试了预训练模型的微调。最终,通过伪标签技术和后处理步骤,显著提升了模型性能。
竞赛高分方案《2nd_place_journey_down_the_rabbit_hole_of_pseudo_labels》的图片集(可左右滑动)
2)核心技巧
●伪标签技术
伪标签技术是本方案的关键创新点之一。首先,利用最佳模型对训练集中的声音进行预测,并选取置信度较高的段落作为伪标签。然后,在训练中以一定概率用这些伪标签替换原有的硬标签,并通过多次迭代不断提升模型性能。这种方法有效地利用了未标记的数据,提升了模型的泛化能力。方案中指出,伪标签的分布需谨慎控制,以免破坏数据分布的平衡性。
●预训练模型微调
预训练模型的微调极大地提升了模型的初始性能。方案中下载了大规模的Xeno-Canto数据集,并过滤掉了当年比赛中的物种,以避免数据泄漏。然后,对这些数据进行预训练,并在主数据集上进行微调。实验表明,微调后的模型性能显著提升,AUC从0. 83-0. 84跳升至0.86-0. 87。这一技术的成功在于有效地利用了历史数据,并在微调过程中选择适当的检查点。
●数据增强和采样策略
在数据增强和采样策略中,方案采用了多种方法以提高模型的健壮性和泛化能力。采样策略上,采用了平衡、平方和上采样等多种策略,以确保每个类别的数据分布相对均衡。数据增强方面,保留了之前成功的RandomFiltering和SpecAug设置,以增加模型的鲁棒性。尽管尝试关闭这些增强可能略微提高CV分数,但最终选择了保留以确保模型在LB上的表现。
3)方案总结
该解决方案通过半监督学习、预训练模型微调和伪标签技术解决了鸟类声音识别任务。团队利用Xeno-Canto的额外数据进行数据扩充,并在5秒音频片段的基础上训练了多个2DCNN模型。为了提高模型的泛化能力,采用了多种数据采样和增强策略,并通过伪标签迭代提升了模型的性能。最终,方案通过后处理步骤进一步提升了预测精度,取得了竞赛的第二名。该解决方案整体上展示了如何有效利用现有数据和增强技术来提升识别精度,特别是在处理不平衡数据集和未标记数据方面表现突出。
3
3rd_place_solution
Rank:3
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583477
1)方案介绍
本方案通过结合BirdCLEF2025和2023数据集进行训练,采用CNN和SED模型组合的方法,使用多种增强策略提高模型的稳健性。通过将模型导出为ONNX格式进行快速推理,并应用排名感知后处理策略来优化最终预测。最终方案由20个模型组成的集成,其中包括10个CNN模型和10个SED模型,最终在privatelb上达到0. 927。
2)核心技巧
●数据扩充与清洗
方案通过结合BirdCLEF2025和2023数据集来扩充训练数据,并从Xeno-Canto和iNaturalist等平台收集额外数据。数据清洗中,利用现有的公开notebook去除数据中的人声,并手动筛选样本以确保质量。这一策略旨在提高数据的多样性和模型的稳健性。
●模型体系结构
使用多种CNN和SED模型的集成策略,包括tf_efficientnet和mnasnet等多种backbone。为不同的网络架构设计了两组Melspectrogram参数,分别设置n_mels为128和96,以探索不同频谱分辨率对模型性能的影响。这种多样化的模型组合有助于提升整体预测的准确性。
●训练策略与增强
采用随机抽样代替固定前5秒和基于RMS的抽样方法,并结合cutmix、mixup和sumix等数据增强策略。同时,加入人声作为背景噪声以提高模型对不同环境的适应性。使用FocalBCE损失函数训练模型,以处理类别不平衡问题。模型权重平均技术则用于稳定最终预测结果。
●后处理与推理优化
采用受排名影响的后处理策略,通过调整预测排名来提高低置信度预测的准确性。所有模型均导出为ONNX格式,以实现快速推理。这两个步骤共同优化了模型在实际应用中的效率和效果。
3)方案总结
该方案通过整合多种数据集和模型架构,结合丰富的数据增强技术和后处理策略,显著提升了模型的预测性能。数据清洗和扩充提高了训练数据的质量和多样性,而多模型集成和参数优化则增强了模型的稳健性和准确性。最终,方案在BirdCLEF2025竞赛中取得了优异的成绩,展示了在声音分类任务中的先进技术应用。
4
4th_place_solution
Rank:4
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/584034
1)方案介绍
该解决方案为BirdCLEF2025比赛的第四名方案,主要采用了SED(SoundEventDetection)模型,灵感来自于birdclef2023比赛的第二名方案。核心是一种自定义的softAUC损失函数和半监督学习方法。通过使用softAUC损失函数,作者解决了AUC损失函数不支持软标签的问题,从而有效减少了过拟合现象。此外,方案中使用了多种EfficientNet和EfficientNetV2模型,以及音频混合增强等技术,以提高模型的多样性和性能。
2)核心技巧
●softAUC损失函数
AUC(AreaUnderCurve)损失函数通常用来优化模型的分类性能。在该方案中,作者开发了一种softAUC损失函数,用于支持软标签,这对知识蒸馏和半监督学习非常关键。通过对正负样本预测值的差异进行加权计算,softAUC损失有效地减少了过拟合,并提升了模型的泛化能力。该技术使模型在Leaderboard上的表现显著提高,从0. 850提升到0.901,最终帮助方案从第11名跃升至第4名。
●半监督学习
半监督学习通过结合有标签数据和无标签数据来提高模型的性能。在该方案中,作者使用了10个使用EfficientNet系列模型训练的SED模型对前10秒音频数据进行标注,从而生成伪标签。这种方法提高了训练数据的多样性和有效性,为模型提供了更丰富的学习信息,有助于提升最终性能。
●音频混合增强
音频混合增强技术通过对两段音频进行混合并取其标签的最大值作为新标签,以增加训练数据的多样性。虽然该技术并未直接提升模型的性能,但在最终方案中被用于增加模型的多样性。结合其他的数据增强方法,它有助于提高模型的稳定性和鲁棒性。
3)方案总结
该解决方案在BirdCLEF2025比赛中取得了第四名,主要通过引入softAUC损失函数和半监督学习来提高模型性能。softAUC损失函数有效解决了传统AUC损失不支持软标签的问题,减少了模型的过拟合现象。半监督学习则通过生成伪标签,丰富了训练数据,进一步提升了模型的泛化能力。此外,音频混合增强虽然没有直接提高性能,但在整体方案中增加了模型的多样性。最终,方案采用多种EfficientNet和EfficientNetV2模型,以及不同的melspectrogram参数和数据增强策略,达到了优异的表现。
5
5th_place_solution_selfdistillation_is_all_you_need
Rank:5
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583312
1)方案介绍
该解决方案旨在通过自蒸馏技术改善鸟类声音识别的准确性。数据处理过程中,使用SileroVAD检测并去除包含人声的音频片段,并对样本不足的类别进行手动筛选。模型使用SoundEventDetection(SED)模型,采用多种EfficientNet变体作为骨干网络。训练分为三个阶段:初始训练、仅使用训练音频的自蒸馏、结合train_audio和train_soundscapes的自蒸馏。通过自蒸馏及多次迭代丰富次要标签,提高了识别准确性。最终通过模型集成和后处理提高了在公共和私有排行榜上的得分。
竞赛高分方案《5th_place_solution_selfdistillation_is_all_you_need》的图片集(可左右滑动)
2)核心技巧
●数据清洗与平衡
使用SileroVAD工具检测并去除音频中的人声片段,以确保数据的纯净性。针对样本量少于30的类别,手动筛选出包含鸟叫声的片段。对于清洗后的文件,使用前60秒数据;其他文件则使用前30秒。通过复制样本量少于20的类别来平衡数据集,从而确保模型在训练过程中不会因为数据分布不均而偏向某些类别。
●自蒸馏技术
自蒸馏技术是该方案的核心,通过迭代地将模型的预测结果作为新的训练标签来丰富数据集中的次要标签。第一阶段训练的模型作为教师模型,其预测结果与原始标签混合用于后续训练。多次自蒸馏提高了模型对次要标签的识别能力,特别是那些未被标注但实际存在于数据中的鸟叫声。这个方法灵感来源于文献,并且通过多次迭代及模型权重重置来不断提高模型的表现。
●模型集成与后处理
在推理阶段,方案将模型分成不同组并应用不同的随机种子,最终通过2. 5秒的重叠推理和结果平滑技术来提高预测的稳定性。后处理过程中,虽然尝试通过对低排名类别的功率调整来优化得分,但最终未使用这一方法以避免过拟合。该方案最终的得分是通过对多个模型的加权组合得到的,这种策略与往年获奖方案类似。
3)方案总结
该方案通过数据清洗、自蒸馏技术和模型集成显著提高了鸟类声音识别的准确性。数据清洗阶段保证了音频数据的纯净性,并通过复制样本平衡数据集。自蒸馏技术通过多次迭代丰富了数据集中的次要标签,显著提高了模型的表现。最终通过多模型集成和有效的后处理技术进一步提高了模型的预测精度。这一系列的技术手段使得方案在排行榜上取得了优异的成绩,并展示了自蒸馏技术在音频识别任务中的巨大潜力。
6
6th_place_solution
Rank:6
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583381
1)方案介绍
2)核心技巧
●SED风格模型与自定义注意力块
方案中使用了SED风格的模型架构,结合了自定义的注意力块AttBlockV2。AttBlockV2通过softmax和tanh进行归一化处理,并结合非线性变换来输出clipwise_output和segmentwise_output。该注意力块设计的关键在于激活函数的选择,默认使用sigmoid,这种设置在提升模型分数上起到了显著的作用。
●伪标签技术
伪标签技术是该方案提高分数的重要手段。首先,使用单一模型的clipwise_output生成伪标签,然后在后续的训练轮次中,利用多模型的segmentwise_logit输出进行伪标签生成。由于clipwise_output的值过小,直接使用其生成的伪标签效果不佳,而使用segmentwise_logit的伪标签则显著提高了公有测试集的分数。
●模型选择与训练策略
3)方案总结
该解决方案通过结合SED风格模型与自定义注意力块,成功应对了BirdCLEF2025竞赛中的鸟类声音识别任务。通过使用伪标签技术,对训练数据进行了有效扩充,特别是利用多模型输出的segmentwise_logit生成的伪标签,使得模型在公有和私有测试集上均取得了优异的表现。方案中涉及的模型架构选择、伪标签技术的应用及其训练策略的合理搭配,共同构成了解决方案的核心优势。
7
7th_place_solution
Rank:7
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/584015
1)方案介绍
这份方案在BirdCLEF2025比赛中获得了第七名,由两种类型的CNN模型组成的集成模型实现。训练数据集包括比赛数据和Xeno-canto下载的额外音频文件。模型使用了不同的训练数据管道,包括SED风格的CNN和2021年第二名风格的CNN。方案强调了高质量伪标签的重要性,并通过多次迭代训练和伪标签的方法来改善模型性能。此外,方案还使用了一些小技巧,如后处理和测试时增强(TTA),来提高模型的鲁棒性。
2)核心技巧
●伪标签迭代训练
受BirdClef2024第三名的启发,在训练期间随机从训练音景中采样音频片段,并以50%的概率使用对应的伪标签。每个训练批次包含50%的训练音景和50%的训练音频。这个方法对所有物种模型和70个主要鸟类物种模型都有效,但对146个禽类物种模型和其他稀有136个物种模型无效。通过多次迭代训练和伪标签循环,不断提高排行榜分数。对于70个主要鸟类物种模型,伪标签必须通过`labels=labels-np. min(labels)`来归一化,使方法有效。
●音频片段提取
对于146个禽类物种模型和70个主要禽类物种模型,使用birdnet从训练音景中提取音频片段是有效的。通过birdnet对训练音景进行推断,并提取置信度大于0. 1的音频片段,这种方法显著提高了公共排行榜分数,对私有排行榜分数也有轻微提升。
●模型融合与多样性
将模型融合提升了tf_efficientnetv2_s_in21k(所有物种,70个主要鸟类物种)模型的排行榜分数,但过多模型融合会损害排行榜分数,3个模型就足够了。而对于hgnetv2模型,模型融合会破坏模型。使用原始信号模型和简单的CNN模型增加了集成模型的排行榜分数。
●测试时增强(TTA)
在测试时对音频进行简单的增强,通过将音频标准化到固定的峰值音量(0. 1),并将原始和标准化后的mel-spectrograms的模型预测进行平均,这样可以提高对音量变化的鲁棒性。
●声景水平的后处理
采用2024年第三名团队的启发式方法,通过增强每个声景片段的最大logits,进一步提高排行榜分数。使用min-max缩放每个模型的logits,并通过加权平均组合这些缩放后的logits。
3)方案总结
这份方案通过集成两种不同风格的CNN模型,结合各种数据处理和模型训练技巧,最终在BirdCLEF2025比赛中获得了第七名。方案的核心在于通过伪标签迭代训练提高模型的准确性,并使用音频片段提取来增强模型的训练数据集。模型融合与多样性策略进一步提升了集成模型的性能,测试时增强和后处理技巧则增强了模型的鲁棒性和排行榜分数。整体而言,该方案展示了在音频分类任务中通过多种技术手段的集成和优化,可以显著提升模型的性能。
8
8th_place_solution
Rank:8
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583324
1)方案介绍
该方案通过使用两个SED模型与一个CNN模型来解决BirdClef2025比赛问题,核心改进包括伪标签、知识蒸馏和filteraug数据增强。此外,方案还采用了预测平滑、加权BCE、硬Mixup以及TTA等技术。方案首先使用2021至2024年的数据对SED模型进行预训练,并通过一系列技术逐步提高性能,最终通过模型集成获得高分。
2)核心技巧
●伪标签
方案通过将未标记的声音景观分割为10秒的片段,使用训练好的模型生成每个片段的标签。在选择阈值时,经过多次实验,最终选择0. 4作为阈值,以平衡假阴性和假阳性之间的关系。
●MLD知识蒸馏
该技术按照去年的方案进行,并没有引入新的方法。通过知识蒸馏,使用未标记的数据进一步提升模型性能。
●硬Mixup
传统的Mixup方法是将数据按比例混合并计算损失,而硬Mixup则修改了损失计算公式:数据混合后,损失为混合标签的损失。这种修改有助于更好地捕捉数据中的复杂关系。
●在线伪标签和帧级别监督
除了离线生成标签外,方案还在训练过程中在线生成伪标签(包括片段级和帧级预测),并用来计算损失。这种方法结合了离线和在线标签的优势,提高了模型的鲁棒性。
●双向知识蒸馏
参考BirdClef2023年的方案,使用双向知识蒸馏技术,通过相互学习不同模型之间的知识,提升模型的整体性能。
3)方案总结
这份方案在BirdClef2025比赛中获得了第八名,主要通过结合多个模型(两个SED模型和一个CNN模型)和一系列先进的技术(如伪标签、知识蒸馏、硬Mixup等)来提升模型的性能。方案中重视模型的多样性,通过模型集成达到了更好的效果。最后,通过对比不同的后处理技术,选择了性能最优的组合来提交。虽然有些选择可能导致略微的分数差异,但整体策略是合理且有效的。
9
9th_place_solution
Rank:9
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583365
1)方案介绍
这项解决方案在BirdCLEF2025竞赛中获得第9名。作者仅使用了2025年的train_audio和train_soundscapes数据集进行训练。数据预处理中,移除了50%的人声,因为完全去除人声会影响模型性能。在训练阶段,采用了两阶段模型策略。第一阶段使用sed模型和cnn模型,第二阶段通过生成伪标签进一步提升模型性能。在推理阶段,采用了10秒片段和2秒窗口长度进行TTA,所有模型都转化为onnx格式进行推理。最终,通过对不同随机种子生成的模型进行集成,获得了较高的评估分数。
2)核心技巧
●数据预处理和采样
在数据预处理中,选择去除50%的人声,而不是全部去除,以此来提升模型性能。在采样策略上,使用了rms采样代替随机采样,这被发现能更好地提高模型的性能。rms采样是一种基于信号能量的采样方法,能够更好地捕捉音频中的有效信息。
●两阶段模型训练策略
在模型训练中,采用了两阶段的策略。第一阶段使用了sed模型和cnn模型,分别采用FocalBCE和CE+BCE损失函数进行训练。在第二阶段,通过第一阶段的模型生成伪标签,并使用这些标签进行再训练。这种两阶段策略有效地提高了模型的鲁棒性和精度,特别是在伪标签的帮助下,第二阶段的训练获得了0. 02以上的提升。
●数据增强技术
●推理和时间增强(TTA)
在推理阶段,采用了10秒的音频片段和2秒的窗口长度进行时间增强(TTA),以此来提高模型的稳定性和预测准确性。所有模型在推理前都被转换为onnx格式,以提高推理效率。此外,通过使用平滑预测和调整频率范围等后处理策略,进一步优化了最终的预测结果。
3)方案总结
该解决方案通过两阶段的模型训练策略有效地提升了BirdCLEF2025竞赛中的模型性能。在数据预处理和采样、数据增强、推理及后处理等方面进行了多方面的优化。特别是通过使用伪标签和多样化的数据增强技术,显著提高了模型的泛化能力。最终,方案通过集成不同随机种子生成的模型,获得了高分数。在整个过程中,作者还发现了一些在竞赛中未能充分验证但在私有评估中有效的想法,为未来的比赛提供了参考。
10
10th_solution
Rank:10
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583310
1)方案介绍
本方案通过建立基线模型、领域适应与伪标签数据、数据处理、使用不同的Mel谱参数、采用改进的损失函数和后处理技术,来提高鸟类识别的准确性。首先,采用SED+CEloss模型作为基线,并在train_soundscapes上生成软标签。通过高低阈值筛选出有信心的正负样本进行二次训练,形成pp_data_clean。其次,清理数据集以去除人声,并使用已训练的模型移除不包含目标物种的片段。在Mel谱参数上,使用多种分辨率和适当的频率范围。损失函数上,结合传统CEloss和自定义的惩罚策略以减少噪声预测。最后,通过卷积模型的集成和后处理平滑技术,进一步提高了模型性能。
2)核心技巧
●领域适应与伪标签数据
为了提升模型性能,方案利用未标记的数据train_soundscapes。通过stage1模型生成软标签,并应用高低阈值筛选出可信的正负样本,将这些样本加入到train_audio中进行再训练,生成stage2_models。这种迭代过程能够提取出较为干净的伪标签数据(pp_data_clean)。这一技术通过利用未标记数据的潜力显著提高了模型的泛化能力。
●改进的损失函数
为了应对标准CEloss带来的噪声预测问题,方案中引入了一个混合损失函数。通过对负样本分数的惩罚策略,对置信度较低的正样本也进行惩罚,以达到稳定训练的效果。具体实现上,引入了负样本的惩罚项,并通过排序和选择方式计算额外的惩罚损失,结合到整体损失中。这种方法在减少误报上表现出色。
●多分辨率Mel谱参数
该方案在数据预处理上使用了不同分辨率的Mel谱图,包括384x160、384x256、320x192、320x160等。通过调整fmin和fmax参数,以及选择合适的n_fft值,提取不同频率范围的音频特征。这种多样化的特征提取方式增加了模型的鲁棒性,有助于更好地捕捉音频信号中的细节信息。
●后处理平滑技术
为了提高预测的稳定性,方案中使用了平滑核对预测结果进行平滑处理,并引入了平均系数调整。通过调整alpha值,根据参考频率动态改变每个类别的平滑参数。这种后处理技术可以有效减少预测中的噪声,提高模型在测试集上的表现。
3)方案总结
本解决方案通过结合多种先进技术,旨在提高鸟类声音识别的准确性。首先,通过基础模型的建立和领域适应方法,充分利用未标记数据,提取出高质量的伪标签数据。其次,采用多种分辨率的Mel谱图参数,以提高特征提取的细致程度。在损失函数上,融合了额外的惩罚策略,减少噪声预测。最后,通过后处理技术的应用,进一步提高了模型的稳定性和准确性。整合多种模型的集成方法,使得最终模型在公共和私有测试集上均表现出色,显示出该方案在解决此类问题上的强大能力。
11
11th_solution
Rank:11
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583384
1)方案介绍
该解决方案通过扩展训练数据集和使用先进的模型架构来改进分类精度。从206个类别扩展至316个类别,并通过选择样本较少的类别来构建数据集。方案使用tf_efficientnetv2_b3和tf_efficientnetv2_s作为基础模型,并采用交叉熵损失函数(celoss)来提升模型性能。通过熵值筛选策略选择高质量的伪标签,将其与真实数据集结合进行训练。最后,通过集成多模型和后处理方法进一步优化模型表现。
2)核心技巧
●数据处理与扩展
通过扩展训练数据集以覆盖更多类别,从206个类别扩展至316个类别。选择样本较少的类别以构建本地交叉验证(cv),尽管这种cv策略无效,但混合训练提升了排行榜(lb)分数,因此被保留。最大样本大小为500个,对于小于10个样本的类别进行上采样。
●模型架构与训练
使用基于tf_efficientnetv2_b3和tf_efficientnetv2_s的模型架构,这些模型在10秒的音频片段上进行训练。以交叉熵损失函数(celoss)替代BCE损失函数,实现多个模型的性能从0. 83提升至0.88。
●伪标签与损失函数
通过基于熵值的筛选策略选择高质量的伪标签,将这些标签与真实数据集结合用于模型训练。在损失计算中,伪标签部分的损失被下调权重处理。
●集成学习与后处理
通过集成5个v2b3模型和1个v2s模型来增强模型的稳定性和性能。后处理方法采用与2024年排名第六方案相同的平滑方法,进一步提高了最终的分数。
3)方案总结
该解决方案通过扩展数据集和使用高效的模型架构,显著提升了模型在鸟类声音分类任务中的表现。通过选择性的数据扩展和使用伪标签技术,模型得以在更多类别上进行有效训练。同时,使用基于tf_efficientnetv2的模型架构结合交叉熵损失函数,取得了显著的性能提升。最后,通过集成多模型和后处理,进一步优化了模型性能,从而在排行榜上取得了优异的成绩。
12
12th_place_solution
Rank:12
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583592
1)方案介绍
该解决方案使用了一种多模型集成的方法,结合了三种不同的管道类型和总共12个通过OpenVINO转换的SED模型。训练使用了所有的train_audio(监督)数据和train_soundscapes(伪标签)数据。主要的技术手段包括在频率轴上应用注意力机制、使用CheckpointSoups来平均权重、EMA(指数移动平均)和加权批采样器。数据增强的方法包括对原始波形和MelSpectrogram进行多种处理如Gain、GaussianNoise、MixUp等。最终提交的模型是由多个模型集成而成,取得了PublicLB0. 904和PrivateLB0.918的成绩。
2)核心技巧
●多模型集成与OpenVINO
解决方案通过集成多种模型提高了预测的准确性和鲁棒性。使用了12个通过OpenVINO转换的SED模型来加速推理过程。模型包括mixnet_s、regnety_008等,这些模型在不同的训练阶段使用不同的伪标签来提高性能。此外,通过集成三种不同的管道类型,能够有效地利用不同模型的优点,提升整体表现。
●伪标签与迭代训练
在Stage1中使用一个模型集成来为train_soundscapes生成伪标签,这些标签用于后续的迭代训练。在Stage2中,利用这些伪标签进一步训练模型,并通过多个迭代来改善模型的性能。特别是,通过对每批数据进行混合处理(40%概率混合伪标签音频),有效地增强了模型的泛化能力。
●CheckpointSoups与EMA
为了避免在训练过程中过早停止以及缓解稀有类的宏AUC不稳定性,使用CheckpointSoups平均了第30到50个epoch的模型权重。此外,采用EMA(指数移动平均,衰减系数为0. 999)来平滑模型的权重更新,从而提高模型的稳定性和性能。
●数据增强策略
●少数类子集训练与后处理
为解决少数类样本不足的问题,方案中借鉴了BirdCLEF2024的方案,通过冻结所有类预训练的模型主干,仅对少数类的SED头进行训练。在后处理阶段,应用了加权移动平均和文件级别的平均概率,这一策略使得公共和私有排行榜的分数提高了0. 07到0.08。
3)方案总结
该方案通过多模型集成、OpenVINO加速推理、伪标签迭代训练、数据增强以及少数类子集训练等多种技术手段,取得了BirdCLEF2025竞赛的第12名。集成了多种不同的模型和管道,结合了历史竞赛中的优秀方案,在没有本地验证的情况下,充分利用了所有可用数据。通过使用CheckpointSoups和EMA,解决了训练中可能出现的不稳定性问题。数据增强策略有效提高了模型的鲁棒性,而少数类的特别处理和后处理策略则进一步提升了模型对稀有类的识别能力。
13
13rd_solution_for_birdclef+_2025
Rank:13
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583457
1)方案介绍
该方案参与了BirdCLEF2025竞赛,针对训练数据较为干净而推理阶段数据较为“脏”的问题,着重解决了领域偏移的问题。核心策略包括使用2023年第二名的代码训练基础的SED模型,并通过移除人声、应用sumix替代mixup等方法提高模型性能。之后通过伪标签数据增强训练集,采用seresnext26t和v2_b3等模型进行集成,虽然没有显著提升,但结合罕见物种的模型训练,最终在评估指标上获得了显著提升。整个方案分为四个步骤,每个步骤都有针对性的提升手段。
2)核心技巧
●基础模型训练和数据清洗
使用2023年第二名的代码作为基础,训练SED模型。通过移除人声和重新计算时长,以及在原始音频信号上应用sumix替代mixup等方法,提升了模型的基础性能。Koki对训练数据进行清洗,进一步提升了模型在公共排行榜上的表现。这些措施旨在减少训练数据和测试数据分布之间的差距,从而提高模型的泛化能力。
●伪标签数据增强
在基础模型的基础上,通过伪标签方法生成5秒的音频片段,并随机采样加入训练音频中,大大增强了训练集的数据量和多样性。这一策略有效地提高了模型的鲁棒性和评估分数,方法简单但效果显著,充分利用了未标注数据的潜在信息。
●模型集成
尝试了多种模型结构以寻找最佳集成方案,最终选择了seresnext26t和v2_b3进行集成。v2_b3与v2s具有相似的模型结构,因此在集成时进一步提升了评估分数。虽然尝试了多个backbone,但v2s仍是最优选择,说明其模型结构在该任务上的有效性。
●罕见物种模型训练
参考前24名中的6个顶级方案,训练特定罕见物种的模型,并将其加入最终方案中,显著提升了评估分数。这一策略借鉴了其他高排名方案的成功经验,专注于解决长尾分布的问题,增加了模型对罕见物种的识别能力。
3)方案总结
该方案通过一系列精细化的数据处理和模型优化策略,成功解决了BirdCLEF2025竞赛中的领域偏移问题。方案分为四个步骤:基础模型训练和数据清洗、伪标签数据增强、模型集成以及罕见物种模型训练。在每个步骤中,团队都针对性地应用了不同的策略来提高模型性能,如移除人声、应用sumix、伪标签数据增强等。在模型集成方面,虽然尝试了多种backbone,但最终选择了seresnext26t和v2_b3进行集成,结合罕见物种模型的训练,显著提升了最终评估指标。整个方案体现了对问题的深刻理解和对解决策略的创新应用,为竞赛提供了有价值的解决思路。
14
14th_place_solution
Rank:14
URL:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583344
1)方案介绍
本方案采用SED架构,并在随机10秒音频段上进行训练。最终的集成模型仅依赖于tf_efficientnetv2_m. in21k,并通过略有不同的配置进行训练。训练管道包括两个阶段:第一阶段基于训练音频进行预训练,第二阶段进行知识蒸馏,结合了全音频的平均伪标签和来自教师模型的块级伪标签。在特征提取上,使用了特定的melspectrogram设置,并进行了多种数据增强操作。最终提交是三个tf_efficientnetv2_m. in21k检查点的简单平均,并通过邻近剪辑进行平滑处理。为加速推理,所有模型均转换为OpenVINO格式。
2)核心技巧
●知识蒸馏
在第二阶段,通过结合训练音频和训练音景进行知识蒸馏。具体方法是结合全音频的平均伪标签和来自教师模型的10秒块级伪标签,分别加权为0. 3和0.7。进行多轮蒸馏,每轮基于排行榜改进选择最佳教师模型。这一方法的目的在于利用伪标签提升模型的泛化能力,从而提高评估分数。
●数据增强
在数据增强方面,方案对波形和频谱图进行了多种操作。在波形上应用了sumix(p=1),在频谱图上应用了mixup(p=1)、3个时间/频率掩码(p=0. 5)、水平翻转(p=0. 5)和随机擦除(p=0. 5)。这些增强技术旨在增加数据的多样性,提高模型的鲁棒性。
●模型集成与平滑
最终提交通过将三个tf_efficientnetv2_m. in21k检查点进行简单平均来实现,随后通过邻近剪辑进行平滑处理,权重为0. 1、0. 8和0.1。此方法在于利用多个模型的预测结果,降低单个模型可能带来的预测偏差,从而提高整体模型的稳定性和准确性。
●OpenVINO加速推理
为了加速推理过程,所有模型都转换为OpenVINO格式。OpenVINO是Intel提供的一个工具集,能够优化深度学习模型的性能,特别是在边缘设备上。这一转换使得模型可以在不同硬件平台上更高效地运行,满足实际应用中的实时需求。
3)方案总结
该方案在BirdCLEF-2025比赛中获得第14名,采用SED架构并在随机10秒音频段上进行训练,核心方法为知识蒸馏和多种数据增强技术。通过结合训练音频和音景进行多轮知识蒸馏,提升了模型的泛化能力。最终提交通过多个模型的集成和平滑处理来提高预测的稳定性和准确性,并通过OpenVINO加速推理过程。此方案在模型的训练与推理上均进行了优化,尤其在知识蒸馏环节,通过多轮选择最佳教师模型,使得模型在Leaderboard上的表现得以不断提升。
方案出处汇总
[3]3rd_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583477
[4]4th_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/584034
[6]6th_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583381
[7]7th_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/584015
[8]8th_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583324
[9]9th_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583365
[10]10th_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583310
[11]11th_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583384
[12]12th_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583592
[14]14th_place_solution:https ://www. kaggle.com/competitions/birdclef-2025/discussion/583344