Kaggle竞赛复盘: BYU - Locating Bacterial Flagellar Motors 2025


Kaggle竞赛复盘: BYU - Locating Bacterial Flagellar Motors 2025

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

↑↑↑关注后\“星标\“kaggle竞赛宝典
kaggle竞赛宝典
作者:宅小K
华为、百度首次开源大模型!
竞赛名称
BYU-LocatingBacterialFlagellarMotors2025
Helplocateflagellarmotorsinthree-dimensionalreconstructionsofbacteria.
竞赛关键词
图像处理、目标定位、三维重建、噪声处理
竞赛组织者
BrighamYoungUniversity
竞赛起始时间
Mar6,2025-Jun5,2025
竞赛总览
本次比赛的目标是开发一种算法,以识别细菌3D重建中鞭毛马达的存在和位置。将这一传统的手动任务自动化将加速大分子复合物的研究,这有助于回答分子生物学中的基本问题,改善药物开发,并推进合成生物学的发展。
竞赛网址
https ://www. kaggle.com/competitions/byu-locating-bacterial-flagellar-motors-2025
竞赛描述
Introduction
鞭毛马达(flagellarmotor)是一种分子机器,促进了许多微生物的运动,在从趋化性到致病性的过程中起着关键作用。低温电子断层扫描(cryo-ET)使我们能够在接近天然的条件下对这些纳米机器进行成像。但在这些三维重建(断层图)中识别鞭毛马达是劳动密集型的。诸如信噪比低、马达方向多变以及拥挤的细胞内环境的复杂性等因素使自动识别变得复杂。cryo-ET研究受限于人类参与的瓶颈。在本次比赛中,您的任务是开发一种图像处理算法,以识别鞭毛马达的位置(如果存在的话)。
断层图像是一种从一系列二维投影图像重建而成的三维图像。本次挑战中的图像是细菌的断层图像,这些细菌被快速冷冻在冰中,从而在成像过程中保留了细菌的分子结构。该视频(https ://www. cellstructureatlas.org/6-2-flagellar-motor. html)展示了断层图像的切片,突出显示了细菌细胞的不同特征,包括鞭毛马达。随附的文本描述了该马达的目的和功能。
评估指标
EvaluationMetric
提交将使用-score和欧几里得距离的组合进行评估。目标是确定断层图像中是否包含电机,如果包含,则准确预测其位置。
设真实值为,预测位置为。欧几里得距离决定分类:
-真阳性(TP):如果,则预测在阈值内。
-假阴性(FN):如果,则预测在阈值外。
这里Angstroms。
-score平衡了精确率和召回率,当时更重视召回率,而当时更重视精确率(在我们的情况下,我们使用,因此我们对召回率的权重大于精确率)。其定义为:
该指标确保在最终得分中同时考虑预测鞭毛马达的存在性和位置准确性。
SubmissionFormat
您的提交文件应为一个CSV文件,其中每个tomogram在测试集中对应一行。重要提示:如果您预测不存在motor,请将Motoraxis0、Motoraxis1、Motoraxis2设置为-1。

前排方案分享
1
1st_place__3d_unet_+_quantile_thresholding
Rank:1

1)方案介绍
该解决方案使用3DU-Net模型,结合大量数据增强和辅助损失函数进行训练。在推理过程中,通过最大预测像素值对每个tomogram进行排序,使用分位数阈值法判断电机的存在。数据集通过对原始tomogram进行预处理和增强得到,尤其是使用Napari手动添加缺失的电机。模型采用预训练的ResNet200作为编码器,结合平滑BCE损失和多种数据增强策略,显著提高了模型的鲁棒性和预测精度。最终通过8个种子集成模型进行预测。
竞赛高分方案《1st_place__3d_unet_+quantile_thresholding》的图片集(可左右滑动)
2)核心技巧
●3DU-Net模型
使用3DU-Net作为模型结构,编码器部分采用预训练的ResNet200。这种设计旨在利用ResNet的强大特征提取能力,结合U-Net的分割优势,适用于三维数据的处理。解码器部分采用单一反卷积块用于分割头前的处理。通过这种设计,模型能够有效捕捉数据中的复杂特征,提高分割精度。
●分位数阈值法
在推理阶段,通过对每个tomogram的最大预测像素值进行排序,并应用分位数阈值法来判断电机的存在。这种方法替代了固定阈值,因为后者在该任务中表现不稳定。通过调整分位数阈值,该方法在公共和私有排行榜上均表现出色,证明了其在不同数据集上的鲁棒性。
●数据增强
为了避免过拟合,方案中使用了大量的数据增强技术,包括Mixup、缩放、旋转、轴翻转、轴交换、粗略丢弃、颜色反转和简单的Cutmix。通过在GPU上应用这些增强策略,尤其是重缩放,极大地提高了训练效率和模型的泛化能力。这些增强技术帮助模型在长达400个epoch的训练过程中保持稳定表现。
●辅助损失函数
损失函数采用平滑BCE损失,结合多个贡献项,包括主分割头、深度监督头和最大池化损失。最大池化损失通过鼓励电机区域的高概率输出,同时减少定位误差的惩罚,提高了模型在电机位置预测上的精度。这种多损失组合策略加强了模型的鲁棒性和预测准确性。
3)方案总结
该解决方案通过使用3DU-Net结合预训练的ResNet200模型,辅以大量数据增强和辅助损失函数,有效应对电机定位任务中的挑战。通过分位数阈值法代替传统的固定阈值法,增强了模型预测的稳定性和准确性。数据增强技术的广泛应用,不仅防止了过拟合,还提高了模型的泛化能力。最终,方案通过多种技术的整合,在公共和私有排行榜上均取得了优异的成绩,显示了其在处理复杂三维数据任务上的优势。
2
2nd_place_solution__3d_nnunet
+_blob_regression
Rank:2

1)方案介绍
该解决方案通过将电机定位任务公式化为blob回归,并使用TopK(20%)BCE损失进行优化。模型基于nnU-Net框架进行构建,是一个3DU-Net模型,具有残差编码器,并从头训练。数据使用了比赛数据、Bartley的数据以及555个额外的公共断层图。推理使用单一模型和轻量级测试时间增强(镜像)。模型在公共和私有排行榜上分别取得了0. 86734和0.87656的得分,尽管在得分上与第一名相同,但由于提交时间较晚而获得第二名。
竞赛高分方案《2nd_place_solution__3d_nnunet_+_blob_regression》的图片集(可左右滑动)
2)核心技巧
●blob回归
blob回归是一种常用于地标检测的标准方法。在本方案中,nnU-Net用于语义分割,地面实况以实例分割图的形式存储,其中每个电机用一个具有唯一整数标签的球体(r=6像素)进行编码。通过数据加载和增强管道,并在最后注入自定义转换,将每个电机实例转换为blob。使用EDTblob(通过欧几里得距离变换的3D球体)比高斯blob在中心更尖锐。
●数据增强
在训练过程中应用了重度的数据增强策略,包括随机强度剪裁、旋转和缩放、随机90度旋转、对比度调整、模拟低分辨率、伽马调整、镜像等。这些操作有助于增加模型的泛化能力,并通过引入多样性来提升模型的性能。
●阈值调优
在内部交叉验证时,计算所有电机检测结果,并有效扫描以找到最佳阈值,从而允许在各自的最佳状态下比较模型并确定阈值的稳定性。在最终模型优化时,使用5-10次提交确定最佳阈值。最终模型的理想公共和私有排行榜得分阈值为0. 15。
●数据处理与纠正
使用了比赛数据、Bartley的数据和555个额外的公共断层图。对数据进行了手动纠正和预处理,以确保训练集尽可能准确。通过对预测的电机实例进行实例分割图编码和手动检查,纠正常见的注释错误,如遗漏电机或错误注释。
●nnU-Net框架的使用
nnU-Net是3D医学图像分割的领先框架,具有自动化的数据处理和模型构建流程,在此方案中被用于blob回归任务。nnU-Net的设计使其能够处理复杂的3D数据,并实现高效的训练和推理流程。
3)方案总结
该方案通过结合blob回归与nnU-Net框架,成功地在BYU定位细菌鞭毛电机挑战中取得了第二名。利用TopKBCE损失优化blob回归,以实现电机的精确定位。数据集经过手动纠正并扩充,以增加多样性并提高训练效果。通过重度的数据增强和有效的阈值调优策略,模型在排行榜上取得了与第一名相同的成绩。尽管作者团队在生物领域经验有限,但通过系统的模型设计与优化,他们成功地处理了3D图像数据并实现了高效的推理。
3
3rd_place_solution_3d2d_unet_with_gaussian_heatmap_and_wbf
Rank:3

1)方案介绍
本方案采用了3D/2. 5D/2DUNet模型结合高斯热图和加权框融合(WBF)的方法。数据处理方面,使用滑动窗口技术将3D体数据切分为224x448x448的patch,并通过重采样确保体素间距为16. 0A。模型训练过程中,使用了大量的数据增强手段,以提高模型对域分布变化的鲁棒性。此外,结合外部数据集进行训练,并采用伪标签和人工审查,提高了模型的整体性能。最终方案通过加权框融合结合多个模型的预测结果,提升了整体的评估分数。
竞赛高分方案《3rd_place_solution_3d2d_unet_with_gaussian_heatmap_and_wbf》的图片集(可左右滑动)
2)核心技巧
●3D/2. 5D/2DUNet模型
方案中使用了3D、2. 5D和2D的UNet模型进行特征提取和热图预测。其中3D模型使用了不同的编码器(如3DResnext50和3DDensenet121),并通过简单FPNNeck来融合低层次特征。2. 5D编码器通过在深度方向上滑动并将其视为批量处理,结合FPN和3DUNet解码器进行预测。2D模型则利用了2D图像的切片进行预测,使用的编码器包括EfficientNet和ConvNeXT等。
●高斯热图和不确定性建模
在目标热图生成中,采用了高斯热图的方式,并根据体素间距对sigma值进行了动态调整。通过这种方式,模型能够更好地模拟目标的不确定性,从而提高对目标位置的预测精度。3D热图的sigma被固定为200A,以适应真实场景中的尺度变化。
●数据增强和伪标签
方案中使用了大量的数据增强技术,包括旋转、缩放、对比度调整和随机噪声等,以便在训练过程中提高模型的鲁棒性。此外,通过伪标签技术和人工审查,进一步利用外部数据集提高了模型的性能。这一过程包括对模型预测结果的人工审查和标签修正,从而提高训练数据的准确性。
●加权框融合(WBF)
在后处理阶段,采用加权框融合(WBF)来结合多个模型的预测结果。这种方法通过对多个预测框进行加权平均,能够有效减少单个模型预测结果中的噪声,提高最终结果的稳定性和准确性。每个预测框的置信度被用作权重,从而提高了整体的召回率。
3)方案总结
该方案通过3D/2. 5D/2DUNet模型结合高斯热图和加权框融合技术,在数据处理、模型结构和训练过程中进行了多方面的优化。通过使用3D和2D模型的结合,方案能够有效捕捉全局和局部的上下文信息。大量的数据增强和伪标签技术使得模型在面对域变化时具有更好的鲁棒性和泛化能力。最终,通过加权框融合将多个模型的预测结果进行整合,显著提高了评估指标的分数。整体来看,该方案在数据预处理、模型训练和后处理阶段都进行了全面的技术整合和优化。
4
4th_place_simple_resnet18_classification
Rank:4

1)方案介绍
该方案使用了一种简单的3D-ResNet18分类器与MONAI的目标检测模型的集成方法。数据预处理涉及将3D图像缩放到固定的体素大小,并进行多种数据增强操作以防止过拟合。模型方面,从3D-UNET简化到仅使用ResNet3D编码器,去掉了解码器部分。训练时使用CrossEntropyLoss进行分类,并使用滑动窗口方法进行推理。该方法在公共排行榜上获得了第五名,表现良好。
竞赛高分方案《4th_place_simple_resnet18_classification》的图片集(可左右滑动)
2)核心技巧
●3D-ResNet18分类器与目标检测模型的集成
解决方案中,作者将简单的3D-ResNet18分类器与来自MONAI的目标检测模型进行集成。ResNet18被用作分类器,处理输入的图像块,并进行像素级别的特征提取,通过一个简单的全连接层进行二元预测。这种方法去掉了解码器部分,利用ResNet3D的编码器来解决问题。该方法有效地简化了模型结构,并在排行榜上获得了较高的分数。
●数据预处理与增强
数据预处理方面,图像被缩放到固定体素大小,并保存为int8格式。增强手段包括使用MONAI库中提供的RandomCrop、Flip、Scale和Rotation等方法。此外,定制化的MixUp实现被用来防止过拟合,确保在混合的图像块中不超过一个马达样本。正样本被过采样,使其在训练数据中的占比达到12. 5%。这些措施有效地提高了模型的泛化能力。
●自定义损失函数
作者实现了一种自定义损失函数,通过将目标缩小32倍,并与logits进行比较,以计算DenseCrossEntropy1D损失。这种方法通过考虑类别平衡问题,提高了模型在训练过程中的稳定性,并增强了模型的分类能力,尤其是在稀有类别上的表现。
●推理过程中的滑动窗口方法
推理时,作者采用了滑动窗口方法,重叠度为0. 5。通过对每个窗口进行预测,再选择预测值最大的75个类来确定马达的最终位置。这种方法不仅提高了推理的精度,还确保了模型的效率,适合大规模数据处理。
3)方案总结
该解决方案通过简单的3D-ResNet18分类器与MONAI目标检测模型的集成,实现了对细菌鞭毛马达的定位。其核心在于合理的数据预处理与增强策略,简化的模型结构,以及独特的自定义损失函数。推理过程中使用滑动窗口方法确保了结果的精确性和效率。尽管模型结构简单,但其在公共排行榜上取得了较高分数,显示了在处理目标检测任务时的有效性。该方案的成功也归因于对数据增强和模型简化的巧妙使用,以及对比赛指标的深刻理解。
5
4th_place_solution_(detection_part)
Rank:4

1)方案介绍
本解决方案为BYU-LocatingBacterialFlagellarMotors2025比赛中的检测与融合部分。作者使用了一种混合2. 5D(2D编码器/3D解码器)检测模型,最终的集成模型包含4个检查点(4个folds)。输入的数据体积形状为[D,H,W],模型首先通过nn. Conv3d以步长4将输入的深度减少到D/4。然后,这些特征图通过2D编码器maxxvit_rmlp_small_rw_256. sw_in1k获取最后的特征图,并通过3D-CNN解码器进一步减少输出特征图。最后,特征图传递给目标检测头以预测logits和偏移图。模型使用自定义损失函数进行训练,该函数模仿PP-Yolo损失函数并进行了3D检测的修改。通过NVidiaTensorRT进行模型推理加速,实现了比PyTorch运行时快200%以上的速度提升,并利用两块T4GPU并行运行预测,总检测时间约为5小时。
竞赛高分方案《4th_place_solution_(detection_part)》的图片集(可左右滑动)
2)核心技巧
●混合2. 5D检测模型
本方案采用了混合2. 5D(2D编码器/3D解码器)模型,通过初始3D卷积层将输入深度减少,以便使用2D编码器提取特征。2D编码器选择了maxxvit_rmlp_small_rw_256. sw_in1k,因其包含ViT模块,能够有效捕捉数据中的长距离依赖关系,这对于检测细小的细菌鞭毛电机结构非常重要。然后通过3D解码器,将特征图进行降维并整合空间信息,形成可以用于对象检测的3D表示。
●数据增强与训练策略
在训练过程中,采用了4折分层组划分,数据增强包括随机翻转、旋转、亮度对比度调整、尺度抖动和Mixup等技术。Mixup技术在该比赛中显著提高了训练速度,使得在25个epoch内达到与未使用Mixup需50个epoch相同的准确性。每个训练epoch使用固定数量的随机裁剪,并针对每个电机实例进行固定数量的裁剪。此外,输入分辨率为0. 5倍,输入体积大小为128x256x256像素。
●推理加速与模型融合
通过NVidiaTensorRT进行模型推理加速,使推理速度比PyTorch运行时提高200%以上。模型融合采用了’赢家通吃’与’双Otsu’方法,先计算每个方案的分数的正则化排名,然后选择排名最高的方案的坐标和分数。’双Otsu’方法进一步抑制负预测,通过计算每个方案的Otsu阈值并二值化分数,找出最可能的负预测并进行处理。这种融合策略有效提高了最终得分。
3)方案总结
本解决方案针对BYU-LocatingBacterialFlagellarMotors2025比赛,提出了一种混合2. 5D检测模型。通过初始3D卷积和2D编码器提取特征,再通过3D解码器形成用于检测的3D表示。使用多种数据增强技术和有效的训练策略,包括Mixup和分层组划分,显著提升了模型的准确性和训练效率。通过NVidiaTensorRT实现推理加速,并采用’赢家通吃’与’双Otsu’模型融合策略,进一步优化了最终预测结果。该方案在比赛中取得了优异的表现,展示了创新的检测与融合方法的有效性。
6
[9_place]_recall_rotate_and_zoom_in
Rank:9

1)方案介绍
该解决方案通过两阶段的检测流水线来定位细菌鞭毛马达。第一阶段使用低阈值召回尽可能多的候选者,第二阶段使用适当的阈值进行最终判定。模型训练涉及YOLOv8和YOLO11,使用了外部和竞赛数据的混合。为了提高检测的准确性和鲁棒性,使用了多模型集成和测试时增强(TTA)。在推理过程中,还采用了绕过逻辑和中点推理等技术来优化效率。
2)核心技巧
●两阶段检测流水线
这个方案的核心是两阶段检测流水线。第一阶段着重于生成候选位置,使用标准模型集成或SAHI(SlicedAidedHyperInference)方法来识别初步的潜在马达位置。第二阶段则是对候选位置进行进一步过滤和验证。在第一阶段,如果候选位置的置信度足够高,就可以直接跳过第二阶段,从而提高效率。
●模型集成与测试时增强(TTA)
方案中使用了模型集成技术,通过组合多个模型或同一模型的不同配置来增强检测的准确性和鲁棒性。这种方法应用于两个阶段的检测过程中。此外,考虑到测试数据集中图像大小的巨大差异,使用了测试时增强技术,通过多分辨率推理来捕获不同尺度的特征。
●绕过逻辑与中点推理
如果第一阶段生成的检测结果具有很高的置信度,则可以跳过第二阶段,从而提高效率。绕过的置信阈值设定为0. 6。此外,如果最顶端的两个检测结果非常接近且置信度高,则在它们的几何中点生成一个新检测点,并略微提高其置信度。
●SAHI与旋转缩放细化
在第一阶段,如果没有绕过,使用SAHI方法将大幅面图像切割成不重叠的小块进行推理,随后合并结果以增强多尺度检测。在第二阶段,采用旋转缩放细化技术,即围绕目标旋转并放大裁剪区域,并用平均像素值填充原始图像以便更准确地定位目标。
3)方案总结
该方案通过两阶段检测流水线来提高细菌鞭毛马达定位的准确性和效率。在训练过程中,使用YOLOv8和YOLO11模型,并结合外部数据和竞赛数据进行训练。为了增强检测的鲁棒性,采用了多模型集成和测试时增强技术。通过绕过逻辑和中点推理提高推理效率,并通过SAHI和旋转缩放细化技术来增强多尺度和精细化检测能力。整体而言,该方案在准确性与效率之间实现了良好的平衡,最终获得了比赛的金牌。
7
13th_place_solution__25d_yolo_ensemble_with_dbscan
Rank:13

1)方案介绍
该解决方案通过集成6个2. 5DYOLO模型并结合DBSCAN进行后处理,成功在比赛中取得了第13名的好成绩。作者使用了包含一个或多个电机的tomograms图像作为标注数据,并对数据进行了人工纠正。数据预处理主要包括2nd和98th百分位数的归一化。在训练过程中,作者选择了6个不同版本的YOLO模型,并对模型的默认数据增强进行了修改。训练参数包括50个epochs、batchsize在8到16之间、输入图像大小960等。作者没有使用外部数据,尽管这可能会提高结果。后处理使用DBSCAN对检测结果进行集成,并设置了合适的参数以优化性能。
2)核心技巧
●2. 5DYOLO模型集成
作者设计了一种使用6个2. 5DYOLO模型进行集成的方法,每个模型在不同的切片上运行。这种方法通过在R和B通道中使用切片z-2和z+2,以及在训练过程中使用z-1和z+1,优化了模型的输入。作者选择的YOLO版本为8s、9s、10m、2x11s、11m,这些模型在不同分辨率的tomograms上进行了训练。集成模型的选择和训练参数设定是基于每个模型在单独运行时的性能表现。
●DBSCAN进行后处理
在后处理阶段,作者使用DBSCAN对每个模型的检测结果进行集成。这种方法通过设置适当的`eps`和`min_samples`参数来聚类检测结果,从而提高检测的准确性。作者注意到沿x或y轴延伸的簇更可能是假阳性,而沿z轴延伸的簇通常是有效检测结果。DBSCAN的引入有效减少了误报,并提高了最终成绩。
●数据标注和预处理
作者对数据进行了细致的标注和预处理。标注时,作者使用了包含一个或多个电机的tomograms图像,并通过运行推理管道和人工检查纠正了部分错误标注。预处理流程包括2nd和98th百分位数的归一化处理,这帮助提高了模型的训练效果。虽然作者没有使用外部数据,但通过对数据的仔细处理,仍然取得了良好的模型性能。
3)方案总结
该解决方案通过集成多个2. 5DYOLO模型并结合DBSCAN进行后处理,实现了对细菌鞭毛电机定位的良好效果。作者在数据标注和预处理上下了不少功夫,通过纠正错误标注和百分位数归一化提高数据质量。训练过程中,作者选择了不同版本的YOLO模型,调整了训练参数,并对数据增强策略进行了合理修改。后处理阶段使用DBSCAN进行集成,显著提升了检测的准确性。尽管没有使用外部数据,作者通过精细的模型选择和参数调整,最终在比赛中取得了第13名的好成绩。
8
17th_place_solution__ultralytics_+_timm
Rank:17

1)方案介绍
该解决方案采用了YOLO-like模型架构,通过结合ConvNeXtV2作为backbone以及SPPF和C2PSA作为neck进行特征提取和预测。为了提高模型性能,团队使用了多种数据增强技术,并通过模型soup技术解决了验证和epoch选择上的挑战。最终方案包括三个主要模型组件的集成,每个组件都在数据集的不同子集上进行训练。作者还尝试了其他backbone和模型配置,但最终证明ConvNeXtbase是最有效的选择。
竞赛高分方案《17th_place_solution__ultralytics_+_timm》的图片集(可左右滑动)
2)核心技巧
●YOLO-like架构与ConvNeXtV2结合
该方案的核心在于使用YOLO-like模型结构结合ConvNeXtV2作为backbone,以提高特征提取的能力。YOLO的ultralytics框架具有成熟的增广、损失函数、最优的特征组合neck以及bbox预测头,这些都为模型性能提供了基础支持。通过在P4、P3、P2提取特征,并在P3进行预测,模型在公共排行榜上取得了0. 792的分数。
●模型soup技术
为了应对验证策略和epoch选择上的问题,团队采用了模型soup技术。通过平均多个epoch的权重来寻找最优模型参数,虽然在验证集上效果不明显,但通过这种方法能够更好地应对不同的测试集表现,减少单一epoch选择带来的风险。
●高级数据增强技术
在模型训练中,使用了多种数据增强技术,如Blur、MedianBlur、ToGray、CLAHE等,以增加数据的多样性和模型的鲁棒性。这些增强技术通过在训练过程中引入不同的图像变换,帮助模型更好地适应不同的输入条件,从而提高泛化性能。
3)方案总结
这份方案通过结合YOLO-like模型和ConvNeXtV2的架构,成功在BYUBacterialFlagellarMotors比赛中获得了第17名。团队通过整合成熟的YOLOultralytics框架的增广、损失函数以及bbox预测头,提升了模型的整体表现。解决方案包括有效的模型soup技术来解决验证评分不稳定问题,并通过使用多种数据增强策略来提高模型的泛化能力。尽管尝试了其他backbone和更大的模型架构,最终还是选择了性能最佳的ConvNeXtbase。
9
20th_place_solution__keypointbased_dualgraph_predictor
Rank:20

1)方案介绍
该解决方案采用了一种基于关键点的双图预测器方法,结合YOLO和图神经网络(GNN)来定位细菌鞭毛电机。首先,使用YOLO11作为特征提取器和关键点生成器,通过设置低置信度阈值来捕获足够的对象位置。然后,通过图结构进行进一步的特征表示,使用C3K2特征和AddRandomWalkPE来增强节点特征以提升性能。对于标签开发,使用特征相似性和3D半径来标记正样本。最后,结合k-NN图和Delaunay图以获得最佳结果。
竞赛高分方案《20th_place_solution__keypointbased_dualgraph_predictor》的图片集(可左右滑动)
2)核心技巧
●YOLO作为特征提取器和关键点生成器
该方案使用YOLO11作为特征提取器和关键点生成器,通过设置低置信度阈值(conf=0. 05)来生成大量的候选点。这种设计通过捕获足够的对象位置来提高模型的初始表现。作者尝试了多种特征提取器,发现YOLO11在这一任务中表现最佳。
●C3K2和AddRandomWalkPE的节点特征
在进行特征提取后,作者使用C3K2特征结合AddRandomWalkPE来构建节点特征。AddRandomWalkPE通过表示每个点的位置来提高模型的预测精度,特别是在3D任务中效果显著。
●标签开发—基于相似度和半径
为了解决单点标注不能完全代表实际语义的问题,作者通过特征相似性和3D半径来标记正样本。这种方法考虑了特征相似性和距离信息,使得标注更加准确。
●图结构选择
作者实验了多种图结构,最终发现结合k-NN图与Delaunay图能够取得最佳效果。k-NN图提供高密度连接,而Delaunay图则在远离的点集间建立联系。两者结合能够构建一个更为广泛的模型。
3)方案总结
该方案通过结合YOLO和图神经网络以创建一个高效的细菌鞭毛电机定位器。YOLO11用于特征提取和关键点生成,C3K2特征和AddRandomWalkPE用于增强节点特征。标签开发则结合了特征相似性和3D半径,从而提高了标注的精确度。在图结构方面,结合k-NN和Delaunay图以获得最佳的结果。整体方案通过这些结合和创新的方法,成功在数据稀缺的情况下实现了高效的预测性能。
10
22th_place_solution__single_yolov8m_with_pseudo_label
Rank:21

1)方案介绍
该解决方案采用了YOLOv8m模型进行细菌鞭毛马达的检测,并通过多种数据增强技术提高模型的性能。利用伪标记解决了训练数据中缺失的标注问题。此外,团队还纠正了数据生成过程中的一些错误,并增加了负样本以平衡正负样本比例。为了提升小物体检测的能力,引入了NWDLoss和IoU-ShapeLoss等损失函数。借助由其他参赛者提供的附加数据,进一步改善了模型的泛化能力,最终达到了较高的评估分数。
2)核心技巧
●伪标记
通过迭代使用伪标记来补充训练数据中缺失的真实标注。这种方法类似于比赛组织者可能在排行榜数据上采取的策略,能够有效提高模型的召回率,同时保持适当的精度。伪标记通过增强训练数据的多样性,使模型在面对未知数据时更加鲁棒。
●数据增强技术
采用了多种数据增强技术,包括mosaic,mixup,perspective,shear和autoaugmentation等。这些技术主要用于提升模型在低对比度场景下的特征判别能力。例如,CLAHE增强了局部对比度,有助于更好地分辨细微纹理。此外,还使用了随机亮度对比度调整、随机Gamma调整、水平和垂直翻转、平移缩放旋转、图像压缩和灰度转换等方法。
●损失函数增强
引入了NormalizedWassersteinDistance(NWD)Loss和IoU-ShapeLoss等额外损失函数,目的是提高模型检测小物体的能力。NWDLoss在处理目标定位任务时表现出色,而IoU-ShapeLoss则专注于提高物体形状的检测准确性。这些改进使得模型在医用图像检测任务中更加可靠。
●额外标注数据的利用
通过利用其他参赛者共享的36-box和24-box附加标注数据,尽管这些数据中存在较高的噪声水平,仍然对模型的泛化能力有积极贡献。这些额外的数据帮助模型建立更好的决策边界,提升了检测精度和召回率。
3)方案总结
该解决方案展示了在医疗图像检测领域中如何通过YOLOv8m模型及其相关技术提高检测性能。通过伪标记补充训练数据、采用多种数据增强技术、引入新的损失函数以及利用额外标注数据,团队在没有使用集成策略的情况下取得了良好的成绩。此外,该解决方案强调了高召回率对于医疗检测任务的重要性,特别是在减少漏检的情况下,保证合理的精度。尽管在排行榜上没有达到最佳,但为提高模型的鲁棒性和准确性提供了有价值的见解。
方案出处汇总


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录