经典ReLU回归！重大缺陷「死亡ReLU问题」已被解决

发布日期: 2025-06-04

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

引自机器之心
不用换模型、不用堆参数，靠SUGAR模型性能大增！
在深度学习领域中，对激活函数的探讨已成为一个独立的研究方向。例如GELU、SELU和SiLU等函数凭借其平滑梯度与卓越的收敛特性，已成为热门选择。
尽管这一趋势盛行，经典ReLU函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。
然而ReLU单元易陷入所谓的「死亡ReLU问题」，一旦某个神经元在训练中输出恒为0，其梯度也为0，无法再恢复。这一现象最终制约了其整体效能，也是ReLU网络的重大缺陷。
正是死亡ReLU问题催生了大量改进的线性单元函数，包括但不限于：LeakyReLU、PReLU、GELU、SELU、SiLU/Swish以及ELU。这些函数通过为负预激活值引入非零激活，提供了不同的权衡。
本文，来自德国吕贝克大学等机构的研究者引入了一种新颖的方法：SUGAR（SurrogateGradientforReLU），在不牺牲ReLU优势的情况下解决了ReLU的局限性。即前向传播仍使用标准ReLU（保持其稀疏性和简单性），反向传播时替换ReLU的导数为一个非零、连续的替代梯度函数（surrogategradient）。
这样可以让ReLU在保持原始前向行为的同时，避免梯度为零的问题，从而复活死神经元。
基于此，本文还设计了两种新型替代梯度函数：B-SiLU（BoundedSiLU）、NeLU（NegativeslopeLinearUnit），可以无缝集成到各种模型中。
本研究的进一步贡献如下：
本文对VGG-16和ResNet-18进行了全面的实验，表明SUGAR显著增强了这两种架构的泛化能力。
本文在SwinTransformer和Conv2NeXt等现代架构上对SUGAR进行了评估，展示了其适应性和有效性。
对VGG-16层激活的深入分析表明，当应用SUGAR时，激活分布发生了明显的变化，为其在缓解消亡ReLU问题中的作用提供了直观证据，同时促进了更稀疏的表示。
SUGAR方法易于实现，并在前向传播中始终采用ReLU激活函数。与所提出的B-SiLU替代函数结合使用时，VGG-16在CIFAR-10和CIFAR-100数据集上的测试准确率分别提升了10个百分点和16个百分点，而ResNet-18与未使用SUGAR的最佳模型相比，分别提升了9个百分点和7个百分点。
论文标题：TheResurrectionoftheReLU
论文链接：https ://arxiv. org/pdf/2505. 22074
SUGAR介绍
本文提出的方法将FGI（Forwardgradientinjection）应用于具有平滑替代函数的ReLU网络中。在SUGAR框架下，FGI可以表示为：
该公式实现了梯度注入，并确保即使对于负激活也能进行梯度传播。具体来说，利用[ 34]中的乘法技巧，替代梯度函数的直接注入如下：
替代函数的选择具有灵活性，可兼容当前最先进的各类激活函数，例如ELU、GELU、SiLU、SELU以及LeakyReLU（见图8）。
关键区别在于，与ReLU不同，这些候选替代函数均具有一个共同特征：对负输入（x0时的激活输出。
在初步研究中，本文意识到需要调整当前的激活函数以适应SUGAR的特定用途。因此，接下来本文提出了两个与这些设置良好匹配的新替代函数。
B-SiLU：引入了一种名为B-SiLU（BoundedSigmoidLinearUnit）的新型激活函数，它结合了自门控特性和可调下限参数。从数学上讲，该函数可以表示为：
B-SiLU激活函数的导数为：
图8中可视化了B-SiLU及其导数。
NeLU：本文进一步引入了NeLU（NegativeslopeLinearUnit），作为ReLU的平滑导数替代品。
最终的梯度如图1所示。
实验
总体而言，与ReLU基线相比，SUGAR结合ELU、SELU以及特别是B-SiLU获得了最大的提升，而LeakyReLU和NeLU则始终表现不佳（见图2）。在CIFAR-10数据集上使用ResNet-18作为骨干网络时，B-SiLU的性能从76. 76%提升到86. 42%，得益于SUGAR。VGG-16也表现出类似的效果：B-SiLU将测试精度提高了近10个百分点（从78. 50%提升到88. 35%）。
在CIFAR-100数据集上，SUGAR结合B-SiLU的优势更加明显：ResNet-18的准确率从48. 99%跃升至56. 51%，VGG-16的准确率从48. 73%提升至64. 47%（见图3）。同样，LeakyReLU和NeLU仅显示出微小的甚至是负的提升（例如ResNet-18上的43. 67%→43. 41%）。
总的来说，B-SiLU在不同架构和数据集上均优于其他替代激活函数，ELU和SELU能够提供可靠的改进，而在这种设置下，SUGAR从LeakyReLU和NeLU中并未获得有意义的益处。
当应用于Conv2NeXt时，如表1所示，SUGAR在前向和反向传播过程中均始终优于使用GELU的基础模型。
了解更多内容，请参考原论文。