仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
引自机器之心
不用换模型、不用堆参数,靠SUGAR模型性能大增!
在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如GELU、SELU和SiLU等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。
尽管这一趋势盛行,经典ReLU函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。
然而ReLU单元易陷入所谓的「死亡ReLU问题」,一旦某个神经元在训练中输出恒为0,其梯度也为0,无法再恢复。这一现象最终制约了其整体效能,也是ReLU网络的重大缺陷。
正是死亡ReLU问题催生了大量改进的线性单元函数,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish以及ELU。这些函数通过为负预激活值引入非零激活,提供了不同的权衡。
本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的方法:SUGAR(SurrogateGradientforReLU),在不牺牲ReLU优势的情况下解决了ReLU的局限性。即前向传播仍使用标准ReLU(保持其稀疏性和简单性),反向传播时替换ReLU的导数为一个非零、连续的替代梯度函数(surrogategradient)。
这样可以让ReLU在保持原始前向行为的同时,避免梯度为零的问题,从而复活死神经元。
基于此,本文还设计了两种新型替代梯度函数:B-SiLU(BoundedSiLU)、NeLU(NegativeslopeLinearUnit),可以无缝集成到各种模型中。
本研究的进一步贡献如下:
本文对VGG-16和ResNet-18进行了全面的实验,表明SUGAR显著增强了这两种架构的泛化能力。
本文在SwinTransformer和Conv2NeXt等现代架构上对SUGAR进行了评估,展示了其适应性和有效性。
对VGG-16层激活的深入分析表明,当应用SUGAR时,激活分布发生了明显的变化,为其在缓解消亡ReLU问题中的作用提供了直观证据,同时促进了更稀疏的表示。
SUGAR方法易于实现,并在前向传播中始终采用ReLU激活函数。与所提出的B-SiLU替代函数结合使用时,VGG-16在CIFAR-10和CIFAR-100数据集上的测试准确率分别提升了10个百分点和16个百分点,而ResNet-18与未使用SUGAR的最佳模型相比,分别提升了9个百分点和7个百分点。
论文标题:TheResurrectionoftheReLU
论文链接:https ://arxiv. org/pdf/2505. 22074
SUGAR介绍
本文提出的方法将FGI(Forwardgradientinjection)应用于具有平滑替代函数的ReLU网络中。在SUGAR框架下,FGI可以表示为:
该公式实现了梯度注入,并确保即使对于负激活也能进行梯度传播。具体来说,利用[ 34]中的乘法技巧,替代梯度函数的直接注入如下:
替代函数的选择具有灵活性,可兼容当前最先进的各类激活函数,例如ELU、GELU、SiLU、SELU以及LeakyReLU(见图8)。
关键区别在于,与ReLU不同,这些候选替代函数均具有一个共同特征:对负输入(x0时的激活输出。
在初步研究中,本文意识到需要调整当前的激活函数以适应SUGAR的特定用途。因此,接下来本文提出了两个与这些设置良好匹配的新替代函数。
B-SiLU:引入了一种名为B-SiLU(BoundedSigmoidLinearUnit)的新型激活函数,它结合了自门控特性和可调下限参数。从数学上讲,该函数可以表示为:
B-SiLU激活函数的导数为:
图8中可视化了B-SiLU及其导数。
NeLU:本文进一步引入了NeLU(NegativeslopeLinearUnit),作为ReLU的平滑导数替代品。
最终的梯度如图1所示。
实验
总体而言,与ReLU基线相比,SUGAR结合ELU、SELU以及特别是B-SiLU获得了最大的提升,而LeakyReLU和NeLU则始终表现不佳(见图2)。在CIFAR-10数据集上使用ResNet-18作为骨干网络时,B-SiLU的性能从76. 76%提升到86. 42%,得益于SUGAR。VGG-16也表现出类似的效果:B-SiLU将测试精度提高了近10个百分点(从78. 50%提升到88. 35%)。
在CIFAR-100数据集上,SUGAR结合B-SiLU的优势更加明显:ResNet-18的准确率从48. 99%跃升至56. 51%,VGG-16的准确率从48. 73%提升至64. 47%(见图3)。同样,LeakyReLU和NeLU仅显示出微小的甚至是负的提升(例如ResNet-18上的43. 67%→43. 41%)。
总的来说,B-SiLU在不同架构和数据集上均优于其他替代激活函数,ELU和SELU能够提供可靠的改进,而在这种设置下,SUGAR从LeakyReLU和NeLU中并未获得有意义的益处。
当应用于Conv2NeXt时,如表1所示,SUGAR在前向和反向传播过程中均始终优于使用GELU的基础模型。
了解更多内容,请参考原论文。