仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
本文转载自:机器之心
不用换模型、不用堆参数,靠SUGAR模型性能大增!
在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如GELU、SELU和SiLU等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。
尽管这一趋势盛行,经典ReLU函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。
然而ReLU单元易陷入所谓的「死亡ReLU问题」,一旦某个神经元在训练中输出恒为0,其梯度也为0,无法再恢复。这一现象最终制约了其整体效能,也是ReLU网络的重大缺陷。
正是死亡ReLU问题催生了大量改进的线性单元函数,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish以及ELU。这些函数通过为负预激活值引入非零激活,提供了不同的权衡。
本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的方法:SUGAR(SurrogateGradientforReLU),在不牺牲ReLU优势的情况下解决了ReLU的局限性。即前向传播仍使用标准ReLU(保持其稀疏性和简单性),反向传播时替换ReLU的导数为一个非零、连续的替代梯度函数(surrogategradient)。
这样可以让ReLU在保持原始前向行为的同时,避免梯度为零的问题,从而复活死神经元。
基于此,本文还设计了两种新型替代梯度函数:B-SiLU(BoundedSiLU)、NeLU(NegativeslopeLinearUnit),可以无缝集成到各种模型中。
本研究的进一步贡献如下:
本文对VGG-16和ResNet-18进行了全面的实验,表明SUGAR显著增强了这两种架构的泛化能力。
本文在SwinTransformer和Conv2NeXt等现代架构上对SUGAR进行了评估,展示了其适应性和有效性。
对VGG-16层激活的深入分析表明,当应用SUGAR时,激活分布发生了明显的变化,为其在缓解消亡ReLU问题中的作用提供了直观证据,同时促进了更稀疏的表示。
SUGAR方法易于实现,并在前向传播中始终采用ReLU激活函数。与所提出的B-SiLU替代函数结合使用时,VGG-16在CIFAR-10和CIFAR-100数据集上的测试准确率分别提升了10个百分点和16个百分点,而ResNet-18与未使用SUGAR的最佳模型相比,分别提升了9个百分点和7个百分点。
论文标题:TheResurrectionoftheReLU
论文链接:https ://arxiv. org/pdf/2505. 22074
SUGAR介绍
本文提出的方法将FGI(Forwardgradientinjection)应用于具有平滑替代函数的ReLU网络中。在SUGAR框架下,FGI可以表示为:
该公式实现了梯度注入,并确保即使对于负激活也能进行梯度传播。具体来说,利用[ 34]中的乘法技巧,替代梯度函数的直接注入如下:
替代函数的选择具有灵活性,可兼容当前最先进的各类激活函数,例如ELU、GELU、SiLU、SELU以及LeakyReLU(见图8)。
关键区别在于,与ReLU不同,这些候选替代函数均具有一个共同特征:对负输入(x0时的激活输出。
在初步研究中,本文意识到需要调整当前的激活函数以适应SUGAR的特定用途。因此,接下来本文提出了两个与这些设置良好匹配的新替代函数。
B-SiLU:引入了一种名为B-SiLU(BoundedSigmoidLinearUnit)的新型激活函数,它结合了自门控特性和可调下限参数。从数学上讲,该函数可以表示为:
B-SiLU激活函数的导数为:
图8中可视化了B-SiLU及其导数。
NeLU:本文进一步引入了NeLU(NegativeslopeLinearUnit),作为ReLU的平滑导数替代品。
最终的梯度如图1所示。
实验
总体而言,与ReLU基线相比,SUGAR结合ELU、SELU以及特别是B-SiLU获得了最大的提升,而LeakyReLU和NeLU则始终表现不佳(见图2)。在CIFAR-10数据集上使用ResNet-18作为骨干网络时,B-SiLU的性能从76. 76%提升到86. 42%,得益于SUGAR。VGG-16也表现出类似的效果:B-SiLU将测试精度提高了近10个百分点(从78. 50%提升到88. 35%)。
在CIFAR-100数据集上,SUGAR结合B-SiLU的优势更加明显:ResNet-18的准确率从48. 99%跃升至56. 51%,VGG-16的准确率从48. 73%提升至64. 47%(见图3)。同样,LeakyReLU和NeLU仅显示出微小的甚至是负的提升(例如ResNet-18上的43. 67%→43. 41%)。
总的来说,B-SiLU在不同架构和数据集上均优于其他替代激活函数,ELU和SELU能够提供可靠的改进,而在这种设置下,SUGAR从LeakyReLU和NeLU中并未获得有意义的益处。
当应用于Conv2NeXt时,如表1所示,SUGAR在前向和反向传播过程中均始终优于使用GELU的基础模型。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~