【arXiv 2025】新型激活函数B-SiLU,即插即用,无缝集成各种模型,涨点!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
朋友们,创作不易,如您觉得推文内容对您的学习和科研有帮助,请帮我们点赞、转发、点推荐让更多人看到我们的工作!谢谢大家!
温馨提示:电脑阅读更高效
注:下图及解读内容由微信公众号:AI缝合术原创!
一、方法介绍
1
1. ReLU的局限性:
优势:深度神经网络中的激活函数对模型收敛性和性能有重要影响。ReLU因其简单性、稀疏性和良好的拓扑特性成为经典选择。
缺陷:“死亡ReLU问题”限制了其应用。如下图所示,神经元在训练中,输入为负时,输出为0,这意味着该神经元的梯度也为0,导致该神经元在训练过程中无法被激活,从而无法对任何数据产生响应。将会制约模型的表达能力。
图1:ReLU激活函数及其一阶导数。绘制了ReLU(x)=max(0,x)={x<0:0,x}及其一阶导数的图像。对于负输入,ReLU输出为0;对于正输入,ReLU定义为恒等函数x。
2. 新型激活函数B-SiLU(BoundedSigmoidLinearUnit,有界Sigmoid线性单元):
解决思路:通过引入一个可调节的下界参数,将自门控机制与Sigmoid函数的平滑性相结合。这种设计使其在负输入区域具有非零梯度,同时保留了正输入区域的线性行为。这种特性有助于缓解ReLU中常见的“死亡神经元”问题。
①B-SiLU的数学表达式:
其中σ(x)表示sigmoid激活函数,数学表达式为:
②B-SiLU的导数表达式:
图2:B-SiLU激活函数及其一阶导数。
总结:B-SiLU的设计灵感来源于SiLU的自门控行为和GELU的平滑性,它能够灵活适配不同的正则化设置。这种灵活性使得B-SiLU在多种深度学习任务中具有广泛的应用潜力。其主要优势包括缓解梯度消失、增强泛化能力和促进稀疏表示。
B-SiLU可无缝替换当前最先进的各类激活函数,如ELU、GELU、SiLU、SELU、LeakyReLU等,适用于经典卷积神经网络、现代Transformer架构以及需要稀疏性与平滑性并存的任务模型,增强模型的表达能力,实现性能提升!
二、运行结果与即插即用代码
运行结果
本文即插即用代码及更多2025年最新即插即用代码获取
七、附录
1
免费代码便捷下载
https ://github. com/AIFengheshu/Plug-play-modules
AI缝合术
微信扫码关注
2025年全网最全即插即用模块!包含人工智能全领域(机器学习、深度学习等),适用于图像分类、目标检测、实例分割、语义分割、单目标跟踪(SOT)、多目标跟踪(MOT)、RGBT、图像去噪、去雨、去雾、去模糊、超分等计算机视觉(CV)和图像处理任务,以及其他各类人工智能相关任务。持续更新中……
欢迎转发、收藏、点赞、点在看~
点分享
点收藏
点点赞
点在看