震惊!仅需一行代码,新型激活函数TeLU,即插即用,优于现有激活函数!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:AI缝合术
作者:AI缝合术
链接:https ://mp. weixin.qq. com/s/1rYDqzw8Jj4ihe_ub5ibFA
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
针对现有激活函数在深度学习中的局限性,本文提出了新型激活函数TeLU,它兼具ReLU的高效性和平滑函数的稳定性,有效缓解了“死ReLU”和梯度消失问题,提升模型收敛速度与泛化能力。
一、论文信息
1
所属单位:南佛罗里达大学
核心速览:本文提出了一种新型激活函数TeLU(HyperbolicTangentExponentialLinearUnit),通过理论分析与实验验证,证明其在梯度稳定性、计算效率和模型性能等方面优于现有激活函数。
二、论文概要
Highlight
图9:线性单元激活函数精选集。该图展示了我们将在分析和实验中常用的线性单元激活函数精选组合。
图10:线性单元激活函数聚焦组的一阶导数。该图描绘了我们重点研究的激活函数组的一阶导数。
图11:激活函数随输入负向增长时的饱和现象。展示了TeLU、ReLU、ELU、SiLU、GELU、Mish、Logish和Smish的一阶导数绝对值。我们注意到某些导数比其他函数更快趋近于0,这表明它们以不同速率向0衰减。
图12:输入趋负时的梯度消失商值比较。展示了各激活函数一阶导数与TeLU一阶导数的商值比较。当绘制值小于1时,表明在微小负值区间TeLU的导数向0饱和的速度比其他函数更慢。深蓝色线条表示TeLU导数与其自身导数的比值(恒等于1),以此作为基准便于与该区间内其他较小商值进行对比。
1. 研究背景:
深度学习的快速发展:神经网络的成功依赖于架构选择,尤其是激活函数的设计。传统激活函数如ReLU、sigmoid等存在局限性,例如梯度消失问题和学习不稳定。
现有激活函数的不足:尽管ReLU及其变体(如LReLU、PReLU)解决了部分问题,但仍然面临“死ReLU”现象和计算复杂度高等挑战。
TeLU的设计目标:结合ReLU的高效性和光滑函数的稳定性,设计一种能够在深网络中实现快速收敛和稳定训练的激活函数。
2. 相关工作:
早期激活函数:Heaviside单元步函数因梯度消失问题被弃用。LogisticSigmoid和HyperbolicTangent虽改善了梯度更新,但仍存在饱和问题。
ReLU及其变体:ReLU因其简单性和高效性成为主流,但负域抑制导致“死ReLU”问题。LReLU和PReLU通过引入小斜率缓解了负域抑制,但增加了过拟合风险。
平滑非线性函数:ELU和SiLU通过减少输出偏移和增强非单调性提升了稳定性。GELU和Mish进一步优化了自适应性和鲁棒性,但仍需解决计算复杂度问题。
三、创新方法
1
TeLU的设计与实现:
图8:TeLU激活函数及其一阶导数。绘制了TeLU(x)=x·tanh(eˣ)及其一阶导数的曲线。当输入x趋近于负无穷时,TeLU缓慢饱和至0的失活输出状态;当输入x趋近于正无穷时,TeLU的激活区域迅速逼近恒等函数x。
1. 设计目标:提供足够的表达力以近似任何未知目标函数。实现高效激活函数,促进快速收敛并减少训练epoch数。确保模型在训练数据和未见过数据上的良好泛化能力。
2. 设计策略:近似线性输入,确保激活区域的非线性接近线性。低计算复杂度,避免过多的非线性操作。自适应性,通过内在调节机制提升泛化性能。
3. 公式定义:TeLU(x)=x·tanh(ex),结合了线性、指数和双曲正切特性,实现了高效学习与可控输出的平衡。
四、实验分析
1. 梯度持久性测试:使用MLP架构进行200_epochs训练,TeLU在验证和测试准确性上均优于其他激活函数。L2正则化进一步提升了TeLU的性能。
2. 线性行为验证:在ResNet18架构中,TeLU的验证准确率在90epochs时达到70. 86%,高于ReLU的69. 96%。在不同epoch下,TeLU始终表现出更快的收敛速度。
3. 计算效率对比:使用106个随机32位浮点值进行序列计算,TeLU的执行延迟显著低于其他光滑函数。在A100和1080TiGPU上,TeLU的运行时间始终优于ReLU。
4. 通用逼近能力:在MNIST数据重构中,TeLU的损失最小,稳定性优于ReLU。在Elman和LSTM架构中,TeLU表现出更低的困惑度。
五、结论
1
核心贡献:提出了TeLU激活函数,通过理论分析和实验验证,证明TeLU在梯度稳定性、计算效率和模型性能等方面优于现有激活函数。TeLU适用于多种深度学习任务,包括图像分类、文本处理和时间序列预测。其简单高效的计算特性促进了模型的集成与兼容。
未来研究方向:探讨TeLU作为分析通用逼近器的潜力,特别是在非单调激活函数中的应用。结合Newton法和Hessian-FreeOptimization评估TeLU的性能。探索TeLU与生物启发算法的结合,以提高计算效率和安全性。
六、运行结果与即插即用代码
运行结果
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程(AI商机->项目签约->算法开发->产品开发->实施运维)中的各方面经验和踩过的坑。
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!