Attention和全连接层有什么区别？

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

Attention层与全连接层的核心区别在于动态权重分配机制与静态参数化连接的差异。
全连接层:使用固定的权重矩阵对输入进行线性变换，权重在训练中更新，但对所有输入位置共享(位置相关)
Attention层:根据输入内容动态计算权重。通过Query与Key的相似度生成注意力分数(AttentionScore)，再对Value加权求和，权重与输入内容直接相关(位置无关)
全连接层:将输入视为整体进行全局特征转换，可能忽略局部结构信息。
Attention层:关注输入各部分的关系，通过加权聚焦关键信息，保留局部与全局关联。例如，在文本处理中，Attention能捕捉长距离依赖。
全连接层:参数固定，无法根据输入内容调整关注重点，适合处理静态特征(如图像分类)
Attention层:通过动态权重适应不同输入场景，擅长处理序列数据(如语言模型)，减少冗余计算。
类比:全连接层像“凭记忆答题”，而Attention层像“开卷考试时快速查找答案”
全连接层:由于参数共享和固定结构，难以有效建模长距离依赖，易受梯度消失影响。
Attention层:通过全局相似度计算，直接关联任意距离的输入元素，解决长序列信息衰减问题。
全连接层:参数规模为输入维度x输出维度，大规模网络易导致参数爆炸(如VGG16的FC层有上亿参数)。
Attention层:参数量主要来自Q/KN的投影矩阵，通常更少。但自注意力的计算复杂度随序列长度平方增长。
全连接层:计算密集但易于并行化，适合GPU加速；
Attention层:通过矩阵运算实现并行，但长序列场景需优化(如稀疏Attention或分块计算)。
星球旨在分享AI算法岗&开发岗的秋招准备攻略、心得体会、内推机会等。涉及深度学习，机器学习，计算机视觉，自然语言处理，SLAM，大数据，数据分析，自动驾驶，C/C++，Java等方向。群主和嘉宾既有往届参加校招拿到Offer(含BAT/独角兽等大厂Offer)，也有已经毕业工作的算法研究员/工程师和软开工程师。…
星球非免费。定价50元/年，0.136元/天。(每+100人，+20元。元老福利~）
一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱AI的人。
欢迎你的加入！