那些年我们一起卷过的卷积


那些年我们一起卷过的卷积

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”,选择加”星标”或“置顶”
重磅干货,第一时间送达
编者荐语
本篇文章将回顾那些年的一些经典卷积神经网络,并提炼要点且从网络结构、工作亮点、核心实现代码方面来进行阐述。
作者丨鲲China@知乎
链接丨https ://zhuanlan.zhihu.com/p/576100800
卷积是图像神经网络中的重要组成部分,它担起提取特征的重任,每当你编写一个网络结构的时候,它总会大喊”我来组成头部!”,这么重要的头部自然值得我们好好地重视起来了”认真脸jpg”,本篇文章将回顾那些年的一些经典卷积神经网络,并提炼要点且从以下几方面来进行阐述。
可供参考的资料、ImageNet1000分类效果(采用224大小图片的效果,部分来自paperwithcode部分来自论文自身)。
网络的整体or核心结构图。
作者构建这些卷积网络的亮点。
具体的核心实现代码。
论文:ImageNetClassificationwithDeepConvolutionalNeuralNetworks
(https ://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf)
Blog:AlexNet:TheFirstCNNtowinImageNet
(https ://www.kaggle.com/code/blurredmachine/alexnet-architecture-a-complete-guide/notebook)
效果:ImageNettop-1accuracy63.3%
结构图:
成就
第一个在ImageNet上跑起来的神经网络,在当年的竞赛中成绩大幅度领先第二名。
创新
2张GTX5803G显存上训练百万级别的数据,在模型训练上做了一些工程的改进,现在单张A100显存能到80G,足以见当年的艰难。
使用大卷积(11x11、5x5)和全连接层,事实证明潮流是一个cycle,现在大卷积又开始流行起来了==。
RELU:非线性激活单元,直到现在依然很流。
Dropout:防止过拟合,有模型ensemble的效果,后续应用广泛。
LocalResponseNormalization:一种正则化方法帮助模型更好的训练,后续基本没人用,大家可以阅读原文了解下。
代码:
论文:VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition
(https ://link.zhihu.com/?target=https%3A//arxiv.org/abs/1409.1556)
Blog:一文读懂VGG网络
(https ://zhuanlan.zhihu.com/p/41423739)
效果:ImageNettop-1accuracy74.5%
结构图:
成就:ImageNet成绩大幅超过AlexNet,引领了未来网络朝着深度加深的方向进行。
创新:使用3X3卷积核代替11X11,5X5,将网络的深度做进一步加深的同时引入更多的非线性层。
代码:
论文:
InceptionV1(https ://arxiv.org/pdf/1409.4842v1.pdf)
InceptionV2&3(https ://arxiv.org/pdf/1512.00567v3.pdf)
InceptionV4(https ://arxiv.org/pdf/1602.07261.pdf)
Blog:[ASimpleGuidetotheVersionsoftheInceptionNetwork]

效果:ImageNettop-1accuracy80.00%
结构图:
创新:
使用多尺度卷积核来提取信息,V1-V4基本就是在做这件事,无非是不断的优化性能。
提出了LabelSmoothing,这个东西比赛用的挺多的。
论文:[DeepResidualLearningforImageRecognition]
(https ://arxiv.org/abs/1512.03385)
Blog:
Resnet到底在解决一个什么问题呢?(https ://www.zhihu.com/question/64494691/answer/786270699)
你必须要知道CNN模型:ResNet(https ://zhuanlan.zhihu.com/p/31852747)
效果:ImageNettop-1accuracy78.2%or82.4%([ResNetstrikesback:Animprovedtrainingprocedureintimm]
(https ://paperswithcode.com/paper/resnet-strikes-back-an-improved-training))
结构图:
成就:利用残差结构使得网络达到了前所未有的深度同时性能继续提升、同时使损失函数平面更加光滑(看过很多解释,这个个人觉得比较靠谱)
创新:残差网络
代码:!key是关键代码、其实就一行~
论文:DenselyConnectedConvolutionalNetworks
(https ://arxiv.org/abs/1608.06993)
Blog:

[pytorch源码解读]之DenseNet的源码解读(https ://blog.csdn.net/u014453898/article/details/105670550)
效果:ImageNettop-1accuracy77.8%
结构图:
创新:利用DenseBlock进行新特征的探索和原始特征的多次重用
代码:!key是关键代码、其实就一行~
论文:ResNext:AggregatedResidualTransformationsforDeepNeuralNetworks
(https ://arxiv.org/abs/1611.05431)
Blog:
ResNeXt详解(https ://zhuanlan.zhihu.com/p/51075096)
ResNeXt的分类效果为什么比Resnet好?(https ://www.zhihu.com/question/323424817/answer/1078704765)
效果:ImageNettop-1accuracy80.9%
结构图:
创新:提出Group的概念、利用Group增加特征的丰富度和多样性,类似multi-headattention。
代码:!key是关键代码、其实就一行~
论文:Res2Net:ANewMulti-scaleBackboneArchitecture
(https ://arxiv.org/pdf/1904.01169.pdf)
Blog:Res2Net:新型backbone网络,超越ResNet(https ://zhuanlan.zhihu.com/p/86331579)
效果:ImageNettop-1accuracy81.23%
结构图:
亮点:将多特征图的处理从layer并行的形势改为hierarchical
代码:因为修改了特征图的交互为hierarchical,所以代码有点多
论文:[Squeeze-and-ExcitationNetworks]
(https ://arxiv.org/abs/1709.01507)
Blog:最后一届ImageNet冠军模型:SENet(https ://zhuanlan.zhihu.com/p/65459972)
效果:ImageNettop-1accuracy81.3%
结构图:
创新:提出SELayer、利用可插拔的SELayer调节不同Channel的重要性,和Attention效果类似。
代码:
论文:DualPathNetworks
(https ://arxiv.org/pdf/1707.01629.pdf)
Blog:DPN详解(DualPathNetworks)(https ://zhuanlan.zhihu.com/p/351198007)
效果:ImageNettop-1accuracy80.07%
结构图:
创新:将resnet和densenet的思想做了结合。
代码:!key是关键代码、其实就一行~
论文:DeepLayerAggregation
(https ://larxiv.org/pdf/1707.06484.pdf)

结构图:
创新:采用IDA和HDA两种结构来进一步提炼conv的表达
代码:
论文:

EfficientNetV2:SmallerModelsandFasterTraining(https ://arxiv.org/pdf/2104.00298v3.pdf)
Blog:
令人拍案叫绝的EfficientNet和EfficientDet(https ://zhuanlan.zhihu.com/p/96773680)
时隔两年,EfficientNetv2来了!更快,更小,更强!(https ://zhuanlan.zhihu.com/p/361947957)
效果:ImageNettop-1accuracy86.8%
创新:是AutoDL在深度学习上一次非常成功的尝试
EfficientNetV1uniformlyscalesallthreedimensions(width,depth,resolution)withafixedratio。
EfficientNetV1加入一些新block,扩大了搜索空间,并且不是equallyscalingupeverystage。
代码:
其实这些年的CNN其实一直在尝试各种卷积的组合,从深度、宽度、注意力机制、各种Block组合形式上作文章,和传统机器学习的特征工程何其相似,只是需要更多的成本代价去尝试,大多都是经验性质的创新,原理上的不多,后面的VIT系列会有更多的一些创新,从整体设计上创造新的局面,但是也无法完全丢弃CNN,所以了解历史CNN的设计模式还是十分有必要的,本文理解有误的地方希望多多指正。
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录