EfficientNet:重新思考CNN网络的扩展
在视觉领域,网络越深模型的精度越高,但是越深也意味着参数越多,从而需要越多的内存。因此,EfficientNet作者们围绕是否存在一个准则可以扩展卷积网络从而实现更高的精度和效率这一问题,研究了卷积网络的扩展。实验研究发现,平衡网络的宽度、深度、以及分辨率对性能很重要,而且这种平衡可通过一个常量系数扩展网络所实现。由此,作者们提出了复合扩展,如图1所示。
在视觉领域,网络越深模型的精度越高,但是越深也意味着参数越多,从而需要越多的内存。因此,EfficientNet作者们围绕是否存在一个准则可以扩展卷积网络从而实现更高的精度和效率这一问题,研究了卷积网络的扩展。实验研究发现,平衡网络的宽度、深度、以及分辨率对性能很重要,而且这种平衡可通过一个常量系数扩展网络所实现。由此,作者们提出了复合扩展,如图1所示。
高效的视觉表示主流的方法可分为两类,分别是生成方式和判别方式。其中,生成方式需要像素级别的生成,产生很多不必要的计算量;判别方式是基于监督学习相似的目标函数学习视觉表示,因此需要设计监督学习的替代任务,这种方式会限制视觉表示的泛化性。SimCLR是一个简单的视觉表示对比学习框架,如图1所示。与之前的对比学习相比,SimCLR即不需要特别的架构,也不需要更多的内存,但是性能优越。