极市导读
本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效,称为 Conv2Former。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。>>加入极市CV技术交流群,走在计算机视觉的最前沿
(资料图片仅供参考)
1 Conv2Former:Transformer 风格的卷积网络视觉基线模型1 Conv2Former:Transformer 风格的卷积网络视觉基线模型(来自南开大学,字节跳动)1.1 Conv2Former 论文解读1.1.1 背景和动机1.1.2 卷积调制模块1.1.3 Conv2Former 整体架构1.1.4 实验结果
论文名称:Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
论文地址:https://arxiv.org/pdf/2211.11943.pdf
1.1.1 背景和动机以 VGGNet、Inception 系列和 ResNet 系列为代表的 2010-2020 年代的卷积神经网络 (ConvNets) 在多种视觉任务中取得了巨大的进展,它们的共同特点是顺序堆叠多个基本模块 (Basic Building Block),并采用金字塔结构 (pyramid network architecture),但是却忽略了显式建模全局上下文信息的重要性。SENet 模块系列模型突破了传统的 CNN 设计思路,将注意力机制引入到 CNN 中以捕获远程依赖,获得了更好的性能。
自从 2020 年以来,视觉 Transformer (ViTs) 进一步促进了视觉识别模型的发展,在 ImageNet 图像分类和下游任务上表现出比最先进的 ConvNets 更好的结果。这是因为与只进行局部建模的卷积操作相比,Transformer 中的自注意力机制能够对全局的成对依赖进行建模,提供了一种更有效的空间信息编码方法。然而,在处理高分辨率图像时,自注意力机制导致的计算成本是相当大的。
为了解决这个问题,一些 2022 年经典的工作试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型?
比如 ConvNeXt[1]:将标准 ResNet 架构现代化,并使用与 Transformer 相似的设计和训练策略,ConvNeXt 可以比一些 Transformer 表现得更好。
从原理和代码详解FAIR去年的惊艳之作:全新的纯卷积模型ConvNeXt
再比如 HorNet[2]:通过建模高阶的相互作用,使得纯卷积模型可以做到像 Transformer 一样的二阶甚至更高的相互作用。
精度超越ConvNeXt的新CNN!HorNet:通过递归门控卷积实现高效高阶的空间信息交互
再比如 RepLKNet[3],SLaK[4]:通过 31×31 或者 51×51 的超大 Kernel 的卷积,使得纯卷积模型可以建模更远的距离。
又对ConvNets下手了!详解SLaK:从稀疏性的角度将卷积核扩展到 51×51
到目前为止,如何更有效地利用卷积来构建强大的 ConvNet 体系结构仍然是一个热门的研究课题。
1.1.2 卷积调制模块本文的关键就是本小节介绍的卷积调制模块。如下图1所示, 对于传统的 Self-attention, 给定一个序列长度为
式中,
为了简单起见,这里省略了 scale factor,自注意模块的计算复杂度随着序列长度N的增加呈二次增长,带来了更高的计算代价。
在卷积调制模块中, 不通过2式计算相似度得分矩阵
式中,
优势: 卷积调制模块利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。
ConvNeXt 表明,将 ConvNets 的核大小从3扩大到7可以提高分类性能。然而,进一步增加 Kernel 的大小几乎不会带来性能上的提升,反而会在没有重新参数化的情况下增加计算负担。但作者认为,使 ConvNeXt 从大于 7×7的 Kernel Size 中获益很少的原因是使用空间卷积的方式。对于 Conv2Former,当 Kernel Size 从 5×5 增加到 21×21 时,可以观察到一致的性能提升。这种现象不仅发生在 Conv2Former-T (82.8→83.4) 上,也发生在参数为80M+ 的 Conv2Former-B (84.1→84.5) 上。考虑到模型效率,默认的 Kernel Size 大小可以设置为 11×11。
权重策略的优化: 注意这里作者直接将深度卷积的输出作为权重,对线性投影后的特征进行调制。Hadamard 积之前既没有使用激活层,也没有使用归一化层 (例如 Sigmoid 或 LN 层),如果像 SE 模块那样加一个 Sigmoid 函数,会使性能降低 0.5% 以上。
1.1.3 Conv2Former 整体架构如下图3所示,与ConvNeXt 和 Swin Transformer 相似,作者的 Conv2Former 也采用了金字塔架构。总共有4个 Stage,每个 Stage 的特征分辨率依次递减。根据模型大小尺寸,一共设计了5个变体:Conv2Former-N,Conv2Former-T, Conv2Former-S, Conv2Former-B,Conv2Former-L。
当可学习参数数量固定时,如何安排网络的宽度和深度对模型性能有影响。原始的 ResNet-50 将每个 Stage 的块数设置为 (3,4,6,3)。ConvNeXt-T 按照 Swin-T 的模式将 Block 数之比更改为 (3,3,9,3),并对较大的模型将 Block 数之比更改为 (1,1,9,1)。Conv2Former 的设置如下图4所示。可以观察到,对于一个小模型 (参数小于30M),更深的网络表现更好。
ImageNet-1K 实验分为两种,一种是直接在 ImageNet-1K 上面训练和验证,另一种是先在 ImageNet-22K 上预训练,再在 ImageNet-1K 上微调和验证。
ImageNet-1K 实验设置
数据集:ImageNet-1K 训练 300 Epochs,ImageNet-1K 验证。
优化器: AdamW, lr
ImageNet-22K 实验设置
数据集:ImageNet-22K 预训练 90 Epochs,ImageNet-1K 微调 30 Epochs,ImageNet-1K 验证。
如下图5所示是 ImageNet-1K 实验结果。对于小型模型 (< 30M),与 ConvNeXt-T 和 Swin-T 相比,Conv2Former 分别有 1.1% 和 1.7% 的性能提升。即使 Conv2Former-N 只有 15M 参数和 2.2G FLOPs,其性能也与具有 28M 参数和 4.5G FLOPs 的 SwinT-T 相同。对于其他流行的模型,Conv2Former 也比类似模型尺寸的模型表现更好。Conv2Former-B 甚至比 EfficientNetB7 表现得更好 (84.4% vs . 84.3%),后者的计算量是 Conv2Former 的两倍 (37G vs. 15G)。
如下图6所示是 ImageNet-22K 的实验结果。作者遵循 ConvNeXt 中使用的设置来训练和微调模型。与 ConvNeXt 的不同变体相比,当模型尺寸相似时,Conv2Former 都表现得更好。此外,我们可以看到,当在更大的分辨率384×384 上进行微调时,Conv2Former-L 获得了比混合模型 (如 CoAtNet 和 MOAT) 更好的结果,Conv2Former-L 达到了 87.7% 的最佳结果。
如下图8所示是关于卷积核大小的消融实验结果。在 大小增加到 21 × 21 之前,性能增益似乎已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel 不会带来明显的性能提升。
消融实验1:卷积核大小
如下图8所示是关于卷积核大小的消融实验结果。在 Kernel Size 增加到 21 × 21 之前,性能增益已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel Size 不会带来明显的性能提升。这表明 Conv2Former 的做法能比传统方式更有效地利用大 Kernel 的优势。
消融实验2:不同融合策略的影响
如下图8, 9所示是关于不同融合策略影响的消融实验结果。除了上述两种融合策略外, 作者还尝试使用其他方法来融合特征映射, 包括在
直筒架构实验结果
遵循 ConvNeXt 的做法,作者也训练了 Conv2Former 的直筒架构 (Isotropic Models) 版本,结果如下图9所示。作者将 Conv2Former-IS 和 Conv2Former-IB 的块数设置为18,并调整通道数以匹配模型大小。字母 "I" 表示直筒架构,可以看到,对于 22M 参数左右的小型模型,Conv2Former-IS 比 DeiT-S 的表现要好得多。当将模型尺寸放大到 80M+ 时,Conv2Former-IB 达到了 82.7% 的 Top-1 Accuracy,这也比 ConvNeXt-IB 高 0.7%,比 DeiT-B 高0.9%。
目标检测实验结果
如下图10所示是不同骨干网络,以 Mask R-CNN 为检测头和 Cascade Mask R-CNN 为实例分割头在 COCO 数据集的实验结果。训练策略遵循 ConvNeXt。对于小模型,使用 Mask R-CNN 框架时,Conv2Former-T 比 SwinT-T 和 ConvNeXt-T 获得了约 2% AP 的改进。
语义分割实验结果
如下图11所示是不同骨干网络,以 UperNet 为分割头在 ADE20k 上的实验结果。对于不同尺度的模型,我们的Conv2Former可以优于Swin Transformer和ConvNeXt。
总结本文试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型。本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。最终的模型称为 Conv2Former,它通过只使用卷积和 Hadamard 积,简化了注意力机制。卷积调制操作是一种利用大核卷积的更有效的方法。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。
参考
^A ConvNet for the 2020s^HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions^Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs^More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity公众号后台回复“CNN100”,获取100 篇 CNN 必读的经典论文资源下载
极市干货
技术干货:数据可视化必须注意的30个小技巧总结|如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门实操教程:Nvidia Jetson TX2使用TensorRT部署yolov5s模型|基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程#极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur投稿方式:添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿△长按添加极市平台小编觉得有用麻烦给个在看啦~-
政府工作报告描绘新蓝图!一起“穿越”未来一年的上海→-每日热闻上海市第十六届人民代表大会第一次会议1月11日上午开幕,龚正市长作政府工作报告。2023年,上海全市经济社会发展有哪些主要预期目标?将推进哪
-
世行下调全球经济增长预期,警告经济衰退!黄金价格逼近1900美元1月10日,世界银行警告说,随着经济增长急剧放缓,经济状况仍然脆弱,全球经济可能陷入衰退。世界银行在其《全球经济展望》报告中,将2023年全
-
1月10日基金净值:建信健康民生混合A最新净值5.937,涨1.21% 快资讯1月10日,建信健康民生混合A最新单位净值为5 937元,累计净值为5 937元,较前一交易日上涨1 21%。历史数据显示该基金近1个月上涨0 59%,近3个
-
全球热门:易基永旭添利定开: 易方达永旭添利定期开放债券型证券投资基金分红公告易基永旭添利定开:易方达永旭添利定期开放债券型证券投资基金分红公告
-
花旗:维持阿里巴巴-SW(09988)“买入”评级 目标价升至155港元_新消息智通财经APP获悉,花旗发布研究报告称,维持阿里巴巴-SW(09988)“买入”评级,目标价由139港元上调至155港元,认为基本面复苏,中国香港适时完
-
ppmoney逾期6000被起诉怎么办|世界微速讯可能会。如果用户使用网贷消费之后出现了逾期,并且经过网贷机构和第三方的催收人员催缴欠款无果之后,网贷公司可能就会向法院提起诉讼。网贷
-
Win 7,退场!_即时看作为一代经典Windows7即将退出历史舞台,按计划,今天(1月10日),Windows7操作系统将结束ESU(付费外延扩展支持),也就是对于企业用户来说
-
冷链板块1月9日跌0.38%,ST熊猫领跌,主力资金净流出1.72亿元 世界新要闻1月9日冷链板块较上一交易日下跌0 38%,ST熊猫领跌。当日上证指数报收于3176 08,上涨0 58%。深证成指报收于11450 15,上涨0 72%。冷链板块个
-
全球简讯:豆豆钱贷款逾期38年会不会上征信网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
号称“加水就能跑”的青年汽车资产被拍卖,前员工称仍未拿到赔偿金|快资讯号称“加水就能跑”的青年汽车资产被拍卖,前员工称仍未拿到赔偿金
-
全球焦点!2022密云区五级工伤如何计算职工因工致残被鉴定为五级、六级伤残的,享受以下待遇:(一)从工伤保险基金按伤残等级支付一次性伤残补助金,标准为:五级伤残为18个月的本
-
5个案例:难以描述的需求,PRD越抹越黑?本文作者从自身工作实践出发,梳理总结了PRD撰写上需要注意的几个问题,与大家分享。01原以为恰到好处的描述,或许不是最佳表达方式怎么在PRD
-
四部门:参保患者新冠门急诊费用报销比例不低于70%中新网1月7日电7日,国家医保局、财政部、国家卫生健康委、国家疾控局发布《关于实施“乙类乙管”后优化新型冠状病毒感染患者治疗费用医疗...
-
怎么让猫听话 如何让猫听话_全球今日报1、一般猫咪的个性都很会强,不适应和人的生活,所以猫猫从小就要开始训练,让它变得听话乖巧。主人要选用适合的方法,遇猫猫不听话的时候,千
-
李杰确认没有一加11 Pro手机目前尚不清楚是否会有一加11T。
-
1月5日恩捷股份(002812)龙虎榜数据:机构净买入716.2万元,北向资金净买入7402.92万元-环球播报1、锂电池湿法隔膜全球龙头,产能规模达50亿平方米;膜类产品主要包括锂离子隔离膜(基膜和涂布膜)、BOPP薄膜(烟膜和平膜),生产的湿法锂电
-
夜尿多的主要原因有哪些?如何缓解夜尿频繁?试想一个人工作劳累了一天,好不容易到了晚上睡觉了,但膀胱不给力,到了晚上频繁的去上厕所,不仅自己睡不好,而且会影响另一半的睡眠质量,
-
当前热门:使用Python批量筛选上千个Excel文件中的某一行数据并另存为新Excel文件(上篇)点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤离离原上草,一岁一枯荣。大家好...
-
视讯!山鹰国际(600567):2022年12月经营数据快报股票简称:山鹰国际股票代码:600567公告编号:临2023-004债券简称:山鹰转债债
-
城地香江(603887)1月6日主力资金净卖出333.37万元|全球即时看截至2023年1月6日收盘,城地香江(603887)报收于7 31元,下跌2 01%,换手率1 05%,成交量4 72万手,成交额3470 05万元。
-
沪指五连阳:北向资金净买入60亿 光伏板块大涨【收盘播报】沪指涨0 08%日线五连阳,深证成指涨0 32%,创业板指涨0 95%。光伏设备板块大涨,旅游酒店、教育、航空机场板块跌幅居前。北向资金
-
2023武汉东西湖转学政策规定(含条件+材料+流程)2023武汉东西湖转学政策(含条件+材料+流程)办理方法:网上申请办理平台:东西湖基教一、转学(入学)资格凡符合以下条件之一者,具备我区转学(
-
5g是真“高速”,但却会受到限制-世界信息就大家了解到的信息,应该都是5G网速比4G网速更快!但是,很多升级5G套餐的手机用户却表示,很失望,因为5G似乎并不像传说中那么快!难道又是
-
每日热讯!55岁江珊在上海小巷被偶遇,打扮朴素显发福,被指太路人快认不出1月4日,有网友晒出了一则在街头小巷偶遇江珊的画面,作为一代人心中的女神,江珊也难敌岁月的摧残,老态明显。从画面来看,江珊当天低调现身
-
天天快播:老板电器(002508)1月4日主力资金净买入1739.60万元截至2023年1月4日收盘,老板电器(002508)报收于28 72元,上涨6 02%,换手率1 35%,成交量12 61万手,成交额3 58亿元。
-
C罗亮相沙特利雅得胜利,年薪和粉丝均排名世界第一封面新闻记者刁明康实习生罗奇宇北京时间1月4日凌晨,C罗加盟利雅得胜利的亮相仪式在沙特举行。C罗在发布会上表示,自己在欧洲的工作已完成,
-
韩国杂货电商巨头Kurly宣布取消IPO计划韩联社消息,韩国杂货电商平台MarketKurly的运营商KurlyCorp 周三表示,由于严峻的市场条件,将推迟原计划于今年年初进行的首次公开募股(IPO)
-
北京今明两天扩散条件逐渐转差,6日北风光顾天气实况及天气简述南郊观象台气温实况昨天白天的最高气温为3 6℃。昨天夜间至今天早晨最低气温为-8 2℃。天气简述今天早晨最低气温-8 2℃,气
-
看《魔域手游2》如何再创高峰|每日短讯近些年来,网络技术飞快发展,网络游戏也百花齐放。在当年网游火爆全国的时候,网吧里随处可见的都是网游游戏,那时候的网吧四巨头是《传奇世
-
2023兔年贺岁纪念币兑换可以代领吗? 焦点要闻2023兔年贺岁纪念币兑换可以代领吗?可以代领。弃兑或者重复预约,可在此期间内持二代身份证到预约银行网点,办理撤销违约记录,并保留兑换资格