注意力与跨尺度融合的SSD目标检测算法

【www.zhangdahai.com--其他范文】

李青援,邓赵红,2,3+,罗晓清,顾 鑫,王士同

1.江南大学 人工智能与计算机学院,江苏 无锡214122

2.复旦大学 计算神经科学与类脑智能教育部重点实验室,上海200433

3.张江实验室,上海200120

4.江苏北方湖光光电有限公司,江苏 无锡214035

目标检测是计算机视觉的一个关键任务,其任务是给出一张图片,检测出图片中目标物体的边界框,并给出目标的类别。近年来随着深度学习的蓬勃发展,深度卷积网络在目标检测方面取得了显著成功。当前主流的目标检测框架主要有两个分支:两阶段检测方法,包括R-CNN(regions with convolutional neural network features)[1]、Fast R-CNN[2]、Faster R-CNN[3]、RefineNet[4]等;
一阶段检测方法,包括YOLO(you only look once)[5-7]、SSD(single shot multibox detector)[8]、RetinaNet[9]等。两阶段检测方法首先在第一阶段通过一个简单的提议网络产生候选对象位置的稀疏集,然后在第二阶段对候选位置进行分类和回归得到最后的检测结果。一阶段检测方法,通过预先定义一些不同尺度和长宽比的默认框,然后直接对默认框进行分类和回归得到检测结果。由于两阶段检测方法经历了两次分类和回归,其检测精度相对于一阶段检测算法更高,但检测速度远远低于只进行一次分类和回归的一阶段检测方法。

检测尺寸跨度很大的目标是目标检测任务的一大挑战。一些检测器只采用一个尺度的特征图检测,很难检测不同尺寸的目标(图1(a))。为了实现尺度不变性,图像金子塔和特征金子塔等方法被提出。图像金字塔是将输入图片调整为不同的分辨率,然后将这些图片分别送到网络去检测,这种手工设计特征的方法在传统的检测方法如DPM(deformable part model)[10]中被广泛应用,图像金字塔在一定程度上可以解决尺度变换问题,但其是在每个尺寸图像上分别检测,资源消耗巨大。特征金字塔是将深度卷积模型产生的不同尺度的特征图构成金字塔,然后分别进行检测,这种方法可以避免对图像进行重复运算,极大减少了资源消耗,被主流检测模型广泛采用。SSD模型是最早尝试将特征金子塔用于目标检测的算法之一(图1(b))。它运用深度卷积网络前向传播产生的不同尺度的特征图进行检测,使用浅层特征图预测小目标,深层特征图预测大目标。

图1 不同类型检测方法Fig.1 Different types of detection methods

基于自底向上的方法产生的特征图,浅层特征图包含语义信息不足,深层特征图缺少细节信息,结果造成对小目标识别较差。为了解决这一问题,多种特征图融合方法如FPN(feature pyramid network)[11](图1(c))、PAFPN(path aggression FPN)[12]被提出。它们以自顶向下或自底向上的方法依次将深层特征图与浅层特征图进行融合。这些融合方法是简单有效的,但是由于不同尺度特征图存在较大的信息差异,直接采用相加或通道维度拼接的方法忽略这些差异,容易产生冗余信息和噪声信息,因此这种融合方法是次优的,仍有很大的提升空间。同时,由于小目标在图像中占有较小的像素空间,外观等细节信息模糊,检测较为困难。因此检测小目标的关键因素是采用分辨率较高、包含明显外观细节信息的特征图。另外结合不同感受野的语义信息,利用其所处环境帮助识别也是重要的。

结合上述分析,本文提出了新的特征增强方法对不同尺度的特征图进行有效融合来增强特征的表示能力。其主要包含如下三方面的工作。

(1)设计了一种特征融合方法。该方法将两个不同尺度的特征图采样到同一维度,然后通过乘法融合和卷积操作产生一个包含两个特征图信息的中间层,该中间层相当于一个模板特征图,其可表示网络学习到的不同尺度特征图之间存在的信息差异。最后,将采样后的特征图与模板特征图再一次融合,从而避免不同尺度特征图直接融合产生冗余信息,并缓解不同尺度特征图的信息差异给融合带来的负面影响。

(2)根据池化金字塔[13]的思想设计了一个深度特征提取模块来捕获不同感受野的信息,充分利用局部和全局信息提高对不同尺寸目标的检测能力。为了有效地融合不同尺度的特征图,本文对池化金字塔做了相应的修改。首先,为了减少信息的损失,本文保留了每个分支原始的通道维度,并且在池化操作后经过3×3 的卷积以减少池化操作带来的负面影响。其次,不同于池化金字塔模块,该特征提取模块需要指定特征图输出的尺度。各分支的特征图进行池化,并经过上采样以达到目标尺寸,同时,对原特征图进行适应性池化以达到目标尺寸。最后,在相同尺寸下对原特征图和分支产生的特征图进行拼接。

(3)设计了一种轻量级的注意力模块,将特征图像素点之间的相似关系与各通道之间的重要性关系进行有效融合,以进一步提升特征图的表示能力,从而帮助模型获取有用信息,并抑制无用信息。

在实验中本文使用SSD[8]作为基线网络,适当地更改了SSD网络的架构并将提出的方法应用到改进的SSD 框架上,以解决SSD 算法各预测特征图之间信息不平衡的问题。为了评估方法的性能,本文在PASCAL VOC[14]数据集上训练并测试了模型。本文主要贡献如下:

首先,设计了轻量级的、有效的深度特征融合模块和非局部通道注意力模块,可应用于任何基于卷积的网络。

其次,将提出的模块应用于SSD 框架有效地克服了其不足。

最后,在PASCAL VOC 基准数据集上有效地验证了所提方法的有效性。

1.1 目标检测

目标检测包含目标定位和分类。从传统的基于手工设计特征的方法如SIFT(scale-invariant feature transform)[15]和HOG(histogram of oriented gradients)[16]到基于深度卷积网络的方法,目标检测技术有了巨大发展。最近基于深度卷积网络的检测算法取得了显著成功,一般可以分为两类:基于区域提议的两阶段检测算法和基于回归导向的一阶段检测算法。

两阶段检测算法由两个步骤组成:产生提议区域和对提议区域进行细化调整。首先尝试在目标检测方面使用深度学习的算法是R-CNN[1]。R-CNN 使用选择性搜索算法产生提议区域,然后使用卷积网络对每个区域进行特征提取,最后使用线性支持向量机(support vector machine,SVM)预测目标可能存在的位置并对目标进行分类。然而由于R-CNN对每一个提议区域都进行卷积,其速度较慢。Fast R-CNN[2]只进行一次特征提取,因此速度比R-CNN 更快。但是这两个方法仍然把区域提议划分成了单独的阶段。Faster R-CNN[3]将区域提议阶段、特征提取阶段、边界框分类回归阶段整合到一个模型,并可以进行端到端的训练。尤其是区域提议网络(region proposal network,RPN)的提出,进一步提高了检测的速度和精度。两阶段检测算法对于目标特征的学习是十分有效的,但是它们计算效率普遍不高。

不同于两阶段的检测算法,一阶段的检测算法遗弃了区域提议阶段,因此检测速度更快。YOLO[5]提出使用单个卷积网络同时预测多个边界框以及它们的类别概率。YOLO 的速度虽然很快但其检测精度远远低于两阶段检测算法。相对于YOLO中直接预测目标中心点的位置,YOLOv2[6]采用的锚框机制更利于检测,极大提高了检测精度。不同于YOLO采用单一尺度的特征图进行预测,SSD算法在主干网络的顶部建立了特征金字塔,利用不同尺度的特征图检测不同尺寸的目标。相对于YOLOv2,SSD算法取得了更好的性能。基于SSD 算法,DSSD(deconvolutional SSD)[17]算法采用编码-解码的方式融合特征图,提升了SSD 算法的检测精度,但是引入了大量的计算。FSSD(feature fusion SSD)[18]在SSD 特征金字塔的底部插入一个融合模块以提升SSD 检测精度,在保证SSD 检测速度的同时轻微地提升了检测精度。其他的工作,像RefineDet[4]通过多阶段不断调整锚框的位置来提高检测精度。DSOD(deeply supervised object detector)[19]探索了如何从零训练一个检测器,并且设计了基于DenseNet[20]的架构来提高参数利用效率。

1.2 多尺度特征预测

特征金字塔是最近目标检测算法解决跨尺度检测问题的关键技术。SSD 是其中一个最先尝试使用多个不同尺度的特征图分别预测目标的类别和边界框的算法。FPN 通过自顶向下路径和侧面路径循序地结合两个相邻特征图。这种连接有效地增强了特征描述,并且共享了深层特征图包含的丰富语义信息。类似FPN,PAFPN[12]在FPN的基础上添加了一个自底向上的分支,进一步增强了特征描述。Libra RCNN[21]整合了所有尺度的特征以产生信息更平衡的特征图。ION(inside-outside net)[22]、HyperNet[23]和Hypercolumn[24]将不同尺度的特征图进行拼接以提高检测性能。

1.3 视觉注意力网络

注意力在人类感知系统中扮演着重要的角色。人类视觉系统的一个重要特性是,不会尝试同时处理整个场景,而是选择性地聚焦于突出部分,以便更好地捕捉视觉结构。深度学习中的注意力机制可以广义理解为专注于解决特定任务的部分输入,即从众多信息中选择出对当前任务更关键的信息。

最近,也有很多工作尝试将注意力机制整合到卷积网络以提高其性能。Hu 等人[25]提出了Squeezeand-Excitation 模块,他们运用全局平均池化到特征图以计算每个通道的重要程度,建模通道之间的关系。CBAM(convolutional block attention module)[26]提出了空间注意力模块和通道注意力模块,结合平均池化和最大池化操作处理特征图,来更好地获取目标的显著特征,并捕获不同空间位置和不同通道之间的重要性。Non-Local[27]、Global Context Block[28]通过在查询像素点与全局像素点建立关系,来建模像素点之间的长距离关系。

长距离关系可以理解为查询点与其他像素点之间的关系,在卷积神经网络中建立长距离关系的主要方式是通过堆叠卷积层以扩大查询点的感受野从而建立其与感受野内像素的关系。然而这种方式计算效率不高且难以优化。Non-Local网络使用自注意力机制来建模长距离关系,但是因为Non-Local模块需要计算每个查询位置的注意力图,随着查询点数量的增多,其计算复杂度会呈二次增长。Global Context Block通过实验分析证明,Non-Local注意力模块在每个查询位置的注意力图几乎是相同的。因此所有查询位置共享同一个注意力图是一种有效的简化方法。

1.4 SSD算法

SSD 算法是一种十分有效的一阶段检测算法,SSD 算法使用VGG16[29]作为主干网络,用不同尺度的特征图分别进行检测。SSD 算法预先在不同尺度的特征图上定义不同尺寸和长宽比的锚框,从浅层特征图到深层特征图锚框的尺寸逐渐变大,即用浅层特征图预测小目标,用深层特征图预测大目标,以此来解决检测中存在的目标尺度变化问题。最后,SSD 算法使用NMS(non-maximum suppression)算法处理不同尺度特征图的检测结果。SSD 算法的整体框架如图2所示。

图2 SSD算法整体框架图Fig.2 Overall framework of SSD

SSD算法采用不同尺度的特征图分别进行检测,存在浅层特征图语义信息不足,深层特征图细节信息缺失的问题。现有的跨尺度特征图融合方法往往将不同尺度的特征图采样同一尺度,然后采用对应特征图元素相加或者在通道维度拼接的方式融合。其忽略了不同尺度特征图之间存在的信息差异,融合后的特征图可能包含冗余信息或者噪音信息。现有的注意力机制,大多是空间注意力机制与通道注意力机制的结合,空间注意力经常采用拥有较大感受野的卷积层获取局部特征。这不能有效利用像素点之间的关系。针对上述方法存在的优缺点,本文设计了新的特征增强模块。不同于上述提到将相邻两层特征图循序相加融合的方法,本文提出的特征融合模块是以一种选择融合的方式获取两个特征图之间的互补信息,来进行更深度的融合,从而有效缓解不同尺度特征图的信息差异带来的融合负面影响。同时,为了扩大特征图空间位置的感受野,利用不同感受野的信息提升对小目标的识别能力。本文根据池化金子塔的思想设计了深度特征提取模块,通过多个分支产生不同感受野的特征图并进行整合,以使每个空间位置都有不同的感受野,有效缓解了跨尺度预测问题。进一步地,提出了非局部通道注意力模块,将空间注意力和通道注意力整合为一个轻量级模块,可有效捕获通道之间的重要性关系,并在每个查询点与全局像素点之间建立了长距离关系。

卷积神经网络可以有效提取图片的金字塔形式特征,从浅层特征到深层特征语义信息越来越丰富。SSD算法直接使用不同尺度的特征图进行检测,这使得SSD算法不能有效地将包含丰富细节信息的低级特征图与包含丰富语义信息的高级特征图进行融合,从而SSD 算法的检测结果是次优的。尤其是对于小目标,小目标在图像中占有很少的像素,因此小目标的识别需要充分结合其外观细节信息和语义信息。有效融合不同尺度的特征对于提高基于卷积网络的检测器的性能是十分有必要的。

本文改进了传统的SSD 算法,主要思路是通过运用提出的方法产生一个具有丰富表征能力的特征图,然后将该特征图通过一个特征金字塔提取层,以产生多尺度的特征图来检测不同尺寸的目标。改进的SSD架构可以改善浅层特征图语义信息不足的缺点,同时丰富了深层特征图的细节信息,极大提高了检测性能。

改进的整体架构如图3 所示。具体改进方法如下,设置Conv4_3 层为优化层,使用其他层来增强Conv4_3层的表示能力。首先使用特征融合模块,将VGG主干网络产生的Conv4_3层特征图与上采样后的Conv5_3层特征图融合,融合后的特征图再与上采样后的Fc7 层融合,以进一步提高Con4_3 层特征图的语义信息。同时,为了充分利用浅层特征图的细节信息,本文利用特征提取模块对Conv3_3层进行特征提取。设置特征提取模块的目标尺寸为两倍下采样大小,使用特征融合模块将Conv3_3层提取到的特征图与融合后的Con4_3 层进一步融合,以产生更具语义和细节的特征图。然后将该特征图经过非局部通道注意力模块,来突出有用信息,抑制噪音等无效信息。最后经过一个特征金字塔层,提取不同尺度的特征图以进行不同尺寸目标的检测。

图3 改进的SSD算法整体架构图Fig.3 Overall framework of improved SSD

各模块的详细描述将在下面小节介绍。

2.1 深度特征融合模块

融合不同尺度的特征图已经被证明可以有效地提高检测性能,如FPN[11]、DSSD[17]、PAFPN[12]。由于不同尺度的特征图有不同大小的感受野,这些不同尺度的特征图存在大的信息差异,常规的融合手段是将两个不同尺度的特征图采样到同一尺度然后采取直接相加或在通道维度拼接的方法对两个特征图进行融合,这种做法忽略了不同尺度特征图之间存在的信息差异,会产生次优的融合结果。

针对上述问题,本文设计了一个跨尺度特征融合模块,有效地融合深层特征图fh∈RH×W×C和浅层特征图fl∈Rh×w×C。由于浅层特征图具有较小的感受野,fl包含丰富的细节信息,同时也保留了一些背景噪音。相反由于多次下采样操作,fh丢失了许多细节信息却有着丰富的语义信息。这两种特征图之间存在大的信息差异。跨尺度特征融合模块首先将两个特征图采样到同一尺度,然后将这两个特征图经过各自的降维模块以减少后续融合时的计算量。降维之后的两个特征图求哈达玛积并经过特征迁移层,产生一个对两个特征图有全局综合描述的中间模板特征图,然后将其与原始的特征图fl、fh采用按元素相加的方式融合。fl、fh会根据模板特征图的信息进行互补融合,吸收彼此之间有用的信息来产生互补作用,即fl的噪音将被抑制,fh的语义将被增强。相比之前方法直接将两个特征图按元素相加或者拼接,本文的融合方法可以避免引入一些对检测结果带来负面影响的冗余信息。该跨尺度融合模块包含两个分支,如图4所示,一条分支用来细化fl,另一条分支用来细化fh,细化后的两个特征图求哈达玛积后再经过特征迁移层可以产生一个包含两者信息的中间层。网络会学习到两个特征图之间的差异信息,最后原始特征图与模板特征图的融合相当于互补选择的过程。

图4 特征融合模块Fig.4 Feature fusion module

整个过程可以用下列公式描述:

2.2 深度特征提取模块

语义信息对复杂场景以及小目标的识别是重要的。例如,当通过目标的形状等外观信息无法判断目标是什么类别的时候,可以结合其所处的语义环境来帮助判断。在深度卷积网络模型中,可以用感受野的尺寸粗略描述模型利用了多少语义信息。Zhou等人[30]证明了CNN网络的实际感受野远远小于理论感受野,尤其是在更深的卷积层中。因此为了获取不同感受野的语义信息,更进一步提取丰富的特征描述,根据池化金字塔的思想设计了一个深度特征提取模块,通过该模块可以让特征图的每一个空间位置看到不同大小空间的语义信息,进一步扩大特征图的感受野。深度特征提取模块架构如图5所示。其包含三个分支,每一个分支先经过一个指定大小池化核的平均池化操作,并对下采样后的特征图经过3×3的卷积以减少池化操作产生的信息偏差。然后将三个不同尺度的特征图采用双线性插值的方法上采样到目标尺寸,并将输入的特征图也采样到目标尺寸。最后将这些特征图在通道维度进行拼接,拼接后的特征图再经过3×3 的卷积层使信息充分融合。深度特征提取模块分支的数量以及池化核大小都可以更改。本文中三个分支的池化核大小各自为2、4、8。

图5 特征提取模块Fig.5 Feature extraction module

2.3 非局部通道注意力机制

空间注意力机制可以基于特征图全局的关系,得到特征图中每个位置的相关性。强调网络感兴趣的部分,抑制背景等无用部分。通道注意力机制,可以结合特征图通道之间的关系,建模各通道之间的重要程度,通过通道注意力机制网络可以获得更多通道间的信息。非局部通道注意力详细结构如图6所示。该模块主要包含两部分:一部分用来建模各通道之间的重要性关系,另一部分用来建模像素点之间的长距离关系。其中长距离关系分支采用Global Context Block 的全局注意力池化部分。它采用嵌入高斯计算像素点之间的相似度。对于输入的特征图F∈RC×W×H,非局部通道注意力机制主要分为以下步骤:(1)在像素点间的长距离关系部分,对F先采用1×1的卷积Wk和Softmax函数得到注意力权重Fw∈RHW×1×1,然后与键值项特征Fk∈RC×HW相乘得到长距离关系的全局特征z∈RC×1×1。(2)F经过全局最大池化和全局平均池化产生特征图FM、FA;
FM、FA经过同一个迁移层网络产 生对应元素相加后经过Sigmoid激活产生通道注意力图。(3)将步骤(1)和步骤(2)产生的注意力图进行对应元素相乘融合,然后经过特征迁移层后得到非局部注意力特征图。(4)将原始的特征图与非局部注意力特征图相加。以上过程可以用下面公式表示:

图6 非局部通道注意力机制模块Fig.6 Non-local channel attentional mechanism module

其中,x是输入的特征图,u是产生的通道注意力图,z是产生的长距离关系注意力图,Np=H×W是特征图中像素点的数量。T(·)=ReLU(BN(conv2d(x)))是特征迁移层。是Sigmoid激活函数,C(·)、M(·)、G(·)分别表示卷积、全局最大池化和全局平均池化。∘表示哈达玛积。

全局最大池化可以提取特征图最显著的内容捕获目标特征的差异信息。全局平均池化可以捕获特征图全局的综合信息。融合全局最大池化和全局平均池化产生的特征图对建立特征图通道之间的关系有重要意义。

通道注意力图可以指导检测器更应该关注哪一个通道。长距离关系注意力图可以有效地建立查询点与全局像素点的联系,以获取更全面的空间相关信息。通过融合通道注意力图和空间注意力图可以提高原始特征图的表征能力,让每个空间位置和每个通道产生联系,有效地提高检测能力。

图7为特征金字塔产生层。

图7 特征金字塔产生层Fig.7 Pyramid feature generation layers

为了评估提出方法的有效性,在PASCAL VOC数据集上设计了丰富的实验进行验证。在PASCAL VOC数据集上,如果预测框与真实框的交并比(IOU)大于0.5则预测结果是正确的。采用平均精确度(11 point mAP)作为评价指标。

3.1 数据集

PASCAL VOC 数据集包括20 个类别,即aero、bike、bird、boat、bottle、bus、car、cat、chair、cow、table、dog、horse、mbike、person、plant、sheep、sofa、train、tv。使用PASCAL VOC2007trainval 和PASCAL VOC2012 trainval训练模型,使用PASCAL VOC2007test 和PASCAL VOC2012test 数据集测试模型。训练集一共16 551 张图片,PASCAL VOC2007 测试集一共4 952 张图片,PASCAL VOC2012 测试集一共10 991张图片。

3.2 实验设置

本文应用提出的方法到SSD 框架,并基于Pytorch 框架实现了模型。本文使用VGG16 作为主干网络,实验中所有上采样操作后会经过3×3卷积和ReLU 激活,Fc7 层上采样后的卷积层通道数调整为512 以便后续融合。深度特征融合模块和非局部注意力模块瓶颈层的降维比率均设为1/4。训练策略、数据增强策略以及损失函数和锚框参数均与原始SSD一致。本文使用RTX-2080Ti 显卡进行实验。对于300×300 输入分辨率图片,Batch size设为16,初始学习率设为0.001,120 000 次和140 000 次迭代后学习率依次下降10%,迭代180 000 次得到最终的网络模型。对于512×512 输入分辨率图片,Batch size设为8,初始学习率0.001,迭代140 000次和160 000次后学习率依次下降10%,总共迭代240 000次得到最终模型。

3.3 实验结果与分析

本文在各个类别的检测结果上与SSD300、DSSD321、ION300 算法进行了对比。各类别检测精度详细结果如表1 所示。比较四种算法在PASCAL VOC2007 测试集上的检测结果可以看出,应用本文提出的模块对SSD算法进行改进可以极大提高检测精度,各个类别相对其他算法有了明显的精度提升,mAP 比原始的SSD 算法提高了2.9 个百分点。对比结果如图8所示。同时,为了进一步评估所提算法的有效性,在相同的实验环境下,将SSD512 模型与本文模型对PASCAL VOC2012测试集的预测结果分别提交至PASCAL VOC 官方评测网站进行评测,评测结果如表2 所示。从表中可以看出,在PASCAL VOC2012测试集上本文方法的各类别检测精度相对原始SSD算法有了显著提升。

表2 PASCAL VOC2012test数据集上20类别检测精度对比Table 2 Comparison of detection accuracy of 20 categories on PASCAL VOC2012test dataset 单位:%

图8 PASCAL VOC 2007test数据集上4种检测算法mAP对比Fig.8 Comparison of mAP of 4 detection algorithms on PASCAL VOC2007test dataset

表1 PASCAL VOC2007test数据集上20类别检测精度对比Table 1 Comparison of detection accuracy of 20 categories on PASCAL VOC2007test dataset 单位:%

为了比较提出方法与其他主流检测算法的差异,本文进一步在PASCAL VOC2007 测试集上对比了多种算法的检测精度和检测速度,具体比较结果如表3所示。从表中可以看出,本文算法与其他算法相比,在输入分辨率相近的情况下检测精度更好,且能达到实时的检测效果。

表3 PASCAL VOC2007test数据集上检测速度和检测精度对比Table 3 Comparison of detection speed and accuracy on PASCAL VOC2007test dataset

为了更直观地评价本文算法,图9给出了SSD模型和本文模型在PASCAL VOC2007测试集下部分图片检测结果对比。两个模型均在VOC07+12 数据集上训练,输入图片分辨率均为300×300。通过对比可看出,本文算法在复杂场景下鲁棒性更好,对于SSD算法没有检测出的目标,本文算法可有效检测,且对遮挡目标以及小目标的识别优于原始SSD算法。

图9 本文与SSD算法检测结果对比Fig.9 Comparison of detection results between SSD and ours

3.4 消融实验

为了验证各模块的有效性,本文设计了一系列控制变量实验,测试在添加或不添加提出的方法下模型检测精度和检测速度的差异。实验环境与3.2节相同。在PASCAL VOC2007测试集下进行了实验,实验结果如表4所示。SSD*表示只改变原始SSD的架构不使用任何本文提出的方法。实验中Conv3_3层直接经过一个3×3 卷积调整维度到512并下采样到38×38。Conv5_3 上采样后直接与Conv4_3 相加融合然后Fc7 层经过上采样后再与Conv4_3 相加融合,最后与调整维度后的Conv3_3 相加融合。SSD*+EM 表示在SSD*的基础上Conv3_3 层使用的特征提取模块。+FM表示相加融合改为所提的特征融合。+NCA 表示融合后的特征图经过非局部通道注意力模块。通过观察表4 可以看出,在改进版的SSD 框架中逐步加入提出的方法可以明显提高检测精度,尤其是使用深度特征融合模块代替相加融合操作可以显著提高检测精度。非局部注意力模块在略微损失检测速度的前提下提升了0.7 个百分点的检测精度。当将三个模块全部加到改进版的SSD框架中可达到最好的检测精度。

表4 消融实验对比结果Table 4 Comparative results of ablation experiments

为了更直观地说明非局部通道注意力模块的有效性,本文使用Grad-CAM[34]可视化了PASCALVOC2007测试集的部分图片,如图10所示。Grad-CAM是最近提出的一种可视化方法,它使用梯度来计算特征图空间位置的重要性。颜色越深说明该区域对类别识别的影响越大。通过观察图10可以发现,非局部通道注意力机制可以进一步突出对当前目标任务有利的信息,并且有效抑制了背景等对检测没有帮助的信息,因此可以推断非局部通道注意力机制对检测精度的提升有很大帮助。

图10 注意力图可视化Fig.10 Visualization of attention maps

针对传统SSD算法存在的多尺度独立预测造成的各尺度信息不平衡,以及鲁棒性差、小目标识别差等问题,本文设计了新的架构以解决这些问题。首先设计了一种新的特征图融合方法,有效地融合了不同尺度特征图,同时缓解了不同尺度特征图之间的信息差异带来的融合负面影响。其次为了增大特征图的感受野,充分利用不同感受野下的语义信息,进一步提高特征图的表示能力,本文根据池化金字塔的思想设计了深度特征提取模块,利用不同尺寸的池化核获取不同大小的感受野,以使特征图利用不同感受野的语义信息,从而提高对目标的识别能力。本文还设计了一种非局部通道注意力机制,将像素点的长距离关系注意力和通道关系注意力融合到一个轻量级模块,突出特征图对当前任务有效的信息,抑制背景等无效信息,进一步提升了检测精度。最后基于上述方法,本文改进SSD 算法的架构,改进的SSD 算法有了大幅度的检测精度提升,同时还保留了实时性。本文设计的所有模块均可用于基于卷积的神经网络,即插即用。未来将继续改进各个模块的架构以在保持精度提升的前提下,进一步减少模块的计算量,以较少的速度损失获取更多的精度提升。

猜你喜欢 池化尺度卷积 基于高斯函数的池化算法计算机应用(2022年9期)2022-09-25卷积神经网络中的自适应加权池化软件导刊(2022年3期)2022-03-25基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11财产的五大尺度和五重应对内蒙古民族大学学报(社会科学版)(2020年2期)2020-11-06从滤波器理解卷积电子制作(2019年11期)2019-07-04基于卷积神经网络和池化算法的表情识别研究计算机技术与发展(2019年1期)2019-01-21用于手写汉字识别的文本分割方法智能计算机与应用(2018年2期)2018-05-23基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20宇宙的尺度太空探索(2016年5期)2016-07-12

推荐访问:尺度 算法 注意力

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0605/607676.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!