• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于跨域关系学习的视频分割算法研究*

    时间:2022-11-11 14:10:04 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    龚猷龙

    (重庆广播电视大学电子信息工程学院,重庆 401520)

    视频分割是一个具有挑战性的问题,旨在将给定视频的所有帧中的前景像素和背景像素分开。过去几年来,它一直是计算机视觉的活跃研究领域,潜在的应用包括视频编辑、媒体诊断和自动驾驶等。

    近年来,由于深度学习的发展,基于多尺度分析和数据增强的图像分割已用于提供可接受的分割结果。空域、时域和通道域中的上下文是提高分割有效性的重要因素。图1 显示了DAVIS16 数据集的域内关系示例。顶行绿色箭头显示时域内相关性,中间行紫色箭头显示单个图像空间内相关性,底行红色箭头显示不同通道的相关性。可以发现,不同通道中的高激活区域(在红黄色区域)与对象的不同部分(例如人的脚和头)有关,这种不同部分之间的关系提供了附加的语义线索,可用于改善语义分割结果。但是,如何同时捕获空域、时域和通道域中的非局部关系,仍然是视频分割中的重要问题。

    图1 DAVIS16 数据集中时域(上行)、空域(中行)和通道域(下行)中的关系

    为了在特定域中对关系建模,非局部神经网络通过使用像素之间的相似度来学习空间域中的非局部依赖性。需要将这种机制灵活地扩展到不同域的方法,并设计一种新方法来适当地融合来自多个域的上下文特征,以增强在逐像素分类任务(如视频分割)中的特征辨识能力。

    在本文中,提出一种新的三重注意网络,如图2所示。过去帧和当前帧学习时域注意图,并捕获记忆信息和当前观察值之间的时域依赖性。通过当前图像(因为空域和通道域相关性是动态的,并且与历史信息无关)独立获得通道域自注意力图和空域自注意力图并用于求取每个域的上下文特征。针对不同域的信息进行融合时具有语义鸿沟的问题,设计一种跨域关系学习模块,寻找嵌入空间,使得不同域信息进行线性投影后可以缓解语义鸿沟问题。

    图2 使用独立的自注意力网络来挖掘时域、空域和通道域下文

    本文的贡献如下:

    1)提出一种基于注意力机制的时域信息挖掘网络,在时域变化剧烈情况下基于历史信息改善视频分割结果。

    2)设计一种跨域关系学习机制,用于融合单张图像的空域和通道域信息,从而增强视频分割器的辨识能力。

    在Shining3D 牙科、DAVIS16 和DAVIS17 数据集上的实验结果表明,与最新的视频分割方法相比,本文方法可获得令人满意的结果。

    本章将简要回顾有关视频分割中上下文挖掘的工作。

    1.1 空间上下文挖掘

    时空马尔可夫随机场(STMRF)和VideoGCRF图模型在深度学习框架中对空间依赖性进行编码。但是,这种方法就在推理阶段进行样本关系挖掘时非常耗时,并且对外观变化也很敏感。因此,自适应亲和力场(AAF)利用对抗学习来捕获和匹配相邻像素之间的关系。空间传播网络(SPN)和RelationNet在空间中周期性地传播信息,而DifNet 则应用级联的随机行走来近似复杂的扩散过程。为了获得传递阶段的起点,可以使用显著性检测或注意图来获得可靠的种子起点。

    1.2 通道上下文挖掘

    LSSiam 网络使用通道注意力模块来学习跨通道关系。基于通道交互的二进制卷积神经网络(CI-BCNN)通过增强学习模型挖掘通道交互能力,并通过交互式位计数函数将通道应用于超特征图。CNN 或RNN 框架中的通道注意力探索了减少不相关通道影响的重要性。最近,空间注意力和通道注意力已被组合在一起,以在特征图中找到最有价值的激活区域。

    1.3 时间上下文挖掘

    Ci 等使用了一种简单的方法,该方法仅通过跟踪前一帧中的分割结果,而大多数方法则从点轨迹、特征对齐、蒙版传播或运动中获取时间信息。点轨迹与帧内显著性、帧间一致性和跨视频相似性相结合,形成一个能量优化框架,以发现和分割跨多个帧或立体视频的公共对象区域。后来采用基于密度峰值和基于子模型优化的轨迹聚类方法捕获轨迹之间丰富的时空关系。特征对齐与来自相邻帧的特征图中的相应像素进行匹配。MoNet 利用光流在整个序列中传播特征图,而自适应时间编码网络(ATEN)仅在具有低置信度空间推断中使用特征流。递归神经网络(RNN)也探索序列中的时域关系,然后在序列到序列的框架中学习时域相关性。其他方法使用基于匹配的方法来计算前景和背景的特征相似度。掩码传播直接学习相邻帧之间掩码的时域关系。一些方法还使用光流将预测的掩码映射到相邻帧,而其他工作则使用基于学习的方法(例如MaskTrack 和深度暹罗编码器/解码器)对掩码传播进行建模。运动挖掘已被用来发现图像中具有运动信息的部分。结合显著性检测的光流通常用于查找运动对象,并且使用距离变换可进一步提高分割的准确性。

    近年来,由于注意力机制能够发现具有高激活值的潜在区域,因此,其引起了人们的关注。分层注意力暹罗网络(HASN)结合了注意力权重和多层集成,以增加匹配判别力。Wang 等人使用convLSTM捕获动态视觉注意力,以指导基于FCN 架构的细粒度对象分割。剪切执行网络(CEN)和Patchwork 基于Q 学习的策略智能地选择硬注意力图。多关注实例网络(MAIN)结合了RGB 图像、光流以及长短空时注意力线索产生多实例分割。

    以上方法通过在特征图中使用时间一致性、空间相似性和通道关系来返回预测结果。然而,目前的方法只能同时学习一种或至多两种依赖关系,而不能完全利用上下文信息。

    卷积操作在局部区域进行信息处理,属于同个类别不同区域的像素所提取的特征会有差异,而这种类内差异性影响分割结果的准确性。为解决这个问题,本文通过使用自注意力机制建立像素间关系来探索全局上下文知识,该机制在通道域、空域和时域上学习非局部上下文知识。本文方法如图3 所示。课题组使用经过预训练的骨干网络(例如ResNet101)和空洞卷积作为编码器。来自空洞残差网络的特征送到本文模块中以获取上下文特征,上下文特征输入到基于反卷积的解码器中得到与原始图像相同分辨率的预测分割预测图。该网络的细节如图3 所示。使用过去帧和当前帧来学习时域注意力图,通过当前图像来获得空域和通道域自注意力图,进而获得每个域中的上下文特征,跨域关系学习模块融合空域和通道域特征得到最终上下文特征送入解码器预测分割掩码。

    图3 本文方法的详细结构

    2.1 时域注意力模块

    当前的视频分割方法利用视频中固定某帧作为掩码传播或特征对齐的参考帧。但是,视频序列通常包含较大的运动、遮挡和外观变化,从而导致不稳定的预测结果。

    视频序列中对应于当前帧的先前帧,即使不是当前帧的相邻帧,也包含时域线索,尤其是在目标进行重复活动的情况下。因此,课题组设计了一种基于检索的非局部信息挖掘方法,来捕获视频序列中的非局部依赖性。视频中每帧都参与预测过程,并且每帧的重要性由时域注意力机制决定。

    在图3 中,过去帧和当前帧的检索特征图在时域上进行匹配,然后将匹配分数归一化,作为过去帧的语义特征图权重。时域知识的线性组合用于获得时域上下文特征。

    过去帧提供不同贡献的时域线索,其中最相似的帧获得最高的权重。因此,过去帧中时域注意图t和f特征的线性组合乘以比例参数α,以进一步和当前帧特征图f进行元素求和从而得到最终输出:

    在时域维度上使用自注意力机制有几个优点:1)有时由于截断、遮挡或较大的摄像机运动,视频中的内容会出现前后不一致。与局部递归或卷积的方法不同,自注意力机制可以通过测量任意两帧间的相互作用来直接捕获非局部时域关系,而无需考虑它们的间隔。2)本文的自注意力算法是高效的,因为它仅在时域中使用线性核函数,而不是其他非线性核函数。3)自注意图保持输入张量的大小,可以轻松地将其插入到其他模块中。

    2.2 跨域交互模块

    当前许多工作仅使用CNN 来获取空域局部特征,忽视空域非局部上下文信息通常会导致预测错误。此外,高层特征图中的不同通道包含丰富的对象或属性信息。如果充分探索通道域内的关系(不仅是相邻通道,还有非局部通道),则可以改进语义特征的辨识性。

    为了对不同位置和通道的特征之间丰富的上下文依赖性进行建模,同时缓和不同域信息融合时的语义鸿沟,本文引入跨域交互模块,同时从不同域的角度增强特征的判识能力。

    首先,用编码器来获得分辨率减小的共享特征图,然后,通过以下步骤将实现跨域交互模块,并获得联合空域和通道域的非局部上下文特征图:1)空域自注意力和通道域自注意力分别建模各自域的非局部依赖关系,从而得到空域、通道域上下文特征;
    2)学习通道域到空间域的投影矩阵,将通道域上下文特征投影到空域中,从而实现不同域特征的融合。

    其中,β 和γ 是标量参数,以使远程影响可与j 位置或n 通道的特征相提并论。

    该方法根据空间域和通道域自注意力图选择性地组合上下文,从而具有全局上下文视角。相似的语义特征会获得互增益,从而增强类内部的特征紧凑性和语义一致性。为了简单起见,本文使用线性核对空间域和通道域内部及跨域间的关系进行建模。可以在嵌入空间或使用其他基于CNN 的非线性映射中进一步探索复杂的相互依赖关系,以发现观测值背后的潜在知识。

    2.3 难例挖掘

    在训练数据充足的情况下,由于训练数据内存在冗余、噪声,使用全部训练数据不但不能提升分割模型的性能,而且还会增加学习时间、降低模型收敛性;
    而随机抽样样本进行学习的方法又会降低数据的多样性,从而最终降低分割模型的有效性。

    因此,采用难例挖掘策略改善模型的有效性,用所有训练数据训练出初始分割模型后,利用初始分割模型对训练数据进行视频分割,每帧中每个像素的分类概率计算熵(度量分割的不确定程度),用于训练的视频段中所有帧计算像素熵的和,并与固定门限比较,如果视频段的熵大于门限表示该视频段的分割结果不确定性较高,可以用于难例挖掘。然后,基于采集到的难例对初始分割模型进行微调,从而得到改进的视频分割模型。实验过程中熵门限的取值根据验证集的分割性能进行搜索,在本实验中,DAVIS16 和DAVIS17 数据集中熵门限取值为6 480,Shining3D 牙科数据集中熵门限取值为4 800。

    3.1 数据集

    本文在DAVIS16 数据集、DAVIS17 数据集和Shining3D 齿科数据集上评估了本文方法的有效性。

    DAVIS16 数据集包括50 个高分辨率视频(训练集有30 个视频,验证集有20 个视频)。这些视频总共包含3 455 帧,每帧都有标定的分割掩码。该数据集包含诸如外观变化、遮挡和运动模糊之类的挑战性情况,因此被广泛使用。需要指出的是,该数据集仅标记了图像中主要的运动对象。

    DAVIS17 数据集包含多个对象的场景。它是DAVIS16 数据集的扩展(训练集有60 个视频,验证集有30 个视频,测试集有30 个视频,测试挑战集有30 个视频),包括总共10 459 个带标定掩码的图像帧。本文在验证集上验证了该方法的有效性。由于具有多个交互的实例,因此,DAVIS17 数据集比DAVIS16 数据集更具挑战性。

    Shining3D 牙科数据集包含由3D 牙科扫描设备产生的47 个视频,该视频构建5 800 帧的训练集和2 000 帧的验证集。图像大小调整为640×480 像素。图像中的区域标定为牙齿、脸颊、嘴唇、下颌、牙龈或其他软组织。为了应用目的,本文选择将牙齿、牙龈和所有其他软组织作为3 个不同的类别。

    3.2 评价标准

    本文使用区域相似度的平均值J和轮廓精度F作为评价标准。平均区域相似性J是通过预测的分割掩码和相应的真实分割掩码之间的交并比(intersection-over-union,两个区域重叠的部分除以两个区域的集合部分得出的结果)得到。轮廓精度F体现了召回率和精度之间的平衡。

    3.3 实施细节

    在本文方法中,骨干网络是ResNet50 或ResNet101,并提取了3 个下采样后的特征图作为共享特征。然后,在共享特征上分别连接3 个分支,以提取和融合来自不同域的知识。也就是说,全局平均池化接收全局信息,3×3 卷积接收局部信息,并使用步幅2、4 和8 进行空洞卷积以进行多尺度分析。因此,在DAVIS16 和DAVIS17 数据集中原始特征图的大小为108×60×64,在Shining3D 牙科数据集中原始特征图的大小为80×60×64。历史帧数T固定为10,比例参数α,β 和γ 分别选择为0.05、0.002 和0.01。优化器是随机梯度下降(SGD),权重衰减为0.04,动量为0.9。为避免有效性曲线受到冲击,将学习率在前50 个训练周期设置为0.008,在后15 个训练周期设置为0.005,这将根据验证集的有效性进行更新。对于Shining3D 牙科数据集,批处理大小设置为14,对于DAVIS16/17 数据集,批处理大小设置为10。为了进行数据增强,在训练期间使用了水平/垂直翻转(HVF),基于空间变形和强度变化(SDIC)的数据增强或基于视频传播(VP)的数据增强。

    3.4 消融研究

    本文进行了广泛的消融研究,以比较本文方法中几个重要组成部分的结果。这些实验仅在DAVIS16 数据集上进行。

    1)三重注意力网络。本文验证了每种类型的注意力机制以及注意力机制组合的有效性,产生的平均区域相似度J和轮廓精度F显示在下页表1中。骨干网络是ResNet50 或ResNet101,并且以8 倍下采样率从骨干网络中提取共享特征图。视频传播(VP)用于数据增强以扩充训练数据。与不使用上下文挖掘的方法相比,时域、空域和通道域的自注意力分别在骨干网络ResNet50 下提高了平均区域相似度约3.8、4.3 和3.5,在骨干网络ResNet101 下提高了3.6、4.0 和3.4。此外,还可以同时使用不同的自注意力网络来提高分割的有效性。当3 种自注意力网络整合在一起时,总体性能分别提高了6.1(ResNet50)和5.7(ResNet101)。

    表1 DAVIS16 验证集上的三重注意力机制的性能验证

    2)注意力机制。将比较本文注意力方法和相同配置下的不同注意力方法,结果如表2 所示。动态注意力网络将静态CNN 特征序列作为输入,并学习捕获CNN-convLSTM 体系结构中的物体性。互注意力网络从一对帧中捕获了丰富的相关性,这使网络可以更多地参与相关的信息区域。排名注意力网络根据重要性重新组织像素级前景和背景相似度图。在不同的注意力机制中,由于在3 个空间中充分利用上下文信息,本文的三重自注意力方法显示出具有竞争性的性能。

    表2 不同注意力机制的对比

    3)尺度。在图4 中显示了各种下采样率(2×、4×、8×和16×)特征下自注意力网络的帧级精度分布,其中骨干网络为ResNet101。数据增强方式是基于视频传播的方法。百分位数是视频中帧的累积比率,并且68.1 和86.3 之间的准确度差距表明下采样比率在参数设置中很重要。如果在更深的网络层中使用自注意力网络,它会在高级语义区域中学习长距离依赖性。但是,减小特征图的分辨率会忽略小尺度目标。在本文实验中,下采样率为8(ResNet10 骨干网络的第23 层)在平均IoU 曲线中显示出最佳性能。

    图4 DAVIS16 数据集中各种下采样率的性能对比

    4)难例挖掘。本文比较难例挖掘训练策略在视频分割有效性上的作用,实验结果如表3 所示。采用难例挖掘策略后,不但训练数据中可以去除冗余和噪声数据,还能部分改善分割网络的分类能力(提升分割平均准确率0.4%~0.6%),得到鲁棒的视频分割结果。

    表3 不同注意力机制的性能对比

    3.5 对DAVIS16/17 验证集的评估

    本文方法与具有上下文挖掘模块的其他视频分割方法进行了比较,实验结果如下页表4 所示。

    表4 在DAVIS16 验证集、DAVIS17 验证集和Shining3D 牙科数据集上的有效性比较

    具有周期一致性的BlockMatch通过使用自监督学习来建模时空对应关系,该学习方法在DAVIS17 数据集上获得41.8 的平均区域相似度,而patchwork中基于Q 学习网络(强化学习)的策略选择子窗口并在DAVIS16 数据集上获得类似的性能。Videomatch和RANet认为前景是与背景无关的,分别独立进行匹配,这种策略大大提高了分割的准确率。Spatioltemporal MRF用CNN 对空间依赖性进行建模,并用光流对时间依赖性进行建模,并将平均区域相似度提高了3.2。DMM-Net 使用CNN 预测代价矩阵并获得令人满意的结果。DANet通过远程依赖学习在空间和通道域中探索上下文信息,从而获得了85.2 的平均区域相似度。基于DANet,本文方法结合了非局部时域关系来减轻歧义部分,并进一步将平均区域相似度提高了约1.4%。本文方法在空域和时域中使用自注意力胜过RANet 和DMM-Net,部分原因是通道自注意力所利用的部分关系使用语义区域之间的相似性来交叉验证对象的不同部分。本文方法在空间和通道域中使用对偶自注意力胜过DANet,部分原因是先前帧中存在的相关时域信息提供了其他线索来减少特征图中的歧义信息。本文方法通过将注意力张量分成3 个小尺寸的图来处理单帧,将处理时间减少到大约82 ms。

    DANet 和本文方法在DAVIS16 数据集上的分割结果如图5 所示。通过空域和通道域注意力模块,例如,天鹅和公交车图像,可以清楚地看到一些细节和对象边界。但是,由于最后一帧中的置信区域不会传播到下一帧,因此,分割结果仍然存在歧义,例如骆驼图像的脚部位置。图5 证明,当应用时域注意力模块时,可以正确预测一些DANet 方法错误分类的像素,例如,天鹅图像中的尾巴和骆驼图像中的脖子和脚。

    本文算法输出的分割掩码大体准确正确,但是某些对象的细节部分需要进一步进行改善,例如,图5 中公交车图像中的站牌和骆驼图像中的脚。当前部分不精确的分割结果部分原因是由于在下采样操作中丢失了信息,并且只有经过几层的信息提取后才能获取具有语义信息的高层特征。未来可以使用超特征将细节与语义特征相结合,以改善分割结果。

    图5 DAVIS16 数据集中DANet 与本文分割算法结果对比

    3.6 对Shining3D 牙科数据集的评估

    在Shining3D 牙科数据集上本文方法与其他分割方法同样进行了有效性的比较。实验结果在表4中,一些图像分割结果在图6 中给出。

    图6 Shining3D 数据集中本文算法结果

    图6(a)中的精确分割掩码证明了本文方法对背景复杂、相机运动和牙齿形状的变化具有鲁棒性。图6(b)提供了分割掩码不准确时的可视结果。这里需注意,由于与外观的典型特征有所不同,亮度变化会极大地影响分割结果,其他因素(例如牙龈污垢)会扩大类内差异性,而软组织(例如脸颊和舌头)的外观几乎与牙龈相同,从而使类间差异性变小。

    未来工作中,我们将通过采用Transformer 网络来扩展本文方法,以处理当前分割结果不准确的情况。同时,Shining3D 牙科数据集中每个640×480 帧的处理时间约为64 ms(NVIDIA GTX Titan X 图形),课题组计划提高处理速度,以将本文方法应用于实时处理的场景中。

    实验结果表明,注意力是视频分割的有效机制,并且可以在空域、时域和频道域中同时使用。具体而言,本文提出了一种基于注意力机制的方法,该方法使用自注意力从视频序列中的多个方面推断和组合上下文特征,并获取具有代表性和多样性的上下文特征。同时,本文方案利用难例挖掘机制提高分割模型的有效性和鲁棒性。尽管本文方法可能部分地受到诸如阴影之类的因素而导致不精确的分割,但是该方法对于大多数背景复杂、相机运动和物体形状的变化具有鲁棒性。

    猜你喜欢 时域空域注意力 让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09空管技术在低空空域管理中的应用科学与生活(2021年21期)2021-11-10台首次公布美空军活动环球时报(2021-02-01)2021-02-01晚霞浅淡少年糖花火彩版B(2020年5期)2020-09-10空中交通管理中的空域规划探讨科技视界(2020年8期)2020-05-18A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21基于MATLAB 的信号时域采样及频率混叠现象分析电脑知识与技术(2016年13期)2016-06-29两种常用漂浮式风力机平台动态特性分析能源研究与信息(2015年3期)2015-11-18不同入射角风波流海上漂浮式风力机频域与时域动态特性能源研究与信息(2014年3期)2014-10-30阅读理解两则中学英语之友·高一版(2008年10期)2008-12-11
    相关热词搜索: 算法 分割 关系

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章