• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    RFC-Net:基于残差结构的动作质量评估网络

    时间:2023-01-18 22:40:05 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    周娴玮,赖 坚,陈玮涛,阮 乐,李振丰,余松森

    (华南师范大学 软件学院,广东 佛山 528010)

    人类运动动作质量评估(Action Quality Assessment,AQA)指的是评估一个特定动作的执行情况,为该动作进行打分。动作质量评估在现实中具有巨大的应用价值,如运用在体育视频分析[1-6]、外科医生手术训练[7-8],以及其他的一些技能评估中[9-10]。

    动作质量评估相较于人类动作识别(Human Action Recognition,HAR)更具有挑战性,因为HAR是识别不同类别的动作,其动作之间差别较大,然而在AQA领域中,处理对象基本上都是同一类别下的动作,其动作间的差别较为细微,难以区别。目前绝大部分的运动,其中运动员比赛的评分(如跳水[11]、滑冰[12]等),都是由相关领域的专家评委根据运动员的表现给出相应的分数。在现实生活中,一名合格的专家评委是非常稀少的,因为他们必须经过长期的训练才能熟悉所有特定的动作,因此用自动评分系统取代教练评分是未来的一种趋势,另一方面,自动评分系统某种程度来说比较公平公正能够避免评分丑闻。

    近几年里在AQA领域提出了许多方法[13-15]试图解决分数预测问题,文献[16]通过对视频中的运动员进行追踪,只提取视频中运动员有关的特征。这种方法虽然一定程度上降低了背景因素的干扰,但是对于跳水运动而言,水花溅起的大小和高度,也是决定最后分数的关键因素,因此不根据运动特性而去除背景因素是不太合理的。文献[17]通过对比学习进行分数预测,在数据集中挑选部分视频作为范例视频,然后通过学习范例视频与输入视频之间的相似性来预测输入视频最终的评分。这类方法学习的相似度,通常会存在较大的误差,并且需要人工选择范例视频,这在某种程度上增加了预测的复杂度。文献[11,18-20]中的方法都是通过端到端之间的模型进行分数预测。在此类方法中,文献[11]通过增加卷积层的数量加强特征提取的效果,但是卷积层数的增加,会导致网络出现了退化,有效特征丢失。文献[21]使用LSTM作为特征聚合器,LSTM在卷积的顶层只能获取高层次的动作而不能获取关键的低层次动作,作为特征聚合器不能起到一个很好的效果。

    现有的方法不能有效地执行特征聚合,在AQA任务中需要一种简单、有效的特征聚合机制。为解决上述问题,该文提出了一种端到端的RFC-Net(Residual Full Connection Network)模型用于预测视频的分数。AQA模型由特征提取器和特征聚合器两个部分组成,特征提取器是用于视频特征提取的网络,特征聚合器是用于特征聚合以进行分数回归的网络。3D Convolutional Networks (C3D)[22]因为能提取出视频中物体信息、场景信息和动作信息的特征,不需要根据特定任务进行微调都可以取得不错的效果,被广泛用于动作质量评估领域。C3D看似更适合做视频处理,但存在维度问题,经过8层卷积层到最后全连接层有4 096个输出单元,这样就会更难训练,并且不能有效地将2D网络的预训练权重迁移到3D网络。所以该文的特征提取器采用Two-Stream Inflated 3D ConvNets (I3D)[23],I3D主要依据最优的图像网络架构实现,对它们的卷积和池化核从2D扩展到3D,并选择使用它们的参数,最终得到了非常深的时空分类网络,并且分别采用了不同帧组成的Clip。该文的特征聚合器由平均池化层和RFC Block组成,其中RFC Block参照残差网络(Residual Networks)的设计,卷积操作的接受域范围有限,导致了长期依赖关系的损失,所以使用全连接层作为权重层,每层的全连接层之间加入激活函数,最后再恒等映射(identity mapping)聚合所有特征进行输出。

    为进一步验证模型在不同背景下、动作差异较大时的泛化能力,该文制作了一类羽毛球运动的数据集简称(BS dataset),其中大部分是从视频媒体共享平台收集而来的羽毛球运动的训练视频。把所收集到的视频交由专业的羽毛球教练根据不同难度的动作标准进行评分,最后参照MTL-AQA数据集的格式对其进行标签化操作。与现有的数据集相比,该数据集有着其他的一些特性。首先视频是教学的视频而不是比赛的视频,在教学中动作会较为缓慢,能更清楚识别出动作;
    其次羽毛球运动是人使用长柄网状球拍击打羽毛球的体育项目,不仅仅是要考虑人的动作是否标准,球拍的位置和握拍的方式也会影响动作的分数;
    最后该数据集包括了不同背景下(不仅仅有羽毛球球场背景,还有居家背景)的教练或学员打羽毛球的视频,增加了背景因素的影响,加大了预测分数的难度。

    RFC-Net方法在MTL-AQA数据集以及BS-AQA数据集上进行了测试。实验结果验证了该模型能够提高视频中的动作分数预测效果。该文的主要贡献可以总结如下:

    (1)针对动作质量评估中预测的分数误差较大问题进行改进。

    (2)提出了RFC Block用于视频的特征聚合,消融实验表明该模块能够提高特征聚合的效果。

    (3)提出了一种基于残差结构的RFC-Net模型,该模型由特征提取器和特征聚合器组成,模型在MTL-AQA数据集以及BS-AQA数据集中取得了较好的结果。

    动作质量评估领域与动作识别领域方法相类似,这个领域几乎所有的工作都将视频中人类动作表现分数的问题作为一个回归问题。文献[24-25]对方法做了一个概括,该文按照不同的视频处理对该领域的方法进行划分,分为基于视频的方法以及基于人体骨架的方法。

    1.1 基于人体骨架的动作质量评估

    基于人体骨架的方法表现为,使用姿态估计算法对视频中的人体骨架进行识别,通过对姿态的识别得到人体骨骼各个关键点的信息。因为是从视频中识别而来的数据,所以这些关键点的信息是一个个二维坐标,所得到的2D人体骨架信息大多数使用图卷积神经网络提取特征来训练回归器。

    文献[26]提出了一种新的时空金字塔图卷积网络(ST-PGN),用于人体动作质量评估和姿态估计,此方法能够使用来自骨架特征层次的所有特征。作者的另外一篇文献在此基础上又提出了一种新的多任务框架,该框架利用图卷积网络主干把人类骨架关节之间的互联特性嵌入到所提取的特征中,然后根据不同的任务需要进行不同的处理[27]。文献[28]建立了可训练的骨架关节关系图,并分析了其中的关节运动,提出了两个新的模块,联合共性模块和联合差异模块,用于关节运动学习,此外还有文献[29-31]也属于这类方法。

    虽然骨骼数据相比视频数据,可以去除视频中背景因素的影响,专注于人体的动作姿态,能够针对于不同环境下的动作进行质量评估。但是一个动作往往和物品或环境有着交互的关系,对只关注于动作本身的骨架信息而言难以分辨出这其中的联系。

    1.2 基于视频的动作质量评估

    基于视频的方法表现为,直接把RGB视频流作为输入,使用特征提取网络来提取视频中的特征,这种特征包含人体的动作信息以及视频中的环境信息。这也可以概括为使用模型来学习视频和动作分数之间的直接映射,然后采用这种映射关系用于预测新的视频中的动作分数。这些工作大多数使用三维卷积神经网络来提取视频特征,然后使用回归方法来获得预测分数,不同的论文在分数回归阶段的处理方法也不尽相同。

    随着视频分析领域的进展,动作质量评估领域采取更深层次的特征提取网络对视频中的特征进行提取,同时还用不同的方法进行分数的回归。文献[18]中把动作识别中的框架引入到动作质量评估中,使用C3D以及C3D-LSTM的方法对特征进行提取,最后使用SVM回归预测分数,效果相较于之前论文中的单独C3D卷积有了一定的提高。此外,在文献[13]中还发布了一个全新的多任务动作质量评估(MTL-AQA)数据集,使用了两种不同的模型C3D-AVG,MSCADC验证多任务对动作质量评估的影响。文献[21]使用C3D提取特征序列,然后用多尺度卷积跳跃LSTM(M-LSTM)和自注意LSTM(S-LSTM)这两个独立模块进行处理,对特征进行聚合,用于预测分数。文献[32]引入了LDL(标签分布学习)方法。在分数回归阶段设计了一种不确定性感知分数分布学习(USDL)方法来探索一个分数的组成,通过将给定的单个分数标签转移到高斯分布分数中进行学习,从而直接估计动作视频的得分分布。文献[33]中对其进行改进,解决了USDL不适用于具有连续标签的数据集以及在训练中需要固定的方差的问题,进一步开发了分布式自动编码器(DAE),DAE同时具有回归算法和标签分布学习(LDL)的优点。

    除了直接进行分数回归外,一些学者也把目光转向了另一种解决方案:文献[16]使用孪生网络在给定的动作视频与参考视频之间进行比较,计算视频之间的相似度,从而根据参考视频的分数评估出给定视频的分数。尽管对比回归框架可以预测相对分数,但是相对分数通常取值范围很广,因此文献[34]提出一个群意识(group-aware)回归树将对比学习得到的相对分数做了更为细致的回归,该方法是目前AQA领域的SOTA。

    该文使用特征提取器进行视频的特征提取,一个完整的视频帧数量太多,不能够一次输入到特征提取器中,首先对视频进行分割处理,然后把分割完的视频片段分别输入特征提取器,特征提取器提取的特征向量作为特征聚合器的输入。为了使预测的结果更加接近真实评分,该文提出了一种由RFC Block和平均池化层构成的特征聚合器,聚合的结果将作为预测的分数结果。

    在本章节将会对RCF-Net模型进行详细的描述,其中内容包括RFC-Net网络结构,如何对视频特征进行提取以及RFC结构如何聚合视频特征。

    2.1 特征提取器

    在进行特征聚合之前必须得对视频的特征进行提取,对于特征提取网络的选择,之前大部分论文都是采取C3D作为特征提取器,但是一般3D网络的深度较浅和参数过多,这样影响了模型的表达能力和加大了训练的难度。而I3D作为较为优秀的一种特征提取架构被广泛用于动作识别以及动作质量评估中。它以最新的图片分类模型为基础结构,将kernels膨胀(inflate)结合到3D Conv。可以从视频中学习到时空特征,同时成功把ImageNet中的预训练权重扩展到视频行为识别中,因此RCF-Net模型选取I3D网络作为视频的特征提取网络。

    该文所采用的I3D架构(见图2)采用了4个卷积层、5个池化层以及Inception 模块,除最后一个卷积层之外,在每一个卷积后面都加入了Batch Normalization层和激活层(ReLU)。

    (1)

    F(x)为视频通过I3D网络所提取的特征,输出是一个1 024维的特征向量,随后把F(x)作为特征聚合器的输入。

    2.2 特征聚合器

    在动作质量评估中,一个视频中包含的动作的视频帧数较少,一些模型试图使用扩展更多的卷积进行更深层次特征提取。在一定程度上,网络越深越大表达能力就越强,提取的不同层次的信息便越多。但是随着特征提取网络层数的增加,会带来许多问题,网络出现了退化,有效特征丢失,这便导致网络的效果逐渐降低。在经过前面若干次卷积、激励、池化后,模型会得到一个高质量的全连接层,因此该文不再增加卷积用于特征的提取,而是把提取到的特征进行有效的聚合以提高分数的预测效果。RFC Block网络结构如图3所示。

    在接受特征提取器输入的特征F(x)后,F(x)分别输入到平均池化层以及RFC Block中。该文所提出的RFC Block,参照残差网络结构设计而成,由于卷积操作的接受域范围有限,导致了长期依赖关系的损失,因此隐藏层由四层的全连接层组成,每层全连接层的特征值个数分别为{512,256,256,512},并且在每层之间加入激活函数GELU。由于隐藏层全部使用全连接层,会导致特征值数目过大,因此需要随机删除全连接中的部分特征值以减少参数量。Dropout通过将一些激活数乘于0来规范化模型,ReLu作为激活函数引入非线性,强化网络的学习能力,而GELU可以看作Dropout和ReLu的结合,在后续的实验部分RFC Block分别使用了这两类激活函数,验证这两类激活函数在本模型中的效果。GELU激活函数公式如下:

    GELU(x)=xP(X≤x)=xφ(x),x~N(0,1)

    (2)

    其中,x是输入值,X是具有零均值和单位方差的高斯随机变量。P(X≤x)是X小于或等于给定值x的概率,φ(x)是指高斯正态分布的累积分布。全连接层是一维列向量,经过了隐藏层和激活后得到的特征可以与一开始输入的特征进行聚合,RCF Block可以表示为:

    FRFC(x)=F(x)⊙F(xl|wl)

    (3)

    其中,F(xl|wl)表示残差块中隐藏层中的输出特征,xl为输入隐藏层之前的特征,wl为隐藏层学习到的权重,其中l为隐藏层的层数l⊆[1,4],RFC Block的输出FRFC(x)为两个通道数的合并,使得描述图像的特征维度增加,而每一维度特征下的信息量不变,F(x)经过平均池化层得到的Favg特征值数为512。故整个特征聚合模块的输出为:

    FV=FRFC⊕Favg

    (4)

    FV为RFC Block与平均池化层聚合的特征,采取对应元素位置相加的聚合方式,在维度不变的情况下使描述图像的特征每一维下的信息量增多,显然对最终的图像的分类是有益的。最后FV进行回归得到该视频动作的预测分数。

    2.3 损失函数

    损失函数用来评价模型的预测值和真实值不一样的程度,不同的模型用的损失函数一般也不一样。该文需要预测视频中的动作质量分数,这可以看作一个分数回归的任务,给定带有动作质量标签的输入视频,基于输入视频预测动作质量:

    (5)

    (6)

    该文采用MSE作为损失函数,用于评估模型的效果,训练过程中均方误差越小则预测分数越接近真实得分。

    3.1 数据集

    3.1.1 MTL-AQA dataset

    这是一个于2018年发布的AQA领域数据集。它包含了1 412个视频样本,是迄今为止该领域最大的AQA数据集。这个数据集关注跳水运动,所有的样本都是来自于不同国际比赛中的跳水运动。这些视频包含了103帧。它们有不同的视角和相机角度。该数据集包含男女运动员的样本,个人和同步跳水、3米跳台和10米跳台跳水、奥运裁判的最终动作质量成绩、任务难度水平、赛事的评论,以及细粒度的动作标签。

    3.1.2 BS-AQA dataset

    为进一步验证模型在不同背景下、动作差异较大时的泛化能力,该文制作了羽毛球视频数据集,目前已经提出了一些AQA数据集,如AQA-7[35]、MTL-AQA[11]以及FD-10[12]数据集主要包含体操、跳水、滑冰的动作。由于球类运动的特殊性,与体操、跳水、滑冰等运动不一样。在羽毛球等球类竞技比赛中,对动作是否标准并无要求,只要击败对手即可,因此该文采用羽毛球运动训练阶段的视频来进行动作质量评估。

    视频主要来源于各个视频网站中的羽毛球训练视频,为每个视频进行编号,并请羽毛球教练为每个视频进行评分。BS-AQA数据集分数分布如图4所示。

    关于羽毛球运动数据集评分:

    在羽毛球教练的建议下,把羽毛球运动分为四个阶段,不同的阶段在整个运动中所占的权重不一致。不同阶段动作的评分进行加权求和从而得到总体的评分,这无疑比直接通过整个视频的直接评分更加合理。并且为了降低教练评分的主观性,邀请多位教练分阶段对视频进行评分,最后所得的分数为多位教练的评分取均值。用Stagei,i∈[1,4]表示教练对i阶段的评分,各个阶段的评分系数由教练根据经验得出。

    Scoreoverall=Stage1*0.4+Stage2*0.2+

    Stage3*0.3+Stage4*0.1

    (7)

    3.2 评价指标

    (8)

    3.3 实验细节

    在整个实验中该文使用的是Pytorch框架,并采用在Kinetics Dataset上进行预训练的I3D模型作为特征提取器,I3D中采用ReLU作为激活函数,使用MSE损失函数以及Adam优化器,学习率设置为1e-4。把每个视频提取包含完整动作的96帧用作训练模型,96帧被分为6个Clip 16个帧剪辑或3个Clip 32个帧剪辑。视频帧较大直接输入网络会导致训练速度过慢等问题,原始的视频帧的大小被调整到171×128,随后裁剪后的视频帧大小为112*112。并且通过随机水平翻转来进行数据增强,最后将RGB图像三通道的数值进行均值化、归一化处理,3个通道中的数据整理理到[-1,1]区间,得到frames*112*112*3的输入。通过上述步骤的处理,进一步降低了网络训练难度。

    在RFC-Net中,该文设置了消融实验用于验证RFC Block的有效性,并且比较了不同的帧数的Clip对输出结果的影响。

    3.4 实验结果

    3.4.1 MTL-AQA实验结果

    (1)与其他公开模型的结果对比。

    由于MTL-AQA数据集包含动作的难度,裁判将它们的分数与难度相乘得到最终分数,该文选择将最后输出的分数与动作难度相乘。在MTL-AQA数据集中,把近两年(2020-2021)文献[19]、文献[32]和文献[34]所提出的四种模型(ResNet34_(2+1),MUSDL,USDL,CoRe)与该文提出的模型进行对比,结果如图5所示。

    (2)与SOTA(CoRe+GART模型)对比。

    从表1中结果可知,除了文献[34]中模型外,文中模型优于之前的所有模型,在文献[34]中把对比学习用于动作质量评估,通过比较两个不同分数的视频,学习视频之间的差异,最后使用群感知回归树来回归预测最终得分。该模型至今为止是MTL-AQA数据集中的SOTA。文中模型对比于SOTA模型,Spearman"s rank correlation比文献[34]较低,但是文献[34]采用的是对比学习方法,预测视频所需要对比的范例视频需要手动进行选择,这使得模型变得更加复杂并且降低了模型预测的效率。在结果相差不是很大的情况下,相比于对文献[34]的方法,通过改进特征提取或特征聚合的方法进行端到端的学习更加简便以及更加贴合应用场景。

    在RFC-Net中,设置了消融实验用于验证RFC Block的有效性,并且比较了不同帧数的Clip 对输出结果的影响。

    (3)消融实验结果对比。

    为了进一步探究RFC模块是否能提升特征的聚合结果,设置了消融实验,即不加入RFC Block聚合特征而是直接对特征提取器提取的特征进行分数回归。此外参照文献[19]中的方法,在MTL-AQA数据集上测试了不同帧数的Clip对结果的影响,把Clip中的帧数分别设置为16与32,对比了Clip中不同帧数对实验结果的影响。Spearman"s rank correlation对比如图6所示,可以看到在参数不变的情况下32帧比16帧的Clip效果相对较好一些。

    RFC-Net消融实验结果如表2所示。当Clip为16帧的时候,加入RFC Block的结果优于没有RFC Block的结果,这验证了RFC Block能够提升特征聚合的结果。文中模型在Clip为32帧的时候得到最优的结果。

    表2 RFC-Net消融实验

    3.4.2 BS-AQA数据集结果

    为验证模型在不同背景下、动作差异较大时模型的泛化能力,制作了羽毛球视频数据集,挑选了文献[11]和文献[19]中的三种采用端到端的分数回归方法模型(MSCADC,C3D-AVG,RestNet-34(2+1))与该文提出的RFC-Net方法进行对比。因为CoRe+GART模型需要人工挑选范例视频,而范例视频的挑选对实验结果影响较大,故在BS-AQA数据集中没有选择当前的SOTA模型进行对比。

    四种模型在测试集上的结果如图7所示。散点为当前Epoch下的Spearman"s rank correlation,数据集中的视频背景复杂,动作差异较大,因此点的分布较为分散,为了找到一条线段来尽可能贴近地描述这些散点。该文使用非线性Gaussian函数对散点进行拟合,其中Gaussian函数有8种类型,选取其中基础类型,其函数表达式为:

    a*exp(c-((x-b)/c)2)

    (9)

    最后得到一条拟合线用于表示Spearman"s rank correlation的回归结果。可以看到在BS-AQA数据集中RFC-Net的Spearman"s rank correlation普遍高于其他三种模型。

    表3 BS-AQA数据集性能比较

    表3给出了四种模型在BS-AQA数据集上的具体性能比较,比较结果显示在主要的评价指标Spearman"s rank correlation中。RFC-Net在四类模型中效果最优,而MSE略低于RestNet_34(2+1),这表明RFC-Net模型在不同的动作类别中仍然具备较好的结果,模型的泛化能力较强。

    为了提高动作质量评分的准确性,提出了一种基于残差结构的动作质量评估网络模型。RFC-Net由特征提取器和特征聚合器组成,在特征聚合器中采用了RFC Block和平均池化层进行特征聚合,通过消融实验表明,RFC Block能够对提取的视频特征进行有效的特征聚合,更加准确地预测动作的得分,RFC-Net模型在MTL-AQA数据集上取得了仅次于SOTA的结果。此外为了探究该模型的泛化能力而制作了BS-AQA数据集,实验结果表明在羽毛球运动动作质量评估中,与其他端到端的模型相比,该模型仍然表现出了具备竞争力的结果。

    该方法仍具备改进的空间,未来将在以下两个方向进行研究:

    (1)在特征提取器中进行改进,特征提取是提取视频中所有的特征,但是和动作质量评估相关的特征在整个视频特征中占据较小的部分,如何精确提取运动员的运动特征是未来的一个研究方向;

    (2)如何在减少参数量的情况下提升其聚合效果也是未来的一个研究方向。

    猜你喜欢 特征提取卷积分数 基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11分数的由来小学生学习指导(高年级)(2021年4期)2021-04-29空间目标的ISAR成像及轮廓特征提取北京航空航天大学学报(2019年9期)2019-10-26基于Gazebo仿真环境的ORB特征提取与比对的研究电子制作(2019年15期)2019-08-27基于特征提取的绘本阅读机器人设计方案电子制作(2019年15期)2019-08-27从滤波器理解卷积电子制作(2019年11期)2019-07-04微动目标雷达特征提取、成像与识别研究进展雷达学报(2018年5期)2018-12-05把握物理难点,分数更上一步求学·理科版(2018年6期)2018-07-09基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20
    相关热词搜索: 评估 动作 结构

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章