视频深度伪造检测技术及应用

时间：2023-04-25 11:20:04　来源：柠檬阅读网本文已影响人

孙炜晨田青罗曼刘健

1. 公安部第一研究所 2. 多维身份识别与可信认证技术国家工程研究中心 3. 蚂蚁集团

近年来，随着人工智能技术的快速发展，越来越多的人从工作、学习、生活等多个方面感受到科技的发展给人们带来的便利。作为引领第四次科技革命的核心技术之一，人工智能在推动经济发展、满足人民群众对物质文化的需求上带来了重大且深远的影响。

2022年冬奥会期间，全球首个AI手语合成主播“小聪”用流畅的手语解说了谷爱凌在中国女子雪上项目夺得首金后激动人心的瞬间，有效帮助了听障人士便捷、高效地接收资讯信息，更好地享受人工智能技术发展带来的便利。2021年9月2日，第八批在韩中国人民志愿军烈士遗骸回国。人民日报微信公众号发布了利用深度合成技术将老照片中志愿军的黑白面孔逼真还原的短视频，让大家一睹革命先烈的风采。这些成功案例的背后，深度合成技术的发展起到了至关重要的作用。深度合成作为一种人工智能内容合成技术，随着技术成熟度的不断提高，在影视制作、广告营销、社交娱乐等领域应用推广开来，越来越多的互联网企业、平台、机构开始利用深度合成技术面向公众提供产品和服务，根据其本身的性质可以分为三类。第一类是具有积极作用的应用，比如深度合成技术用于电影、教育媒体和数字通信、游戏和娱乐、医疗保健以及各种商业领域等。第二类是比较中性的深度合成应用，主要是娱乐方面的深度合成产品。第三类属于恶意的深度合成应用，也称为深度伪造（Deepfake），这一类深度伪造被用于某种特殊的目的，往往会给国家安全、社会治理带来严峻的威胁和挑战，如利用深度伪造技术抹黑政治人物、利用深度伪造技术合成色情视频等。本文将从视频深度伪造攻防对抗的机理出发，通过对当前视频深度伪造及检测技术进行整理和归纳，并对各类模型方法的优劣势进行分析，探索未来技术潜在的发展方向，促进视频深度伪造检测领域的发展。

深度伪造技术就是近些年来出现的一种利用人工智能、深度学习等新技术控制音视频、图像或文本内容，产生误导效果的一种深度合成技术，尤其在图像和视频领域应用最为普遍，其合成的伪造图像和视频可以模仿目标的面部表情、动作、语音、语调等信息，起到足以“以假乱真”的效果。

深度伪造攻击主要是通过生成对抗网络（GAN）模型实现的，因此，对抗深度伪造攻击的手段可以从模型学习角度出发，即依赖完备的训练数据、鲁棒的人工智能模型等。目前，学术界和工业界均已对深度伪造检测开展了大量研究和探索，并取得了一定的成效，主要分为基于视频图像本身成像特征分析的方法和基于数据驱动的深度学习方法两类。基于视频图像本身成像特征分析的方法通过分析视频图像中的光照不连续性、阴影不连续性或几何位置不一致等图像的物理特征，分析视频图像成像设备传感器噪声差异性和色差差异性特征，利用人的眨眼频率、脉搏、心率、血流等生理信号特征来辨别视频图像的真伪。基于数据驱动的检测方法是通过在大量真实和虚假视频图像数据上训练深度学习模型，使深度学习模型学习到能够有效区分真假视频图像的特征表示，在深度伪造检测方面取得了一定的成果，但现有的深度伪造检测模型只针对特定的深度伪造攻击类型有效，对未知类型的深度伪造攻击检测的泛化性亟待提高。

新型深度伪造方法的层出不穷，加上深度伪造检测模型适应性的局限等，深度伪造检测技术面临“强对抗性”，需要持续更新和迭代优化。类似于博弈的过程，深度伪造和检测在不断学习攻防过程中会自我进化，规避上一代的对抗技术。

（一）视频深度伪造技术分类

深度伪造技术中最广为人知的一种应用形式就是AI换脸，是指用另一个人脸来替换一张图片或视频中的一个人脸，合成新的图片或视频。如图1所示，AI换脸把源图片（Source Image）中的人脸替换到目标图片（Target Image），形成换脸图片（Swapped Image）。

从视觉图像的角度，人脸深度伪造的生成技术一般可划分为四大类：换脸（Replacement）、活化（Animation）、编辑（Editing）、合成（Synthesis）。接下来将展开介绍这四类生成技术的具体做法。

换脸Replacement，也叫Face Swap，是公众最熟知也最常见的一种深度伪造技术。如图2所示，它是指将源人脸图像Xs的身份内容转移或者替换到目标人脸图像Xt上，使得篡改后的图像具备源身份Xs。这里在篡改人脸身份时的操作又可以细分为转移Transfer和交换Swap两种。前者是将Xs的人脸区域直接覆盖到Xt的面部；
而后者则是仅仅将Xs的ID特征替换给Xt，但是Xt原有的面部表情等会被保留[1]。

活化Animation，也叫表情重演（Facial Reenactment），如图3所示，它是指使用源人脸图像Xs中的行为、动作或表情来驱动目标人脸图像Xt，使得Xt的行为和Xs一样，包括各种表情、眼部嘴巴的动作以及整个头部的位姿等[2,3]。

编辑Editing，如图4所示，是指添加、更改或删除目标人脸图像Xt的一些人脸属性，比如，更换目标对象的发型、眼镜、年龄、颜值、肤色和种族等属性[4]。

合成Synthesis，如图5所示，是指在没有任何目标身份作为参考基础的情况下，凭空创建虚拟的角色，如直接用GAN或者其它生成模型生成人脸，没有明确的目标[5]。

（二）视频深度伪造生成模型介绍

目前，虽然深度伪造技术都能够生成虚假和篡改的人脸图像，但是换脸和活化才是最大的安全隐患，因为这两种伪造技术能够控制人脸的身份和动作，从而进行更定向的攻击和诈骗。本部分将简单介绍一下换脸和活化常见的生成流程，如图6所示，大致分为四步：

（1）人脸图像物料准备（Identity Ready）：一般需要提取准备好源人脸图像Xs作为驱动，目标人脸图像Xt作为被篡改对象；

（2）预处理阶段（Preprocessing）：进行人脸检测、对齐和截取，并提取一些中间态的特征备用，如关键点、轮廓边界、3DMM参数和UV图等；

（3）模型生成和篡改（Generation）：基于源图像Xs所提供的身份或动作等驱动信号，使用CNN或GAN深度模型来对目标图像Xt进行篡改并生成一张新的假脸图像Xg” ；

（4）后处理阶段（Postprocessing）：将生成的假脸Xg” 通过图像融合技术贴回到目标图像的背景区域，有时还会引入超分辨率和图像和谐化等技术来改善造假痕迹，最终得到完整的Deepfake假脸Xg。

目前深度伪造所使用的生成网络通常使用5种基础神经网络的变种或组合构建得来：编码解码网络（Encoder-Decoder，ED）、卷积神经网络（Convolutional Neural Network，CNN）、生成对抗网络（Generative Adversarial Networks，GAN）、图像风格转换网络（Style Transfer GAN）、递归神经网络（Recurrent Neural Network，RNN）。

1. 编码解码网络（Encoder-Decoder，ED）[6]

该网络至少包含一个编码器En和一个解码器De，连接编码器和解码器的中间层较窄，基本架构如图7所示。Deepfake技术通常会使用多个编码器或解码器，并通过操纵编码e来影响输出。编码解码网络的优点在于结构简单，适用范围广，并且可以通过多层堆叠的方式提升模型的表示能力。但由于多层堆叠时，按照逐层贪婪训练的方式，模型训练缺少全局优化，导致模型的性能受限。

2. 卷积神经网络（Convolutional Neural Network， CNN）

与全连接网络不同的是，CNN卷积网络擅长学习数据中局部的结构模式并组合得到高层次的表征，因此其在处理图像方面效率更高。如图8所示，通过卷积、池化和上采样层，可以灵活地组合和构建用于图像处理的编解码。但由于结构的局限性，对视频、语音、自然语言处理的能力不足，而且模型训练需要大量有标注的样本，模型性能与训练样本的数量、质量、多样性、标签颗粒度、标签准确性等正相关，训练难度较大。

3. 生成对抗网络（Generative Adversarial Networks，GAN）

4. 图像风格转换网络（Style Transfer GAN）

Pix2Pix[8]和 CycleGAN[9]是两种流行的图像风格转换网络，其网络架构如图10、图11所示，使用的都是GAN基本原理。Pix2Pix使用的是一种监督式、成对式的训练方式，巧妙地利用了对抗生成网络框架解决图像风格转换这类问题。其提升版本Pix2PixHD可用来生成具有更好保真度的高分辨率图像，但训练需要大量的成对图片，对数据有严苛要求。

5. 递归神经网络（Recurrent Neural Network，RNN）

RNN是一种可以处理序列和可变长度数据的神经网络，其基本架构如图12所示。RNN具有能够处理任意长度的输入，且具有模型参数规模不随输入长度增加的优点，但计算速度慢、难以获取很久以前的信息等缺点限制了RNN模型的应用。随后出现的RNN升级版长期短期记忆（LSTM）和门递归单元（GRU）模型在一定程度上缓解了RNN的缺点。在Deepfake制作中，RNN通常用于处理音频、视频。

（三）视频深度伪造技术应用及存在的威胁

近年来，随着Deepfake生成技术的不断成熟，也有越来越多的换脸工具被开源出来，例如FaceSwap、DeepFaceLab、FaceSwap-GAN等[10,11]，甚至还出现了不少指导Deepfake生成的社区和平台。即使是一些没有技术背景的人们，在教学视频的指导下，也能够生成一些Deepfake篡改过的照片或者视频。这也导致了Deepfake生成技术被广泛应用到各行各业，其性质好坏不一。

Deepfake技术的出现，在推动娱乐与文化交流产业的新兴发展方面起到了积极的作用。

（1）电影制作：电影制作中创建虚拟角色、视频渲染、声音模拟；

压力是一把双刃剑，它既能摧毁意志，也能激发斗志。作为一名校长，在学校实际管理中总会遇到许多压力，比如安全压力、升学压力等等。如何处理好这些压力，让它在学校发展中起到作用？我认为，在压力面前要提前筹谋，寻找科学稳妥的方式才能化压力为动力。

（2）人物复活：“复活”历史人物或已逝的亲朋好友，实现“面对面”沟通，创造一种新型的交流方式；

（3）数字人主播：全数字化控制的新闻主播和购物导播，实现了一种现代科技化的信息传播方式。

Deepfake生成技术更多的是一些消极应用，常被用于误导舆论、扰乱社会秩序，甚至可能会威胁人脸识别系统、干预政府选举和颠覆国家政权等，已成为当前最先进的新型网络攻击形式。

（1）色情制作：2017年网络和平台上显著出现，2019年Deeptrace公司调研估计换脸视频96%是色情；

（2）虚假新闻：发布或歪曲知名政客的言论，愚弄公众等；

（3）金融诈骗：利用合成的语音和刷脸视频进行金融诈骗；

（4）影像篡改：将个人面孔交换到电影明星身体插入影视剪辑中，侵犯版权；

（5）司法干扰：篡改罪犯照片干扰司法取证，移除CT或MRI医疗影像中证据进行保险欺诈。

Deepfake大多数都是因其有害应用而闻名，面对Deepfake所带来的巨大威胁，不少国家制定了政策法规来防止Deepfake技术的滥用。Deepfake是一种可以将目标人的面部图像叠加到源人的视频上，以创建目标人做或说源人的事情的视频的技术。美国在《2018年恶意伪造禁令法案》中规范了两类主体即制作深度伪造内容引发犯罪和侵权行为的个人，及明知内容为深度伪造还继续分发的平台。欧盟也在2019年4月发布了《人工智能道德准则》，并将隐私和数据管理作为可信赖人工智能需要满足的七个要素之一。

Deepfake的快速发展和应用，给个人隐私数据、社会稳定和国家安全等造成了潜在威胁，针对深度伪造内容的检测和防御现已成为世界各国政府、企业组织乃至个人所关注的热点问题之一。

（一）深度伪造检测技术的主要方法和手段

大多数图像检测方法不能直接用于视频检测，因为视频压缩后帧数据会严重退化[12]。视频具有在帧组之间变化的时间特性，对于仅为检测静态图像设计的方法具有挑战性。使用跨视频帧的时间模式的检测方法主要基于深度递归网络模型来检测Deepfake视频，如图13所示，Fake Video Detection的检测方法可大致分为两类：采用帧间时序特征的方法和探索帧内视觉伪影的方法[13]。

1. 帧间时序特征的方法

帧间时序特征是利用视频流的时空特征来检测深度伪造，视频操作是在逐帧的基础上执行的，可以认为由面部操作产生的低级伪影会进一步表现为跨帧不一致的时间伪影。

（1）循环卷积模型（RCN）

基于卷积网络DenseNet和门控循环单位的集成，以利用帧之间的时间差异。如图14所示，检测过程分两步，第一步预处理步骤包括检测、裁剪和对齐视频中一系列帧上的人脸区域，第二步通过结合卷积神经网络（CNN）和循环神经网络（RNN）来区分真假面部图像[14]。

（2）时间感知管线

此方法强调深层视频包含帧内不一致（Intra-Frame Inconsistencies）和帧之间的时间不一致（Temporal Inconsistencies），使用CNN和长短期记忆（LSTM）来检测Deepfake视频。如图15所示，CNN用于提取帧级特征，并将其馈入LSTM以创建时间序列描述符，最后使用一个全连接网络根据序列描述符计算属于真假帧序列的概率[15]。

采用帧间时序特征的方法有效利用了视频流中的时序信息，提取篡改帧图像在特征空间中的异常信息，提升了深伪检测领域的整体性能，但模型复杂度高、计算开销大、模型训练难收敛等缺点也影响了这类方法的应用和推广。

2. 帧内视觉伪影的方法

视觉伪影是由于缺乏整体一致性，入射照明的错误或不精确估计或底层几何结构的不精确估计而引起。视频的伪影检测通常是将视频分解为帧并探索单个帧内的视觉伪影以获得判别特征，再将这些特征分配到深层或浅层分类器中以区分真假视频。目前有些Deepfake检测方法基于眼睛、牙齿和面部轮廓的视觉特征来检测伪影，进而判断人脸视频的真伪[16]。

基本原理是通过搜索特定类型的伪影，人眼对伪影或许不易察觉，但机器学习和取证分析法容易检测。常见的图像空间域的几种伪影类型[17]如图16所示：

（1）融合（Blending）：生成的内容重新融合到图像帧时会产生一些伪影，检测方法比如边界检测、质量度量、频率分析。

（2）环境（Environment）：伪造的脸部内容和图像帧的剩余部分可能是不协调的，比如面部变形过程中的残差、光照、保真度变化。

（3）取证（Forensics）：分析模型在伪造品中留下的细微特征和样式，比如GAN会留下独特的指纹可能用于识别生成器、分析相机的独特传感器噪声（PRNU）识别粘贴的内容、寻找视频中帧序列的残差、寻找缺陷并预测和监测脸部特征点（如头部姿势往往不一致）。

（4）生理（Physiology）：基于生成的内容缺少生理信号的假设，比如监测心率识别伪造的面部、监测皮肤下血容量（脉搏）、监测不规则的眨眼模式，相反也有利用脉搏信号构建Deepfake模型。

（5）同步（Synchronization）：不一致也是一个揭示因子，比如可以把语音和嘴巴的轮廓特征点相关联检测视频配音攻击、检测嘴型和语音因素的不一致。

针对上述伪影特征，可以使用不同类型的分类器（即深层或浅层）进行检测：

（1）深分类器（Deep Classifiers）：Deepfake视频通常以有限的分辨率创建，需要仿射人脸变形方法（缩放、旋转、剪切）以匹配原始视频的配置（比如分辨率）。由于扭曲的面部区域和周围环境的分辨率不一致，此过程留下了CNN模型可检测到伪影特征，如VGG16、ResNet50、ResNet101和ResNet152等[18]。

（2）浅分类器（Shallow Classifiers）：由于Deepfake 在人脸生成流程中存在缺陷，部分方法通过观察3D头部姿势之间的差异（包括头部方向和位置）来检测视频真伪，该方法基于中央面部区域的68个面部关键点进行估算，检查3D头部姿势，提取的特征被馈送到机器学习的SVM浅层分类器中以获得检测结果。此外还可以使用随机森林（Random Forest，RF）、多层感知机（MLP）等浅层分类器[19]。

采用视觉伪影检测方法，充分利用了深度伪造往往通过逐帧的方式对面部的特定区域进行篡改的特点，将深伪检测问题转化为视觉伪影检测问题。但这种方法难以捕捉视频帧间时间的不一致性，且对全图合成的检测效果不佳，应用层面仍有局限性。

3. 数字水印技术

除了以上被动采用深度学习方法发掘合成视频中细微纹理差异来检测视频真伪的措施以外，数字水印技术（Digital Watermarking）作为一种主动防御的手段，也可在避免合成技术的滥用中发挥关键作用。

和视觉可见的明水印不同，数字水印通过在媒体作品如音频、视频、图像、文本中嵌入不可见的信息，从而实现信息隐藏、版权认证、追踪溯源、真实性验证等作用。空域LSB方法是最简单的嵌入数字水印的方法，任何一幅图片都具备一定的容噪性，这表现在像素数据的最低有效位（Least Significant Bit，LSB）对人眼的视觉影响很小，该方法的数字水印信息就隐藏在图像每一个像素的最低位或次低位，实现其不可见性。还有频域水印的方法，如图17所示，先通过傅里叶变换或者小波变换将图像变换到频域，并在频域对图像添加水印信息，再通过逆变换将图像转换为空间域。相对于空域手段，频域手段所添加的数字水印隐匿性更强，抗攻击性更高。目前这类方法仍处于探索阶段，未来有望与前两类方法结合使用，从主动和被动两个层面提高深伪检测的性能和适用性，能够在应用领域快速扩展。

（二）深度伪造预防与缓解

Deepfake为社会带来改变的同时，随着深度合成（伪造）视频技术门槛降低，黑灰产通过一些手段靠此来牟取不正当利益，例如不法分子用换脸软件生成当红女明星的色情视频并出售；
合成知名企业家的视频，进行网络诈骗等。这些“杂音”也为合成技术的发展蒙上了阴影。

针对上面这种现象，从政府到企业，都在采取不同措施来解决Deepfake合成技术的反面问题。2022年，国家互联网信息办公室发布《互联网信息服务深度合成管理规定（征求意见稿）》，规定深度合成服务提供者对使用其服务所制作的深度合成信息内容，应当通过有效技术措施在信息内容中添加不影响用户使用的标识，依法保存日志信息，使发布、传播的深度合成信息内容可被自身识别、追溯。谷歌也将Deepfake加入到了Colab的禁止项目列表当中，以避免Deepfake技术的滥用。此外，学术界也进行大量研究，例如采用深度学习的方式，利用CNN卷积网络来检测合成视频中的伪影线索和不一致性，以辨别视频真伪。从国家层面的立法保护，到企业层面的防御政策，再到学术界的检测技术研究，通过多方联防联控能够在一定程度上防范Deepfake所带来的社会危害。

此外，未来的Deepfake生成技术会越来越实用和有效，实时深度伪造也会越来越逼真，我们需要提前做好预防[20,21]：

（1）考虑攻击对手的下一步，而不只是当前攻击的弱点：评估这些攻击的理论极限，比如找出生成模型延迟的边界以检测实时攻击、确定GAN的限制以设计适当的策略。

（2）探索当前Deepfake检测器的弱点和局限性：通过识别和了解潜在的安全漏洞，才能制定出更强大的真伪检测方案。

深度合成内容模糊了真实世界和虚拟世界的边界，让人们重新审视“眼见为实”的认识论权威。目前，深度伪造鉴别需求逐渐增加且难度显著提升。一方面通过技术手段对抗层出不穷的伪造方法，另一方面深度伪造治理监管机制亟需建立和完善。随着《网络音视频信息服务管理规定》《网络信息内容生态治理规定》《中华人民共和国民法典》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》相继出台，有效规范了深度合成技术合法应用，促进深度合成技术健康、持续发展。

猜你喜欢伪影人脸深度有特点的人脸少儿美术·书法版(2021年9期)2021-10-20一起学画人脸小学生必读(低年级版)(2021年5期)2021-08-14深度理解一元一次方程中学生数理化·七年级数学人教版(2020年11期)2020-12-14核磁共振临床应用中常见伪影分析及应对措施中国医疗器械信息(2019年3期)2019-03-09深度观察艺术品鉴证.中国艺术金融(2018年8期)2019-01-14深度观察艺术品鉴证.中国艺术金融(2018年10期)2019-01-08三国漫——人脸解锁动漫星空(2018年9期)2018-10-26基于MR衰减校正出现的PET/MR常见伪影类型中国医学影像学杂志(2018年9期)2018-10-17深度观察艺术品鉴证.中国艺术金融(2018年12期)2018-08-26减少头部运动伪影及磁敏感伪影的propller技术应用价值评价中国卫生标准管理(2015年4期)2016-01-14

相关热词搜索：伪造 检测技术 深度