视频摘要技术的专利分析

时间：2022-12-08 10:25:06　来源：柠檬阅读网本文已影响人

胡燕

（国家知识产权局，北京 102206）

随着互联网和计算机设备的日益普及，尤其是近年来移动互联网和具有视频拍摄和播放功能的移动终端的广泛使用，人们在工作、生活的方方面面都已经离不开包括网络视频在内的各类视频，视频的数据量也随之呈爆炸式增长，视频信息开始变得过载。因此，视频提供者如何提高视频的有效性、可用性及可访问性，视频使用者如何迅速地获取所需要的视频数据，并高效地从中获得所期望的信息或用户体验，成为一个亟待解决的问题。视频摘要技术正是解决这个问题的一项重要手段。

视频摘要是在20世纪90年代被提出的一个概念，是指利用计算机技术分析视频结构、理解视频内容，并从原始的多媒体数据中选取具有代表性的、有意义的部分，将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。视频摘要一般可依据最终的呈现形式分为静态视频摘要和动态视频摘要。静态视频摘要又称关键帧集，由原始视频中具有代表性的图像帧组成，以直接、分层或缩放的方式进行组合；
动态视频摘要是从原始视频中选取可表达语义内容的视频片段拼接编辑得到[1]。

本文针对目前视频摘要的技术进行专利检索，结合对检索结果进行分析来探讨视频摘要技术在中国的专利布局、技术发展现状和趋势，以期为相关科研人员的研发提供参考。本文采用中国专利摘要数据库（CNABS）进行检索，之后对检索结果进行人工浏览降噪。本文检索时间截止2022年7月23日，共获得882件视频摘要技术领域的专利申请。

1.1 专利申请年度分析

图1为视频摘要专利申请量年度变化趋势图。在该技术领域，最早的中国专利申请出现在1997年，基本与国际同步。该领域的专利申请量整体呈上升趋势：在2011年以前较为平稳，属于平稳发展期，每年的专利申请量不超过20件；
从2011年开始，专利申请量突飞猛进，进入了爆发式发展期，2015年的专利申请量已高达94件；
2015年之后，每年的专利申请量有所波动，但是依然维持在70件以上，仍处于快速发展期（由于2021年、2022年申请的专利申请仅公开了一部分，因此，2021年、2022年的专利申请量数据不完整）。从历年的发展趋势来看，视频摘要技术的相关专利申请数量仍会不断增长。

图1 视频摘要技术领域专利申请量年度变化趋势图

1.2 主要专利申请人分析

1.2.1 申请人分布情况

图2显示了视频摘要技术领域专利申请量排名前15位的专利申请人的排名情况，从中可以看出申请量排名靠前的以企业为主，排名前14位的均为企业，高校和科研院所中仅有天津大学入围，排名第15位。其中，三星的申请量达到了30件，位列第一名，其次是腾讯和索尼，分别拥有23件和22件申请。在这些专利申请人中，8个是国外申请人，7个是国内申请人，国内外申请人数量基本持平。

图2 视频摘要技术领域专利申请量排名情况

1.2.2 主要申请人的专利技术分析

1.2.2.1 三星

三星集团于1938年成立于韩国，是全球知名的、韩国最大的跨国企业集团。三星的业务涉及电子、金融、机械及化学等众多领域。三星在视频摘要方面申请的专利涉及多方面的改进，包括运动视频集锦、与用户意图相结合、视频搜索等，举例如下。

CN1658663A提供一种用于对多个帧进行摘录的方法和设备，其根据帧的相似性来将多个帧分类，并通过从分类后的帧中选择代表帧来输出帧摘要，以便通过执行将多个静止图像或视频流概括为某个数目的帧的功能，来解决传统问题并为图像再现设备的用户提供便利[2]。

CN103856833A提供一种视频处理方法和设备。该方法包括：在捕捉或显示第二视频时捕捉用户的至少一个图像；
从用户的至少一个图像识别用户的面部，并分析用户的面部特征；
基于分析的用户的面部特征，提取用户的面部的面部表情因子以计算估计值；
记录将被映射到第二视频的时间线的估计值；
基于估计值从第二视频提取部分视频以产生第二视频的视频摘要。该方法生成的视频摘要可以准确反映用户意图[3]。

CN104123396A涉及一种基于云电视的足球视频摘要生成方法及装置。该方法包括：对足球视频进行实时精彩度分析，确定精彩视频片段，将精彩视频片段上传至云端，形成视频摘要。该方法能够将实时视频摘要与Cloud PVR技术结合起来，减轻网络及云端压力[4]。

CN104636413A提供一种视频搜索系统和方法。该方法包括：从原始视频提取与搜索条件匹配的视频数据；
基于提取的视频数据产生摘要视频，按照原始视频中的对象出现顺序以重叠方式在背景模型上渲染摘要视频中的多个对象，并显示渲染的对象。该方法允许用户方便地进行视频搜索[5]。

1.2.2.2 腾讯

腾讯公司成立于1998年，总部位于深圳，是一家世界领先的互联网科技公司。其通信和社交服务业务覆盖了逾10亿人，其业务还包括电子游戏及其他数字内容的发行、云计算、广告以及金融科技等企业服务。在视频摘要领域，腾讯的专利申请主要涉及节目预览和与机器学习相结合方面的改进，举例如下。

CN101308501A提供一种生成视频摘要的方法、系统及设备。该方法在生成视频摘要的过程中，首先求取每个视频帧的特征向量，并通过分级聚类方式筛选出跳跃时间点序列，再基于跳跃时间点序列提取对应的视频帧组成视频摘要，从而可覆盖尽可能多的镜头且视频帧之间画面差异性最大，增强了视频摘要的信息完备性。另外，该方法对视频类型无要求，提高了技术应用的普适性[6]。

CN108419145A涉及一种视频摘要的生成方法和装置以及计算机可读存储介质。该方法可以获取待处理的目标视频，目标视频包括连续多个的图像帧；
使用图像分类预测模型对连续多个的图像帧进行识别，从连续多个的图像帧中识别出至少一个目标图像帧，图像分类预测模型使用属于预设目标类型的画面样本和不属于预设目标类型的画面样本通过机器学习算法完成模型训练；
从目标视频中分别截取至少一个目标图像帧对应的视频片段，视频片段包括目标图像帧以及与目标图像帧相邻的图像帧；
根据截取到的至少一个目标图像帧对应的视频片段，生成目标视频的视频摘要，视频摘要包括视频片段。该方法可以提高视频摘要的处理速度，实现视频摘要的快速生成[7]。

CN103546828A涉及一种节目预览的生成方法和装置。该方法根据预先设置的生成节目预览所需的预览片段的数量和原始节目的总时长，设置预览片段之间的时间间隔；
根据时间间隔，从原始节目中提取预先设置的预览片段的数量的预览片段；
将提取出的预先设置的预览片段的数量的预览片段组合，生成节目预览。该方法摘取了完整的节目信息，从而使得这个节目预览在情节上具有一定的连贯性和完整性[8]。

CN109803180A描述了一种视频预览图生成方法、装置、计算机设备及存储介质。该方法获取视频的字幕文件，字幕文件包含视频的各句台词以及各句台词各自的展示时间段；
根据字幕文件，从视频中提取各句台词分别对应的图像帧；
根据各句台词分别对应的图像帧的展示时间顺序以及相邻图像帧之间的图像差异度，对各句台词分别对应的图像帧进行分组，获得至少一个图像帧组；
生成每一个图像帧组对应的台词拼接图片，根据台词拼接图片生成视频预览图。该方法生成的视频预览图对视频内容具有较好的展示效果，能够显著地提高生成的视频预览图的准确性[9]。

1.2.2.3 索尼

索尼集团公司于1946年成立于日本，是一家全球知名的大型综合性跨国企业集团。索尼的业务主要涉及电子、娱乐、金融及信息技术等。索尼的专利申请主要涉及节目索引以及目标对象检测方面对视频摘要技术进行的改进，举例如下。

CN102981733A涉及一种信息处理装置和方法。该方法利用用户界面显示控制单元来显示图像库中的各个出现的素材。显示内容包括：按照空间关系将各个出现的素材显示在显示器上，接收输入到用户界面显示控制单元的空间关系的变化；
响应于接收，改变各个出现的素材之间的相应关系值。该方法能够自动地播放通过收集出现与在运动画面中出现的人物中的指定人物相关的人物的场景来获得的文摘电影[10]。

CN102857810A提供一种信息处理设备和方法。该方法获取用于指示每一个目标对象出现在视频中的出现区间的区间元数据；
利用区间元数据来显示区间信息，区间信息可视地表达在构成视频的所有区间中出现每一个目标对象的区间；
在用户从被显示作为关于特定目标对象的多个区间信息的各区间中选择了一个区间的情况下，再现所选择的区间的视频帧。该方法可以提供利用高度精确的元数据来执行内容再现控制的应用[11]。

CN101847205A提供一种图像处理装置、图像处理方法和程序。该方法生成用于再生可被分为多个区间的图像内容的源信息，将多个区间中的每一个设定为目标区间，从目标区间中生成静止图像，确定被确定连续出现在目标区间之前的至少一个区间中的特定人物的面部是否包含在从目标区间中生成的静止图像中；
基于对多个区间的每一个获得的确定结果，将特定人物的面部连续出现在其中的至少一个区间指定为面部区间，并生成关于面部区间的信息作为源信息的一项。该方法可以将用于展现动画内容中出现的人物和人物位置的源信息提供给用户，以便用户容易地了解和识别他们[12]。

CN101329766A涉及一种运动图像分析装置、方法及系统。该方法读入运动图像，从运动图像的各帧图像中提取关注区域，在关注区域内或与关注区域相邻的区域内提取对象特征，根据图像的色彩特征、关注区域的对象特征以及运动信息在各帧图像之间的差别来检测镜头剪接。该方法可以除去根据色彩分布特征和关注区域的尺寸特征而误检测出的镜头剪接，提高镜头剪接的检测精度[13]。

1.2.2.4 华为

华为技术有限公司成立于1987年，总部位于深圳，是全球领先的信息与通信基础设施和智能终端提供商，业务遍及170多个国家和地区。华为的业务涵盖了无线接入、固定接入、核心网、数据通信及终端等诸多领域。在视频摘要方面，华为的专利申请主要涉及摘要生成效率和在线预览方面的改进，举例如下。

CN103210651A提供一种视频概要方法和系统。该方法将视频划分成多个视频镜头，对来自多个视频镜头的一个视频镜头中的每个帧进行分析，确定视频镜头的每个帧的显著性，基于视频镜头的每个帧的显著性确定视频镜头的关键帧，从关键帧中提取视觉特征，基于视觉特征对多个视频镜头执行镜头聚类以确定概念模式，使用显著性调谐方法来融合不同的概念模式，基于全局优化方法生成视频的概要。该方法可以在保留视频精彩场景的同时，实现足够的信息覆盖[14]。

CN101013444A涉及一种自适应生成足球视频摘要的方法和装置。该方法接收输入的足球视频流，应用基于滑动平均窗帧差的镜头边界检测方法对足球视频流进行镜头边界检测，得到镜头集；
应用基于子窗口区域的镜头分类方法将镜头集进行镜头分类，对已经分类的镜头集进行精彩镜头检测，将检测到的精彩镜头作为视频摘要输出。该方法能够提高足球视频摘要生成的效率以及准确率[15]。

CN102576248A提供一种用于在线媒体预览的系统和方法。该方法从媒体文件的某个分段中提取一帧作为预览帧，将若干个预览帧存储在若干个层中，向用户传输媒体文件和若干个预览帧。该方法提供了移动预览功能，能够将预览扩展到整个视频，而不仅仅是视频的已下载部分[16]。

CN101431689A提供一种生成视频摘要的方法及装置。该方法接收视频文件，对视频文件的视觉精彩度进行处理，对视频文件的声音精彩度进行处理，将满足视觉精彩度和声音精彩度的关联镜头组聚合成视频片段。该方法对视频文件的视觉精彩度、声音精彩度进行处理，减少了特征种类，降低了计算复杂度，提高了视频摘要生成的效率和准确率[17]。

1.2.2.5 百度

百度公司于2000年1月1日创立于中关村，是全球最大的中文搜索引擎公司、国际知名的大型科技互联网公司。百度在深度学习技术、智能语音、自然语言处理、自动驾驶、知识图谱及智能推荐等多个领域处于世界领先水平。百度在视频摘要方面申请的专利主要涉及在线预览、个性化推荐等，举例如下。

CN103634605A提供一种视频画面的处理方法及装置。该方法获得当前视频的信息，根据当前视频的信息截取当前视频的关键画面，关键画面包括带有完整字幕的视频帧画面；
对关键画面进行排序，生成画面库；
接收播放请求，根据播放请求从画面库中读取对应的关键画面进行播放。该方法在节省流量的同时，保证了在网络卡顿的情况下，用户能够对视频进行预览，以使用户快捷、方便、完整地了解剧情[18]。

CN109218835A提供一种精华视频的生成方法、装置、设备及存储介质。该方法获取影视剧的剧情简介中的剧情关键词，根据剧情关键词，获取剧情关键词对应的第一剧情片段；
获取热度满足预设条件的第二剧情片段，第二剧情片段不同于第一剧情片段；
根据第一剧情片段和第二剧情片段生成精华视频。该方法能够获得拼接自然、剧情发展合乎逻辑且包括热度较高的剧情片段的精华视频[19]。

CN109743589A提供一种文章生成方法及装置。该方法获取视频以及对应的语音，对语音进行识别，得到各个句子；
获取各个句子的特征信息，根据特征信息对各个句子进行段落划分，得到段落序列；
针对段落序列中的每个段落，获取段落中的关键句子；
获取关键句子对应的时间段，从视频中时间段对应的视频段内选择关键视频帧作为段落对应的图片；
根据段落序列中的各个段落以及对应的图片生成文章。该方法使得用户容易选择到想要观看的视频，提高了视频播放效率[20]。

CN113660541A提供一种新闻视频的摘要生成方法及装置。该方法获取新闻文本库和待生成摘要的新闻视频，对新闻视频识别标题得到原始标题，对新闻视频提取摘要得到新闻视频的原始摘要；
根据原始标题、原始摘要，在新闻文本库中检索得到至少一篇候选新闻文本；
根据原始摘要、原始标题与至少一篇候选新闻文本的相似度，从至少一篇候选新闻文本中确定目标新闻；
根据目标新闻，生成新闻视频的摘要。该方法有效提高了新闻视频摘要生成的准确度[21]。

在当前信息时代，视频摘要技术可以降低人们在海量的视频信息中判断和获取所需要的信息的成本。因此，该技术的提升蕴含着巨大的社会价值和商业价值。为此，专利申请人们已经围绕视频摘要技术进行了大量的研究。最近几年，该领域的专利申请量增长尤为显著。由此可见，视频摘要技术已经是业内的一个热点。

从历年专利申请量的变化趋势来看，国内视频摘要技术相对国外来说基本同步且发展速度较快。从对专利申请人的分析来看，申请量排名靠前的以企业为主，可见，企业对视频摘要技术的发展发挥了主要推动作用。申请排名靠前的申请人中，国内、国外申请人占比基本持平，国内申请人主要是以腾讯、华为、百度等为代表的国内高新科技企业，国外申请人主要是以三星、索尼、微软等为代表的大型跨国企业。从中可以看出，在该领域的专利布局中，国内企业与国外企业不相上下，势均力敌。

视频摘要方面的大多数专利申请主要涉及关键帧的选取，例如，根据不同的应用场景选择更合适的特征或属性进行提取以及采用更合适的摘要算法。此外，还包括使摘要更个性化，例如根据用户的偏好信息来生成视频的标题。近年来，公共场所和家用视频监控设备的数量均大幅增加，因此业界在主要应用于安防场景的视频摘要技术，即利用视频摘要对异常事件进行检测、搜索和回溯的技术方向上投入了较多的研发，并有一定数量的专利申请。

最近，随着机器学习技术的迅猛发展，专注于与深度学习算法相结合的视频摘要技术也开始在专利申请中涌现，如使用卷积神经网络、循环神经网络等模型来进行分类和预测。一些与以BERT模型为代表的预训练技术、知识图谱技术相结合的视频摘要的专利申请开始出现。尽管目前涉及这两个新兴技术点的专利申请还不是很多，但也体现出未来的技术发展趋势。

视频摘要技术是当前的热点研究领域，已经取得了很大的进步，但仍然存在很多的困难与不足，例如，针对数据量大的数据集处理速度慢，模型训练时间长，对数据要求较高，连贯性有待提高等等。或许，进一步改进深度学习算法，针对不同的场景进行更加具有针对性的调整能够改善上述问题。期待开发出性能更优、更贴合用户需求的视频摘要技术。

猜你喜欢预览专利申请区间从一件无效宣告请求案谈专利申请过程中的几点启示和建议军民两用技术与产品(2022年6期)2022-08-06新品预览家庭影院技术(2021年3期)2021-05-21新品预览家庭影院技术(2021年1期)2021-03-192018年河南省各省辖市及直管县（市）专利申请量统计表（1月）河南科技(2018年9期)2018-09-102017年河南省各省辖市及直管县（市）专利申请量统计表（12月）河南科技(2018年3期)2018-09-10韩国AI内容专利申请数5年激增10倍中国知识产权(2018年7期)2018-07-31V型函数在闭区间上的最大值只可能在端点取到中学数学杂志(高中版)(2017年5期)2017-10-0911月在拍电视剧预览表电视指南(2016年11期)2016-12-20分析师一致预期大幅调高个股股市动态分析(2015年16期)2015-09-10单调区间能否求“并”中学理科·综合版(2008年9期)2008-10-15

视频摘要技术的专利分析

1.1 专利申请年度分析

1.2 主要专利申请人分析

最新文章

热门文章