学术咨询

让论文发表更省时、省事、省心

一种多尺度光流预测与融合的实时视频插帧方法

时间:2021年09月27日 分类:科学技术论文 次数:

摘要:普通摄像设备拍摄的视频帧速率有限,从而影响观众的特殊观感体验,提高视频帧速率的后处理过程是必不可少的,视频插帧就是其中关键技术之一。视频插帧是指根据两个连续视频帧合成中间帧数据,在影视作品、体育比赛精彩视频片段慢动作回放等方面有广泛

  摘要:普通摄像设备拍摄的视频帧速率有限,从而影响观众的特殊观感体验,提高视频帧速率的后处理过程是必不可少的,视频插帧就是其中关键技术之一。视频插帧是指根据两个连续视频帧合成中间帧数据,在影视作品、体育比赛精彩视频片段慢动作回放等方面有广泛的应用。基于光流的视频插帧方法能有效解决视频中场景、目标的移动估计问题,但是其受制于光流估计的速度,无法很好地应用于实时视频任务。本文提出一种新的光流预测模型,并将其用于视频插帧任务中。首先对于输入的两张连续视频帧数据进行多次信息无损的下采样,获得不同尺度的输入数据;之后通过卷积神经网络进行特征提取,并对提取的特征建立注意力掩码,增强特征表达能力,根据该特征生成对应尺度的光流;最后使用融合网络,将多尺度的光流信息聚合为统一的尺度作为最终输出。本文方法能够被端到端的优化训练,并在大规模视频插帧基准数据集上进行了训练和验证测试。结果表明该方法能够获得高质量的插帧效果并能够达到实时的插帧速率,而且比其它先进方法更具优越性。

  关键词:视频插帧;光流估计;端到端训练;特征融合;注意力机制

视频论文

  1引言

  随着生活水平的提升,人们对于视频的观看质量要求越来越高。普通摄像设备拍摄的视频帧速率有限,从而影响观众的特殊观感体验。因此,在视频拍摄后对其进行适当的后处理,也成了视频制作中十分重要的一环,视频插帧就是其中关键技术。

  短视频论文范例: 我国政务短视频的特征、功能及发展研究综述

  视频插帧[1-9]目标是通过两个连续的输入视频帧数据,用以合成其中间帧的数据。视频插帧能够有效地提高视频播放的帧率,保证视频中目标运动的连续性,减少用户观看时的卡顿感,提升用户的观看体验,因此被广泛应用于影视作品、体育比赛视频精彩片段的慢动作回放[1]等方面。视频插帧对帧率的改变也使得其能够被用于视频压缩传输等任务中。此外,具有产生新图像的特性也使得它能够在视频内容编辑、多视角视频合成等方面发挥作用。

  其中,光流估计的效果对插帧结果有着关键的影响。但是,视频插帧任务中光流估计十分具有挑战性,与一般的光流估计任务存在本质上的不同。一般的光流估计方法能够获得需要估计光流的两张图像,但是在视频插帧任务中,需要被估计光流的图像数据是不完整的,即其中一张图像是要生成的目标图像,因此只能利用可获得的连续两幅视频帧图像。

  为解决视频插帧任务中光流估计难的问题,人们提出了一系列方法。这些方法围绕着如何更准确地预测光流信息和如何更充分利用光流信息两方面进行研究,但是它们往往需要两次光流估计,严重降低了深度神经网络模型的运行效率,使得这些插帧方法很难应用于实时视频分析任务中。针对如何利用光流信息进行实时视频插帧的难点问题,本文遵循当前的视频插帧框架,提出一种基于多尺度光流预测与融合的实时视频插帧方法。

  本文的方法由光流预测和中间帧合成两部分组成,首先采用不损失信息的下采样方法对图像进行多规模的下采样,获得不同尺度的图像数据;之后通过带有注意力机制的特征提取网络来提取视频帧对的特征,并根据该特征得到预测光流信息。因为输入图像是多尺度的,所以获得的光流信息也具有不同的尺度信息,本文采用了一个光流融合网络将这些多尺度的光流信息进行融合得到最后的结果用于图像合成。在大规模视频插帧基准数据集上,对所提方法进行了训练和测试,实验结果表明本文的方法能够实时地生成高质量的视频插帧效果。同时将所提方法与当前的经典方法进行了实验对比,比较结果展示本文方法的优越性。

  2相关工作

  视频插帧任务,由于其广泛的应用性,一直是计算机视觉与多媒体技术领域研究的热点问题。传统的视频插帧方法往往都伴随着视频编码策略的设计,目的也是为了优化传输的效率。而近年来,随着深度学习的日益发展,深度神经网络因其强大的特征提取能力,在诸多视觉任务上取得了很大突破。因此,现阶段有一系列的方法期望通过深度学习技术来完成视频插帧任务。

  Liu等[1]受到自编码器的启发,设计了一种基于神经网络编码器解码器的模型去学习体素流,从而合成插帧图像。但是对不同尺度的体素间关系的忽略导致了其不能较好处理不同体素移动速度不一致的问题。Jian等提出了一种双向光流估计方法,通过神经网络梯度输入图像对之间的光流,再结合这种双向光流,得到输入图像与待合成图像的光流信息。但是,这种迭代估计的方法导致了光流估计的速度较慢,使得无法应用于实时视频任务中。Bao等除了光流信息,还设计了一个深度估计网络来促进光流估计的结果。这种多信息融合的特性使得其估计得到的光流结果更加精确,从而合成更加高质量的中间帧。

  但是,引入了深度估计模型同样导致了该方法计算量的增加,从而降低了方法的运行速度。除了深度信息,Bao等还提出了一个利用运动估计信息的视频插帧方法,通过设计的运动估计和运动补偿神经网络,生成更具有鲁棒性的视频插帧结果,但是同样降低了方法的运行速度。 还有一部分方法探究如何更好地进行图像合成操作。

  Niklaus等通过预训练后的光流估计模型得到光流估计,并将光流信息与图像的深度特征进行结合,一同送入到一个合成网络中,得到最后的结果。除了基于光流的方法,还有一些方法使用深度神经网络直接生成中间帧的结果。SepConv和dapConv是属于此类的两个典型方法,它们通过使用自适应卷积学习图像对之间的移动变换和融合策略。但是没有准确的移动指导信息,生成的结果缺乏了鲁棒性。CAIN利用通道注意力来增强网络学习能力,实现端到端的视频插帧。

  3多尺度光流预测与融合方法光流估计的效果对于视频插帧的质量有着重大的影响,为了提升视频插帧的性能,本文提出了一种多尺度光流预测与融合方法。整体框架如图2所示,对于输入的一对连续视频帧,首先进行下采样。不同阶段的下采样的尺度是不同的,图像中使用来进行表示。在下采样之后,通过一个简单的卷积模块独立地提取两张图像特征,再将两组特征沿通道维度进行拼接。拼接得到的结果送入光流预测网络中,得到当前尺度图像的光流估计结果。对于该结果,一方面被用于将图像进行映射变换,从而送入下一阶段的模型,另一方面,与下一阶段预测的光流进行融合,得到更细化的光流结果。本节详细介绍下采样方法、提取与光流预测方法和多尺度光流融合。

  3.1信息无损的下采样方法

  运动距离小的像素在小尺度的图像中更易被忽略,而运动距离大的像素在小尺度的图像中仍能被观察到。基于这样一种观察,多尺度学习常被应用于视频插帧任务中。图像常被下采样为不同的尺度,从而学习不同尺度下的光流信息。但是现阶段方法,对于图像的多尺度变化,通常采用的是图像插值,导致了信息上的丢失。因此本文设计一种信息无损的多尺度下采样方法。 基于插值的下采样方法势必会导致部分信息的丢失。而本文采用的下采样方法是将空间信息压缩到通道维度上,因此没有信息的损失,同时,这些子图在细节上的不同也使得网络能够学习更加鲁棒的光流信息。

  3.2基于注意力的特征提取与光流预测

  对于3.2节中得到的输入数据,本文先通过一个简单的卷积神经网络,对两张图像分别提取特征。该卷积神经网络由两层组成,每层都包含一个卷积层和PReLU[1层。之后将两个图像对应的特征沿通道维度进行拼接,得到光流预测模块的输入。

  4实验

  4.1实验环境设置

  4.1.1训练数据本文在Vimeo90KTriplet14数据集上进行模型的训练和测试。Vimeo90KTriplet是专为视频插帧任务构建的数据集,包含73,171个帧连续序列的数据集,所有图像分辨率都是448×256。本文采用三帧中的第和第帧作为模型的输入,而第帧作为模型的真值。在训练阶段,随机从原图中裁剪224×224大小的图像作为输入,同时带用了随机水平翻转、随机垂直翻转、随机通道打乱、随机时序翻转等数据增强方法。而在测试阶段,保持图像的原始大小,不做数据增强。此外,为了训练模型对光流信息的预测的准确性,本文采用ListFlowNet[1预先在数据集上生成所有的光流信息,作为模型训练时的监督信息。

  4.1.2模型参数

  对于光流估计模型,本文将阶段数目设置为,每个阶段的光流预测网络中残差模块数目为,通道数分别是240,128和96。对于注意力模块,本文统一将下采样系数设置为16。本文主要是提出了一种光流预测模型,因此,直接采用RIFE方法中提出的上下文内容提取与融合网络作为图像合成模型。此外,图中的映射变换,本文采用了在视频插帧领域广泛采用的“后向映射”方法,该方法具体细节可以参考RIFE。

  4.2方法比较本文与当前视频插帧方法进行了比较,比较的方法有:DVF[1]、Slomo[2]、DAIN、MEMC、SepConv[6]、CAIN、RIFE。其中,重新实现了RIFE,以达到公平比较的目的。表展示了比较的结果,可以看出,本文的方法在PSNR和SSIM两个方面都能取得很好的效果。

  4.3消融实验为了证明方法中不同模块的有效性,本文对其进行了消融实验。实验数据是基于640p的视频帧计算得到的。本文将一个带有层卷积模块的残差网络作为BaseNet,然后依次添加下采样模块(DS,DownSampling),注意力模块(AM,AttentionModule)和光流融合模块(FM,FusionModule)。实验结果如表所示,可以看出,所提模块能够有效地提升模型插帧结果的性能,同时在时间开销上的增加较少,能够良好地满足算法实时性的要求。

  5.结束语

  视频插帧因其广泛应用性,很多学者进行了研究。但是现阶段的方法运行效率较低,实时性难以保证。本文提出了一个多尺度光流预测和融合模型,利用轻量级神经网络,充分学习视频中光流的变化,得到了较好的视频插针效果。具体地,本文采用了信息无损的下采样策略,基于注意力的特征提取和多尺度光流融合方法,达到了较好实时性和可靠性的平衡。在大规模视频插帧基准数据集上的实验也表明了方法的有效性。通过本文提出方法,视频后处理可以更好地解决视频慢动作回放问题,人们可以更清晰、生动地观看到影视作品、体育比赛精彩视频片段慢动作回放,并对其中细节进行分析利用。

  References:

  [1]Liuwei,Yehaymond,Tangiaoou,etal.Videoframesynthesisusingdeepvoxelflow[C]//IEEEInternationalConferenceonComputerVision(ICCV)Venice,Italy201744441.

  [2]JiangHuaizu,SunDeqing,JampaniVaran,etalSuperSloMo:highqualityestimationofmultipleintermediateframesforvideointerpolation[C]//IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR),SaltCity,USA,2018:9000–9008.

  [3]BaoWenbo,LaiWeisheng,MaChao,etalDepthawarevideoframeinterpolation[C]//IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR),LongBeach,CA,USA,2019:37033712.

  作者:马境远1,王川铭