学术咨询

让论文发表更省时、省事、省心

基于面部特征点的人脸图像修复网络

时间:2021年08月20日 分类:免费文献 次数:

摘 要:为了获得更好的图像修复效果,建立了一种由人脸特征点预测子网和人脸修复子网组成的人脸面部图像修复深度学习网络。该网络的面部特征点预测子网在 MobileNetV2模型基 础 上 引 入 SE(squeeze-and-excite)结 构,实现了对不完整人脸图像的面部特征点预

《基于面部特征点的人脸图像修复网络》论文发表期刊:《中国科技论文》;发表周期:2021年07期

《基于面部特征点的人脸图像修复网络》论文作者信息:第一作者:罗仕胜(1995—),男,硕士研究生,主要研究方向为图像处理。通信作者:陈明举,副教授,主要研究方向为图像处理。

  摘 要:为了获得更好的图像修复效果,建立了一种由人脸特征点预测子网和人脸修复子网组成的人脸面部图像修复深度学习网络。该网络的面部特征点预测子网在 MobileNetV2模型基 础 上 引 入 SE(squeeze-and-excite)结 构,实现了对不完整人脸图像的面部特征点预测;修复子网中的生成器采用密集连接块 U-Net结构,并新增残差块间的跳跃连接,实现了对提取的图像浅层特征信息的再利用,增强了神经网络结构信息的预测能力。对比实验结果证明,所提人脸图像修复深度学习网络可获得更好的图像修复性能,修复后的图像更接近于真实图像。

  关键词:图像修复;特征点预测;密集连接块;跳跃连接;生成对抗网络

  Abstract: In order to obtain a better image inpainting effect, a face image inpainting deep learning net work composed of face landmark prediction and inpainting subnet was established. Based on the MobileNetV2, the facial landmark prediction subnet of this net work introduced SE (squeeze-and-excite) module to realize the prediction of facial landmarks of incomplete face images. The generator in the inpainting subnet adopted the densely connected block U-Net structure. The skip connections between residual blocks were added to realize the reuse of the shallow feature information of the extracted image, which enhanced the predictive a bility of the neural network structure information. Comparative experiments prove that the proposed deep learning network for face image inpainting can obtain better image inpainting performance, and the inpainted image is closer to the real image.

  Keywords: image inpainting; landmark prediction; dense block; skip connections; generative adversarial networks

  近年来,基于面部信息特征的生物识别因具有用户接受度高、实施应用方便及隐蔽性好等优点而被广泛应用,成为学者们研究的主要内容之一。但在实际应用中,由于环境复杂、表情多变及物体遮挡等多种原因,造成人脸识别的准确率较低,是亟待解决的问题。对公安系统而言,犯罪分子往往会使用口罩、眼镜等遮挡物,导致面部大多数信息丢失,影响面部特征的提取,造成人脸识别算法的误判。采用图像修复方法可以有效地实现对缺失人脸图像的修复,提高人脸识别的准确率。

  传统的修复方法主要有2种:一种是基于扩散的方法,另一种是基于补丁的方法。基于扩散的方法[r2以迭代扩散的方式在被遮挡的区域传导低级特征,仅适用于结构性较强的小尺寸区域;基于补丁的方法[-1通过在同一张图像上的其他区域寻找相似的块,以实现遮挡区域的修复,但其忽略了区域的连续性,会在边界区域存在一定的模糊。

  近年来,基于深度学习的图像处理技术在图像处理中获得了较好的效果,并逐渐被应用于图像修复处理中。其中,生成对抗网络(generative adver-

  sarial networks,GAN)采用生成模型和判别模型的互相博弈学习,能有效实现图像修复[-3],如对抗性损失训练的编解码深度学习网络[1]、由粗到细的距离空间相关特征网络结构及语义分割的缺失修复网络等[10]。针对人脸的特殊性,Jo等[1]通过手工标注人脸边缘,再通过深度学习网络生成人脸图像。

  Nazeri等[2]应用边缘学习对抗网络来预测边缘,代替了手工标注,但在大面积缺失情况下预测效果不准确。Zhang等[15].zakharov等[]、Yang等[15]通过提取人脸特征点作为人脸脸部图像修复的参考,以提高人脸图像的修复效果。

  有效的人脸修复算法应该考虑面部器官的结构分布与面部表情、姿势、性别等方面的特征。这些特征点可以看作对面部关键区域采样的离散点,离散的特征点可以视为在去除用于面部修复的冗余信息情况下,对面部区域进行反向推理。基于上述思想,本文建立一种由人脸特征点预测的深度学习修复网络,以实现面部图像的有效修复。该网络通过引入SE(squeeze-andrexcite)[6]结构的MobileNet模型实现对待修复面部图像特征点的预测;修复子网是基于GAN所组成的,其中生成器部分新增残差网络之间的跳跃连接,通过对低层卷积层中图像特征的结合,起到增强网络对图像结构信息提取及预测的能力。并通过对比实验证明建立的基于特征点预测的深度学习网络具有高效的面部图像修复性能。

  1面部特征预测深度学习图像修复网络

  有效的人脸修复算法采用语义上有意义、视觉

  上连续的信息来填充缺失部分,给出1张被掩模

  (S)遮挡的人脸图像(1),指定5为S的补码,修复结果(i)可定义为

  有效的人脸修复算法的修复结果应该保持眼睛、鼻子和嘴等面部各器官之间的拓扑结构,以及姿势、性别、种族和表情等的一致性。为了实现这个目标,本文建立了由特征点预测子网和深层修复网络组成的人脸修复模型,深层修复网络利用生成的面部特征点对人脸进行修复。为生成有效的人脸特征图,在MobileNetV2网络[17)的基础上引入SE结构,构建一个轻量级特征点预测网络,并生成一个高精度面部特征点检测网络。修复网络由生成器和鉴别器组成,生成器以U-Net结构[]为基础。其中,生成器部分新增残差网络之间的跳跃连接,使得网络可以更好地利用网络空间不同阶段的图像特征,减少下采样过程中所造成的图像结构信息损失,并结合未缺失区域进一步提取缺失部分图像的语义,强化神经网络对图像结构信息的预测能力。此外,跳跃连接还可以起到防止梯度消失的作用。根据面部图像的特性,鉴别器以Patch-GAN结构为基础,引入谱归一化(spectral normalization,SN)模块和实例正则化(instance normalization,IN)模块,并插入注意层,自适应地处理特征,以实现面部图片的高精度修复。人脸修复网络结构如图1所示。图中,右下角虚线框中为网络结构中各个部分所对应的组成示意图,卷积层中的LReLU,ReL.U,PRel.U.Re LU6,tanh均为激活函数,Conv为卷积操作,Deconv为反卷积操作。

  1.1特征点预测网络

  目标修复任务针对的主要是底层的拓扑结构和属性,而不只是单个特征点的精确位置。因此,建立面部图像拓扑结构特征点预测模块,将有效提高图像的修复性能。SEnet网络采用通道特征加权的思路,能寻找拓扑结构的部分关键特征点,但是训练效果较差,SEnet训练的关键点很难收敛。为了更好地实现人脸特征的预测,本文采用深度可分离卷积、批归泛化、反向残差结构、线性瓶颈结构、平均池化等,并引入SE模块,建立准确的人脸特征拓扑结构MobileNetV3,其结构如图2所示。

  特征点预测网络是基于MobileNetV3设计的,利用MobileNet V3网络前13层卷积层中的一系列瓶颈(bneck)结构来提取特征并加快网络速度;接下来的10个卷积层是对提取特征图进行的压缩处理;网络的最后一层为全连接层,将处理后的特征图进行融合并将其映射到样本图像中,进而输出遮挡图像的预测面部特征点。特征点预测网络如图3所示。图中:每个方形块代表网络中的一个部分,c为通道数,k为内核大小,s为卷积或反卷积层步长,p为填充,f为膨胀系数,n为重复次数;第1部分参数(从上到下,圆点隔开)分别为c、k、s.p;第2~12部分参数分别为f、c、n、s;其余参数为c。

  1.2 面部图像修复网络

  修复网络结构由生成器和鉴别器组成。生成器是在遮挡图片和预测特征点的基础上生成修复图像;而判别器是结合真实特征点来判别生成的结果是否符合真实的情况。生成器结构如图4所示。除了第11部分外,其余部分参数(从上到下,圆点隔开)分别为c、k、s、p。

  生成器基于U-Net结构,采用3个逐渐向下采样的编码块组成,其后是伴随空洞卷积的7个残差块和1个长短期注意块。解码器结合低层的特征对所得特征进行处理,通过逐层上采样使得图像恢复到与输入时同样大小。空洞卷积使得最终的特征图不至于太小而丢失太多细节。残差块的引入是为了降低计算的复杂度。长短期注意层[]被用来连接时间特征图,而堆积的扩张块则是为了扩大感受野,以便能考虑更广范围的特征。每个解码层之前执行1×1卷积运算,以接受前面的所有特征图,并使特征图尺寸增大1倍。另外,为了更好地提取图像缺失部分的语义信息,在相应的编解码层及残差块之间加入跳跃连接,这不仅便于对图像低层特征的再利用,还能够提供从浅层到深层的梯度流信息,改进训练速度,进一步提高训练性能。

  基于博弈的概念,生成器试图生成1个特征点,作为条件完整的人脸来欺骗判别器,而判别器是确定生成的结果是否满足数据分布。当生成的结果与实际结果不可区分时,即达到收敛。

  在修复网络中,判别器建立在70×70的PatchrGAN结构上[20,为了稳定训练过程,本文将SN引入到修复网络的判别器模块中。除此之外,插入注意层(判别器的第3层),以自适应地处理特征。判别器中使用特征点作为判别标准,确保了面部的全局结构,保证了属性的一致性。判别器结构如图5所示。除 了 第3部 分 外,其 余 部 分 参 数(从 上 到 下,圆点隔开)分别为c、k、s、p。

  2实验验证

  2.1训练规划

  本文训练和测试均在Windows10专业版操作系统的服务器上进行,服务器硬件配置为CPU(Inter Xeon)、4块GPU(Nvidia TITAN Xp)、超微主板X1ODRG-Q、镁光256 GB内存、2 TB硬盘;软件配置为CUDA.Anaconda3.Pytorch.PyCharm.Python3.7等。

  实验选用CelebA数据集、CelebA-HQ数据集及WFIW数据集对本文算法进行训练。由于数据集原始数据给出的特征点不够,本文使用FAN来生成特征点,作为真实图像的特征点。如果对特征点生成网络与修复网络同时进行训练,参数的调整非常困难,会造成特征点预测精度较低和图形修复效果变差。因此,将模型分为特征点预测模块和修复模块,并分别对特征点预测模型和修复模型进行训练。在本文实验中,特征点预测模型和修复模型均使用256 × 256大小的面部图像进行训练,采用Adma优化器[2])进行优化,设置指数衰减率A=0.

  品=0.9,学习率为10-。鉴别器的学习率设置为10-s,特征点预测网络使用的batch size设置为16,修复网络的batch size设置为42.2修复实验

  对比分析实验使用CelebA-HQ数据集中未参与训练的300张图像。使用遮挡区域较大的中心掩模与原图像进行Hadamard乘积形成遮挡图像,作为用于实验的待修复图像。实验所用图像像素值规格统一设置为256 ×256,掩模部分采用的像素值规格为中心区域为128×128的白色掩模。本文网络的人脸修复过程如图6所示。特征点预测模块首先对遮挡图像进行特征点预测,修复模块然后对预测特征点与遮挡图像结合所生成的图像进行修复。由图6可以看出,本文提出的深度网络能准确地生成特征点预测模块,且修复后的图像接近于真实图像。

  另外,分别采用CelebA数据集、CelebA-HQ数据集[2)及WFLW数据集对本文建立的深度学习网络进行训练,再对测试图片分别进行修复,修复后的部分图片如图7所示,可见,用CelebA-HQ数据集训练出的修复模型对图像的修复效果更佳,人脸面部表情更自然,面部各器官之间的拓扑结构更符合真实图像。因此,后续的实验将基于CelebA-HQ人脸数据集对本文算法作性能评估。

  为证明本文建立的基于面部特征预测的深度学习修复图像网络的优越性,将本文深度学习网络的修复结果分别与同本文算法相近似的深度学习网络EdgeConnect(EC)[,Contextual Attention(CA)[2]和LaFIn[15]进行对比分析。

  定量比较采用峰值信噪比(peak signal to noise ratio,PSNR)、结构相似性(structural similarity in dex,SSIM)[2]及弗雷特距离(Frechet inception dis tance score,FID)[2]3个客观指标,PSNR和SSIM值越高,表示性能越好;FID值越低,则表示性能越好。

  对CelebA-HQ数据集在中心掩模上的PSNR SSIM和FID值进行定量比较,结果见表1,可见:EC网络的PSNR和SSIM值优于CA网络,因其是利用边缘信息来帮助修复;LaFIn网络采用基于Mobilenetv2结构的特征点预测模型,并使用U-Net结构的生成网络,其客观指标优于CA和EC。在各种网络中,本文提出的特征点预测深度网络获得了最高的PSNR和SSIM值,最低的FID值。这是由于本文的深度网络基于LaFIn网络,引入的SE模块提高了面部特征点预测的精确度,且修复子网中的生成器部分新增了残差网络之间的跳跃连接,通过对低层卷积抽象位置特征的再利用,可强化神经网络结构信息的预测能力,相比于基于边缘特征的边缘特征修复网络,其PSNR与SSIM值分别提高了578%和7.33%,FID值降低了22.36%。可见,基于本文特征点预测深度学习网络的人脸修复效果明显优于基于边缘特征的人脸修复网络。相比于L.aFIn网络,本文所提网络修复后PSNR和SSIM值分别提高了2.01%和2.67%,FID值降低了3.73%,证明本文建立的特征点预测深度学习网络的人脸修复效果最优。

  CA网络、EC网络、LaFn网络和本文所提网络修复后的部分结果对比如图8所示,可见:人脸在较大面积的遮挡情况下,CA网络和EC网络的修复效果并不理想,修复的面部图像的拓扑结构与原图有较大差异,CA网络甚至会产生模糊区域,如图8(c)的第1,3行中,CA网络所生成的修复区域图像变得模糊。EC网络在大多数情况下可以还原出图像的面部结构,但其拓扑结构与原图像相比却有较大的差别(图8(d))。此外,相比于CA网络和EC网络,LaFIn网络和本文建立的深度学习网络能获得更好的修复效果。同时,通过对比图8(e)和图8(f),且与LaFIn网络相比,本文建立的深度学习网络在修复的面部各器官的形状、表情、纹理结构及清晰度4个方面均有所提升,有更优的修复效果,更接近于真实图像。通过图8可以再次说明,本文建立的深度学习网络,由于引入了SE模块的特征点预测模型,以及在生成网络残差块中新增了跳跃连接,能更好地实现人脸图像的修复。

  3结论

  本文针对现有人脸图像修复网络的不足,在对LaFIn网络进行深入研究的基础上,提出了一种基于LaFIn网络结构的改进网络,通过引入SE结构到特征点预测子网,生成高精度面部特征点检测网络,提高面部特征点预测的精确度;在修复子网生成器中新增残差网络之间的跳跃连接,使得网络可以更好地利用网络空间不同阶段的图像特征,减少下梁样过程中所造成的图像结构信息损失;结合未缺失区域进一步提取缺失部分图像的语义,强化神经网络对图像结构信息的预测能力。对比实验证明,本文网络具有更好的修复效果,修复后的图像更接近真实图像,更适合用于对大面积遮挡的人脸图像的修复。

  [参考文献](References)

  [1]BERTALMIO M,SAPIRO G,CASELLES V,et al.Image inpainting[C]//Proceedings of the 27th AnnualConference on Computer graphics And Interactive Techniques.[S l.:s n],2000:417-424.

  [2] YAMAUCHI H.HABER J.SEIDEL H P.Image restoration using multiresolution texture synthesis and image inpainting[C]//Proceedings of Computer Graphics International.New York:IEEE,2003:7854038.

  [3]BARNES C,SHECHTMAN E.FINKELSTEIN A.et al. PatchMatch: a randomized correspondence algorithm for structural image editing [J]. ACM Transations Graphics, 2009, 28(3): 1-11.

  [4]HUANG J B.KANG S B.Ahuja N,et al.Image completion using planar structure guidance[J].ACM Transactions on Graphics,2014,33(4):1-10.

  [5]MAO XD,LI Q.XIE H R,et al.Least squares generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision(ICCV).New York:IEEE,2016:17453045.

  [6]付奥,基于深度生成对抗模型的人脸修复算法研究[D].西安:西安电子科技大,,2019:25-37.

  FU A.Research on face repair algorithm based on deep generative adversarial model[D].Xi'an:Xidian University,2019:25-37.(in Chinese)

  [7]马悦,基于深度生成模型的人脸图像修复算法研究[D].西安:西安电子科技大,2019:23-43.

  MA Y.Research on face image restoration algorithm based on depth generative model[D].Xi'an:Xidian University,2019:23-43.(in Chinese)

  [8]朱德泉,基于生成对抗网络的人脸图像修复的研究[D].成都:电子科技大学,2020:23-43.

  ZHU D Q.Research on face image restoration based ongenerative adversarial network[D].Chengdu:Univerity of Electronic Science and Technology of China,2020:23-43.(in Chinese)

  [9] GOODFELLOW I, POUGET-ABADIE J, MIRZA M.et al. Generative adversarial networks [J]. Communications of the ACM, 2020, 63(11): 139-144.

  [10] LI YJ, LIU SF, YANG J M, et al. Generative face completion [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2017: 17355119.

  [11] JO Y, PARK J. SC-FEGAN: face editing g-enerative adversarial network with user's sketch and color [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2019: 19410332.

  [12] NAZERI K, NG E, JOSEPH T, et al. Edgeconnect: generative image inpainting with adversarial edge learning [J]. arXiv, 2019: 1901. 00212.

  [13] ZHANGJ N, ZENG X F, PAN Y S, et al. Faceswaprnet: landmark guided many-to-many face reenactment[J]. arXiv, 2019: 1905 11805.

  [14] ZAKHAROV E. SHYSHEYA A, BURKOV E, et al.Fewshot adversarial learning of realistic neural talking head models [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2019: 19399012.

  [15] YANG Y, GUO XJ, MA J Y, et al. LaFIn: generative landmark guided face inpainting [J]. arXiv,2019: 1911. 11394.

  [16] HUJ, SHEN L. ALBANIE S, et al. Squeeze-and-ex-citation networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42 (8):2011-2023

  [17]SANDLER M,HOWARD A,ZHU M,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York:IEEE,2018:18311793.

  [18]杨文霞,王萌,张亮,基于密集连接块U-Net的语义人脸图像修复[1].计算机应用,2020,40(12):3651-3657.

  YANG W X.WANG M.ZHANG L..Semantic face image inpainting based on U-Net with dense blocks[J].Journal of Computer Applications,2020,40(12):3651-3657.(in Chinese)

  [19]ZHENG C X.CHAM TJ,CAI J F.Pluralistic image completion[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New York:IEEE,2019:19263276.

  [20]SANDLER M,HOWARD A,ZHU M,et al.Mobilenetv2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,New York:IEEE,2018:18311793.

  [21] KINGMA D P, BA J. Adam: a method for stochastic optimization [J]. arXiv, 2014: 1412. 6980

  [22] LIU Z W, LUO P, WANG X Q, et al. Deep learning ace attributes in the wild [C]//2015 IEEE International Conference on Computer Vision (ICCV), New York: EEE. 2015: 15801641.

  [23] YUJ H, LIN Z, YANGJ M, et al. Generative image inpainting with contextual attention [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 18347746.

  [24] WANG Z. BOVIK A C. SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612,

  [25] HEUSEL M. RAMSAUER H, UNTERTHINER T, et al. Gans trained by a two timescale update rule converge to a local nash equilibrium [C]//Proceedings of the 31 st International Conference on Neural Information Processing Systems. [s. 1.]: NIPS, 2017:6629-6640.

NOW!

Take the first step of our cooperation迈出我们合作第一步

符合规范的学术服务 助力您的学术成果走向世界


点击咨询学术顾问