时间:2021年04月22日 分类:免费文献 次数:
《机场高密度人群的行人检索研究综述》论文发表期刊:《科技经济导刊》;发表周期:2021年09期
《机场高密度人群的行人检索研究综述》论文作者信息:陈卓
[摘要]如今现代机场遍布了监控设备以便监视者及时发现机场内的异常情况,这种传统的监视方式极为耗费人力。由于行人检索技术近年来得到了广大专家和学者的普遍关注,新一代的智能监控设备有望代替机场内传统的视频监控设备。该技术利用深度学习算法自主性地分析视频数据,从而减轻了安全监管过程中的人力消耗。为了深入地了解行人检索技术,首先对行人检索的发展历程进行简要地梳理和总结;接着从局部特征、注意力机制和生成对抗网络三个方面对深度学习算法展开介绍;然后列举代表性数据集上的部分算法进行性能分析,最后总结了现阶段行人检索发展的主要难点,并对该技术的未来研究方向进行了预测。
[关键词]行人检索;注意力机制;对抗网络
近年来随着我国民航运输的体系越来越完善,乘坐飞机在很大程度上提高了乘客的出行效率,这无疑对于游客来说有着巨大的吸引力。然而,这就意味着我国的一些大中小型机场将迎来大量的游客,人群密度也随之增大,这在一定程度上对机场的安全运行产生了巨大压力。因此,如何减少发生在机场这样高密度人群场所的突发事件所产生的不良影响,一直是机场安全管理领域的研究热点。
通常情况下,一套完整的智能监控系统由三部分组成:行人检测、行人追踪和行人检索。行人检索即行人重识别。行人重识别旨在研究多个摄像头在非重叠视角下拍摄到的行人是否为特定行人。可以实时地把行人的运动轨迹上传至云端进行分析和处理。近年来,行人重识别已经得到了广大专家和学者的普遍关注,并成为当前的安防领域主要研究方向之一,行人重识别的处理流程如图1所示。
1,基于人工特征的行人检索
行人重识别任务是研究多个摄像头在非重叠视角下拍摄到的行人是否为指定行人的过程。该过程主要由提取到稳健的表示特征和相似性度量模型的建立两个过程组成。提取特征的稳健与否将直接影响最终行人重识别模型的识别性能,而合理的距离度量函数将在一定程度上提高了识别的精准度。
早期人工特征的方法主要是为了寻找行人在低分辨率、姿势多变、部分被遮挡和拍摄角度差异的情况下行人身上不变的特征。常用的颜色特征有RGB和HSV等,纹理特征有SILTP和LBP等。为了应对特征数据的分散性和摄像机所受环境因素的干扰,近年来有研究者将多种图像特征描述子进行充分融合。
距离度量又称相似性学习,本质上是一种特定的距离度量函数,该函数是根据需要而人为设计的。经典的距离度量函数就是马氏距离。早在2002年,Xing等人提出了马氏距离用于距离测度学习,由此奠定了未来距离度量学习的基石。无论哪种特征组合,只有一结合有效的度量学习才能使行人重识别模型的性能有大幅度的提高。
2,基于神经网络的行人检索
由于传统行人重识别方法的特征提取以及距离度量学习是分离的两阶段结构,其检索效率低、精准度不是很高。为了提高行人重识别模型的学习能力和减少标注样本的代价。近年来,半监督学习和无监督学习的行人重识别研究备受关注。此外,一些研究工作提出了基于局部的学习方法,此方法不仅简单,还可以获得更具有判别性的特征。也有一些研究工作是采用生成对抗网络或者以注意力机制的方法,该方法可以进一步提升模型特征提取能力。
2.1局部特征
现阶段主要着力于研究如何降低外界因素对行人重识别的干扰和加强局部特征之间的联系。其实,早期的行人重识别研究大家还是主要关注在全局特征,就是对整个图像进行特征提取,然后将得到的特征向量进行行人检索。但是研究者们逐渐发现此种方法已经无法再进一步提高识别的准确度。这时,就有研究者开始关注如何加强局部特征之间的联系,使得能提取到更加稳健的特征向量。如Yaol"等人提出的部分损失网络(Part Loss Network,PL-Net)的深度学习方法,该方法是将目标人物分成几个部分来进行表示,由于没有考虑局部特征之间的联系以及对齐问题,导致提取到行人特征不是很稳健。而在2017年,Zhang等人考虑到以上问题,采用基于部件的方法提出了对齐识别模型,实现了局部特征和全局特征协同工作,并使提取的行人特征更加稳健。图像分割、骨架关键点定位和姿态矫正等方法常常作为研究者们提取特征的参考方向。
图像分割的主要目标是将图像划分为具有独特性质的区域。如 Bing Shuai 等人提出了一个长短时记忆网络 (Long short term memory network, LSTM), 如图 2 所示。该网络接收到被分割
好的若干块图像后,最终的特征是所有图像块局部特征的拼凑。
2.1.2 骨架关键点定位和姿态矫正
为了解决在图像分割时行人图像没有对齐的情况,Longhui Weil等人提出了对齐特征描述子(Global Local Alignment Descriptor,GLAD),该特征描述子首先将人体分为几个主要部件,接着将整张图和几个局部图一起输入到神经网络中,最后将全局和局部的特征部件进行融合和提取。相关数据证明,该方法很好地解决了行人姿态变化的问题,并且GLAD取得了部件检测的准确性与鲁棒性之间的平衡。GLAD主要流程图如图3所示。
2.2注意力机制
注意力机制方法的本质就是模拟人类大脑的专注力模型,在看到一张图像时,观看感兴趣的部分。在检测过程中,为了解决行人遮挡、背景杂波和行人姿势的大幅度形变等客观因素引起的问题,研究者们针对这些客观因素所引起的复杂问题提出许多有效地模型。如Li等人通过深入研究注意力机制后,提出了注意力融合卷积神经网络(Harmonious Attention CNN,HA-CNN)模型。
2.3生成对抗网络
自2014年Lan"1提出对抗生成网络(Generative Adversarial Network,GAN)以来,GAN便逐渐地出现在该领域专家和研究者。
GAN是生成模型的一种,它是在一种对抗博弈状态中不断筛选而产生的。生成对抗网络的主要结构包括一个生成器G和一个判别器D,生成器是以输入的向量生成虚假的样本来干扰鉴别器的判断,而判别器是用于判断样本是真是假。为了克服高密度人群的机场环境下游客的姿势和监控设备周围的环境光线等变化,Wei等人利用GAN提出了一种在保证行人本体前景不变的情况下,将背景转换成预期数据集的人员迁移生成对抗网络。以此来缩小源域与目标域之间的域差。生成对抗网络简要结构如图4所示。
3相关算法性能分析
3.1常用的实验评价指标
在衡量算法性能时,有三种常见的度量准则:平均精度的均值(mean Average Precision,mAP)、Rank-N表格和积累匹配的特性曲线(Cumulative Match Characteristic,CMC)。mAP表示所有查询图片的每个查询图片与候选集匹配的平均精度求和再取平均的值,越接近100%,表示重识别效果越好。
Rank-N表示搜索结果中最的nk图中中概率.CMC曲线的纵坐标是识别率,因此纵坐标数值越大,表明识别效果越好。
3.2实验结果的对比
表1是按照局部特征、注意力机制和生成对抗网络三个方面对具有代表性的行人重识别方法进行了简单归类和总结。目前行人重识别领域的数据集种类很多且规模也越来越大,根据数据集类型的不同、行人数和签方法的不同对常用数据集进行了比较。
从表2中三类数据集的Rank值对比可以看出,基于神经网络的算法普遍在性能上的表现较为突出。Zheng等人提出算法的主要特点是采用双损失组合去增强特征的表达,也就是提高类内特征的聚拢性和类间特征的区分性,还通过比较特征可视化效果图,可以看到双损失能获得更好的特征表达。但是该算法模型在新的场景下,如细粒度分类等,如何学习较鲁棒的特征描述符,并进一步提高在大数据集上的性能还需进一步研究。
4.结语
近年来研究者们不断地提出新的研究方法,以解决行人检索系统在实际中应用所出现的问题,这说明了行人检索领域近年来得到了广大专家和学者的普遍关注。特别是,如何减少发生在机场这样高密度人群场所的突发事件所产生的不良影响,从而保证我国民航运输行业一直保持着强劲的发展势头具有重要的现实意义。通过以上实验数据可知,行人检索领域虽然取得了一些成果,但是由于行人姿势的多变性和外界客观因素的影响,行人检索系统所表现的性能仍然达不到预期效果。因此,未来的行人检索研究可以从数据完善、模型优化进行提升算法模型的性能。
【参考文献】
[1]Hantao,Yao,Shiliang,et al.Deep Representation Learning With Part Loss for Person Re-Identification[J].Image Processing IEEE Transactions on, 2019.
[2] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian.Glad: Global-local-alignment descriptor for pedestrian retrievalUj.arXiv preprint arXiv: 1709.04329, 2017.
[3] LI W, ZHU X, GONG S. Harmonious attention network for person re-identification[C1//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE, 2018: 2285-2294.
[4] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C//Advances in neural information processing systems. New York, NY: MIT Press, 2014: 2672-2680
[5] Wang Haoran, Fan Yue, Wang Zexin, et al. Parameter-Free Spatial Attention Network for Person Re-Identificationl1I. arXiv:1811. 12150, 2018.
[6] Zhong Zhun, Zheng Liang, Zheng Zhedong, et al. Camera styleadaptation for person re-identification[ CJ//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE Press, 2018: 5157-5166.
[7] Zheng Zhedong, Zheng Liang, Yang Yi. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway, NI: IEEE Press, 2017: 3754-3762.