基于深度学习的跨镜追踪技术浅析

2019-03-08 07:56重庆中科云从科技有限公司李夏风

中国安全防范技术与应用 2019年1期

■文/重庆中科云从科技有限公司李夏风

关键字：时空连续多粒度网络跨镜追踪系统深度学习

1 引言

跨镜追踪（Person Re-Identification，简称 ReID）技术是现在计算机视觉研究的热门方向，主要解决跨摄像头跨场景下行人的识别与检索。该技术能够根据行人的穿着、体态、发型等信息认知行人，与人脸识别结合能够适用于更多新的应用场景，将人工智能的感知能力由“认脸”提升到“识人”，这也是人脸识别之后比较重要的研究方向之一。

2 跨镜追踪热门内容

以下归纳总结了跨镜追踪热门内容。

（1）行人检测。任务是在给定图片中检测出行人位置的矩形框，这个跟之前的人脸检测、汽车检测比较类似，是较为基础的技术，也是很多行人技术的前置技术。

（2）行人分割以及背景替换。行人分割比行人检测更精准，预估每个行人在图片里的像素概率，把像素分割出人或是背景，这时用到很多 P 图的场景，比如背景替换。

（3）骨架关键点检测及姿态识别。一般识别出人体的几个关键点，比如头部、肩部、手掌和脚掌用到行人姿态识别的任务中。这些技术可以应用在互动娱乐的场景中，类似于 Kinnect人机互动方面，具有一定的应用价值。

（4）行人跟踪“ MOT ”的技术。主要研究人在单个摄像头里行进的轨迹，每个人后面拖了一根线，这根线表示人在摄像头里行进的轨迹，和 ReID技术结合在一起可以形成跨镜头的细粒度轨迹跟踪。

（5）动作识别。动作识别是基于视频内容的理解，技术更加复杂，但与人类的认知更接近，应用场景更多，比如公共场合突发事件的智能认知，摄像头识别出偷窃、聚众斗殴等行为后可以采取自动报警等智能措施，但这个技术目前并不成熟。

（6）行人属性结构化。把行人的属性提炼出来，比如衣服颜色、裤子类型和背包颜色等。

（7）跨镜追踪及行人再识别 ReID技术。

3 ReID定义及技术难点

3.1 ReID定义

ReID--“跨镜追踪技术”是现在计算机视觉研究的热门方向。主要解决跨摄像头跨场景下行人的识别与检索。该技术可以作为人脸识别技术的重要补充，对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪，增强数据的时空连续性。

图1 RelD定义

如图1所示，由四张图片构成，黄衣男子是目标人，出现在多个摄像头里，现在研判时需要人工去检索视频里该男子出现的视频段。如果在此场景下应用ReID，根据行人的穿着、体貌，在各个摄像头中检索，把目标人在不同摄像头出现的视频段关联起来，然后形成轨迹，对分析研判将有一定帮助。

3.2 ReID技术难点

ReID有很多技术难点。比如 ReID在实际应用场景下的数据非常复杂，会受到各种客观因素的影响，必须要尝试解决。

图2 RelD技术难点示意图

第一组图，无正脸照。最大的问题是完全看不到正脸，左图是背面照，右图戴帽子，没有正面照。

第二组图，姿态。左图中绿衣男子在走路，右图中绿衣男子在骑车且戴了口罩。

第三组图，配饰。左图是正面照，只能看到两个肩带，右图是背面照且有大背包，可以提供很多背包信息。

第四组图，遮挡。左图白衣女子使用遮阳伞，遮挡了把肩部以上的全部部位。

图中只列举了四种情况，还有更多因素，如相机拍摄角度差异大、监控图片模糊不清、室内室外环境变化、行人更换服装配饰、季节性穿衣风格和日夜光线差异等。

4 常用数据集与评价指标

ReID学术界最常用的三个公开数据集如图3所示。

第一是Market1501。这个数据集用得比较多，拍摄地点是清华大学，图片数量有 32000 张左右，行人数量是 1500 个，相当于每个人差不多有 20 张照片，用 6 个摄像头拍摄完成。

图3 常用数据集

第二是DukeMTMC-reID。拍摄地点是Duke 大学，图片数量有36000 张，行人数量是1800 个，用8 个摄像头拍摄完成。

第三是CUHK03。拍摄地点是香港中文大学，图片数量有13000 张照片，行人数量是1467 个，用10个摄像头拍摄完成。

图4是 Market1501数据集，紫色衣服的人有部分照片检测得并不好，像第二张照片的人只占图片的五分之三左右，并不完整。还有些照片只检测到局部，这是目前数据集存在的比较现实的情况。

图4 Market1501 的数据集

ReID数据采集的特点包括：必须跨摄像头采集，给数据采集研发团队和公司提出了比较高的要求；公开数据集的数据规模非常小；影响因素复杂多样；数据一般都是视频的连续截图；同一个人最好有多张全身照片；互联网提供的照片基本无法用在 ReID；监控大规模搜集涉及数据和用户隐私问题。

就常用评价指标而言，第一是 Rank1，第二是mAPReID。Rank 是排序命中率核心指标。Rank1 是首位命中率，就是排在第一位的图有没有命中他本人，Rank5是 1-5 张图有没有至少一张命中他本人。mAP平均精度均值则是能全面评价ReID技术的指标。

图5中左侧三张图是多粒度网络（MGN）产生的检索结果。第一组图10张，从左到右是第1张到第10 张，全是本人图片。第二组图在第9张图片模型判断错了，不是同一个人。第三组图，第 1 张到第 6 张图是对的，后面 4 张图检索错了，不是模型检索错了，是这个人在底库中总共就 6 张图，把前 6 张检索出来了，其实第三个人是百分之百检索对的。

图5 多粒度网络（MGN）产生的检索结果

Rank1 只要第一张命中就可以，有一系列偶然因素在里面，模型训练或者测试时会存在波动。而mAP衡量ReID更加全面，要求被检索人在底库中所有的图片都排在最前面，这时候 mAP的指标才会高。

图6 mAP评价指标

ReID完整的过程分为三个步骤：第一步，从摄像头的监控视频获得原始图片；第二步，基于这些原始图片把行人的位置检测出来；第三步，基于检测出来的行人图片，用 ReID技术计算图片的距离。现在基于常用数据集可以完成图像采集和行人检测两步，目前的研究主要关注第三步。

常用的算法实现包括表征学习、度量学习和局部特征学习。其中，局部特征学习包括基于局部区域调整的ReID解决方案、基于姿态估计局部特征调整和PCB。

5 多粒度网络（MGN）的结构设计与技术实现

5.1 多粒度网络（MGN）设计思路

首先是全局特征，把整张图片输入，提取它的特征，用这种特征比较 Loss 或比较图片距离。但这时会发现有一些不显著的细节，出现频率比较低的特征会被忽略。比如衣服上的LOGO，不是所有人的衣服上都有 LOGO，只有部分人的衣服上有。全局特征会做特征均匀化，LOGO的细节被忽略掉了。

图7 多粒度网络（MGN）设计思路

5.2 多粒度网络（MGN）——网络结构

图8 为多粒度网络（MGN）的网络架构完整图，其网络逻辑从结构上较直观，且有一定效果和普适性，特别是关注细粒度特征时，可以理解为“易迁移”。

图8 多粒度网络（MGN）网络结构

5.3 多粒度网络（MGN）——Loss设计

整个模型用两种Loss设计，是机器学习里最常见的，一个是 SoftmaxLoss，一个是 TripletLoss。但因为分支比较多，而且在各个分支的Loss设计上不是完全均等的，所以比较复杂。现在基于Loss设计的方案，从实践上证明是比较好的，而且比较容易理解。

6 跨镜追踪在安防的新应用

人脸识别技术已比较成熟，但是人脸识别技术有一个明显的要求，就是必须看到相对清晰的人脸照，如果是一个背面照，完全没有人脸的情况下，人脸识别技术是失效的。但 ReID技术可以做为人脸识别的补充，当能看到人脸的时候用人脸的技术去识别，当看不到人脸的时候用ReID技术去识别，可以延长行人在摄像头连续跟踪的时空延续性。在此基础上，加上AI大数据分析技术，一系列公安实战大数据系统应运而生。

融合人脸识别、大数据分析和跨镜追踪（ReID）等人工智能感知与认知技术实现的跨镜追踪系统，可根据人体特征进行快速检索，确定人员身份信息、追踪人员轨迹，提供视频预览、视频研判、检索应用、以人搜视频、电子地图、轨迹回放和特征检索等基本功能。视频预览可直观查看抓拍人员的人脸属性、人体特征，如性别、年龄、头巾、拎包、长短袖、衣服颜色等；视频研判即将视频化整为零，形成一帧帧图片，提升视频侦查的效率，提高视频搜索稳定性；检索可根据上传图片，确认目标人员身份信息以及出现前后的视频；对已知特征进行搜索，高效精准的搜索特定行人；轨迹回放则可查看目标人员一段时间内的活动规律，辅助断案。具体应用包括：

（1）智能寻人。大型公共场所（例如公园、大型超市、火车站、展览馆等）中如遇走失事件，在跨镜追踪系统中通过摄像头快速捕捉行走路线，定位确切位置。常规摄像头由于架设高度、角度的限制，很难拍摄到正脸照片，ReID技术可弥补这一缺陷。

（2）目标锁定。夜间银行、办公大楼等重要场所已停止进出，有人员或戴帽子或带口罩，遮挡面部频繁徘徊，通过跨镜追踪系统特征检索、轨迹追踪，可排查此类异常行为者，预防夜黑风高、杀人放火、偷盗抢劫等犯罪。

（3）案件视频研判。调取案件周边监控视频，经过跨镜追踪系统预处理，得到结构化的视频信息。通过检索特征信息，快速定位嫌疑人，获取确切作案时间、作案手法，大幅提高查阅监控视频的效率。

7 ReID的技术展望

（1）无监督学习与对抗式生成网络。ReID的数据比较难获取，如果应用无监督学习与对抗式生成网络（GAN）去提高 ReID效果，可以降低数据采集的依赖性，这也是一个研究方向，GAN生成数据可以帮助 ReID数据增强，现在也是一个很大的分支。

（2）基于视频的 ReID。因为数据集是基于对视频切好的单个图片，但实际应用场景中还存在着视频的连续帧，连续帧可以获取更多信息，跟实际应用更贴近，很多研究者也在进行基于视频 ReID的技术。

（3）跨模态的 ReID。黑夜时可以用红外摄像头拍出来的视频跟白天摄像头拍摄的视频做融合匹配。

（4）跨场景的迁移学习。研究在一个场景比如Market1501 上学到的 ReID，如何在 Duke数据集上提高效果。

（5）应用系统设计。研究ReID技术应用到行人检索等技术的应用系统设计。