面向全景与目标识别的嵌入式实验系统设计

2020-10-30 08:23玄玉波黄红艳陈玫玫赵增君姜岳辰
实验室研究与探索 2020年9期
关键词:全景图像处理行人

玄玉波, 黄红艳, 陈玫玫, 赵增君, 姜岳辰

(1.吉林大学a.通信工程学院;b.机械与航空航天工程学院,长春130022;2.石家庄邮电职业技术学院电信工程系,石家庄050031)

0 引 言

随着5G 时代的来临,人工智能和虚拟现实技术正在改变我们的世界。这些技术中的全景拼接以及图像深度学习是较为先进的图像处理技术[1-3]。然而,当前的数字图像处理实践教学,大多还处于传统的图像处理阶段,如图像去噪、形态学处理、边缘检测等[4],学生对图像处理的全景拼接和深度学习理解和复现缺少认知[5]。本文开发了一款图像处理的嵌入式实验平台,并将虚拟现实技术中的全景拼接、图像处理中的深度学习等应用到该平台中,在开放实验等实践课程中增加学生对这些技术的直观认识,培养学生对当前图像处理的热点技术的兴趣和理解。

1 实验平台设计

实验平台的设计考虑到便携性、高效和低功耗,选用了NVIDIA嵌入式开发板Jetson TX2 和e-CAM30 高清相机设计多相机采集系统,如图1 所示。Jetson TX2是一台模块化AI 超级计算机,采用新一代NVIDIA PascalTM架构GPU。它性能强大,但外形小巧,运算能力相当于顶级的i7CPU,满足实验平台速度需求。e-CAM30_HEXCU TX2 是由e-con Systems公司设计制作的一种新型MIPI 相机板,支持多种分辨率:640 ×480、1 280 ×720、1 920 ×1 080、2 304 ×1 906,最高达到了2 304 ×1 536。实验平台使用了6 个相机使两两相机有图像重叠区域,满足全景图像拼接实验需求。

图1 实验平台实物图

相机由SCI异步串行通信方式接入Jetson TX2 主板,传输速率为5 GB/s。同时,视场360°,无论目标出现在何处,都会被相机采集到,不必考虑目标的镜头切换,可进行被识别的目标推送的实验设计。

2 全景拼接实验

基于特征的方法是目前全景图像拼接领域的主要算法,包括特征提取和图像融合2 个步骤。该算法对于在光照变化、旋转变化、尺度缩放、几何变形、图像模糊等情况处理效果较好。其中特征提取的方法主要包括SIFT(Scale Invariant Feature Trans form)算法[6]、角点算法[7]、SURF(Speeded Up Robust Features)算法[8]等。而图像融合算法主要有像素级、特征级和决策级。基于像素级的多分辨率融合是图像融合中最具潜力的方法,并且具有较高的精度。实验设计中采用了SURF算法进行特征匹配和多分辨率融合算法进行全景拼接,拼接效果如图2 所示。

图2 不同光照条件下全景拼接结果

3 目标识别实验

本实验利用谷歌的开源Objection Detection TensorFlow 框架,使用了卷积网络SSD(Single Shot Mulitbox Detector)模型[9]。SSD 是一种基于卷积神经网络的目标检测算法,网络模型如图3 所示。在硬件平台Jetson TX2 板上使用SSD 实现目标识别,得到良好的检测效果。实验设计完成3 个功能:动态概率打分、坐标标注和智能存储。

图3 SSD网络模型图

功能1对识别目标进行动态概率打分。如图4所示,对照片目标的识别,对瓶子和人识别概率进行打分,并给出了相应百分数。

功能2设计了行人坐标标注。图5 示例了对于person的坐标实时标注,4 个坐标分别是检测框左、右边线坐标和上、下边线坐标(278,431,302,428)。

功能3节省存储空间。当视频画面中存在行人时,可自动记录行人的运动视频,不存在或者行人概率低于50%时不储存视频,如图6 所示。

图4 动态概率打分

图5 坐标标注

多次测试后,对于近距离行人的检测率超过了98%;远距离行人也有超过85%的检测率。而对于非常规姿态的行人检测率保持在70%;50%遮挡的行人检测率维持在60%左右,基本满足日常需求。而坐标标注可以保证100%的行人标注率,对于智能存储上,50%的行人判断阈值基本可以保证是否出现行人,这两点辅助功能很好地完成了任务。此外,在多个相机存在时,也可同时完成识别,如图7 所示。

图6 智能存储

图7 多相机同时识别

4 远程推送实验

视频远程推送由推流端、服务器、拉流端构成。推流端用ffmpeg 完成;服务器由NGINX +RTMP 模块完成;拉流端使用网页Flashplayer 或VLC 软件完成,如图8 所示[10]。Jetson TX2 为推流服务器,只需使终端处于同一局域网内,输入rtmp 拉流地址,即可实现识别的视频在不同终端的远程观看[11]。PC 端VLC 拉流播放如图9 所示,手机端VLC 拉流播放如图10 所示。在此基础上,添加短信提醒功能,当监控区域存在行人时,立即向手机发送短信提醒监控者,如图11所示。

图8 网页端播放

图9 PC端VLC播放

图10 手机端VLC播放

图11 短信提醒

5 关键点检测实验

关键点检测由单元模板定位关键点和模板关系连接关键点组成。通过定位人体关节,姿态分析,对出现在视频中的人进行实时监测,如果有异常或者危险行为,可以及时告知后台,立刻处理,对看护老人和孩子能起到重要作用。

模板定位由基于darknet 框架的yolov3 关键点检测实现[12-13];检测人体关节点的地方包括人体的头、左肘和右肘、左腕和右腕、腰、左肩和右肩、左膝和右膝、左踝和右踝等。在Jetson TX2 上下载好各关节部位的FLIC数据集,训练出模型参数后,测试效果如图12 所示。模板关系取各模板检测框中心位置画出人体骨架,如图13 所示。

图12 模板定位

图13 模板连接

本实验采用连线间夹角的方法判断骨架姿态。计算左右肩关节点和左右肘关节点、左右肘关节点和左右腕关节点与水平x 轴的4 个角度,如果小于所设阈值角度10°,则被判定为T 姿势,如图14 所示。关键点识别后的连线效果如图15 所示。

图14 T姿势

图15 T姿势识别

若定义一个测试者站马步的姿势,计算左右臀关节点和左右膝关节点、左右膝关节点和左右脚踝关节点与水平x轴的4 个角度,从而能够算出膝盖弯曲角度,如果在所设阈值角度范围85° ~100°之间,则被判定为马步姿势。与此类似,可定义出其他姿势的判别办法。马步姿势识别与比心姿势识别效果分别如图16、17 所示。

图16 马步姿势识别

图17 比心姿势识别

6 结 语

本文设计了一套新颖的数字图像处理实验平台,该平台能完成4 个实验内容,分别是全景拼接、行人检测、目标推送和关键点检测。全景拼接得到全景视频图像,使用VR眼镜可以体验虚拟现实技术,具有较好的沉浸感。行人监测和目标推送可以进行智能监控,当该场所出现行人时,能及时识别。进而通过开发远程推送使得监控者能够在远程的终端随时随地观看,不必限制于区域因素。最后一个实验则是人体不同姿态的判别。该实验平台在我校的开放实验课程中已经投入使用了2 个学年,具有图像分辨率高、画质优良、功耗低等优点。学生参与的热情极高,利用这些功能设计了一些实际应用的项目,例如:无人机搜救、无人区监控等。通过这些实验,学生们加深了对当前热点的深度学习、全景拼接技术的理解,切实体会到了这些图像处理技术在实际工程中的应用。伴随着以培养创新为导向教育理念,该开放实验平台的应用体现了对学生创新思维的锻炼,充实和开拓了数字图像实验的教学内容。

猜你喜欢
全景图像处理行人
人工智能辅助冠状动脉CTA图像处理和诊断的研究进展
毒舌出没,行人避让
戴上耳机,享受全景声 JVC EXOFIELD XP-EXT1
基于ARM嵌入式的关于图像处理的交通信号灯识别
路不为寻找者而设
基于图像处理的机器人精确抓取的设计与实现
机器学习在图像处理中的应用
全景敞视主义与侦探小说中的“看”
我是行人
从5.1到全景声就这么简单 FOCAL SIB EVO DOLBY ATMOS