车载音视频管理系统的意义及关键技术研究

2019-03-19 03:41马勇沈得智刘国承高翔甘才发

中国设备工程 2019年5期

马勇，沈得智，刘国承，高翔，甘才发

（中国铁路青藏集团有限公司，青海西宁 810007）

1 乘务员值乘标准化车载音视频智能分析管理系统的应用意义

目前，许多机务段都配备了机车乘务员录音笔、机车视频监控，并制定了管理办法，组建了分析队伍，结合LKJ专人分析，以监督乘务员落实日常作业标准。但由于视频监控、录音笔装置是不间断一直记录，即乘务员开车多长时间，记录多长时间，使转储后地面音视频分析人员工作量巨大，每个机务段每天有少则几百名乘务员，多则上千名乘务员在线值乘，产生海量的音视频数据，而分析员能够分析的数量相对每天产生的数据量相比很少，不能做到全覆盖分析，使乘务员存在侥幸心理，因此，在值乘过程中违章问题始终没有杜绝，且是事后管理，发现问题时已经构成既成事实，甚至造成事故无法挽回。

因此，研究一种能够在线实时智能识别并进一步规范乘务员行车标准化操作的装置十分有必要，同时，人工智能成为当今社会主导方向，在人工智能领域，语言识别、图像识别、自然语言处理和专家系统等是核心技术，这为利用语言识别、图像设备技术实现对机车乘务员值乘标准化作业执行情况、车载在线智能识别提供了技术基础，使之成为可能。

2 乘务员值乘标准化车载音视频智能分析管理装置系统分析

2.1 系统主要设备及构成

《乘务员值乘标准化车载音视频智能分析管理装置》由主机、图像采集器、拾音器音响、TAX板卡、电缆及辅助配件组成。主要部件如下。

主机：用于分析图像采集器数据，分析TAX信息，产生报警信息等（图1）。图像采集器：用于实时采集人脸图像和手势图像（图2）。相控阵一体音箱：用于录音、语音播放使用（图3）。

2.2 系统运行参数

该系统的工作详细参数如下。工作温度：-25～+70℃；工作海拔：0～3000m；相对湿度：8%～90%；外壳防护等级：IP65GB4208-93；电源输入：DC+77～+137V；功耗：20W（不带外设）。

图1 系统主机设备图

图2 图像采集器设备图

图3 相控阵一体音箱设备图

视频：视频输入：2路BNC1.0VPP75欧姆；视频压缩标准：H.264；视频编码尺寸：D1；视频制式：PAL。

音频：音频输入：6路复合视频输入，阻抗600Ω，车载航空插头；音频输出：单路音频输出，阻抗600Ω，BNC，车载航空插头和RCA；基本输出：线性电平；录音方式：声音与视频同步录制。

2.3 系统研发的主要功能

本项目主要研究的内容是实现车载音视频装置，采集机车乘务员值乘实时影音，并在线识别乘务员语音内容与呼唤应答标准用语进行比较，在线识别乘务员动作行为与手指眼看标准行为比较，在线识别乘务员瞭望状态、间断瞭望、实时提醒3大主要功能。

（1）研究适用于在线识别的音视频采集装置。在线音视频识别对音频和图像质量有别于传统的摄像机加拾音盒组成的视频装置，在音频方面需要对司机室嘈杂的背景音进行降噪过滤，提取出较为清晰的司机讲话声音，在视频方面需要获取到3D的视频流，提取出乘务员在X、Y、Z3个方向上的动态，同时，这些降噪后的音频和3D视频的数据量较传统视频装置成倍增长，又要实现在线实时识别，需要处理能力超强的CPU、缓存空间大、速度快的缓储器等硬件，因此，要针对性能需求设计具有超强运算能力的处理器与相控阵麦克风、3D摄像机组成的音视频采集装置，作为整个项目的硬件底盘。

（2）研究实现在线提醒功能。采用智能图像处理方法，以目前世界先进的人脸识别技术为基础和PERCLOS方法识别人眼状态，并融合人体姿态、运动特征，实现机车乘务员瞭望状态智能识别。

当乘务员出现盹睡、间断瞭望的现象，系统根据不同的间断瞭望状态，分3个级别发出不同的提醒声音，级别划分如下。①间断瞭望持续时间达到10s，发出一级提醒；②间断瞭望持续时间达到15s，发出二级提醒；③间断瞭望持续时间达到20s，发出三级提醒。各级提醒报警过程中，当机车乘务员恢复瞭望状态后，提醒报警自动解除，目前，该项技术是项目团队成熟技术，在既有产品的基础上，针对本项目开发的硬件底盘进行软件修改，嵌入实现。

（3）研究实现对“手指确认”操作行为的在线识别提醒。手势识别：通过Kinect传感器获得深度图像，利用深度图像信息进行人体初步分割与定位，实现人体与背景的分离，进而识别人体各部分（例如四肢、躯干），并根据人体各部分的实时位置形成相应的指令反馈给主机，主机根据反馈的指令进行相应的操作。根据TAX信息中信号机显示变化、机车工况变化等工况条件信息，在设定的工况条件下，识别乘务员在规定情况是否做出相应的手势或行为，在识别前进行友善提醒，对简化作业进行录像记录。

（4）研究实现对“呼唤应答”的在线识别提醒。在前期语音采集过程中，根据语音特点建立合适的语音模型，并提取特征参数，构建语音识别参考模型；应用过程中，采用相控阵麦克风将接收到的语音信号转换成电信号，并对待识别的语音进行预处理、端点检测和特征参数提取，与“呼唤应答”语音识别参考模型进行匹配，进而通过判决规则得出识别结果。同样，根据TAX信息中信号机显示变化、机车工况变化等在设定的工况条件下，识别乘务员在规定情况是否进行呼唤应答，在识别前进行友善提醒，对简化作业进行录音记录。

（5）智能结果分析功能。研发智能地面分析软件，对值乘全过程的音视频录像进行“摘要”化剪辑分析，自动甄选有价值能够反映乘务员标准化执行程度的音视频画面供管理者分析，并实现数据检索回放功能以及统计分析功能，按月生成车队、车间报表，以及重点区域、时间段分析，方便各级管理者分析使用。

3 乘务员值乘标准化车载音视频智能分析管理系统关键技术及创新点

3.1 人脸识别

采用智能图像处理方法，以目前世界先进的人脸识别技术为基础和PERCLOS方法识别人眼状态，并融合人体姿态、运动特征，实现机车乘务员瞭望状态智能识别。系统能够全天候实时在线监测乘务员的瞭望状态，当监测到乘务员有视野偏离、精神不振等间断瞭望现象时，立即实施分级语音报警，在线提醒乘务员，使之保持专注瞭望，瞭望间断现象消除后语音报警随即结束。

3.2 手势识别

通过Kinect传感器获得深度图像，利用深度图像信息进行人体初步分割与定位，实现人体与背景的分离，进而识别人体各部分（例如四肢、躯干），并根据人体各部分的实时位置形成相应的指令反馈给主机，主机根据反馈的指令进行相应的操作。

3.3 语音识别

采用相控阵麦克风对司机的音频进行定向降噪提取，将接收到的语音信号转换成电信号，并对待识别的语音进行预处理、端点检测和特征参数提取，与“呼唤应答”语音识别参考模型进行匹配，进而通过判决规则得出识别结果。