基于多台摄像机的视听双模语音识别技术

2014-12-18 09:35
汽车文摘 2014年3期
关键词:刊期数据流视图

基于多台摄像机的视听双模语音识别技术

视听双模语音识别(AVSR)为视觉唇读与传统声学语音识别的组合系统。影响驾驶安全的一个主要问题是持续增加的车载导航和其它操作系统复杂性。通过提供基于语音控制,以减少分心并替代手动控制,即利用语音识别技术可以为车载系统的运行提供解决方案。在嘈杂的环境中(如汽车驾驶室)应用语音识别技术需要进行方法改进。本文提出一个基于已有视听语音识别系统的拓展系统,即通过提供语音发出者的正脸或接近正脸获取多个视图,通过对4个摄像头AVICAR汽车影音语音库使用4数据流的视觉同步隐马尔可夫模型(SHMM)进行可视语音识别的一系列试验。重点研究了侧面和中央的摄像头改善视觉语音识别准确性的能力。结合4种视觉形式和1个5数据流SHMM的音频形式,证明了AVSR方法与单一语音识别方法相比,在AVICAR数据库的嘈杂环境声中单词识别精度提高了56%。

刊名:Computer Speech& Language(英)

刊期:2013年第27期

作者:Rajitha Navarathna

编译:李晓娜

猜你喜欢
刊期数据流视图
优先级驱动的泛化航电网络实时性能分析
汽车维修数据流基础(上)
汽车维修数据流基础(下)
基于XML的数据流转换在民航离港系统中应用
本报调整刊期
本报清明节期间调整刊期
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
本报清明节期间调整刊期