音视频识别处理系统探讨

2016-02-28 06:30
西部广播电视 2016年16期
关键词:电视信号音视频字幕

董 明

(作者单位:中国华艺广播公司电视中心)

音视频识别处理系统探讨

董 明

(作者单位:中国华艺广播公司电视中心)

本文主要对音视频识别处理系统的组成、技术方案、关键技术、技术可行性分析及风险分析进行了一定的介绍,为业内人士提供一定的参考。

音视频识别处理系统;技术方案;研究与论证

随着技术创新和电视节目制作需求的不断增大,“音视频识别处理系统”作为一套精确节目录制、增强节目处理效果、完善节目处理手段的工具,能达到进一步提升电视节目制作的优质效果。

1 总体技术方案

1.1系统组成

音视频识别处理系统主要包括硬件分系统和软件分析录制分系统。其中硬件分系统是由卫星电视信号的接收、解调、处理和录制分系统组成;软件分析录制分系统由卫星电视在线处理和本地视频离线处理两部分组成。

1.2各分系统主要技术方案

1.2.1硬件分系统

一是户外卫星接收天线。建设一副地面接收天线接收卫星信号,经低噪声放大和变频为中频段的信号。二是室内卫星接收系统。使用专业数字卫星接收机接收卫星天线信号,输出的数字TS流,经采集卡通过PCI总线传输给PC机。电视信号传输没有采样损失,TS流中还存在EPG信息,便于后续的处理。

1.2.2软件分析录制分系统

卫星电视在线处理部分可对采集到的卫星电视信号进行实时处理。本地视频离线处理部分可对存储在本地电脑上的视频文件进行处理,格式可包括avi、mpg、flv、h.264等主流媒体格式。该软件平台具备视频采集、播放、录像、视频抓拍、字幕检测、字幕识别、字幕替换、人脸检测以及人脸识别等功能。

1.3关键技术

1.3.1视频识别技术

视频中出现的人物众多,其中一些人物可能无关紧要,因此需要对检测出的所有人物进行过滤,获取“有效人物”或“重要人物”。通常,视频中的“有效人物”人脸一般出现在视频的中央区域及其邻域,且正面朝前,面部清晰完整,在视频中反复出现的概率高,人脸画面持续时间较长。在对特定人物的视频进行分析后,形成面部特征库,以后在电视节目中出现该人物时能自动匹配,并立即启动录制。

1.3.2台标检测识别技术

电视信号中的台标包含电视台名、节目取向等重要信息,是实现视频分析、理解和检索的重要来源。

1.3.3字幕检测、识别、替换技术

电视新闻视频中的字幕文本往往与视频内容密切相关,是实现自动化视频分类、检索、分析和理解的重要信息源之一。

2 技术可行性分析

2.1基于语义的重要人物人脸检测方法和基于音素的声音检测方法

人脸是表征人物身份的主要特征,利用视频中的语义和人脸数据库建立的人脸特征进行关联,提取重要人物。在获取视频的关键帧后,由于在YCbCr颜色空间,色度Cb、Cr构成的二维平面肤色在颜色空间上集中在一个很小的区域,它的分布近似于高斯分布,能更好地区分肤色与其他颜色,并减少光照音素的影响。因此,选择YCbCr颜色空间,进行RGB到YCbCr的色度空间转换,通过数字运算最后得到肤色和形状过滤后的人脸区域。

在人脸检测中,首先用主成分分析(PCA)方法提取出不具相关性的主要成分,然后用独立成分分析(ICA)方法对面部图像的主成分作进一步的处理来提取特征参数,最后采用支持向量(SVM)的分类方法检测人脸。对检测出的视频人脸需进一步判断是否为提取所需的语义人脸。

通过以上步骤检测出视频中“有效人物”的语义人脸,利用人脸数据库中建立的人脸特征与高层语义的关联,实现重要人物的检测。

声音首先要进行分帧,具体的分帧操作通常使用移动窗函数来实现。分帧后,必须将波形进行交换,通过提取MFCC特征,把每一帧波形变成一个12维向量,即声学特征提取。接下来将声音矩阵变成文本,即把帧识别为状态,把状态组合成音素,把音素组合成单词。利用隐马尔可夫模型(HMM)构建一个状态网络,从状态网络中寻找与声音最匹配的路径,进而完成语音识别,与目标语音库比对,完成关键人物锁定。

2.2电视信号台标检测技术

台标检测是识别的第一步,对识别效果影响很大,主要采用图像匹配法。图像匹配是指通过一定的匹配算法在两幅或多幅图像之间识别同名点,并确定图像间差异度。在二维图像匹配时,通过比较目标区和搜索区中相同大小的窗口的相关系数,把搜索区中相关系数最大值所对应的窗口中心点作为同名点,其实质是在基元相似性的条件下,运用匹配准则取得最佳搜索。

2.3基于时空域信息的视频字幕检测定位方法。

视频中的同一字幕或标题通常会在连续的多帧中出现,且它们的位置、形状和尺寸在时间域上几乎不变,利用字幕的这一时域特性和字幕与背景具有较强的对比度等空域特性对字幕和标题进行检测定位。

3 系统的风险分析

音视频识别处理系统专业化程度高,技术发展迅速,设备备件专业指标要求严格,具有可以在市场中直接采购的特点,只是很多设备均为精密设备,维修这些设备所需的维修费用多、设备的备件价格昂贵,需要一定的维修资金储备。

猜你喜欢
电视信号音视频字幕
Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案
3KB深圳市一禾音视频科技有限公司
电视剧字幕也应精益求精
WIFI音视频信号传输的关键问题探究
高速公路整合移动音视频系统应用
整合适应选择度下的动画电影字幕翻译——以《冰河世纪》的字幕汉译为例
卫星数字电视信号部分信道编码的软件实现
论纪录片的字幕翻译策略
字幕翻译中非言语信息的言语转换——以《BJ单身日记》字幕翻译为例
基于直播卫星广播电视信号的终端设备常见故障分析