基于UCL的网络音视频自动标引

2011-03-15 01:23徐志华周金治李莲春

电视技术 2011年12期

徐志华，周金治，李莲春

（西南科技大学信息工程学院，四川绵阳 621010）

0 引言

随着三网融合步伐的不断加快，将有更多的网络音视频信息通过广播网共享。UCL（Uniform Content Location）技术通过建立一套完整的信息元数据来实现网络信息资源的共享与个性化主动服务[1]。UCL技术涉及UCL标引、UCL解析、UCL智能代理等内容。在信息空间中有两种定位资源的方式，即URL按地址定位与UCL按内容定位。然而URL不适合数据广播网的单向封闭网络，这使UCL技术在网络音视频信息共享中的应用变得越来越重要，将会在新一代网络（NGN）中获得重要的应用。经过近几年的研究，UCL已经形成比较成熟的技术基础，主要应用于网页信息资源的分类和共享[2]。采用UCL技术来实现音视频信息共享有利于解决带宽瓶颈、信息垃圾以及用户数字鸿沟等问题。

UCL语义标引是UCL技术的重要环节，UCL语义标引可以通过手工编辑和自动标引两种方法实现。对网页信息的UCL自动标引较容易实现，但对网络实时音视频数据信息的标引难度却较大[3]，并且国内外对音视频数据自动标引技术的研究也不够成熟。因此，本文在深度解析应用层数据的基础上，提出了一种基于UCL的音视频自动标引的方法和系统构架，并仿真验证了其可行性。

1 音视频exUCL语义标签制定

网络音视频UCL语义信息标引是通过分析音视频信息资源对象，识别该信息的重要特征，从而建立一个描述网络音视频特征信息的n维向量u=（u1，u2，u3，…，un）。其中，每一个向量元素都揭示了音视频数据信息的一个特征，n是向量的维数，它反应了描述信息特征的完备程度，n越大表示特征信息越完备，反之亦然。UCL标引则是通过定义特征字段对音视频数据打上UCL语义信息。exUCL（extend UCL）语义标签是专门为UCL语义信息标引制定的[4]，它约束了一个语义规范框架，详细地描述了各语义特征。生成exUCL语义标签的过程主要分为数据包获取、数据包预处理和分层语义抽取与集成理解3个步骤，其中预处理主要包括协议识别和数据包分流。

对网络音视频数据进行从底层到顶层的多层语义提取。在网络层提取源IP、目的IP、传输层协议等语义信息；在传输层提取源端口、目的端口、应用层协议等语义信息；通过识别与分析应用层协议，在应用层对音视频数据进行深度语义挖掘，可以解析出标题、URL、类型、访问时间等深度语义信息。根据各层语义的集成理解制定如表1所示的语义元数据规范框架。

表1 音视频exUCL元数据规范框架

由表1可见，UCL向量的每一个元素都映射网络音视频信息的一个特征，并且把它与音视频数据信息的关联程度分为强、中、弱3个等级，这样更有利于用户定位信息资源和分析数据。同时还可以看出URL是UCL向量中的一个元素，这说明UCL对信息特征的描述更完备，定位信息资源更精确，更有利于资源的管理与共享。标引系统则根据由表1制定的UCL规范文档并生成音视频传输特征信息UCL向量代码，最后填充到UCL标签库。

2 音视频数据UCL自动标引系统构架

流媒体数据在传输过程中，服务器和客户端的握手信息是通过RTSP协议来传送的，而音视频数据则是通过RTP传输。基于RTSP协议在网络音视频传输中使用的广泛性以及RTSP协议的公开性。本文针对RTSP协议研究了音视频数据传输的会话流程，对应用层数据进行深度语义挖掘，提出了一种基于此协议的UCL自动标引的方法。标引流程主要分为以下4个步骤：1）在网络中心节点处对流过的大量数据包进行截取，这些数据包可能包含网页数据、P2P数据、音视频数据、网络游戏等各种数据；2）从捕获数据中识别并分离出本系统所关心的音视频数据；3）通过分析RTSP协议传输会话信息，对分离出来的音视频数据按语义特征进行数据分流；4）针对每条音视频数据流，从底层到顶层进行多层语义信息抽取，按照UCL语义规范框架来对传输中的音视频数据进行实时的UCL自动标引。自动标引软件构架如图1所示。

2.1 音视频数据包识别与分流

对RTSP协议音视频数据包的识别可以通过对应用层协议的识别来实现。传统的识别方法是基于端口映射来识别的，比如，HTTP为80端口、FTP为21端口、RTSP为554端口等。但随着网络协议的发展，这种方法的效率越来越低，主要原因表现在：1）目前很多软件不使用固定端口进行通信，有时采用动态端口，比如BT、emule等。2）复用其他协议的端口进行传输，如QQ使用HTTP的80端口进行传输。文献[5]提出了一种基于特征匹配的应用层协议识别方法，该方法在一定程度提高了协议识别的精度，但当信息特征不够准确的时候，这种方法的效率仍然较低。因此，在识别音视频数据包的环节，本文研究了基于端口识别进一步匹配特征字串的方法，这种方法弥补的上述2种方法的不足，大大提高了音视频数据识别的精度。深入研究RTSP协议发现有如下特点：1）绑定554端口进行数据通信；2）RTSP协议的响应消息的content-type字段定义了传输数据的MIME类型，若为音视频数据，此字段为audio或者video；3）在GET消息中可以判别传输文件的格式，若为流媒体格式则判定为音视频数据。因此，本系统采用过滤554端口数据包，再与特征向量＜content-type，file-format＞进行匹配的音视频数据过滤方法，若匹配成功则判定为音视频数据包，否则丢弃数据包。

音视频的数据包分流是按照数据信息的不同属性来进行的，按照表1的音视频UCL语义元数据规范定义〈srcip，dip，srcport，dport〉四元属性组，凡是具有相同四元属性的数据包都归为同一条数据流。音视频数据分流过程如下：1）读取音视频数据包，判断是否是RTSP协议会话数据包。2）通过分析会话数据包相关字段可以提取源IP、目的IP对，并且能够得到音视频数据传输的协商端口。3）形成〈srcip，dip，srcport，dport〉四元属性组，按照这个属性组对音视频数据信息进行分流，凡是具有相同四元属性的归位同一条音视频流。分流算法如图2所示。

2.2 音视频数据深度语义挖掘

传统的协议分析主要从链路层、网络层、传输层进行协议识别和数据分析[6-7]。与传统方法不同，本文所涉及的深度语义挖掘是一种基于网络音视频数据包的深度检测[8]。针对特有协议的音视频数据，渗透到应用层数据进行深度语义提取，抽取出更多与视频内容相关的特征信息。在进入音视频数据的应用层后，主要识别应用层协议RTSP和解析SDP会话消息。进行数据内容按会话流进行分类，对每条会话流提取IP地址、文件大小、媒体类型、媒体名称、请求时间等深度语义信息。

RTSP协议是一个流媒体流化表示控制协议，在语法规则和操作上与HTTP类似。主要区别在于RTSP协议是一个有状态、对称的协议。RTSP是一个基于文本的协议，它使用UTF-8编码，采用RFC882定义的通用消息格式。RTSP协议的消息分为请求和响应两类格式：

1）请求消息的格式。

2）响应消息的格式。

每个语句都以CRLF作为结束。由于RTSP协议具有上述的特征，使得对应用层数据的深度分析成为可能，借助Ethereal分析软件进行抓包研究可以得出如下结论：1）分析RTSP请求消息的DESCRIBE特征字串可以提取媒体的资源路径。2）分析响应消息的Date和Cach-control字段可以得到媒体的访问时间和大小。

SDP是一个会话媒体描述协议，用于描述媒体会话，同样采用UTF-8编码。SDP会话描述分为会话级描述和媒体级描述，会话级描述主要描述了所有媒体流的信息特征，媒体级描述则针对单个媒体的细节信息。图3是RTSP响应消息中的SDP数据。

通过研究分析Session name（s）：upgrade your player、Media Description，name and address（m）：audio 0 RTP/AVP 96、Media Attribute（a）：rtpmap ：96 x-asf-pf/1000这几段SDP数据，结合SDP的编码格式，可以提取出媒体的名字、类型和格式等流媒体数据深度语义信息。因此，通过对RTSP协议请求/响应消息以及SDP数据分析特征字串的方法，可以对音视频数据包应用层数据进行深度语义分析。和传统的协议分析相比，此方法能提取更多的语义信息，从而得到更加完备的音视频特征向量。

3 UCL自动标引仿真及分析

本音视频传输实验平台是基于Windows 2003下的Media Sever 9.0组件和Media Player 10.0搭建的。该平台支持用RTP/RTCP、RTSP、HTTP、MMS协议对音视频数据包进行传输，在局域网内能实现单播、广播、点播的功能，本实验选择使用RTSP协议传输音视频数据。在实验局域网内通过广播模式共享音视频数据信息。

音视频数据UCL自动标引系统是在VC 6.0下、基于MFC的开发环境、调用wpcap.dll动态链接库并结合使用MySQL数据库技术开发的。在传输平台下，在网络中心节点处对流经主节点的数据包进行捕获和分析；针对音视频进行处理；通过分层关键字段识别方式，快速捕获音视频信息；在此基础上提取音视频数据的传输特性；根据UCL语义标签定义特征字段，最后进行UCL标引，实验结果如图4所示。该系统在中心节点处完成了语义信息的深度提取以及音视频UCL信息的标引，验证了本文所提出的语义抽取算法的正确性和自动标引方案的可行性。

4 小结

本文通过分析特定协议音视频数据结构封装机制以及音视频传输会话流信息，进行多层语义抽取，提出了一种基于UCL的音视频自动标引方法，并通过编程实现。在搭建的网络传输平台主节点处，实现了音视频数据的UCL语义智能标引。实时显示了exUCL语义标签的内容，协议、内容语义等内容的识别达到了90%以上。但该方法在高速局域网内仍存在一定的局限性，主要表现在实时性不高，UCL信息描述不够完备，还有待进一步研究，继续改进标引算法和优化程序设计。

[1]李幼平.UCL理念及系统设计[J].电视技术，2001，25（2）：38-41.

[2]邢玲，史杏荣.基于UCL的网页自动标引技术[J].计算机工程与应用，2004，40（17）：148-151.

[3]沈静，周金治，马建国.基于UCL的网页信息自动标引技术研究[J]，电视技术，2008，32（8）：71-75.

[4]王娟娟，吴静.网页数据多层语义描述标签设计[J].通信技术，2009，42（8）：99-101.

[5]陈亮，龚俭，徐选.应用层协议识别算法综述[J].计算机科学，2007，34（7）：72-74.

[6]APPLET D E，ISRAEL D J.Introduction to information extraction technology[EB/OL].[2010-10-06].http：//www.ai.sri.com/～appelt/ietutorial/IJCAI99.pdf

[7]CHINCHOR N，MARSH E.MUC-7 Information Extraction Task Definition：version 5.1[EB/OL].[2010-10-06].http：//www.aclweb.org/anthology-new/M/M98/M98-1027.pdf.

[8]程红，马建国，余超，等.网络多层语义深度挖掘及流媒体缓存策略研究[J].电视技术，2008，32（11）：64-66.