基于内容的多媒体信息检索在数字图书馆中的应用

2009-12-17 06:22陈丽君

河南图书馆学刊 2009年5期

关键词：信息检索数字图书馆多媒体

陈丽君

关键词:内容;多媒体;信息检索;数字图书馆;应用

摘要:本文论述了基于内容的多媒体信息检索在数字图书馆中的应用,指出了存在的问题及其发展趋势,以使数字图书馆中的多媒体信息得以有效管理与充分开发利用。

中图分类号:G252文献标识码:A 文章编号:1003-1588(2009)05-0079-04

The application of content-based multimedia information retrieval in digital libraries

CHEN Li-jun

(The Library of Xuchang University ,Henan Xuchang 461000,China)

Abstract: The paper elaborates the application of content-based multimedia information retrieval in digital libraries,and pionts put the existing problems and development trend,so as to effectivly manage and make full development and ues of the multimedia information of the digital libraries.

Key words:content;multimedia;information retrive; digital library;application

1 引言

数字图书馆中不仅有大量的文本型文献信息,还包括大量的图形、图像、声音、动画、视频等数字化多媒体信息。由于图像、音频、视频等具有丰富的信息内涵,传统的基于外部特征和文本描述的信息检索方法已经无法充分揭示和表达这些多媒体信息的实质内容和语义关系,进而影响到对这部分多媒体信息的有效管理。此外,网络技术的发展进步给传统的基于文本的信息检索方式带来了挑战。当今数字图书馆拥有遍布全球的、不同语言和文化背景的用户,传统的基于文本的信息检索方式不能实现对数字图书馆中不同格式和内容的信息的有效检索和充分利用,进而影响到数字图书馆使用价值的有效发挥。因此,数字图书馆中的信息检索技术已经由单纯的基于文本的检索方式向基于内容的检索方式发展。

2 基于内容的信息检索简述

基于内容的信息检索(Content Based Retrieval)简称CBR,是一种新型的检索方式,它融合了知识系统、认识科学、用户模型、图像处理、模式识别、数据库管理系统以及信息检索等领域的知识和先进技术,其基本思想是以信息和信息对象的内容语义、特征及上下文联系为依据进行检索。CBR的信息类型有:文本、视频,包括静止的图像(形)和动态的视频;音频,包括语音、音乐,其他各种声音等。与传统的信息检索相比,CBR的特点有:对信息进行深层次的分析、挖掘;是一种相似性匹配;检索方式直观形象;是一种交互式检索;数据库的结构复杂、容量大。

3 基于内容的信息检索在数字图书馆中的应用

3.1 基于内容的图像信息检索在数字图书馆中的应用

基于内容的图像信息检索是指通过分析图像的内容,取其颜色、形状、纹理等可视特征,建立特征索引,存储于特征库中;在检索时,用户只需把自己对图像的模糊印象描述出来,就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。

在过去几年里,人们已经提出了许多不同的基于内容的图像信息检索系统,其中最有名的是IBM开发的基于内容的图像信息检索系统QBIC,该系统允许用户通过颜色、草图、纹理、形状等特征和示例方式从图像和视频数据库中检索图像信息。它自从1995年投入使用以来,已经有许多数字图书馆和数字物品收藏机构使用该系统。最近,俄罗斯冬宫博物馆采用该系统提供基于网络的数字图像信息检索,用户可以通过从调色板中选择颜色或在画布上绘制草图的方式检索图片信息;此外,用户还可以提交具有相似视觉特征的所有图片信息的检索请求来优化检索结果。美国的国家科学基金会国际数字图书馆项目(www.memorynet.org)也采用了基于内容的信息检索技术。该项目的信息检索系统由几个图像数据库组成,包含了传统的基于文本的搜索引擎和一个由宾西法尼亚州立大学的Wang et al.开发的名叫SIMPLIcity的基于内容的图像信息检索系统。该系统能够将每幅图片分割成小的区域,从中提取颜色、位置、纹理和形状等特征,然后将这些小的区域分成一些语义大类(如纹理的/非纹理的和图形/照片)。计算要检索的目标图像和数据库中图像的相似度时,这些所有的特征被考虑和整合,最佳的匹配结果便被检索出来。用户还可以从该数据库系统的主页中选择浏览任意一组图像,并通过点击每幅图像下的“相似”按钮浏览与已选择包含相似特征的一组图像;可以通过向搜索引擎提供反馈信息,在无需知道图像的名称或者描述信息的情况下检索到所需图像。基于内容的图像信息检索技术在数字图书馆中的相似应用还有加州大学伯克利分校数字图书馆、弗吉尼亚理工大学的人类学数字图书馆和National STEM数字图书馆等。

自动语义识别和标引是基于内容的图像信息检索领域一个新的研究方向。在理想状态下,自动语义识别和标引能够发现一幅图像中包含的语义特征并给它分配一组元数据,因此允许用户通过文本的方式检索图像信息。然而,如何从图像的物理特征中自动提取语义特征,是个难题,需要人机交互、机器学习、神经网络等方面的知识。此外,计算机处理器和人脑之间的语义差距是开发一个性能良好的自动语义识别和标引系统的主要障碍。Wang的ALIPR项目(http://alipr.com)是此领域的一项研究成果。通过网络界面,用户可通过几种不同的方式检索图像信息;可进行基于文本的检索和向系统提供反馈信息检索类似图像;也可上传一幅图像,系统通过对该图像进行语义分析,自动产生一系列的标引或标签,然后在数据库中检索与所上传图像具有相似视觉特征的图像。在自动标引过程中,如果用户感觉系统自动给出的标签不太合适,也可为该图像输入其他合适的标签来描述该图像。

基于内容的图像信息检索技术未来的发展趋势是图像检索人机结合;高层语义与低层视觉特征建立某种联系,需要一些学习机制,如神经网络、遗传算法及聚类算法等;面向web,图像数据需要成熟的搜索引擎;高维数据的索引;图像内容的主观感知;图像特征映射与图像基寻找;交叉领域和多媒体的融合等。

3.2 基于内容的音频信息检索在数字图书馆中的应用

基于内容的音频信息检索指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似,通过检索语义来达到音频检索的效果。音频检索首先是建立音频和特征数据库,对音频数据进行特征提取,将相同类型的音频数据装入数据库的原始音频库部分,把特征装入特征库部分,然后进行音频分割、识别和音频检索。相应地,基于内容的音频检索技术就包括音频信号特征提取、音频分割和识别、音频检索等。

国外研究机构对音频检索进行了多方面的研究,例如:GuohuiLi等提出了使用小波方法进行音频检索的研究;IBM Almaden研究中心的MalcolmSlaney提出了音频例子和语句可互相转换的MPESAR系统;ChengYang、GeorgeTzanetakis等用不同的算法实现了具有音乐检索功能的系统;EloiBatlle等提出了基于HMM的音频检索系统;JohnH.L.Hansen提出了用于NGSW快速检索算法等。

国内早期在音频检索方面的研究并不多,最早的研究成果是一套基于内容的音频信息检索与分类系统ARS。但近几年来发展迅速,例如:台湾清华大学开发的基于语音识别的语音检索系统Sovide;上海交通大学开发的基于内容的音乐检索系统;中科院开发的“嵌入式语音识别系统”;罗骏等人提出的基于拼音图的语音关键词检索系统。国家863智能计算机专家组为语音识别技术研究专门立项,在一定程度上推动了语音方面的研究。近年来,我国语音识别技术的研究水平已经基本上与国外同步,由此也推动了音频检索研究的迅速发展。

基于内容的音频信息检索技术面临的挑战主要集中在:直接压缩域音频检索;基于高层听觉感知模型的音频信息检索;音频类别的确定;基于情感的分类研究等方面。

3.3 基于内容的视频信息检索在数字图书馆中的应用

基于内容的视频信息检索指通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段—镜头,作为检索的基本单元,在此基础上进行代表帧的提取和动态特征的提取,形成描述镜头的特征索引;依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据,按照用户要求返回给用户。因此,其处理技术包括视频结构的分析、视频数据的自动索引和视频聚类。

哥伦比亚大学的Chang et al.于1997年开发的VideQ系统(www.ctr.columbia.edu/VideoQ)是最早的基于内容的视频信息检索系统之一。该系统是全自动的面向对象基于内容的视频信息检索系统,它扩充了传统的基于关键字或主题导航的检索方法,允许用户使用视觉特征和时空关系来检索视频。其最突出的特点是可根据用户对物体的特征、运动以及物体中相互关系的描述来查找相关镜头。该系统有以下几个特征:集成文本和视觉搜索方法,自动地对视频对象进行分割和追踪,提供包括颜色、纹理、形状和运动在内的丰富视觉特征库,通过因特网交互查询和浏览。目前VideQ视频库有超过3000段视频,每段都被压缩成三层结构保存。

美国NSF、ARPA和NASA资助的数字图书馆项目的主要研究目标是搜集、存储和组织数字信息的新技术,通过网络实现信息的搜集、检索和处理。例如,其参加单位之一卡内基—梅隆大学所承担的Information Digital Video Library项目(www.informedia.cs.cmu.edu),允许用户访问、挖掘、检索海量的数字视频库,在其系统中集成语言、图像和自然语言理解技术。该项目在视频处理方面做了大量的研究,包括:视频分段、视频文字识别、语音分析与识别、人脸检测、视频摘要等。此外,该项目还建立了包含约2000个小时的CNN新闻的视频数据库,它的语义信息提取引擎可以对视频流中的文字、语音、人物、台标等进行分析、识别、推理和综合,并生成基于内容的索引,从而允许用户对新闻片段进行基于内容的检索。目前该项目已经进入第二阶段。美国堪萨斯大学建立的数字视频图书馆系统DVLS,是以存储、索引及检索视频信息为目标的。该系统通过因特网及国家信息基础设施实现了视频共享技术,并已经建立了一个原型系统VISION,以及一个视频数据库。该视频数据库中包含了1000多小时的由多个广播通信公司提供的视频信息。此外,还有芬兰TAMPERE技术大学的MUVIS(http://muvis.cs.tut.fi/index.html)。

视频数据处理是实现基于内容的视频信息检索的一项关键技术,它直接影响到视频特征匹配和检索的精度,其研究还处于起步阶段,各种理论与相关技术都不尽完善,需要继续做大量的研究探讨。镜头边界检测是基于内容的视频处理必不可少的第一步,能够准确地检测出镜头边界,直接关系到以后的处理,并且镜头边界检测所用到的颜色、纹理和运动特征都可用于镜头的索引,所以有必要对此进行重点研究;视频数据的特点在于其时变性和动态性,因而如何更好地描述摄像头的各种运动和对象的运动也是一个研究重点;此外,视频的数据量很大,寻找快速算法也是基于内容检索的视频处理必须研究的一个问题。

3.4 基于内容的混合多媒体和新媒体信息检索在数字图书馆中的应用

中国科学院计算机研究所和国家图书馆已经成功地研制了基于特征的多媒体信息检索系统MIRS。此系统是基于Internet的多媒体信息检索系统,可以实现对图像、视频、声音的基于内容的检索和对文本的全文检索。此外,IBM的CueVideo系统由视频检索和浏览系统、多媒体信息自动索引系统组成,其目标是解决大规模视频数据库的生成、索引和使用等具有挑战性的问题。CueVideo主要解决两个瓶颈问题:为海量视频数据库建立索引的代价很大;用户难以做到方便检索和浏览视频的内容。为了快速实现全自动的索引和建立超级链接,它组合了视频和音频分析、语音识别、文本信息检索和人工智能等技术。CueVideo搜索与浏览系统由一个脱机视频索引模块和一个基于客户服务器模式的在线搜索与浏览引擎组成。全自动的脱机视频搜索过程包括音频分割、语音识别、建立音频索引、视频分割(通过镜头边缘检测)、视频摘要和建立基于图像内容的视频索引。在线的视频服务器由一个跨媒体的搜索引擎进人索引数据库来匹配检索,响应用户的查询要求。同时把视频和音频信息通过网络交流的形式传送给用户。

随着数字化技术的发展进步,数字图书馆中信息的内容和格式除了文本、图音频和视频外,还涌现出一些重要的人们感兴趣的新媒体,如3-D模型。基于内容的三维模型检索首先从模型数据中自动计算并提取三维模型的特征,如形状、空间关系、材质的颜色及纹理等,建立三维模型的多维信息索引,然后在多维特征空间中计算待查询模型与目标模型之间的相似程度,实现对三维模型数据库的浏览和检索。由于三维模型具有任意角度的坐标方向和任意大小的坐标单元,内容信息和数据量远比二维图像矩阵丰富。因此,其识别和检索也比二维图像检索更加复杂,并且三维表面之间可能具有任意的拓扑关系,许多对二维图像媒体有效的方法,如傅立叶变换等,并不能直接扩展应用于三维表面模型。所以,基于内容的3-D模型检索是一个更具挑战性的研究课题。

在基于内容的三维模型检索领域,目前已经实现并发布了一些进行理论和算法研究的原型系统以及架构于Web平台上的搜索引擎等。其中,加拿大国家研究院(National Research Council) 的Paquet等人开发的三维模型检索系统Nefertiti是第一个通用的三维模型检索系统,所提取的特征主要包括形状和颜色两种。目前,比较典型的通用三维模型检索系统和搜索引擎主要有:美国普林斯顿大学形状检索与分析(ShapeRet rieval and Analysis Group)实验室开发的三维模型搜索引擎(http:// shape.cs.princeton. edu/ search.html);美国卡耐基·梅隆大学AMP (AdvancedMultimedia Processing) 实验室开发的三维模型检索系统(http://amp.ece.cmu.edu/projects/3D model Retrieval);德国莱比锡大学CGIP(Computer Graphics and Image Processin) 实验室的Saupe和Vranic等人开发的基于VRML模型库的在线三维模型检索系统CCCC (Content-based Classification of 3D-models by Capturing spatial Characteristics)(http://merkur01. inf. uni2konstanz.de/CCCC);IBM日本东京研究院的“三维Web 环境”研究项目中的三维几何形状检索和分析系统(http://www.t rl.ibm.com/project s/3dweb/SimSearch-e.htm);德国波恩大学Klein和Novotni 等人开发的数字图书馆系统RODA(http://www.lems.brown.edu/vision/esearchAreas/3DRecog/ overview.Html)等等。

尽管基于内容的三维模型检索在理论方法和实现技术上都取得了一定的研究成果,但是,由于三维模型所包含信息的复杂性以及人类主观感知的不确定性,还有许多问题有待更深入的研究:具有不同数据表示方式和文件格式的三维模型统一检索问题;不需要进行模型坐标标准化的三维形状特征提取问题;三维模型的局部形状特征提取问题;三维模型的非形状特征表示方法;三维场景检索问题;结合用户兴趣度模型的个性化检索机制以及用户相关反馈机制等。

4 结论

基于内容的信息检索技术是传统的基于文本的信息检索技术的重要补充,基于内容的信息检索系统能够从语义上理解数字图书馆中的信息,并为用户提供更多的符合自己需求的信息。目前大多数研究都涉及到对多媒体信息内容低层物理特征的的理解、提取与检索,然而,随着信息检索可视化和人工智能等相关学科的发展进步,更多的研究将针对高层特征的提取和检索。此外,数字图书馆中多媒体信息类型的多样化给基于内容的信息检索带来了许多新的挑战,例如,3-D模型已经成为许多数字图书馆中的重要组成部分,需要提出针对这些模型的新检索方法。并且,在Web2.0时代,如Flicker的图片检索、Youtube和Google的视频检索等正在改变着人们的日常生活,基于内容的多媒体信息检索将给用户带来更多的好处。既然基于内容的多媒体信息检索的本质是为用户提供更好的检索帮助,那么,关注用户的真正需求和怎样让用户更好地使用这些新的检索工具将变得十分重要,并应该融入未来的基于内容的信息检索研究项目中。

参考文献:

[1] LI GH,KHOKHARAA.Content-based indexing and retrieval of audio data using wavelets[C]. PPICME,2000,(2).

[2] SLANEYM.Mixtures of probability experts for audio retrieval and indexing[C]. PPICME.2002,(1).

[3] YANGC.Efficient acoustic index for music retrieval with various degrees of similarity[C] .PP Proceedings of theTenth ACM international Conference on Multimedia,2002.

[4] TZANETAKISG,COOKP.Music analysis and retrieval systems for audio signals[J].Journal of the American Society for Information Science and Technology,2004,(12).

[5] BATLLEE,MASIPJ,GUAUSE.Amadeus:ascalable HMM-based audio informatio nretrieval system[C].PP Firs International Symposium on Control,Communications and Signal Processing,2004.

[6] HANSENJHL,HUANGRQ,ZHOUBW,etal.

Speech Find:advances in spoken document retrieval for a national gallery of the spoken word[J].IEEE Transaction on Speech and Audio Processing,2005, (5).

[7] 李国辉.基于内容的多媒体数据查询和检索[J].小型微型计算机系统,1998,(4).

[8] 罗骏,欧智坚.一种高效的语音关键词检索系统[J].通信学报,2006,(2).

[9] Paquet E., Rioux M..Nefertiti:A query by content system for three2dimensional model and image databases management[J].Image Vision Computing,1999,(2).