数字图书馆跨媒体检索技术研究

2014-12-31 09:13刘忠宝贾君枝赵文娟

图书馆论坛 2014年12期

刘忠宝，贾君枝，赵文娟

多媒体检索技术是数字图书馆的关键技术之一。随着多媒体数据量不断增长，如何从中发现有用知识成为热点。多媒体检索技术在实际应用中显示出优势，但“语义鸿沟”问题并未得到有效解决。跨媒体检索的出现促进了信息检索技术的发展，充分利用网页、图像、音频、视频等数据，通过建立多媒体数据之间的交叉关联关系，实现真正意义上的语义检索。跨媒体技术的进一步发展及其在数字图书馆建设中的推广应用，将从根本上提升数字图书馆的信息检索能力以及用户的满意度。

1 数字图书馆多媒体资源及其交叉关联关系

数字图书馆的多媒体资源规模庞大且形式多样，其中文本、图像、音频、视频、3D 模型和动画等多媒体资源出现新特点：(1)多种媒体数据共同存在；(2)媒体数据的组织结构多样；(3)不同媒体数据语义表达的一致性；(4)多种媒体数据之间紧密联系。数据媒体之间存在四种交叉关联关系：(1)文本内或文本间所包含对象的交叉关联；(2)各类型多媒体数据所包含对象的交叉关联；(3)用户在检索过程中提供的标注、评价、日志等交换信息之间的交叉关联；(4)各类型多媒体数据与用户之间的交叉关联。上述交叉关联关系见图1。各类型多媒体数据之间存在的语义关联关系对于整合网上资源、实现个性化检索具有重要意义。

2 数字图书馆与跨媒体检索

图1 网络资源、用户和检索行为之间的关联示意图

数字图书馆是传统图书馆在信息时代进一步发展的产物，不仅具有藏书和提供电子资源的功能，而且还具有向公众提供综合信息服务的功能。随着数字图书馆应用的不断深入，其面临的知识表达和检索方式问题日益凸显：当前数字图书馆主要面向用户提供阅读服务，其检索机制多以关键词检索为主，缺乏语义理解能力，存在“语义鸿沟”问题，从而限制了信息服务水平的提升。为了解决上述问题，研究人员提出跨媒体检索。跨媒体检索是指信息检索系统在多媒体检索基础上通过对各种媒体特征的分析，综合利用其内在语义联系，对具有相同或相近语义的信息进行不同媒体表示形式的处理，从而实现数字图书馆多媒体资源的有效存储和精确检索。跨媒体检索的工作机理与人类认识世界的方式相似，即人类利用多种感觉器官认识世界并通过融合多种感知信息来加深对世界的认识。在进行跨媒体检索时，用户只需将某一媒体信息作为检索项，数字图书馆信息检索系统便会返回语义相同或相近各类型多媒体信息。随着跨媒体检索研究的不断深入，数字图书馆检索系统面临的“语义鸿沟”问题终将得到解决。

3 数字图书馆跨媒体检索技术

3.1 从多媒体检索到跨媒体检索

为解决早期基于文本的多媒体检索费时费力、主观差异性大的问题，20 世纪90 年代出现了基于内容的多媒体检索方法，其基本思路是通过视觉、听觉或者几何特征来计算被检索对象和用户查询之间的相似度[2-3]。基于内容的多媒体检索的“内容”在提出时指的是“底层特征(如视觉或听觉等特征)”或“检索样例”，而非语义内容。

为解决信息检索中存在的“语义鸿沟”问题，研究人员在信息的特征空间和语义空间之间建立某种映射关系和反馈机制。目前主流的反馈技术主要有基于反馈定制、概率模型、机器学习、用户驱动等几类。反馈技术的使用有效地提高了检索效率。但基于内容的多媒体检索无法实现真正意义上的语义检索，“语义鸿沟”问题并未从根本上予以解决。

多媒体数据往往伴随文本信息以及用户标注信息，从中提取能反映多媒体数据语义信息成为近年来的研究热点。主流研究的基本思路是通过对标注训练数据集的学习得到标注对象与文本数据之间的对应关系，然后计算语义关键词在未标注数据中出现的概率。目前，基于图像的信息检索重点研究图像的语义标注，这面临大规模图像标注、标注扩展以及标注不一致等问题。标注信息主要利用关键词检索和图像检索的结果对其对应的文本信息进行主题聚类获得。随着图像检索技术的发展，对图像的标注不仅局限于对整幅图像，对图像包含的实体进行标注成为当下研究的重要方向，典型代表是美国卡内基梅隆大学的人脸标注系统“Name It”[4]。

数字图书馆传统的单一类型搜索引擎利用文本信息和链接属性实现信息检索，通过多媒体视听觉底层特征和样例，以及相关反馈技术实现基于内容的多媒体检索。这些方法忽略了媒体之间存在的关联特性，难以实现不同类型媒体数据的统一检索。为了满足人们对这些多媒体数据检索的需求，需要研究一种新的检索方法，可以检索到相似主题、不同类型的多媒体对象。这种新的检索方式能够处理和查询不同类型的多媒体数据，极大地扩展人们获取多媒体信息的途径和范围。这类“跨媒体检索”方式需要达到如下要求[5]：

首先，跨媒体检索要支持检索过程中在数据类型上的跨越。所谓异构多媒体数据指的是不同类型的多媒体数据，如图像与音频数据就互为异构多媒体数据。如给定一幅图像、一篇文本和一段音频数据，虽然它们对信息的表现形式各异，底层特征也不同。但是，异构多媒体数据却可以在语义层面统一起来：如老虎的图像、老虎习性的描述性文字和老虎吼叫的音频数据虽然表达形式各异，却在语义层面共同表达了老虎这一概念。传统的单一媒体相关技术忽略了异构多媒体数据在语义上的共性，因而不能有效处理异构多媒体数据共存的复杂多媒体数据，也无法有效跨越“语义鸿沟”。作为单一媒体技术在理论和功能上的延伸，跨媒体技术将异构多媒体数据统一理解分析；图像、文本、音频、视频等异构多媒体数据在语义层面的共性得以利用，这不但更符合人类的思维方式，而且也便于对异构多媒体数据的统一管理，以方便用户对其使用以及信息的传递。

其次，跨媒体检索要支持同构多媒体数据在语义上的跨越。所谓同构多媒体数据指的是相同类型的多媒体数据，如两幅图像互为同构多媒体数据。由于不同概念之间有着复杂的关联，虽然同构多媒体数据表达方式一致，但是它们所蕴含的语义联系却错综复杂。如何挖掘同构多媒体数据之间的语义关联信息是跨媒体研究的又一重要内容。以不同的文本数据为例，它们虽然表达形式一致，但是所蕴含的语义关联却有可能是相反、相近、相同的。跨媒体研究就是要根据同构多媒体数据在特征空间内错综复杂的分布找到它们之间的潜在的语义关联，从而完成语义的跨越。比如仅仅在文本的特征空间，“稻谷”和“午饭”这两个文本对象所描述的内容属于不同概念，而在语义层面二者有明显的关联。跨媒体研究则要根据全体文本对象在特征空间的分布，挖掘出同构多媒体数据之间这种固有的语义关联，从而方便对这些多媒体数据的检索和利用。

最后，跨媒体检索也要支持异构多媒体数据在语义上的跨越。对异构多媒体数据在语义上的跨越，目的是找到异构多媒体数据之间错综复杂的语义关联，这是对前面所述两项研究的综合。比如老虎的叫声和灰狼的图像，它们既不是同一类多媒体数据(二者类型分别属于音频和图像)，表达的语义也不相同(二者语义分别属于老虎和灰狼)，但是考虑到老虎和灰狼同属食肉动物，这两类多媒体数据之间又有一定的语义关联。这种异构多媒体数据的语义关联挖掘，传统的单一媒体研究并没有涉及。因此，这一研究内容是跨媒体研究对传统单一媒体研究的进一步延伸和拓展。从图像、音频等媒体数据中提取出来的视觉和听觉等特征量纲不同，存在异构性。要实现跨媒体检索，需要解决如何度量异构特征相似性问题。

最近一些研究通过典型相关性分析(Canonical Correlation Analysis，CCA)挖掘异构数据在特征上潜在的统计关系，从而生成包含不同类型数据的同构子空间实现异构数据相似性度量，并在特征降维后能最大程度地保持原始异构数据的相关性。由于典型相关性分析是建立在两个不同变量场所对应矩阵的基础上，因此，同样也适用于对图像与音频、音频与文本等跨媒体特征的相关性分析。

3.2 从多媒体表达到跨媒体表达

在数字图书馆知识表达方面，早期人工智能领域有一些研究人员主张用统一的逻辑框架来表示各种事物。随着数据挖掘技术的发展，通过统计学习的方法获得多媒体数据表达的研究逐渐成为机器学习领域的热点。从多媒体数据中提取出文本和视觉、听觉等底层特征，拼合成特征向量后，需要解决如何学习得到特征向量相似度度量函数，使其与数据在原始空间几何分布一致的问题。该方面较有代表性的工作可分为子空间学习和流形学习两类。

研究表明数字图书馆中许多类型数据的分布并不是线性的，而是非线性的流形结构。基于上述理论，国内外研究人员提出多种流形学习方法[6]。同时多媒体数据中局部特征提取也成为业界关注的热点。“词袋”在自然语言理解中表示文档，受其启发，“视觉单词”和“数据文法”可以用来表示图像和视频数据。该方法利用SIFT(Scale- Invariant Feature Transform)算法提取图像和视频数据的局部特征并将聚类后的结果作为视觉单词。计算机视觉中有关图像分割技术的发展使得通过对图像中对象识别，构建视觉单词和视觉文法实现图像解释成为可能。由于从图像、视频、网页和动画等多媒体数据中提取的特征仍然较多，传统向量空间模型表示多媒体数据存在两大问题：其一是造成“维数灾难”问题；其二是由于特征向量维度过高以及训练样本不足，将不同属性特征进行拼合引起“过压缩”问题，导致大量信息丢失。另外，不同类型特征通过简单向量拼接也在一定程度上减弱或忽略了视频中这些多种属性特征之间关联性。为了反映跨媒体数据中存在的交叉关联等复杂关系，矩阵、张量和图等形式下数据结构被使用[8]，由于其能描述复杂对象各组成部分之间的拓扑结构，并能阐明关于表示的假设，因而计算效率得到有效提高。如何实现矩阵、张量和图等复杂结构处理是实现跨媒体理解要解决的关键问题。

4 未来研究热点

信息检索技术是数字图书馆建设的重要内容之一，其经历了人工标注阶段、内容检索阶段以及跨媒体检索阶段。随着互联网上数据量的不断增长，信息资源检索至今仍作为一个热门研究方向备受关注。在未来几年，信息资源检索在以下方面值得关注：

(1)底层特征很难与高层语义建立准确的对应关系，“语义鸿沟”问题仍是跨媒体检索面临的一大难题。

(2)Web2.0 时代下，用户在媒体内容生成和编辑过程中的参与度急剧增强。如何从用户交互中获取用户行为，生成偏好信息，发现用户社区，实现更理想的个性化检索将是下一代数字图书馆提供更优质服务的关键所在。

(3)近年涌现出不少利用机器学习算法在互联网级语料库或图像库实现知识发现和语义理解的研究成果。该研究的进一步深入是将跨媒体检索推向实用的必经之路[10-11]。

(4)压缩感知和变量选择理论与方法相结合，用来对图像形成更加有效的“稀疏表达”(Sparse Representation)，已成为计算机视觉和机器学习等领域的研究热点。如可针对图像中不同视觉特征在表示特定高层语义时所起重要程度不同，定义结构性组稀疏(Structural Group ing Sparsity)机制实现高维异构特征的差别性选择[12]。

[1] 吴飞，庄越挺.互联网跨媒体分析与检索：理论与算法[J].计算机辅助设计与图像图形学报，2010，22（1）：1- 9.

[2] Datta R.，Joshi D.，Li J.，et al. Image retrieval：ideas，influences，and trends of the new age[J]. ACM Computing Surveys，2008，40（2），5- 60.

[3] Smoliar S.，Zhang H J.. Content based video indexing and retrieval [J]. IEEE Multimedia，1994，1（2）：62- 72.

[4] Satoh S.，NakamuraY.，Kanade T..Name- It：naming and detecting faces in news videos [J]. IEEE Multimedia，1999，6（1）：22- 35.

[5] Zhuang Y T，Yang Y，Wu F. Mining semantic correlation of heterogeneous multimedia data for cross- media retrieval[J]. IEEE Transactions on Multimedia，2008，10（2）：221- 229.

[6] Saul L.K.，Weinberger K.Q.，Ham J.H，et al.Spectral methods for dimensionality reduction [M].Cambridge，MIT Press，2006.

[7] Korn，F.，Pagel，B.，Faloutsos，C.. On the “Dimensionality Curse” and the “Self- Similarity Blessing”[J]. IEEE Transactions on Knowledge and Data Engineering，2001，13（1）：96- 111.

[8] Tao D.，Li X.，Wu X.，et al. Supervised tensor learning [J]. Knowledge and Information Systems，2007，13（1）：1- 42.

[9] Wright J.，Yang A.，Ganesh A.，et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2009，31（2）：1- 18.

[10] Mahoney M.，Lim L.，Carlsson G.. Algorithmic and statistical challengesin modern large scale data analysis[J].SIGKDD Explorations，2008，10（2）：57- 60.

[11] Talwalkar A.，Kumar S.，Rowley H.. Large scale manifold learning[C]. Proceedings of Computer Vision and Pattern Recognition，Anchorage，2008：1- 8.

[12] Wu F，Han Y H，Tian Q，et al. Multilabel boosting for image annotation by structural grouping sparsity [J].ACM Multimedia，2010：15- 24.