多媒体信息检索研究进展：从检索到推荐再到生成

2021-06-23 08:06薛向阳

世界科学 2021年6期

薛向阳

人类通过视觉、听觉、触觉、嗅觉等从周围环境中获取信息，大脑对这些感知信息进行加工实现认知能力，例如产生记忆和知识、进行联想和想象，并用语言描述所见所闻和万事万物。在人类社会发展的历史长河中，一直在探索利用外物对越来越多信息进行存储和检索。在计算机发明以前，主要借助纸张等对信息进行记载，并用关键词索引进行检索。计算机诞生之后，信息开始用文本、图像、音频和视频等越来越多模态的数字媒体数据进行存储。这些数据是计算机可读的，但是并不是计算机可理解的，为了让计算机从海量的多媒体数据中快速找到感兴趣内容，20多年前，基于内容的多媒体信息检索技术成为研究热点，其研究重点是期望计算机能对多媒体数据的内容有一定的理解。近10年来，随着深度学习技术取得突破性进展，除了检索技术之外，多媒体信息推荐和内容生成成为新的热点技术，今天计算机已经能为用户精准推荐感兴趣的多媒体信息，也能根据用户意图生成精彩的多媒体内容。

检索

信息检索任务有三个要素，即查询项、数据集（或称语料库）和相似度计算，一个检索任务需根据查询项在数据集中寻找最相似的实例，例如文档、图片或网页等。根据查询项与查询结果的可能模态，例如考虑文本和图片两个模态，可将检索任务分为同模态检索（文本到文本、图片到图片）和跨模态检索（文本到图片，图片到文本）。

长期以来，文本是人类记载信息最重要的载体，文本到文本的检索是信息检索关注的首要问题。文本到文本的检索通常以文本关键字作为查询项，在包含大量文本文档的数据集中检索出最相关的那些文档实例。较早提出的最有影响的文本检索算法是TF-IDF，这里某单词的词频TF（term frequency）定义为“该单词在当前文档中出现的总次数/当前文档中所有词出现的总次数”，逆文档频率IDF定义为“语料库中文档总数量/出现该单词的文档数量”的对数。假如以“信息检索简介”为查询项Q，在一个文档数量为10 000的数据集中进行检索。首先，查询项Q可表示成“信息检索”和“简介”两个关键词。假如D文档包含100个单词，其中“信息检索”出现2次，“简介”出现3次，数据集中包含“信息检索”的文档有4篇，包含“简介”的文档有1 000篇。那么查询项Q与文档D的相似度计算公式是：

虽然单从词频角度考虑，“简介”在文档D中的出现次数更多，但是考虑到“简介”是一个常用词，所以经过逆文档频率加权之后，“信息检索”对于相关性的贡献才是最大的。将查询项Q和数据集中每一篇文档Dj进行相似度计算，然后对相似度进行排序，就可以得到检索结果。

如果将图片作为查询项到图片数据集中查询相似图片，那么这种图片到图片的检索又被称为基于内容的图像检索技术（content-based image retrieval，CBIR）。在传统方法中，利用手工设计的SIFT等算子提取表示图像的视觉特征，再对特征使用聚类方法将所有聚类中心作为视觉词典，接着用词袋方法（bag of words）将图片转化为向量，通过度量向量间的某种距离完成相似度计算。1995年，IBM研制的QBIC系统最早采用了CBIR技术，用于查询博物馆绘画作品。CBIR技术的提出标志着多媒体信息检索研究的肇始。在深度神经网络方法兴起之后，通过深度卷积神经网络可以自动学习得到图像特征向量。神经网络的浅层输出代表的是图像中出现了某种边或角等低级视觉特征，深层输出则代表出现了某物体部分区域（如猫头、羽毛、拱门等）等高级语义特征。显然，在信息检索中，我们关心的是高级语义特征，所以采用的是卷积神经网络的最后一层输出。

文本到图片的检索属于一种跨模态检索。以根据查询项“蓝色格子衬衫”检索图片为例，查询项Q是文本模态信息，数据集则是由大量图片实例构成的，它们将被嵌入到某一个共同的度量空间中，即得到该空间的两个向量。文本查询项嵌入到某个空间是通过在大量语料库上训练的神经网络模型实现的。研究表明，语义相近的两个文本关键词，它们嵌入到空间后，位置比较靠近，语义无关的则距离较远。将图片嵌入到某个空间，则是通过卷积神经网络来实现。在两者都映射到某个公共空间之后，就可以通过距离度量实现相似度计算和相似检索。对于图片到文本的检索，同样也是跨模态检索，可采用类似计算方式。

多媒体信息检索技术被广泛应用于搜索引擎。用户根据关键字搜索相关文本、图片和视频，或直接通过图片来检索图片或视频等。

图2 文本到图片的检索示例。检索系统首先将衬衫图片数据集中每一幅图片经深度神经网络模型计算得到其视觉特征向量，这些特征向量构成了公共语义空间。用户进行查询时，查询项“蓝色格子衬衫”同样被一个神经网络模型映射到公共语义空间中，表征为查询向量。在公共语义空间中计算查询向量和每一个图片的特征向量之间相似度，按从大到小排序，取最前面3个结果，就得到了3幅查询结果图片，显然这些结果图片中包含了“蓝色”“格子”“衬衫”等重要语义特征

图3 推荐任务示例。推荐系统首先将用户的性别、年龄和行为等语义属性映射到向量空间，对用户画像形成一种向量表示；其次将商品的类型和地区等属性映射到向量空间；随后基于这些向量来计算用户和商品之间的匹配分值，根据匹配分值从高到低排序，产生推荐列表，如图3中右侧所示

生成

人类除了有信息检索的能力，还具有丰富的想象力。今天，基于深度学习方法，利用大规模数据集，训练各种模态的深度生成神经网络模型，可以让计算机写一篇作文、生成一幅图像或一段视频，这些生成的多媒体数据能达到以假乱真的效果。计算机生成或创作技术的诞生，触发了一些超越多媒体信息检索和推荐的新技术，例如图像描述、视觉问答、文本生成图片和视觉语言导航等，这些新技术让我们感受到更多的惊奇，今天可以获得真实世界中可能并不存在的图片或视频等多媒体数据。

图像描述任务是根据输入图片内容，计算机自动生成描述该图片内容的文本语句。视觉问答任务则是根据输入图片和文本表达的问题，计算机生成最有可能的答案。目标检测任务可以看作一种特殊的视觉问答任务，即输入问题是“某类物体在图片中的位置？”其答案就是物体外接矩形框。从这些任务来看，输入项一般包含文本和视觉两个模态，目前主流方法使用Transformer神经网络模型来实现两个模态特征之间的对齐和融合，并自动产生答案。文本生成图片任务和图像描述任务刚好相反，以描述画面内容的文本句子作为输入，生成最符合文本句子语义的图像。

在视觉语言导航任务中，智能体或机器人从当前环境中感知到的图片和语言导航指令为输入，随着导航动作的执行，其视觉传感器感知到的环境图片信息将发生相应变化，从而引发新一轮的动作生成，直到导航指令完成和动作结束。如果家政服务机器人具备视觉语言导航能力，则向其发出语言指令“出卫生间左转，走过护栏后在第一个卧室门口停下”后，机器人可以按照指令的规划路径完成导航，实现运送衣物甚至帮助残疾人等服务。

结论

综上所述，多媒体信息的检索、推荐和生成技术在过去的20多年内取得了显著进步，它们至少包含了自然语言处理、图像处理、视频处理、语音识别、数据挖掘、模式识别、人工智能、机器学习等众多学科方向。作为应用，它们正在融入日常生活的方方面面，如搜索引擎、电子商务、社交娱乐、安保巡防、残疾人辅助、无人驾驶和艺术创作等应用。