图像描述算法研究综述

2019-10-14 21:30敬亚娇
西部论丛 2019年31期
关键词:自然语言处理计算机视觉特征提取

摘 要:图像描述是一个综合性问题,涉及自然语言处理领域和计算机视觉领域。随着人工智能技术的发展,图像特征提取技术和文本生成技术都得到了长足的进步,将两者结合的图像描述生成技术也越来越受学术界和工业界的重视。本文介绍了图像描述生成技术的研究背景及国内外研究现状,对现有模型进行了详细的分类概括:基于模板的图像描述生成方法、基于检索的图像描述生成方法、基于生成的圖像描述生成方法。并总结阐述了该领域面临的问题和挑战。

关键词:图像描述;特征提取;文本生成;自然语言处理;计算机视觉

一、引言

随着科学技术的发展,图像已然成为人类记录日常生活的重要信息组成部分,图像描述[1]是一个将计算机视觉[2]和自然语言处理[3]领域相结合的综合性研究问题。其主要目标是运用深度学习[4]中的卷积神经网络去检测图像中的关键物体,并且能够准确理解图像中物体与物体之间的逻辑关系。在实际场景中,由于图像可能包含各种复杂的物体,并且物体之间还存在复杂的逻辑关系,因此如何有效地去提取物体,并能准确理解物体之间的联系,成为了解决图像描述任务的关键点。本文介绍了图像描述由传统的基于图像轮廓、色彩、纹理等视觉特征[5]图像处理,向高层次的基于图像语义信息的处理方式发展的历程。

二、国内外研究现状

结合国内外研究人员对图像描述生成方法的研究以及在不同时期采取的不同关键技术,早期的图像处理方法是基于传统机器学习[6],随着深度学习技术的不断发展,实现图像描述的方法也在不断更迭。针对这些目标,实现图像描述任务主要有3种生成文字的方法:基于模板填充的方法,基于检索的方法和基于生成的方法。

基于模板填充的方法主要指的是在人为规定的一系列句法模板中留出部分空白,然后再基于提取出的图像特征获得目标、动作及属性,将它们填充进入空白部分,从而获得对某一图像的描述。这种方法的代表有Li et al[7]., Kulkarni et al.[8]等,这两种方法都是利用图像处理的一些算子提取出图像的特征,经过SVM[9]分类等,得到图像中可能存在的目标。根据提取出的目标以及它们的属性利用CRF[10]或者是一些认为制定的规则来恢复成对图像的描述。这种方法虽然保证了语义和句法正确性,但是完全确定的模板无法产生多样性的输出,故现在这种方法使用较少。

基于检索的方法指的是将大量的图片描述存于一个集合,再通过比较描述图片和训练集中图片描述的相似性获得一个待选句集,再从中选取该图片的描述。谷歌[11]在2014年提出的Encoder-Decoder(编码-解码)模型,使得在图像描述任务中使用卷积神经网络作为图像特征编码器成为主流的做法。微软[12]在2015年提出了一种在模型的编码端改进方法,该方法使用多实例训练一个词探测器,将获得的词语作为输入使用语言模型产生一系列关于该图片的描述句子,最后从中选择结果句子。这种方法保证了句法正确性,但是无法保证语义正确性、以及对新图片进行准确的描述。

目前使用较多的是基于生成的方法,基于生成的方法大致流程是先将图像信息编码后作为输入送入语言模型,再利用语言模型产生全新的描述。Lu等人[13]和Anderson等人[14]都在各自提出的模型中运用了目标检测[15]技术,首先提取出图像中可能的物体,再进行生成相应文本描述。绝大部分基于深度学习的图像描述方法使用的是基于生成的方法,也是目前效果最好的图像描述模型上普遍应用方法。它在句法正确性,语义准确性和对新图片的泛化能力上都达到了较好的效果,但是运用深度学习之后,生成的描述变得越来越流畅,但是相关性却逐渐降低。Xu等人[16]提出将注意力机制应用于表征图像特征中,其基本思想是利用卷积层获取图像特征后,对图像特征进行注意力加权,之后再送入RNN[17]中进行解码。由于其良好的效果和可解释性,注意力机制已经成为一种主流的模型构件。

三、图像描述生成算法

基于生成的图像描述方法的实现过程是先将图像信息编码后作为输入送入语言模型,再利用语言模型产生全新的描述,其在句法正确性,语义准确性和对新图片的泛化能力上都达到了较好的效果。

简单的基于生成的图像描述方法,是由两部分组成CNN模型和LSTM模型。首先,将图像输入到CNN模型中,得到图像的特征;然后,对图像特征以one-hot方式进行编码;最后,将特征编码输入到LSTM模型中,得到相应的描述。可以看到这种方法较为简单,算是利用计算机视觉和自然语言处理的结合对图像描述的一次尝试,其模型的优化目标如公式(1)所示。

(1)

其中I代表图像,S代表对应的描述,代表模型的参数。在给定图像和参数时使生成描述SDE概率最大,从而得到参数,以此来训练模型。基于语言的模型旨在学习视觉内容和文本句子的公共空间中的概率分布,以生成具有更灵活的句法结构的新颖句子。

3.1 注意力机制的引入

注意力机制在机器翻译领域的成功引起了图像描述领域对其的兴趣。Zhang等人[18]于2016年提出将注意力机制应用于表征图像描述的图像特征中。其基本思想是利用卷积层获取图像特征后,对图像特征进行注意力加权,之后再送入RNN中进行解码。该文章提出了两种注意力机制:软注意力机制(soft-attention)和硬注意力机制(hard-attention)。软注意力机制对每一个图像区域学习一个大小介于0与1之间的注意力权重,其和为1,再将各图像区域进行加权求和;硬注意力机制则将最大权重置为1,而将其他区域权重置0,以达到仅注意一个区域的目的。

根据前面的介绍,注意力机制的作用是生成一组权重,这里用表示,其中t表示时刻他,i则表示ai对应的权重,其生成过程如公式(1)、公式(3)所示。

(2)

(3)

其中為上一时刻解码端得到的隐含向量;通常为一层神经网络,常用的一种映射关系如公式(4)所示。

(4)

在生成每一个单词时,先使用深度网络来计算各个区域对应的权重,再将权重乘上对应区域的特征,将结果输入到LSTM来得到这一时刻的单词,直到生成整个句子。

一种具有创新性的改进图像特征的注意力机制来自于Anderson等人[19]于2018年提出的Bottom-Up and Top-Down Attention。其主要创新在于使用Faster R-CNN[20]进行目标检测,获得对应检测目标和标签,达到自底向上的注意力机制的的效果。此外,其还在解码端使用了注意力LSTM层,对输入的图片特征根据输出的语言进行实时的注意力调整。这种注意力机制模式使得模型能够更加关注图片中更明显和重要的目标的同时使得描述更有主次感,即对于图像中明显和重要的目标进行更多关注。

注意力机制由计算机视觉引入,在自然语言处理领域获得长足发展。而在图像描述这样结合计算机视觉和自然语言处理的领域,注意力机制无疑是最有发展潜力的研究方向之一。

3.2 生成对抗方法

生成对抗网络[21],其基本思想类似于非零和博弈。其基本架构包括一个生成器和一个鉴别器。生成器的目标是最大化拟合真实数据的概率分布,使得产生的虚假样本“以假乱真”,而鉴别器的训练目标则是对真实数据和生成器产生的虚假数据进行分类,以期在训练中增强分辨虚假数据的能力。

Dai 等人[22]在2017年的提出了使用Conditional GAN 来实现图像描述,其动力在于产生更富多样性的图像描述语句。其核心结构类似于传统的GAN结构,由一个生成器和一个判别器组成。生成器使用传统的encoder-decoder结构,输入一副图像得到伪造的图像。值得提及的是,该文通过随机初始化生成器LSTM隐藏层向量z,通过控制该向量方差来控制为同一张图片产生的不同结果的多样性。采用蒙特卡洛的方法,将句子进行补充完整。然后才交给判别器进行打分,获得奖励信号。根据得到的奖励信号,再进行梯度的调整,进而完成产生器 G 的优化。所以,期望累计奖赏表示如公式(5)所示。

(5)

其梯度如公式(6)所示:

(6)

其中,为强化学习中的策略(Policy),讲条件,以及接下来的单词作为输入,并且产生一个在拓展词汇表中的条件分布,即产生的所有单词加一个表示语句结束的符号,记为。而判别器通过LSTM在每一步随机接收真实描述语句和伪造的描述语句,并接受一个图像特征,用于为图像描述语句打分,以期正确的区分真实答案与伪造答案。这项工作引入了非常典型的GAN网络结构,并在实验中证明了相比于传统方法其的确有增强结果多样性的效果。

此外,一些使用对抗样本对图像描述进行攻击以检测鲁棒性的工作,如Chen 等人[23]使用图像对抗样本进行攻击,Shekher等人[24]通过使用语义对抗样本评价模型鲁棒性等工作,在评价模型方面提供了新思路。而Dai等人[25]则使用对抗样本来训练模型,以期获得更多样和可靠的结果。

3.3 强化学习方法

强化学习的方法在人工智能的各个领域有广阔的前景,将其应用于图像描述领域也会解决一些棘手的问题。前文提到使用最大似然函数对图像进行训练存在一些问题:鼓励泛化的问题,损失函数和评估方法不一致等问题。使用强化学习方法直接最大化奖励则可以避免这些问题。

Zhou等人[26]发表在CVPR2017上的基于深度强化学习的图像描述方法将完整的强化学习方法引入生成过程。该工作将图像描述任务看作决策生成的过程,输入图片和当前产生文字作为环境。策略网络是典型的encoder-decoder结构,通过提供基于当前状态预测下一个单词的自信度作为一个本地的向导;而价值网络结构类似于策略网络,通过评估当前状态的所有可能的扩展来充当全局性和前瞻性的向导。实质上,它调整了预测正确的单词的目标,以生成接近特征区域的描述。奖励由视觉-语义编码决定。其中奖励的一部分来自句子编码,即RNN的最后一个隐层。视觉编码即CNN图像特征。通过联合训练视觉语义编码,最终的奖励由其欧氏距离决定。

强化学习的特点决定其对于文本生成任务的训练是非常合适的,现有的实验工作表明强化学习方法在提高生成质量和多样性,合理化训练方法等方面比传统方法更有优势。

四、总结

随着深度学习技术的发展,图像的实体特征提取和自然语言处理相结合的多模态问题也得到了快速发展,使得对于图像描述达到了一个新的阶段。图像描述生成技术已经广泛应用于不同的领域,如新闻传播、智慧城市、无人驾驶、智能家居等领域。本文简述了图像描述任务的研究背景以及对国内外研究现状进行了讨论。研究了以机器学习方法为主的基于模板的图像描述方法、以语义为特征信息的基于检索的图像描述方法和以深度学习方法为主的基于生成的图像描述方法。结合之前的论述可以发现,实现图像描述任务的方法朝着更自然、更有效、更灵活的方向发展。

针对在解决图像描述问题中面临的挑战与问题,可以考虑结合不同的神经网络和注意力机制,充分融合不同层次的图像特征和文本特征向量。为了得到更加丰富的语义信息,可以融合生成对抗网络,增加模型生成文本的数量,以便于在保留语义内容的基础上,使得生成的图像描述语句语法更加丰富;还可以嵌入基于图的模型,有效地抓住图像之间的关系,这样深度学习网络更有利于图像描述算法生成更好的文本内容,提升图像描述的性能。

参考文献

[1] Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Netw, 2015, 61:85-117.

[2] Chen X, Zitnick C L. Mind's eye: A recurrent visual representation for image caption generation[J]. 2014.

[3] Faugeras O. Three-dimensional computer vision: a geometric viewpoint[M]// Three-dimensional computer vision, a geometric viewpoint. 1993.

[4] Brill E. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging[J]. Computational Linguistics, 1995, 21(4):543--565.

[5] Ullman S, Vidalnaquet M, Sali E. Visual features of intermediate complexity and their use in classification.[J]. Nature Neuroscience, 2002, 5(7):682-687.

[6] Press M. Journal of machine learning research[J]. Journal of Machine Learning Research, 2008.

[7] Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C]// Fifteenth Conference on Computational Natural Language Learning. 2011.

[8] Kulkarni G, Premraj V, Ordonez V, et al. Babytalk: understanding and generating simple image descriptions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12):2891-2903.

[9] Schuldt C, Laptev I, Caputo B. Recognizing human actions: a local SVM approach[C]// International Conference on Pattern Recognition. 2004.

[10] Bale T L, Vale W W. CRF and CRF receptors: role in stress responsivity and other behaviors.[J]. Annual Review of Pharmacology & Toxicology, 2004, 44(44):525.

[11] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]// IEEE Conference on Computer Vision & Pattern Recognition. 2015.

[12] Lu J, Yang J, Batra D, et al. Neural Baby Talk[J]. 2018.

[13] Fang H, Gupta S, Iandola F N, et al. From captions to visual concepts and back.[J]. 2015.

[14] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[J]. Adaptive Behavior, 2016, 11(4):382-398.

[15] Papageorgiou C P, Oren M, Poggio T. A general framework for object detection[C]// International Conference on Computer Vision. 2002.

[16] Xu, Kelvin, et al. “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.” Computer Science (2015):2048-2057.

[17] Socher R, Karpathy A, Le Q V, et al. Grounded compositional semantics for finding and describing images with sentences[J]. Nlp.stanford.edu, 2013.

[18] Zhang H, Chen W, Tian J, et al. Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention[J]. 2018.

[19] Anderson P, He X, Buehler C, et al. Bottom-Up and Top-Down Attention for Image Captioning and VQA[J]. 2017.

[20] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6):1137-1149.

[21] Liu F , Ren X , Liu Y , et al. simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions[J]. 2018.

[22] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.

[23] Bo D, Fidler S, Urtasun R, et al. Towards Diverse and Natural Image Descriptions via a Conditional GAN[J]. 2017.

[24] Chen H , Zhang H , Chen P Y , et al. Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning[J]. 2018.

[25] Shekhar R, Pezzelle S, Klimovich Y, et al. FOIL it! Find One mismatch between Image and Language caption[J]. 2017.

[26] Ren Z , Wang X , Zhang N , et al. Deep Reinforcement Learning-based Image Captioning with Embedding Reward[J]. 2017.

作者簡介:敬亚娇(1994.03-),女,汉族,陕西西安人,研究生在读,智能信息处理与视觉分析研究。

猜你喜欢
自然语言处理计算机视觉特征提取
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
基于组合分类算法的源代码注释质量评估方法
机器视觉技术发展及其工业应用
危险气体罐车液位计算机视觉监控识别报警系统设计
面向机器人导航的汉语路径自然语言组块分析方法研究
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析