图像理解技术现状

2018-10-21 10:51张彩霞
文存阅刊 2018年22期
关键词:计算机视觉深度学习

摘要:图像理解是计算机视觉领域一个非常难的科学问题,传统的图像处理方法很难给出比较有效的解决方案。深度学习技术相比于传统图像处理分析技术具有独特的优势,因此其在图像理解任务中获得了比较好的结果。本文对基于深度学习的图像理解技术的研究现状进行了分析与对比,并对后续的发展进行了展望。

关键词:图像理解;深度学习;深度神经网络;计算机视觉

一、概述

图像视觉信息是人类感知外部世界的重要信息来源,研究表明人类感知信息80%来源于视觉。视觉信息具有多样、灵活、多变等特点,包含的信息量大而丰富,人类可以通过发达的大脑快速的处理视觉信息,并给出其语义理解。

然而计算机在图像理解方面却很难做到这一点,一方面由于图像信息量过大,而计算机计算能力有限;另一方面由于早期的视觉信息处理技术不能够满足图像理解的需求[1]。

二、基于深度学习的图像理解技术

传统的图像理解技术只能实现图像的识别与分类等初级任务,然后利用识别的结果进行分析处理,并未达到利用计算机对图像进行直接理解的层面。深度学习提出以后,图像理解技术有了一个质的飞跃,从传统的简单识别图像到能够读懂图像所表达的内容。基于深度学习的图像理解技术主要有三类:早期主要是采用基于检索的方法;随着技术的发展,基于模板技术的图像理解方法被提出;近年来更加有效的端到端方法,能够更加有效的实现对图像内容的理解。

基于检索的图像理解方法,通过深度网络提取图像的特征信息,然后从已有的图像信息库中检索对应的相似图像,从而获得图像的词语表达,这就要求图像数据库要具有丰富的种子信息[2]。

基于模板的图像理解方法通过图像目标识别以及语言模型两个模块完成图像的理解。图像目标识别算法检测出图像中所包含的目标关键词,然后利用语言模板生成完整的句子。这两部分具有相对的独立性,目标检测算法负责图像内目标的识别,可单独进行训练;语言模型利用目标识别结果生成合理的句子,语言模型的训练同样可单独进行。然而在这种方式下,图像目标的检测与语言的生成是脱节的,语言模型无法根据图像的背景信息等,对图像进行综合的表达。

基于端到端的图像理解技术,能够实现输入图像到语言表达的一体化训练,从而克服了基于模板的图像理解技术的缺陷,利用深度神经网络,建立输入图像与目的标注之间的映射,基于端到端的图像理解模型包括NIC模型、基于注意力的图像理解模型、稠密图像标准模型等等。在建立输入图像与语言模型之间的映射关系时,主要还是利用目标检测技术实现目标的检测,并用于语言模型的生成,只是这两部分被有机的统一在一起,实现网络的一体化训练,从而实现网络对图像更好的理解。在对图像进行理解的过程中,图像内的目标固然很重要,而背景信息有时也起決定性作用,因此背景信息的使用也是不可忽视的[3]。如下图是所示,如果不根据背景信息判断所选区域,计算机算法将认为所选部分为个人台式电脑,而如果采用背景信息,则可判断所选区域为一座现代大楼。

单个句子或是多个短语往往很难将图像内的所有信息进行有效的表达,随着技术的发展,图像段落化描述技术被提出,通过该模型能够将图像内所表达的内容利用多个句子进行描述,包含了图像内众多的细节信息,相比与单个句子、多个短语的表达方式,基于段落的表达能够更好地表达图像的信息,如下图2所示为图像的段落描述[4]。

一个男人在一条街道上驾驶着一辆马车,两个人坐在马车上,马车是木质的,马车是黑色的,背景建筑是白色的。

三、发展前景

尽管深度学习技术使计算机图像理解取得了大幅的进步,但与人眼相比差别还是非常大,并且还有很多待解决的问题,如计算机的表达很僵硬,并且经常会出现重复性的表达;图像中的小的细节容易被忽略掉,而影响了图片所表达的内容等等。因此,学者们也都在不断的改进和提出新的模型,以改善和解决现有模型所出现的问题,从而实现计算机通过视觉理解场景内容。

参考文献:

[1]鲍泓,徐光美,冯松鹤,等.自动图像标注技术研究进展[J].计算机科学,2011,38(7):35-40.

[2]霍华,赵刚.基于改进视觉词袋模型的图像标注方法[J].计算机工程,2012,38(22):276-278.

[3]邱泽宇,方全,桑基韬,等.基于区域上下文感知的图像标注[J].计算机学报,2014,37(6):1390-1397.

作者简介:

张彩霞,机械设计及理论专业硕士,工程师,威海职业学院,机械制造与制造专业,教师。

猜你喜欢
计算机视觉深度学习
基于深度卷积神经网络的物体识别算法
双目摄像头在识别物体大小方面的应用
机器视觉技术发展及其工业应用
危险气体罐车液位计算机视觉监控识别报警系统设计
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现