图像情感计算综述

2017-03-23 14:31赵思成姚鸿勋
智能计算机与应用 2017年1期

赵思成 姚鸿勋

摘 要:相对于底层视觉特征层,人们只能够感知和理解图像、视频的高层语义层,包括认知层和情感层。以往对图像内容分析的工作主要集中在理解图像的认知层,即描述图像的真实内容,如物体检测与识别。然而,公众对数字摄影技术的广泛使用及对图像情感表达的强烈需求,使得对图像最高语义层—情感层的分析变得越来越迫切。对图像情感层的分析,简称图像情感计算,主要目的是理解观察者看完图像后所引起的情感反应。本文首先介绍了情感的定义与描述,然后给出了图像情感计算的问题描述,最后总结了图像情感计算的研究现状。

关键词:图像情感;情感计算;情感表示

中图分类号:TP391.4

1 引言

随着社交网络的快速发展和广泛使用,例如Twitter(https://twitter.com),Flickr(https://www.flickr.com),YouTube(https://www.youtube.com)和新浪微博(http://www.weibo.com),人们倾向于将自己的所见所闻、兴趣爱好等以文本、图像和视频等多媒体的形式上传至网络来呈现和分享其观点和情感。因此,即会导致文本、图像和视频等多媒体内容的规模正以显示指数级态势发生着爆炸式增长,而针对这些多媒体内容的处理及理解需求则日趋显著与突出。相对于底层视觉特征层,人们只能够感知和理解图像、视频的高层语义层,包括认知层和情感层。以往对视觉内容分析的工作主要集中在理解图像、视频的感知层,即描述图像、视频的真实内容,如物体检测与识别。然而,公众对数字摄影技术的关注热衷及对视觉内容情感表达的强烈需求,使得对图像、视频最高语义层—情感层的分析已然具有高度重要的研究和应用价值。

对多媒体内容情感层的分析属于情感计算的一部分。情感计算的概念是由麻省理工学院媒体实验室的Picard教授于1995年首次提出的,而于1997年专著《Affective Computing》则正式出版问世[1]。书中给出了情感计算的定义,即情感计算是指与情感相关、来源于情感或能够对情感施加影响的计算,包含3个部分:情感识别、情感发生和情感表达[1]。

基于此,根据需要处理的多媒体数据类型,对多媒体情感层的分析可以分为4种:基于文本的情感分析[2]、基于音频的情感分析[3-5、基于图像的情感分析[6-7]以及基于视频的情感分析[8-11]。其中,基于文本和音频的情感分析比较成熟,图像情感分析中人脸表情识别的研究也相对成熟,而关于普通图像和视频情感分析的研究相对来说,却仍显不足。对图像情感识别的研究最初源始于人脸表情識别,因为人脸检测和人脸识别的研究相对成熟,心理学对人脸表情的分类也已建立有清晰脉络,此外更有大量的研究机构也成功建立了表情识别的数据库[12-14]。

受到情感鸿沟和人类情感感知与评估的主观性等基础现实的制约,普通图像的情感分析进展缓慢。不仅如此,图像情感计算的发展还将需要心理学、艺术学、计算机视觉、模式识别、图像处理、人工智能等领域的共同支持,众多领域学科的交叉使得图像情感计算成为一个富有挑战性的研究课题。本文对图像情感计算的发展研究现状进行了全面论述和分析。

1 情感的定义与描述

人类具有很强的情感感知和表达的能力,但是由于情感的复杂性和抽象性,人们很难将情感从概念上实现具体化和清晰化。心理学、生理学领域的科学家们早在18世纪就开启了专门情感研究,并且推出了诸多情感理论来解释情感是如何源起于产生的,如1872年的Darwin三原则理论[15]、1884年的James-Lange理论[16]、1927年的Cannon-Bard 理论[17]和1991年的Lazarus理论[18]。但是迄今为止,科学家们也仍未提出一个准确、全面且可得到一致认可的情感定义。

心理学中与情感相关的词汇有emotion、affect、sentiment、mood、affective、emotional等,类似的中文词汇有情感、感情、情绪、情感的、感情的等。心理学上认为情感、情绪与感情是3个严格不同的概念[1,19-20],但计算机学科对此区分并不严格区分,一般只是笼统将其称为情感。wikipedia上给出了一种情感的模糊定义,“情感是对一系列主观认知经验的通称,是多种感觉、思想和行为综合产生的心理和生理状态”。心理学领域主要有2种方式来描述情感:离散情感状态(CES)和维度情感空间(DES),或称为范畴观和维度观[1,19-20] 。

1.1 离散情感状态

持范畴观的心理学家将情感分成相互独立的范畴,而且在外部表现、生理唤醒模式上都存在一定的差异。近年来,持范畴观的研究人员根据生物进化理论把情感分为基本情感和复合情感。不同的心理学家对基本情感的分类差异很大,从2类到几十类也各有不等,具体的分类方法可以参照文献[1,19-20]。研究中更具代表性的成果主要有:Ekman把情感分为6类,即高兴、愤怒、厌恶、恐惧、悲伤、惊奇[21];Izzard 用因素分析方法,提出11种基本情绪,即兴趣、惊奇、痛苦、厌恶、愉快、愤怒、恐惧、悲伤、害羞、轻蔑和自罪感[22];Mikels 通过严格的心理学实验,把情感分为8 类,即表示积极情感的娱乐、敬畏、满意、刺激,表示消极情感的生气、厌恶、害怕和悲伤[23];Plutchik提出了一套情感的演化理论,认为情感有8种基本类型,但是每种情感又有3种不同的愉悦度(valence),即把情感分为24类[24]。还有一种模型是将情感分成积极和消极2类,或者积极、消极和中性三类。目前对表情识别的分类多是基于Ekman 的分类,而对图像情感分类则以Mikels 的分类为主。

复合情感是由基本情感的不同组合派生出来的,可随着个体认知的成熟而烟花发展,并随着文化的不同而发生变化。Izzard认为复合情感有3类:基本情感的混合、基本情感和内驱力的集合、基本情感与认知的结合[22]。

用CES来描述和测量情感的优势可分述为:

1)符合人们的直觉和常识,容易被人们理解和标注,有利于情感计算的成果在现实生活中推广和应用;

2)有利于智能系统在识别情感后,进一步推理与之相联系的特定心理功能和可能的原因,而后做出适当的反映。

但也需明确认识到CES的缺点,具体表述为:

1)哪些情感状态或基本情感是必要的,目前研究者对此没有统一的认识;

2)CES是对情感的定性描述,无法用量化的数字表达主观的情感体验,且其对情感的描述能力也比较有限。

1.2 维度情感空间

持维度观的研究人员认为情感具有基本维度和两极性,所有的维度构成一个笛卡尔空间,DES就将情感描述为该空间中的点,理论上该空间的情感描述能力是无限的,即能够涵盖所有的情感状态。各种不同的维度情感空间可以参照[1][19][20]。常见的维度情感空间大多是3D的,如natural-temporal-energetic[25]、valence-arousal-control[26]、activity-weight-heat[27]等。比较典型的是愉悦度-激活度-优势度空间(valence-arousal-control space,VAC,有些时候也称为pleasure-arousal-dominance space,PAD)[26]。其中,愉悦度表示个体情感状态的正负特性,激活度表示个体的神经生理激活水平,优势度表示个体对情景和他人的控制状态。具体的VAC三维情感空间如图1 (a)所示[28],从图中不难看出,优势度维度的取值范围很小,而且只有当愉悦度呈现高峰值时才会有用。因此可以说,优势度在描述情感过程中仅能发挥有限的的作用。大多数计算机学者用DES 描述情感时都不曾考虑优势度,以愉悦度-激活度空间为主。但也并非所有的愉悦度和激活度的组合都能构成情感,能构成人们常见的情感状态的愉悦度和激活度的组合范围如图1 (b)所示[28]。

用DES来描述和测量情感具有鲜明优势,具体可论述为:

1)描述能力强,理论上能描述所有的情感类别;

2)易于对情感进行量化,以精确的数值来描述情感,解决了CES 情感标签的模糊性问题,也一并消除了自发情感的描述问题。

但DES也存在一定的缺陷,分析可得如下结论:

1)不易于人们直观的理解,给定DES的维度值,普通人无法识别出应该归属为哪种情感;

2)测试人员对DES的打分有一定的难度,由此导致较大的偏差。

2 图像情感计算的问题描述

所谓图像情感计算,是指计算机从图像中分析并提取情感特征,使用模式识别与机器学习的方法对其执行计算,进而理解人的情感。根据情感的描述方式,图像情感计算可以分为三大任务:情感分类、情感回归和情感图像检索。

一个图像情感计算系统通常包括如下3部分:

1)图像预处理。 由于输入图像在尺寸、光照、颜色空间等方面存在很大的差异,在进行特征提取之前往往需要进行预处理。比如,把图像尺寸调整到统一大小,把颜色空间转换到同一空间等。在图像情感计算过程中,预处理虽然不是一个专门的研究热点,但却会对算法的性能产生很大的影响。

2)情感特征提取/选择。 特征提取与选择是图像情感计算过程中的重要组成部分,直接决定了算法最终的性能。该步骤的主要任务是提取或者选择一些特征,并且使得其在类内具有很大的相似性而在类间具有很大的差异性。一般而言,用于图像情感计算的特征可以分为底层特征、中层特征和高层特征。

3)模型设计。 模型设计是指根据图像情感计算的任务来设计合适的模型,并以提取的特征作为输入,通过學习的方法来获得相应的输出。情感分类是一个多类分类问题,可以直接采用多类分类器,或者转换成多个二值分类。情感回归是一个回归问题,研究针对的是维度情感模型。情感图像检索对应的是如下检索问题,即给定输入图像,查找与之表达相似情感的图像。针对不同问题,可以采用的学习模型也将各有不同。

3 图像情感计算的研究现状与分析

本节对图像情感计算的研究现状进行总结与分析。首先从不同的分类角度综合归纳了当前可高效用于图像情感计算的技术特征,然后简要介绍常用的机器学习方法,最后对已有方法存在的主要问题进行分析并给出可能的解决方案。

3.1 用于图像情感计算的特征

如何提取与情感紧密相关的特征是情感识别的关键问题。根据所提特征的通用性(generality),可将已有的特征分为2类:通用特征和专用特征。根据所提特征的层次(level),可将已有的特征分为3类:底层特征、中层特征和高层特征。

进一步地,所谓通用特征是指计算机视觉里普遍适用的特征,设计这些特征的目的并不是为了用于情感识别,而是其他的视觉任务,如物体检测。Yanulevskaya所使用的Wiccest特征和Gabor特征就是典型的通用特征[29]。而专用特征则是针对情感识别这一特定任务而设计的能够表达不同情感的特征,比如常见的颜色、纹理等底层特征。

目前,绝大多数的情感特征提取工作都是基于艺术元素的,如颜色、纹理、形状、线条等。针对每一种类的艺术元素,研究者们又设计了为数可观的不同描述方法。关于艺术元素及常用特征的典型描述可见于如下:

1)颜色(color)有3个基本的属性:色调、强度和饱和度。常用于描述颜色的特征除了这3个基本属性的平均值,还有colorfulness、area statistics[30-31]等。

2)灰度值(value)描述颜色的亮度或暗度。常用的特征有lightness、darkness[30-31]等。

3)线条(line)是在某物体表面的连续的标记。主要有2种:强调线和非强调线。强调线,又称轮廓线,勾勒出了一个物体的轮廓或边缘,而非强调线则用于描述那些轮廓和边缘未可堪称重要的作品。不同的线条给人不同的感觉,如水平线代表平静,给人轻松的感觉,垂直线代表强度与稳定,对角线代表紧张,曲线则表示运动。通常用于描述线条的特征有通过霍夫变换计算的静止和动态线条的数量和长度[30]。

4)纹理(texture)用于描述物体的表面质量(surface quality),有的艺术家使用平滑的纹理,也有的人喜欢用粗糙的纹理。常用的有基于小波的特征、Tamura特征、灰度共生矩阵[30]以及LBP特征。

5)形状(shape)是平的,具有2个维度:高度和宽度。Lu等人使用圆度(roundness)、角度(angularity)、简单性(simplicity)和复杂性(complexity)来描述形状[32]。

(6)形式(form)具有3个维度,即高度、宽度和深度,因此形式具有体积。

(7)空间(space)指物体之间、上面、下面或物体内部的距离或面积。

除了目前常规通用的底层表达,也有部分工作开始提取中层或高层的特征。Machajdik和Hanbury[30]提取了包括Level of Detail、Low Depth of Field、Dynamics和Rule of Thirds在内的构图(composition)作为中层特征,同时也发掘包括人脸、皮肤在内的图像内容(content)作为高层特征。Solli和Lenz使用每个兴趣点周围的情感直方图特征和情感包(bag-of-emotion)特征来对图像进行分类[27]。Irie等人提取基于情感的音频-视觉词组包(bag of affective audio-visual words) 的中层特征以及隐主题驱动模型来对视频进行分类[33]。

3.2 常用的机器学习方法

图像情感分类一般可建模为标准的模式分类问题,常用的分类器都可以用来解决此问题。根据建模过程,其中的有监督学习即可以分为生成式学习和判别式学习。相应地,判别式学习就是直接对给定特征条件下标签的条件概率进行建模,或者直接学习一个从特征到标签的映射,如Logistic回归和支持向量机(SVM)等。生成式学习则分别对类别先验和似然进行建模,而后再利用Bayes法则来计算后验概率,如高斯判别分析和Naive Bayes。当处理多类分类时不仅可以直接采用多类分类器,也可以转换成多个二值分类问题,常规策略有“一对一”分类和“一对多”分类。多种分类器可用来实施图像情感的分类,其中进入使用流行的主要有Naive Bayes[30]、Logistic回归[34]、 SVM[32,35-36]和稀疏表示等。

一般情况下,图像情感回归建模为标准的回归预测问题,即使用回归器对维度情感模型中各个维度的情感值进行估计。常用的回归模型有线性回归、支持向量回归(SVR)和流形核回归(manifold kernel regression)等。当前有关图像情感回归的研究仍属少见,已知的只有使用SVR对VA模型所表示的情感尝试,并实现了回归[32,35]。

目前,已知的用于图像情感检索的方法主要有SVM[36]和多图学习[37]等。

3.3 现有方法存在的主要问题及可能的解决方案

3.3.1 所提取的底层特征与图像情感之间存在语义鸿沟

目前的图像情感识别方法主要仍是基于学习的方法,因此学习时所使用的特征决定了最终学习的分类器或回归预测器性能的优劣。而时下绝大多数工作所提取的特征主要是基于艺术元素的底层特征,这就使得“情感鸿沟”极为显著,学习所得的分类器的分类准确率较为低下,回归预测器的预测结果误差较大。基于此,如何进一步缩小这一鸿沟,即改进特征与情感类别或情感得分之间的映射关系,即已成为气候工作的研究重点。

3.3.2 沒有从脑科学、心理学及艺术学等学科的研究成果中得到启发

情感表达是一个多学科交叉的研究方向,现有的从计算机的角度进行情感表达的工作大多都未曾引入脑科学、心理学及艺术学等产生的丰硕研究成果,这极大地限制了图像情感表达领域的发展、推进和完善。

在进行艺术作品创作时,艺术家不仅仅需要使用艺术元素,而且还要研究艺术原理,即把艺术元素进行组织与排列以产生特定语义与情感的各类规则。因此,使用艺术原理作为描述情感的中层特征,可能会对情感识别产生一定的帮助。

3.3.3 没有考虑个性化的情感识别

目前绝大多数的情感识别工作对情感的处理都是基于期望情感的[38-39],即图像拍摄者或电影制作者创作作品时希望读者产生怎样的情感,或者基于大众化情感,即大多数人所产生的类同式情感。这样做虽然便于研究,但却不符合实际情况,因为人的情感具有宽泛的主观性,例如喜欢看恐怖片的人可能觉得这部影片并不恐怖。也就是说,不同人对同一图像的情感反应是不同的,即情感评价是因人而异的,而且同一个人在不同时刻对同一图像的情感反应也有可能出现不同,即情感评价是因时而异的。因此,课题重点就是需要研究每个人的真实情感。

要想解决上述问题,就需要为每个人都建立一个数据库。人工标记显然费时、费力,不过,把社交媒体中人们对图像的评价作为对图像情感的理解将不失为是一种近便且准确的方法。同时,还可以进一步考虑对社交媒体中情感的传播和影响进行建模,即人们某时刻对图像情感的理解可能受当时朋友情感的影响。

如果说只考虑期望情感将太过泛化,那么个性化的情感识别却可能过于特殊,并且为之产生的计算复杂度还会很高。因此,介于期望情感和个性化情感之间的群体情感就可能会是一个合理的适用性解决方案。所谓群体情感,是指具有相同教育背景、生活环境和社会文化的人对同一幅图像所产生的情感是相似的。

3.3.4 高层语义和情感的理解相互制约

人们产生情感,是由特定的知识背景与特定的语义所共同决定的。那么,考虑基于语义的图像情感识别就应该更具备克星的真实性。但是,对图像语义的研究本身即是一个尚未解决的疑难课题,这将使得运用语义进行情感识别还存在很大的困难。如果图像语义分析技术达到了一定的技术水平后,图像情感识别也必将获得根本性解决。

3.3.5 目前用于情感表達测试的数据库规模很小

现有已公布的图像情感数据库规模很小,大型的仅在2 000左右,小型的仅有200,这也限制了图像情感表达的迅速发展,首要就是无法运用统计的思想和理论来发现其中的一些规则。而与此同时,社交网络即给出了一种可能的应对方案,如何利用社交网络上的大规模数据提高图像情感的识别率,挖掘图像情感之间的相互关系则需要研究学界的更大关注与投入。

3.3.6 没有适用于图像情感识别的理想学习策略

语音情感识别之所以发展得比较迅速,即是因为得到了与语音表达的机制相关的混合高斯模型和人工神经网络的有效技术支撑。但是目前适用于图像情感识别的学习策略或分类方法却仍显匮乏,而这又需要脑科学和机器学习等交叉领域研究的进化、提升与发展。

4 结束语

研究图像情感计算,实现对图像情感语义的分析对认知心理学、行为科学、计算机视觉、多媒体技术和人工智能领域的理论和技术发展均有促进作用。在过去的十几年内,已有较多的相关工作获得发表、并进入实践。但是,图像情感计算的研究仍然处在初级阶段,仍有众多问题未获解决。本文在分析研究现状的基础上,总结出了现有方法存在的问题以及可能的解决方案,为后续研究提供了参考。

参 考 文 献

[1] Picard R W. Affective computing[M]. London, England: MIT Press, 1997.

[2] PANG B, LEE L. Opinion mining and sentiment analysis[J]. Information Retrieval, 2008, 2 (1/2): 1-135.

[3] YANG Y H, CHEN H H. Machine recognition of music emotion: A review[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3 (3): 40.

[4] RODA A, CANAZZA S, De POLI G. Clustering affective qualities of classical music: beyond the valence-arousal plane[J]. IEEE Transactions on Affective Computing, 2014, 5 (4): 364-376.

[5] ZHAO S, YAO H, WANG F, et al. Emotion based image musicalization[C] //Proceedings of IEEE International Conference on Multimedia and Expo Workshops. Chengdu, China: IEEE, 2014: 1-6.

[6] WANG W, HE Q. A survey on emotional semantic image retrieval[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008:117-120.

[7] JOSHI D, DATTA R, FEDOROVSKAYA E, et al. Aesthetics and emotions in images[J]. IEEE Signal Processing Magazine, 2011, 28 (5): 94-115.

[8] WANG S, JI Q. Video affective content analysis: a survey of state of the art methods[J]. IEEE Transactions on Affective Computing, 2015, 6 (4): 410-430.

[9] ZHAO S, YAO H, SUN X, et al. Flexible presentation of videos based on affective content analysis[C] //Proceedings of International Conference on Multimedia Modeling. Huangshan, China: Springer, 2013: 368-379.

[10] ZHAO S, YAO H, SUN X, et al. Video Indexing and Recommendation Based on Affective Analysis of Viewers[C] //Proceedings of ACM International Conference on Multimedia. Scottsdale, AZ, USA: ACM, 2011: 1473-1476.

[11] ZHAO S, YAO H, SUN X. Video classification and recommendation based on affective analysis of viewers[J]. Neurocomputing 119: 101-110, 2013.

[12] WANG S, LIU Z, LV S, et al. A natural visible and infrared facial expression database for expression recognition and emotion inference[J]. IEEE Transactions on Multimedia, 2010, 12 (7): 682-691.

[13] LUCEY P, COHN J F, KANADE T, et al. The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression[C] //Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. San Francisco, CA, USA: IEEE, 2010: 94-101.

[14] YIN L, WEI X, SUN Y, et al. A 3D facial expression database for facial behavior research[C] //Proceedings of IEEE International Conference on Automatic face and gesture recognition. Southampton, UK: IEEE, 2006: 211-216.

[15] DARWIN C, EKMAN P, PRODGER P. The expression of the emotions in man and animals[M]. New York, USA: Oxford University Press, 1872/1998.

[16] JAMES W. What is an emotion?[J] Mind, 1884(34):188-205.

[17] CANNON W B. The James-Lange theory of emotions: A critical examination and analternative theory[J]. The American Journal of Psychology, 1927, 39 (1/4): 106-124.

[18] LAZARUS R S. Progress on a cognitive-motivational-relational theory of emotion[J]. American psychologist, 1991, 46 (8): 819.

[19] 王志良. 人工情感[M]. 北京: 機械工业出版社, 2009.

[20] 陈俊杰. 图像情感语义分析技术[M]. 北京: 电子工业出版社, 2011.

[21] EKMAN P. An argument for basic emotions[J]. Cognition & emotion, 1992, 6 (3/4): 169-200.

[22] IZARD C E. Basic emotions, relations among emotions, and emotion-cognition relations[J]. Psychology Review, 1992, 99: 561-565.

[23] MIKELS J A, FREDRICKSON B L, LARKIN G R, et al. Emotional category data on images from the International Affective Picture System[J]. Behavior research methods, 2005, 37 (4): 626-630.

[24] PLUTCHIK R. Emotion: A psychoevolutionary synthesis[M]. New York, USA: Harpercollins College Division, 1980.

[25] BENINI S, CANINI L, LEONARDI R. A connotative space for supporting movie affective recommendation[J]. IEEE Transactions on Multimedia, 2011, 13 (6): 1356-1370.

[26] RUSSELL J A, MEHRABIAN A. Evidence for a three-factor theory of emotions[J]. Journal of research in Personality, 1977, 11 (3): 273-294.

[27] SOLLI M, LENZ R. Color based bags-of-emotions[C] //Proceedings of International Conference on Computer Analysis of Images and Patterns. M¨unster, Germany:Springer, 2009: 573-580.

[28] Dietz R, Lang A. Affective agents: Effects of agent affect on arousal, attention, liking and learning[C]//Proceedings of International Cognitive Technology Conference. San Francisco, CA, USA: Springer, 1999.

[29] YANULEVSKAYA V, Van GEMERT J, ROTH K, et al. Emotional valence categorization using holistic image feature[C] //Proceedings of IEEE International Conference on Image Processing. San Diego, California, USA: IEEE, 2008: 101-104.

[30] MACHAJDIK J, HANBURY A. Affective image classi?cation using features inspired by psychology and art theory[C] //Proceedings of ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 83-92.

[31] WANG W N, YU Y L, JIANG S M. Image retrieval by emotional semantics: A study of emotional space and feature extraction[C] //Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Taipei, Taiwan: IEEE, 2006: 3534-3539.

[32] LU X, SURYANARAYAN P, ADAMS J R B, et al. On Shape and the Computability of Emotions[C] //Proceedings of ACM International Conference on Multimedia. Nara, Japan: ACM, 2012:229-238.

[33] IRIE G, SATOU T, KOJIMA A, et al. Affective audio-visual words and latent topic driving model for realizing movie affective scene classification[J]. IEEE Transactions on Multimedia, 2010, 12 (6): 523-535.

[34] BORTH D, JI R, CHEN T, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C] //Proceedings of ACM International Conference on Multimedia. Barcelona, Spain: ACM, 2013: 223-232.

[35] ZHAO S, GAO Y, JIANG X, et al. Exploring Principles-of-Art Features for Image Emotion Recognition[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 47-56.

[36] WU Q, ZHOU C,WANG C. Content-based affective image classification and retrieval using support vector machines[C] //Proceedings of International Conference on Affective Computing and Intelligent Interaction, Beijing, China: Springer, 2005:239-247.

[37] ZHAO S, YAO H, YANG Y, Zhang Y. Affective Image Retrieval via Multi-Graph Learning[C]//Proceedings of ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 1025-1028.

[38] HANJALIC A. Extracting moods from pictures and sounds: Towards truly personalized TV[J]. IEEE Signal Processing Magazine, 2006, 23 (2): 90-100.

[39] HANJALIC A, XU L Q. Affective video content representation and modeling[J]. IEEE Transactions on Multimedia, 2005, 7 (1): 143-154.

[40] ZHAO S, YAO H, JIANG X, et al. Predicting discrete probability distribution of image emotions[C] //Proceedings of IEEE International Conference on Image Processing. Quebec, QC, Canada: IEEE, 2015: 2459-2463.

[41] ZHAO S, YAO H, JIANG X. Predicting continuous probability distribution of image emotions in valence-arousal space[C] //Proceedings of ACM International Conference on Multimedia. Brisbane, Australia: ACM, 2015: 879-882.

[42] LI B, XIONG W, HU W, et al. Context-aware affective images classification based on bilayer sparse representation[C] //Proceedings of ACM International Conference on Multimedia. Nara, Japan: ACM, 2012: 721-724.