基于特征融合的小样本抽象画图像情感预测

2020-09-04 10:00白茹意郭小英贾春花

计算机应用 2020年8期

白茹意，郭小英，贾春花

（山西大学软件学院，太原030013）

0 引言

绘画是由绘画者用点、线、面和颜色等组合的形式来表达他们的主观思想，通常被理解为不描述自然的艺术［1］。抽象画大致包含热抽象和冷抽象两类，其中：热抽象偏重于主观感情，表达某种意趣或情感；冷抽象则形式上趋于简单化，不受主观感情和表象制约，大多显得安静。抽象画示例如图1所示。

在图像处理和计算机视觉领域中，情感计算是一个热门的研究方向，而抽象画图像作为一种内容和表达的情感都很含蓄的艺术作品，针对它的情感研究一直是一个研究难点。抽象画主要来源于博物馆或绘画藏馆，摄影图片不容易获得，因此，目前针对小样本抽象画图像情感预测的研究文献较少，而且大都采用基于通用低层特征（颜色、纹理等）或基于艺术理论特征的机器学习方法。Yanulevskaya 等［2］招募受试者对抽象绘画进行1～7 的情感评分，其中1 表示最消极，7 表示最积极，然后提取图像的LAB 色彩空间（LAB color space）和尺度不变特征转换（Scale-Invariant Feature Transform，SIFT）特征，并采用支持向量机（Support Vector Machine，SVM）对绘画进行“积极/消极”分类；Sartori 等［3］在文献［2］的基础上，加入对绘画的语义描述作为特征，并采用schatten p-norm 模型和SVM 实现分类；之后，Sartori 等［4］又采用极限学习机（Extreme Learning Machines，ELM）提取图像的perlin 参数作为图像的整体纹理特征，通过 SVM 实现情感分类；Sartori 等［5］充分利用颜色特征，提出了基于sparse group lasso 的绘画情感识别方法，也取得了很好的分类效果；李博等［6］提取颜色和纹理特征，采用加权K 近邻算法实现对抽象画的情感分布预测。此外，一些情感研究中也运用了艺术理论的内容。Sartori等［7］运用统计分析和艺术理论，设计了一个识别专业和业余抽象艺术作品正负情绪的系统；赵思成［8］提取基于艺术的情感特征原则（平衡、和谐和层次等），采用依据这些原则量化的特征对图像情感进行分类与评估；Machajdik 等［9］运用心理学和艺术理论的概念来定义图像特征，并将其用于图像情感分类。以上方法大都采用低层特征或艺术理论特征的机器学习方法，而本文基于低层与高层特征，并采用当下流行的深度学习方法对抽象画图像进行预测。

图1 抽象画示例Fig.1 Abstract painting examples

深度学习作为当图像情感研究的新热点，大多数情况下，它的训练需要在大量样本的基础上进行，因此目前采用深度学习对图像进行情感分类主要基于摄影得到的大量自然图像或场景图像［10-12］，并且获得了非常好的分类效果。然而抽象画的公开研究数据集较少，如果直接采用深度学习方法，小样本会直接影响模型中的网络，很容易发生过拟合，测试效果不佳。鉴于以上原因，本文提出了一种将基于抽象艺术理论获得的低层特征和基于深度学习得到的高层特征进行融合的小样本抽象画图像情感预测方法。

本文方法的框架如图2所示。

图2 本文方法的整体框架Fig. 2 Overall framework of the proposed method

与现有抽象画图像情感识别的方法相比，本文方法的优势在于：1）现有研究中采用的特征大都是基于图像处理基本原理的低层特征，而本文以“抽象艺术理论”为依据，通过分析组成抽象画的基本要素（“点”“线”“面”和“颜色”）与情感的关系，并对其中的原理进行量化得到抽象画图像的低层特征，这样的特征更加接近人类的审美；2）基于深度学习在机器视觉中的突出表现，本文采用了在小样本分类中表现出更多优势的迁移学习方法，对已经在大量数据集上进行预训练的网络，在小样本上进行微调，以满足小样本抽象画图像分类的需求，并将所得结果作为图像的高层特征；3）由于抽象画图像样本量的不足，也为了避免深度学习与低级视觉特征之间不可避免的语义鸿沟，本文将低层特征与高层特征进行融合，不仅从低级与高级语义两方面更全面地表达了抽象画情感，而且提高了分类准确率。

1 基础理论

1.1 抽象艺术理论

瓦西里·康定斯基是现代抽象艺术理论与实践的奠基人。他的著名著作《点、线和面——抽象艺术的基础》［13］中分析了构成绘画的几何元素，即“点、线和面”，以及它们对观察者的内在影响。他认为抽象绘画是靠不同的点、线和面在绘画上的组合来传达情感，是具有其基本的美学含义的。

“点”在外形上是最简洁的，它的外轮廓决定了它的外在表情，它的形状、比例和大小又决定了它的内在性格、基本语言与感情色彩。

“线”有直线与曲线之分。文献［13］中提到，一幅画的基调是由水平线和垂直线决定的，水平线会产生一种平静而冷淡的基调，而垂直线则产生一种平静而温暖的基调；斜线则不稳定，代表着活力。而且文献［2］中也证实，直线或光滑的曲线会让人产生积极的情绪；反之，即使颜色鲜亮，粗糙的杂乱的线条也会产生消极的情绪。这些观点使本文更加关注与绘画情感有关的线。

“面”的每一部分都有一个适当的情感色彩，它影响着将要绘制在其上的图形元素的色调。平面的上边和左边对应着松散和轻盈，下边和右边则唤起凝缩和沉重。此外，在平面构图的基本规律中，“平衡”和“对称”是人类在长期生活中形成的一种视觉和审美习惯。

此外，“颜色”也是影响人类情感重要的因素之一，会让人们产生最直观和最强烈的视觉心理感知。文献［2］中通过眼动实验和反向投影技术证实：暗颜色使人们产生负面的情绪，而红色、黄色和蓝色往往唤起人们积极的情绪；低亮度和高饱和度给人以沉重的印象，而高亮度和低饱和度给人以明亮的印象。本文将依据以上这些抽象艺术理论的基本原理定义抽象画图像的低层特征。

1.2 迁移学习

迁移学习［14］的原理是，首先在源任务中对网络进行预先训练，再将训练结果迁移到新任务中。因此，该方法非常适用于小样本数据的研究。具体来说，源任务中拥有较大的样本量，在大量带标签的数据集上对模型进行训练，之后在新任务与源任务相似的情况下，模型把从源任务学习到的特征迁移到小样本任务（即新任务）中，从而实现小样本数据的分类。其中，“微调网络权重”是迁移学习中最主要的方法之一。本文迁移学习示意图如图3所示。

图3 本文迁移学习示意图Fig. 3 Schematic diagram of the proposed transfer learning

2 基于特征融合的情感预测

2.1 基于抽象艺术理论的低层特征

本文依据抽象艺术理论中“点”“线”“面”和“颜色”与情感的关系，对这些理论进行量化。

1）“点”，梯度分布。

设抽象画原始图像为G(x，y){x= 0，1，…，M- 1，y=0，1，…，N- 1}，其中：M表示图像的高度，N表示宽度。灰度化后得到灰度图像GRAY_G(x，y)，采用sobel算子得到梯度图像GRAD_G(x，y)，将GRAD_G归一化到［0，128］区间，Max_GRAD_G表示GRAD_G(x，y)中的最大值。然后统计不同梯度的像素点个数，即为梯度直方图特征，共128维。

2）“点”，颜色分布。

由于色彩是描绘绘画心理情感的最基本组成部分，所以在描述艺术时，它也是一个需要关注的属性。不同的颜色会产生不同的情感［15］，如表1 所示。将绘画图像由RGB 颜色空间转换成HSV 模型（色调（H），饱和度（S），明度（V）），抽象画与摄影图像相比，明度（V）的比重很小，因此将H-S 空间分为16 个色调和8 个饱和度，统计128 种颜色的像素个数作为绘画的颜色直方图特征。

表1 文献［15］中颜色与情感的对应关系Tab. 1 Corresponding relationship between color and emotion in literature［15］

3）“线”，线条分布。

文献［13］中的“线”理论指出，不同方向的线（垂直线、水平线和斜线）会产生不同的情感。依据这些理论，通过小波分解［16］提取抽象画图像的水平、垂直和对角高频分量，将小波系数归一化后计算“能量”（表示小波系数中所有值的平方和）和“方差”，并将这6个值定义为图像特征。

4）“线”，静态线/动态线。

横线代表着平静、祥和和放松；竖线清晰直接，代表着尊严和永恒；斜线代表着活力。线越长、越粗、越占优势，诱发的心理效应越强。采用文献［15］的方法，利用Hough 变换检测图像中的显著直线，如图4 所示。根据测线的倾角θ，将测线分为静态线和动态线：如果一条线的倾角θ∈ (-15°，15°)或θ∈ (75°，105°)为静态线，否则为动态线。计算静态线和动态线的条数和平均长度作为图像特征。

图4 抽象画中的显著直线Fig. 4 Salient lines in abstract painting

5）“面”，复杂度。

根据平面理论，在一幅画中，上面和左边的部分是松散和轻盈的，而下面和右边的部分则唤起了凝缩和沉重的感觉。本文定义了“复杂性”来描述纹理复杂性的程度。基于这些理论，将绘画平分为上、下、左和右四部分，分别表示为（A，B，L，R），如图5所示。

复杂性基于最大梯度图像Gmax。在RGB 颜色空间中，由式（2）求出RGB 色通道中的最大梯度，作为图像G的梯度图像Gmax。

图5 图像分割示意图Fig. 5 Schematic diagram of image segmentation

根据文献［17］的方法，将图像G的复杂度定义为Gmax的平均值，其中pixelnum(G) 是图像G的总像素数。complexity(G)的值越高，图像部分G就越复杂。按照此方法分别计算出上、下、左、右和整幅图像五部分的复杂度。

6）“面”，相似度。

从“面”理论出发，定义特征来描述绘画不同部位的纹理相似性。在绘画中，上半部分和左半部分比上半部分和右半部分更相似，而下半部分和右半部分比下半部分和左半部分更相似。按照5）中的分割方法，计算每两部分AB、AL、AR、BL、BR、LR之间的相似度。

为了计算相似度，本文使用了方向梯度直方图金字塔（Pyramid Histogram of Oriented Gradients，PHOG）来计算自相似性。通过将图像G视为一个具有8 个方向的单元，计算每个通道(R，G，B)的HOG 特征，单元的标准化值表示每个方向的方向强度。两幅图像之间的相似度通过式（4）计算，其中，G1，G2∈ RGB，H1和H2分别是图像G1和G2的对应归一化直方图，m是HOG特征中存在的单元数。

最后得到的相似度特征维度为6 × 3= 18。

7）“面”，Itten对比。

Itten 对比［18］是艺术理论中的一个重要概念，对色彩在艺术中的运用进行了广泛的研究，通过对比，将色彩组合的概念形式化，不同的组合产生不同的情感效果。Itten 的颜色模型由12个色调级、3个饱和度级和5个亮度级组成。

Itten通过色彩的对比属性，确定了以下七种对比：饱和度对比、亮度对比、延伸对比、互补对比、色调对比、冷暖对比和同时对比。使用文献［8］中定义的方法对这7 个对比进行量化。以亮度对比为例，将图像进行分水岭分割产生不同的区域Ri(i= 1，2，…，n)，表示该区域中像素的个数。

亮度的量化方式采用模糊隶属度函数。对于亮度，计算属于 5 种模糊亮度｛‘very dark（VD）’，‘Dark（D）’，‘middle（M）’，‘light（L）’，‘very light（VL）’｝的归属函数，于是得到一幅图像每个区域Ri的亮度为5 维向量（Bi），亮度对比定义为所有区域的亮度隶属度函数的标准差。

其中j= 1，2，…，5，其余对比度计算与此方法类似。将以上量化后的值作为抽象画图像情感预测的低级特征，如表2所示。

表2 特征描述Tab. 2 Feature description

2.2 基于迁移学习的高层特征

由于目前研究中的抽象画数据集较少，因此本文借助拥有大数据集的自然图片，采用迁移学习进行高层特征学习。为了得到高层特征，利用深度学习网络进行特征学习，采用由Krizhevsky等［19］提出的网络模型，在文献［11］中的大规模图像数据库上进行预训练，并将训练后的参数迁移至目标网络模型，然后通过小样本抽象画图像对目标网络参数进行微调，促使深度学习在小样本下也能发挥一定的优势。采用这样的网络结构优势在于：1）文献［19］中的网络模型是目前已有图像分类模型中较为简洁的一个网络结构，便于我们在此基础上进行进一步的拓展研究；2）文献［11］中的图像数据库是一个包含2万多个样本的大规模用于情感识别的自然图片集，并且图片的情感标注（8类）与本文一致，这样更有助于特征的迁移学习。本文小样本迁移学习网络结构如图6所示，过程如下：

1）将原图的尺寸缩放到224 × 224 × 3，将该图像矩阵作为网络的输入。

2）采用文献［19］中的网络模型，包括5 个卷积层，激活函数采用ReLU，3 个2×2 的最大池化层和3 个全连接层。具体如下：第1 层为卷积层，卷积核个数为96，大小为11×11，步长为4；第2 层为卷积层，卷积核个数为256，大小为5×5，步长为1；第3 层为卷积层，卷积核个数为384，大小为3×3，步长为1；第4 层为卷积层，卷积核个数为384，大小为3×3，步长为1；第5 层为卷积层，卷积核个数为256，大小为3×3，步长为1；第6～8层为全连接层，分别包含4 096、4 096和352个输出。其他参数设置：batch_size为 128，学习率为 0.001，Dropout为 0.5，优化器为随机梯度下降（Stochastic Gradient Descent，SGD）。将该网络在文献［11］的数据集上对该网络进行预训练，得到每层的参数。

3）为了适应本文的方法思想，由于后面要对特征进行融合，避免特征信息冗余，因此迁移学习得到的特征维度不宜过高，所以借助文献［20］的网络扩展思想，增加了5 层全连接层，最后一层的激活函数为Softmax，目标模型如图6所示。用小样本抽象画图像对目标网络进行微调，微调过程为：

①将2）中模型的前5 层卷积层和第6 层全连接层的网络参数作为目标模型的参数，新增全连接层（7～11 层）的参数采用随机初始化。

②由于小样本抽象画与预训练图片的情感标注是一样的，样本类型很相似，因此只对新增5 个全连接层层的参数进行微调，大大降低了计算量。

此外，本文采用SGD 进行参数更新，该方法每次随机选一个样本对网络参数进行更新，使得网络输出层误差函数达到最小，从而实现微调，并且算法能够很快收敛。例如，包含N个样本的数据集，采用SGD 进行参数更新，每层wi和bi的计算公式如下：

其中：ρ为学习率；xi表示输入；ti表示输出；yi表示类别标签，yi∈ {1，2，…，k}，k是类别个数；学习率设为0.005；损失函数为交叉熵损失函数。微调结束后，将网络第9层的512维向量作为图像高层特征。

图6 本文迁移学习网络结构Fig. 6 Network structure of proposed transfer learning

2.3 基于特征融合的分类模型

为了提高分类准确率，将依据抽象艺术理论得到的304维低级特征与迁移学习得到的512 维高级特征进行串行融合，采用二叉树多分类SVM 算法，对小样本抽象画图像情感进行分类，具体流程如图7所示。能，并且考虑到高级特征维度和算法复杂度，本文探讨了目标模型中高层特征维度的选取对分类效果的影响，并在文献［2］的数据集上进行了测试，实验结果如表4 所示，高层特征的维度对情感分类结果影响不大。虽然采用维度为2 048 和4 096比维度为512 的分类准确率略高，但是考虑到准确率与算法复杂性，本文考虑特征个数采用512。

图7 特征融合示意图Fig. 7 Schematic diagram of feature fusion

表3 数据集情感分布Tab. 3 Emotional distribution of datasets

图9 三个数据集的分类准确率和混淆矩阵Fig.9 Classification accuracy and confusion matrix of three datasets

表4 不同高层特征维度的分类准确率Tab. 4 Classification accuracies of different dimensions of high-level features

二叉树多分类SVM 的基本思想是：选取N(N≥2)类中的N/2（或(N+ 1)/2）类作为第一大类，剩余的类作为第二大类，构建第一个二类分类器；然后再分别对这两个大类进行单独分类，各取出其中的N/2 类作为第一大类，将剩余的看作第二大类，再构建一个二类分类器。按照此方法往下依次建立二类分类器，如图8 所示。该分类模型的优点是：①其中包含的二类分类器较少；②不会出现属于多个类别或无法分类的样本；③二叉树模型简洁，训练和分类速度较快。本文采用的核函数为径向基函数，sigma= 0.5，C= 50。

图8 二叉树多分类SVM示意图Fig. 8 Schematic diagram of binary tree multi-class SVM

3 实验与结果分析

3.1 实验数据集

本文依据心理学领域中的类别情感状态（Categorical Emotion States，CES），将情感分为“激动、愉悦、满意、敬畏、害怕、厌恶、悲伤和生气”八种，并按照这八种情绪对抽象画进行情感预测。本文算法运行的软件环境为Anaconda3，编程语言为python。为了验证提出算法的有效性，选用三个不同的抽象画数据集进行实验，分别是：随机选取意大利画馆WikiArt 的500 幅抽象画；文献［9］中的Abstract 抽象绘画集，共228 幅；文献［2］使用的500 幅绘画。各数据集情感分布如表3 所示。选取数据集中的80%作为训练集，剩余20%为测试集，采用多分类SVM 作为分类器，使用10 倍交叉验证评估分类模型。

3.2 结果分析

针对三个不同的数据集，对八种不同的类别分别计算了分类准确率，如图9 所示。从图中可以看出，对于三个不同的数据集，对不同情感的分类准确率基本一致，大致在68%～75%，平均准确率为71%。为了更好地评估分类模型，本文还计算了三个数据集的平均混淆矩阵。

为了更好地保证迁移网络模型对小样本图像的分类性

特征的选择对图像情感分类至关重要，接下来讨论不同特征组合对分类准确率的影响，并在文献［2］的数据上进行了测试，实验结果如表5 所示。在小样本数据集下不采用迁移模型，而直接采用深度学习的分类效果不好；单独使用抽象艺术理论得到的低层特的分类效果也不是很理想；而通过迁移学习得到的高层特征与低层特征相比，分类准确率明显提高；最终本文采用低层与高层特征进行融合的方式，得到的准确率最高，为71.47%。

为了进一步验证所提方法的有效性，将本文方法与现有采用相同数据集（表3中）的文献方法进行了比较，结果如表6所示。文献［2-4］方法在两种情感（“积极”与“消极”）分类中效果都不错，但是文献［6-9］方法在八种情感分类中效果不佳，而本文采用将低层与高层特征进行融合的方法，得到了比较好的效果。

每幅抽象画经过多分类SVM 计算后，会得到属于不同情感的不同概率，将识别结果率最高的情感定义为该抽象画的最终情感，抽象画情感识别结果示例如图10所示。

表5 不同特征组合的分类准确率单位：%Tab. 5 Classification accuracies of different feature combinations unit：%

表6 不同方法分类结果比较Tab. 6 Comparison of classification results of different methods

图10 抽象画情感识别结果示例Fig. 10 Examples of emotion recognition result of abstract paintings

4 结语

针对目前抽象画来源少、样本量小，其情感分析大多数采用的是图像低层特征，而且准确率不高的问题，本文提出了一种基于特种融合的抽象画图像情感预测方法。首先，依据抽象艺术理论量化出抽象画图像的低层特征；然后，采用迁移学习算法，在小样本数据上对预训练网络模型进行微调，得到图像高层特征；最后，将低层与高层特征进行线性融合，采用多分类支持向量机实现抽象画图像的情感预测。本文在三个小样本抽象画数据集上进行了实验，并与采用相同数据集的文献方法（大都采用低层特征）进行了比较，分类效果显著。

但是，绘画，特别是抽象绘画的情感研究，目前还处于初级阶段，仍有许多关键问题需要解决。未来，我们将从以下几方面进行进一步研究：

1）多特征融合是目前分类研究的一个热点，可以提取绘画图像多方面的特征，将这些特征进行有效的融合，能更准确地表达绘画的内涵与情感；

2）近年来，深度学习在图像情感计算中应用广泛，由于每幅绘画的长与宽都不一样，因此我们需要选择合适的深度学习算法，应用于大批量的绘画图像中；

3）目前的情感计算方法主要依靠人工标注的情感标签，未来我们可以依据互联网上丰富的上下文信息实现绘画图像的无监督分析。