艺术风格智能认知辨识及其机械设计应用研究

2023-02-09 01:21杨越茗
机械设计与制造 2023年1期
关键词:艺术风格机理可视化

周 淼,蒋 澜,杨越茗

(1.东北大学机械工程与自动化学院,辽宁沈阳 110819;2.东北大学医学与生物信息工程学院,辽宁沈阳 110819;3.沈阳市城市建设学院,辽宁沈阳 110004)

1 引言

在机械设计制造中,产品的美观度直接影响产品的形象,从艺术设计美学视角出发,使功能与审美相符合,以达到最优的综合设计效果。

设计艺术风格的智能识别可实现机械设计产品智能数据库风格自动检索及后续特定风格的参数化设计,但现有的设计艺术风格智能识别多仅将艺术风格进行量化,以情感识别和图像浅层特征提取相关的研究为主。

如日本多所大学提出感性媒体研究,并实现了文献[1−2]情感图像检索原型系统;文献[3]给出一个图像情感语义提取的结构框架,指出图像中的各因素和情感之间有很大的关系,实现了图像的情感语义分类和检索;文献[4]提出一种基于信息熵的艺术风格分类算法,计算图像的颜色熵、分块熵和轮廓熵,并用支持向量机(SVM)实现分类。

它们大多忽略了人类审美的主要特点是主观性,文献[5]提出:艺术活动首先是一个情感性的精神过程,任何一项科学性的艺术研究必然属于心理学范畴。

按照设计艺术学的学科解释,对设计师及其作品的风格研究,同样属于心理学范畴。

上述研究由于隔断了人类认知机理和风格分类识别的关系,相对而言存在特征筛选困难、算法内在机制可解释性差等问题。

可见,要让计算机对设计作品的风格做出快速、令人信服的判别,必须建立在人的生理反馈、心理情感、风格文脉意义之上,即找到人的认知层与机器学习卷积层映射关系。由此,以人的认知机理为基础来研究设计风格智能分析技术是必要的。

研究以人类认知机理为出发点,结合人类认知神经网络(Ar‐tificial Cognitive Neural Network,ACNN),创新性地将人类认知机理用于网络决策,对各层特征可视化后结合人类对各层特征图的认知调整网络参数,同时融入人类认知辅助结构使对分类起重要作用的特征得到更好的筛选,对以人类认知机理为出发点的设计艺术风格智能识别方法进了有益的探索并将其用于机械美学设计,有效地解决了人类认知和设计艺术风格识别间的隔断问题和机械产品外观设计问题,具有一定的创新性和优越性。

2 人类认知机理算法表现

人对艺术风格的认知构成分为三个层面,即行为层、本能层和反思层,如图1所示。

图1 艺术风格识别的认知基础Fig.1 The Cognitive Basis of Artistic Style Recognition

人之所以能快速准确地对设计作品的艺术风格进行主观判定,是基于原始设计图像的分析(行为、反思层),结合生理、心理感受(本能层)等情感问题的主观推理和判断,需要建立在知识、规则学习和文化、情感传承的基础之上。在逻辑层面,本质上是一个将多维图像特征映射到认知层次的过程。

人类认知的行为层,是对视觉元素获取阶段,在算法中表现图像卷积浅层特征提取,如色彩、形状、纹理及空间方面构成等设计师构成风格手法的行为元素;人类认知的本能层,在算法中表现为语义特征提取,包含了人在审美过程中生理感受(色调、光色、明度)和心理语义(情感因子)等本能层次;人类认知的反思层,在算法中表现为图像卷积深层特征提取,模拟人类通过逻辑推理和识别典型文化符号(如柱头、穹顶、花纹等)引发的文化联想和审美同情,通过语义(文化符号形成的特定文脉、故事、隐喻)匹配判断图像属于某些风格。

3 基于人类认知机理的设计风格识别网络总体架构

网络总体架构设计,如图2所示,主体由1个输入层、9层卷积层、3层池化层、1个全连接层和1个输出层组成。

图2 网络总体架构Fig.2 Overall Network Architecture

基于人类认知机理的设计风格识别网络总体架构根据VG‐GNet使用数个VGGBlock堆叠的原理,设计了由卷积层、sigmoid激活和池化层构成的Block。此外,VGGNet模型验证了增加网络深度可以有效提升模型性能这一结论,它具有不同的配置体系结构,其中含有8 个卷积层的VGGNet−11 和含有10 个卷积层的VGGNet−13有相对简单的网络结构和较好的分类效果,由此,在主体网络中探索性地设计了9层卷积层以实现计算量和输出特性的最优化,即主体网络分为3个Block,各Block对应的卷积层数量为(2,3,4)。

在主体网络架构完成后,受GoogleNet中inception结构的启发,在网络深度和宽度较大时,为处理庞大数量的参数,可采用聚类的方法提高计算性能。由此,设计了人类认知辅助结构,让对分类识别起决定性作用的层次的卷积输出聚集,为其附加权重,使网络重点提取符合人类认知机理的特征,进一步提高分类的准确率。

先使用建立室内风格图片数据集对主体网络预训练,初步确定各层所对应的参数;在可视化ACNN的各通道特征后,通过设计师对特征人工筛选对室内艺术风格判定发挥重要作用的卷积层,在这些卷积层后添加人类认知辅助结构,为其附加权重,使网络着重训练对艺术风格分类更有效的特征,最终四种分类结果由所有分类器的加权输出决定。

4 ACNN辨别设计图像风格的研究

4.1 设计图像特征提取

首先用卷积对设计图像进行特征的提取。每一次卷积相当于一次映射,则输出可表示为[6]:

式中:x—输入的一张三维图像;w—使用的一个三维卷积核,将对应元素相乘求和;其中l、i−l—所在位置的行;m、j−m—所在列;n、k−n—所在页。

若训练集中样本图片达到足够多数量,最终卷积核会训练成线条、纹理等待提取的特征。

卷积获得特征之后,需要利用这些特征去做艺术风格分类。如果把所有计算得到的特征关联到一个分类器上,会导致计算量非常大,且极容易出现过拟合。由此,引入随机文献[7]进行特征压缩和简化计算,,以池化域中每个元素的权重为概率进行依概率抽样,首先通过归一化区域内的激活来计算每个区域的概率。

式中:pi—某一特定元素对应的概率;分子ai—这一元素的值,分母为全部元素值的和。

随机池化的结果为sj:

式中:从基于p的多项分布中抽样,l—在区域内选择的一个位置。

特征图中的元素按照其概率值大小被随机选择,元素数值大则选中几率大,优点在于风格判定中既能较好地保留整体数据的特征,突出室内设计图像的背景信息;又能保留较多的图像细节纹理特征。

由于softmax分类器能学习、理解非常复杂和非线性的映射关系,ACNN的主体网络和人类认知辅助结构中的分类器都采用软最大输出函数softmax[8]。

式中:xi—i通道输入信号;exp(xi)—以自然常数e为底的指数函数。

4.2 ACNN网络可视化

艺术风格是一种高度抽象的信息,它很大程度上是人类认知对外界美的反映。在完成特征提取后,通常直接将提取出来的特征经全连接层输入分类器中进行分类,但深度学习对图像的分类过程往往具有不可见性,多数情况下不能很好地反映人类认知,这样得出的分类结果往往具有盲目性。而利用特征可视化可以窥探ACNN网络内部机理,理解网络节点如何学习特征,帮助优化网络结构,并进一步提高模型对人类认知机理的模拟能力。

由此,ACNN网络特征可视化从横向、纵向、相关组三个角度进行,它的优点主要在于:①了解网络的工作原理,找出网络进行决策判定的依据,提升网络的可理解水平。②利用可视化实现人类认知与网络内部信息的交互,利用现实世界中人类的真实认知构建更好反映人类认知机理的分类网络。

4.2.1 横向可视化分析

横向可视化,即对不同卷积核卷积操作后的输出进行分析,如图4中1(a)所示。利用激活最大化方法,寻找一个输入图像使某个通道激活响应最大来生成可视化特征图,此可视化图能最大地反映出对应卷积核从全体输入样本中学习到的某种特征,同时将其他特征的干扰降到最小。

训练网络后,设cij(θ,X)为ACNN网络中第j层中单元i的激活,cij是参数θ和输入样本X的函数,即通道特征可视化转化为寻找输入Xmax,Xmax表示当cij(θ,X)最大时X的取值。

为了寻找Xmax,使用梯度上升法对输入图像X进行随机值初始化,然后设置学习速率β,计算cij(θ,X)的梯度,在梯度方向上调整输入图像X,进行迭代:

横向可视化输出图像,如图3中2(a)所示。

图3 ACNN网络卷积层特征可视化Fig.3 ACNN Network Convolutional Layer Feature Visualization

4.2.2 纵向可视化分析

纵向可视化,即对不同通道相同空间位置的输出结果的分析,如图4中1(b)所示。由于单个神经元可视化仅能反映极少数输入图像的特征,而从纵向空间位置角度组合神经元特征能将ACNN网络提取到的输入样本图像特征可视化为符合人类认知,可以理解共情的图形。一个卷积层特定对应位置所有神经元的特征加权和形成空间位置特征,可视化纵向位置格激活向量提取的特征,能够帮助分析和理解输入室内设计图像不同位置纹理、对象的特征信息。

利用式(7)将各计算完的单元位置格可视化图像拼接组合。纵向可视化输出图像,如图3中2(b)所示。

4.2.3 相关组可视化分析

以上两类可视化分析仅限于表达图像空间位置或者单独一种特征模式。相关组可视化通过非负矩阵分解找到卷积层中高度相关的神经元组以辨别更有意义的神经元组合方式,使可视化分析更容易被人类理解。这样的非负矩阵分组方法反映了人类认知机理过程,即“局部组合推出整体认知”,具有认知语义意义。

可将L近似分解为基矩阵G和系数矩阵F:

式中:L—卷积层激活,设该卷积层有k个大小为(a×b)的通道,即构成(a×b×k)维矩阵。s—分组的神经元组的数量,s≪a,b,k,相关组可视化结果Q为:

即得到结果为系数矩阵F作为权重系数的各通道Hx特征加权和。利用非负矩阵分解特定卷积层中高度相关的神经元组,用式(8)得到系数矩阵F作为权重,用式(9)计算通道加权和[10],得到的可视化结果与人类认知分类存在更好的拟合效果,获得的语义信息也更强。相关组可视化输出图像,如图3中2(c)所示。

4.3 设计风格识别网络结构优化

在特征提取和三种网络可视化完成后,通过利用网络索引得到的数据集预训练ACNN网络,结合人类对各可视化特征图的认知将各层参数进行调整,即根据看到的可视化图片信息多少、获得全局特征的优劣和与人类认知三个层次的符合程度进行卷积核大小、步长、个数的调整,参数调整能及时修复网络缺陷,预训练能显著地减少正式实验时训练的时间,调整后网络各层的参数,如表1所示。

表1 ACNN网络各层参数详细信息Tab.1 Parameter Details of Each Layer of Network

可视化各卷积层通道特征后,人工观察其中更符合人审美习惯,对艺术风格判定有重要作用的三层通道,可视化示例,如图4所示。卷积层2倾向于提取人类认知行为层面特征,从特征图中可以看出具有明显排列规律的纹理,交错的颜色块和平面凹凸空间分布。卷积层5倾向于提取人类认知本能层面特征,卷积层5可视化后的特征图中多种不同元素组合构成有浓烈情感色彩的意境,其明艳度高,色相较全,元素花纹复杂,突出高贵优雅、奢华大气的场景,给人一种古典繁复鲜艳奢华的情感感受。

图4 微调模型重要通道可视化示例Fig.4 Examples of Fine Tuning Model Important Channel Visualization

卷积层8倾向于提取人类认知反思层面特征,其可视化后的特征图中可看出迭级多层次吊顶、直线石膏板线条、轮廓和转折部分有对称而富有节奏感的曲线等典型元素,表现出浓郁的古典主义风格。

选取卷积层2、卷积层5和卷积层8,在其后添加人类认知辅助结构,并附加权重,让人类认知机理的层面融合到网络分类识别中,促使网络重点训练符合人类认知机理过程的特征,加大能对应人类认知的卷积层的特征相应权重。人类认知辅助结构由随机池化(Stochastic Pooling)层、全连接层和Softmax 分类器构成,并用Dropout缓解过拟合,详细信息,如表2所示。

表2 人类认知辅助结构详细信息Tab.2 Details of Human Cognitive Aids

人类认知辅助结构中随机池化层输出大小和Dropout 输出大小取决于对应卷积层通道数量,全连接层和Softmax输出大小由分类类别所决定。

5 实验验证及结果分析

针对有关设计艺术风格图像分类识别相关研究较少,开源数据集难以获得的情况,使用Image−Downloader爬虫工具,分别使用欧式复古(古典主义)、欧式现代(现代主义)、中式复古(明清风格)和中式现代(新中式)等关键词各自爬取了5000张图建立训练库。

据上述对各卷积层所提取特征的可视化情况,提取符合人类认知机理行为、本能、反思三个层面的特征的卷积层2、卷积层5、卷积层8中人类认知辅助结构分别加以0.15的权重参与模型训练和室内设计风格分类,主体网络中的总分类器占0.55权重。这样做能重点训练符合人类认知机理的特征,并使这些特征的作用放大,使其对最终分类结果产生直接影响,减少不必要信息的干扰和重要信息的损失。引入准确率(Accuracy)来评估网络对艺术风格的分类结果,表示为:

式中:TP—将正类预测为正类的个数(正—正);TN—负−负;FP—负−正;FN—正−负。

对室内设计图像艺术风格的分类识别准确率实验结果,如图6所示。横轴为所用于训练的室内设计艺术风格图像数据库容量,四条曲线分别代表欧式复古(古典主义)、欧式现代(现代主义)、中式复古(明清风格)和中式现代(新中式)各自的分类识别准确率,由图可知,四类艺术风格的分类准确率随着训练样本的增加大致呈增加趋势,说明在一定范围内,增加输入样本可以提高网络的分类准确率,且当数据库容量达到5000时,上述四类艺术风格的分类识别准确率分别为:93.7%,92.0%,93.1%,91.6%。

图5 室内设计四种艺术风格分类判断准确率Fig.5 Accuracy of Classification Judgment of Four Art Styles in Interior Design

为了验证添加人类认知辅助结构对于室内设计艺术风格分类的有效性、重要性,分别在ACNN 网络共9个卷积层分别添加人类认知辅助结构,加以0.15的权重参与模型训练和分类,主体网络中的总分类器占0.85权重。实验结果,如表3所示。实验1为对照组,不改动原始网络结构。表中实验3、6、9显示,根据网络可视化分析并结合人类认知机理选取的卷积层2、卷积层5、卷积层8是适合添加人类认知辅助结构的卷积层,它们能较明显地提高分类准确率,而其他卷积层对分类准确率影响较小甚至起到负面影响,这说明ACNN网络结构优化有一定的必要性和先进性。

表3 各层添加人类认知辅助结构后准确率对比Tab.3 Accuracy Comparison in Interior Design

同时需要说明的是:(1)囿于存在不同艺术风格评判标准,研究基于人类认知的艺术风格分类算法可能与基于其他评判标准的算法,在输出艺术风格类别上存在少量差异;(2)囿于现有艺术风格存在融合交叉趋势,某些室内设计不能单独用一种艺术风格进行定义,导致符合要求、有确切一种艺术风格定义的数据集难以获得且分类识别过程中输出结果的准确率提升较为困难。进一步增加训练数,扩展训练库的图片类型,将输入输出作为映射对存入,建立机械设计艺术风格数据库。当用户输入主空间设计图时,通过ACNN网络识别出对应风格和输出各参数,在数据库中查找符合的子空间配置,测试结果,如图6所示。

图6 机械美学设计应用输入输出Fig.6 Mechanical Aesthetic Design Applies Input and Output

6 结论

基于人类认知机理提出的ACNN网络模型,能通过横向、纵向、相关组可视化找出最能反映人类认知机理三层次的卷积层,并在其后加入人类认知辅助结构优化网络模型,使其对于人类认知机理有较好的拟合效果,更适用于设计艺术风格的智能识别分类任务。

实验结果表明ACNN网络模型在分类识别上准确率平均达92.6%,并验证了在适当卷积层添加人类认知辅助结构后准确率平均提升2.23%。其成果可用于提供个性化机械产品设计、提高空间场所内设计风格的一致性、实现艺术风格的数字化管理等,有助于在人类美学认知与智能设计之间搭建桥梁,为机械美学设计提供指导,让智能算法更好地为人类服务。

猜你喜欢
艺术风格机理可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
浅谈“太和壶”的艺术风格
浅谈“长青壶”的艺术风格
隔热纤维材料的隔热机理及其应用
基于CGAL和OpenGL的海底地形三维可视化
古意流转——评改琦《红楼梦》画的艺术风格
煤层气吸附-解吸机理再认识
“融评”:党媒评论的可视化创新
雾霾机理之问