影视剧图片情感标注词的筛选

2018-08-02 02:49毛涵蒋伟
关键词:图片库影视剧形容词

毛涵,蒋伟

(中国传媒大学视听技术与智能控制系统文化部重点实验室,北京100024)

1 引言

随着社交网络的快速发展,图片、视频等多媒体规模不断扩大,如何有效处理加工多媒体内容已成为人们研究的焦点。以往的图片、视频研究集中在高层语义的认知层研究,如物体检测与人脸识别。随着多媒体传播方式的变革,人们获取信息不仅仅依靠视觉,同时听觉也成为获取信息的重要渠道。如今,人们不仅仅需要获取多媒体的内容信息,对多媒体的情感分析需求也日益迫切。有效利用视听觉融合效应逐渐成为多媒体情感研究的突破点。视听觉融合效应的研究可通过对声画关系和谐与对立问题来切入图像的情感语义研究。基本研究思路是通过将视觉与听觉模态分开,分别研究图片和音乐的高层情感语义,通过建立情感空间,采用提取特征的方式探索图片和音乐的情感语义。但图片的情绪语义分析研究中常存在情感标注维度单一,理解困难等缺点,不利于对视听融合下的情感语义研究,因而需要以视听觉信息融合智能处理科学与技术为依托,建立针对特定场景的情感形容词标注方式。如以影视剧运用方向为例,选取影视剧图片库进行情感形容词标注。

2 图片情感库现状

近年来,对视听觉融合效应下图片的情感分析研究不断受到重视。在图片情感研究中,研究者通过实验材料对情感诱发,以揭示图片与情感的关联。因此,诱发情感的图片选择就显得尤为重要,因而需要选取标准化的图片作为实验材料,通常是构建标准化的图片库。

图片库按类型来分,可分为人物图片库和场景图片库;按照应用领域细分,可分为生物/医学数据库,遥感图片库等等。人物图片库包括人物表情图片库和人物动作图片库,人物表情图片库的构建通常选取面孔表演者,要求表演者做出特定的情绪,如中国大学生情绪面孔表情图片库[1];人物动作图片库通过任务说明,要求表演者做出指定动作,如MINTA数据库[2];场景图片库包括城市景观图片库,艺术图片库,风景图片库等等。城市景观图片库的构建常采用统一规格摄像机记录特定城市景观,如Tighe建立的Barcelona城市图片数据库;艺术图片库通常为合成图片,多为抽象画,如Abstract图片库。风景图片库常按室内场景和室外场景分类,按照场景的不同,构建子类小库,如Corel图片库按照Beach、Buildings、Mountains等共计10类图片库。生物/医学数据库通过对具体类型的物体如合成细胞,胚胎细胞切片观察,构成生物图片库,如Lauge Sorensen[3]构建的肺气肿细胞图片库;遥感图片库的图片一般为航拍图片或者卫星拍摄图片,如城市遥感建筑图片库[4]。这些图片库的构建常采用标准化的流程,通过统一采集图片的设备以及拍摄角度,得到标准化的图片,这些图片的标注通常是对图片的特征进行标注,未涉及语义标注。通用的图片库构建从图片的特征角度出发,未涉及到图片的高层语义信息—情感语义,因而在针对图片的情感分析研究,需要建立特定的图片情感库。

图片情感研究第一步是选择合适的图片类型并进行情感标记选择。建立标准的图片情感库需要采用标准化的情感标注方式,通常是采用情感空间模型描述方法。图片情感空间建模的研究在国内外还处在初级阶段。图片情感研究需要合适的情感形容词和情感维度进行描述并建模,大多数研究者都是根据经典的心理学理论或者专家经验构建模型,没有一个标准的表示模式。图片情感模型的构建主要基于情绪心理学中的两个理论,分别是基本情绪理论和情绪维度理论:一类是将情感离散化,即将情感分为几种类型,比如Ekman[5]把情感分为六种:高兴、悲伤、惊讶、恐惧、愤怒和厌恶,Andrew Ortony根据事件、目标和动作等评价标准形成22种情感分类,即OCC模型[6];另一类是把情感映射到维度情感空间中,在连续的情感空间中对情感进行研究,即支持情感的维度论。在此基础上,Mehrabian进行大量研究,提出了PAD三维情感维度模型[7],该模型随后得到了广大学者的认可。

不同的图片情感数据集对情感的标注也不统一,有的数据集还未对外公布,目前已公布的常用图片情感数据库有:IAPS,CAPS,Art photo,Abstract等。在常用图片情感数据库中,OCC模型和PAD模型广泛运用于情感图片库的标注,如在IAPS(国际情感图片系统)中,有1182幅纪录片风格彩色图片,分别从愉悦度(Pleasure),唤醒度(Arousal),优势度(Dominance)三个维度进行标注,图片格式为jpg,分辨率未统一;CAPS又称中文情感图片库,按照内容清晰,含义明确,没有文字并尽量突出刺激物本身的原则从2000多幅图片中共选取852张具有东方特色的图片,使用P、A、D三个维度进行情感标记,格式为bmp。但现有的情感图片库的类型多样,但并未建立统一的标准,仅仅采用PAD值作为情感标注方式,不利于针对具体类型图片的情感分析研究。

针对特定领域的情感图片库,国内外研究者在图片库情感标注中除改进已有的心理学模型,如OCC和PAD情感模型外,常通过情感形容词的方式对特定类型图片库进行标注研究。在常用图片情感数据库中,如构建艺术情感图片库时,采取形容词标注的方式,Colomb[8]等人便根据艺术绘画中的线条、颜色、形状所表示的情感特性,定义几个常用的形容词(温暖的、清凉的、自然的等)来描述图片的情感,并建立了情感空间;Yunhee[9]等人选取粗糙等多个形容词对纺织图片进行了标注;王上飞等[10-11]从心理学的“维量”思想出发,使用维量分析方法建立了情感空间。曹建芳[12]提出一种融合了情绪、性格因素的OCC情感量化模型,用10个相关情感形容词对来自SUN Data BASE的未知场景图进行情感标注。张海波[13]对服装面料图片的情感描述进行研究并建立了面料图片情感因子空间模型,将服装图片特征与七组情感形容词联系起来。付亚丽[14]对木材图片特有的纹理特征进行分析,建立起木材图片的情感(“华丽的”和“自然的”)特征空间。高彦宇[15]提取自然风景图片的颜色、纹理等视觉特征,使用5组情感形容词对Corel图片库中的部分风景图片进行自动标识。

目前情感图片库除风景库,服饰库外,针对特定运用领域建库较少,以影视剧情感研究为例,还未形成标准的情感标注体系。由于目前国内建立的情绪词库都侧重于考察普通词语的情感色彩,而不是考察情绪词的情感色彩,如罗跃嘉[16]等人建立的汉语情感词系统(CAWS)从感情色彩角度考虑了普通词的情感要素。情感词(affective words)和情绪词(emotional words)属于不同类型的词语。情感词通过其语义理解和个人感知使个体对词语的情感色彩进行把握;情绪词直接描述人的情绪状态(如愉快、兴奋等)而非个人感知。同时,在国外大多数的图片情感研究中几乎都是情感词[6]。这两种词语在图片情感实验研究中诱发的情绪体验是不同的。将这些词库的情感词直接作为标注材料难免会影响标注的结果。而采用单一的PAD值进行标注,标注类型单一,理解抽象,不利于标注者识别具体意义,同时不利于后期情感分析研究。目前研究中使用的情感标注词未严格区分情感词和情绪词,使用已有的标准化的情绪词在情感分析研究中具有一定的局限性,不能直接用于图片标注。

以电影图片情感内容分析研究为例,国内外学者常采用已有的情感空间模型,进行简单的PAD值的标注,与电影领域相适应的情感形容词标注尚未建立。有鉴于此,通过对声画关系和谐与对立关系的研究,有必要筛选出适用于视听觉信息融合智能处理科学与技术的标准化影视剧图片标注的情感形容词,以推动特定类型图片下情感的研究,即针对影视剧类型进行情感内容分析,需要选取影视剧单帧图片标准化情感标注词。

3 情感标注词的筛选

为研究特定场景的图片情感语义,需要建立与之匹配的情感空间。以影视剧图片情感内容分析研究为例,采用特定的情感词建立情感空间。情感空间的建立可分为情感词的确立,情感维度确定,情感空间维度物理意义确定,情感空间确立这四步;首先要进行情感形容词的筛选。

特定类型图片的情感标注形容词的选取通常包括广泛搜集,主观评价,标准化筛选[12]等几步。以影视剧单帧图片为例,选取影视剧单帧图片标准化情感标注形容词可分为以下几步:(1)收集表达心理情感的形容词;(2)筛选针对图片类型的情感形容词;(3)对情感形容词做相似性度量;(4)情感形容词的确立。如下图1所示。

图1 电影图片情感词筛选流程

3.1 情感词搜集

首先对形容词进行初步汇总,确立情感形容词的定义。情感形容词是指直接描述愉快、兴奋、痛苦等情感状态的形容词。为了保证情感词的来源具有全面性和代表性,第一,选取经典心理学家等对图片情感的描述词,第二,选取图片情感领域研究者对图片情感的描述词,第三,来自《现代汉语词典》收集的情感形容词。避免字数对认知实验(尤其是ERP和fMRI实验)结果的干扰,在筛选过程中只保留字数为2的形容词,得到160个备选形容词。

3.2 情感词初步筛选

在正式进行整理工作前,征求相关专家学者5人意见,就初步整理的160个词语进行探讨,包括对情感形容词的理解和选择标准,去除情绪形容词。再通过去除在意义上相近的心理动词,去除主观评价色彩形容词,保留绝对义性质形容词,对筛选形容词而言,不能只从语义范畴去考虑,还要依据形式标准去判定。根据文献的分析研究,情感形容词的判定标准如下:

(1)能进入以下语句 “NP1+很+_。”

不能进入以下语句:NP1很+_+NP2

根据这项标准可以把情感形容词和表示情感的心理动词区分开。

(2)能进入以下语句:“NP1比NP2更+_。”

不能进入以下语句:NP1比NP2+_;

根据这项标准可以把表示绝对义的情感形容词和表示相对义的形容词区分开来。

(3)能进入以下语句:“NP1令人感到_。”

根据这项标准把表示情感形容词和情绪形容词区分开来。

在达成一致意见的情况下,开始正式的筛选词汇工作。最后将筛选完成的情感形容词100个情感形容词作为实验对象。

3.3 情感词的确立

3.3.1 被试选取

被试选取中国传媒大学理工科研究生20人,随机分成2组,一组10人,实验者从未参加过类似实验。每组被试女性与男性被试比例不高于 2:1,平均年龄22±2 岁,所有被试者均身体健康,无明显精神疾病,无色盲,视力或矫正视力正常。实验前对被试使用贝克抑郁量表以及状态-特质焦虑量表进行评定(M 焦虑=31.89,SD=10.90;M抑郁=10.56,SD=6.66),所有被试均处于正常水平。实验前告知被试实验内容,并签署知情同意书。

3.3.2 情感形容词确立

首先对情感形容词以问卷调查的形式,选取可用于描述影视剧场景中的情感形容词。将100个形容词分为5组,每组20个形容词,将20人分2组进行测试。

回收问卷20份,去除无效问卷1份,得到19份问卷,对其信度进行分析,得到Alpha信度系数为0.922,问卷信度良好。根据频次统计,选取频次超过11的词语备选,共获得49个情感形容词。频次统计如下图2、图3所示。

图2 频次统计图

图3 情感形容词频次统计图

49个情感形容词中在筛选时并未考虑去除语义上相似词语,即存在近义词,如愉快与开心就是一对近义词,使用近义词标注图像情感时会产生语义重合,不利于后期语义分析。需要考虑通过语义的相似性进行去重。

则需要计算词语之间的相似性,语义相似度的计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形结构中来计算;另一类主要是通过词语的上下文信息,运用统计方法进行求解。通过给定两个词汇w1和w2,计算他们之间的相似度,通过Sim(w1,w2):S*S->[0,1]表示集合S中的两个词汇w1和w2的相似程度。在自然语言处理中,词语的语义是指在不同的上下文语境中,对整体语义所作出的贡献。相似度函数值域在[0,1]之间,一个词语和它本身相似度函数值为1,两个词的语义越相似,相似度函数值越高。相似性函数计算流程如下图4。

图4 相似性函数计算流程流程图

使用同义词词林计算[17]的方式将49个词语分组,同义词词林计算按照树状的层次结构把所有收录的词条组织到一起,把词分为大,中,小三类。这些词又根据词义的类型分成了若干个词群,每个词群中的词语又进一步分为不同小类,同一层次的词语要么词义相近,要么词义有很强相关性。同义词林词典分类采用层级体系,具备5层结构,随着级别递增,词义刻画越来越细。其中同义词词林相似度计算算法思路如下:

首先,设置输入样本为{w1,w2,…,wn}

(1)随机选取w1,w2

(2)进行义项判断

(3)若w1,w2不在同一棵树

则Sim(w1,w2)=f;

(4)若w1,w2在同一棵树

(a)若在第二层分支,系数为a

(b)若在第三层分支,系数为b

(c)若在第四层分支,系数为c

(d)若在第五层分支,系数为d

采用如上方法计算待选词的相似度,部分计算结果如表1所示。通过Sim(w1,w2)数值可得到多个词语相似类,词语相似类统计结果如表2所示。

表1 相似度计算统计表

表2 词语相似类统计表

34个词之间构成11组相似类,采用主观实验评价方式获取一组词中最能表现影视剧图片情感的形容词,这34个词选择统计结果如图5所示。

图5 情感形容词相似性分组筛选

共计得到共26个情感形容词如下:幸福,沮丧,孤独,梦幻,迷惑,愤怒,平静,无聊,紧张,震惊,厌恶,惆怅,兴奋,愉快,自豪,神圣,郁闷,恐惧,轻松,悲伤,热血,温馨,浪漫,失落,压抑,激动。

4 结论

情绪词的标准化工作包含材料的筛选、评定维度的确定、评定结果的可靠性等重要内容。首先,这项研究在选词的思路上参照了罗跃嘉[6]等人的研究。先广泛收集情感形容词,再由专业人员对情绪形容词做出判断和甄选,然后在普通大学生中采集数据。这种思路既保证研究的效率,又保证了研究所需的效度。其次,以往的图像情感研究结果表明,情绪障碍甚至负面的心境都会影响到被试对情绪材料的加工。在实验之前,对20名学生最近一周情绪状态的调查表明,被试的情绪总体上没有出现抑郁和焦虑情绪。这排除了被试自身心境对评定的影响。这项研究初步对情绪形容词的进行了标准化筛选工作,并通过一些措施确保评定结果的客观性和可靠性。总的来看,26个情绪形容词可以作为素材库标注体系的一部分,应用于电影图片库的情感标注。通过对筛选出的情感形容词的进一步实验,通过聚类操作得到情感空间的多维度,通过明确其量化维度的物理意义,最终建立具有针对性的情感空间模型,可为视听觉融合效应下对声画关系和谐与对立关系的研究提供帮助,有利于进一步完善视听觉融合下的情感研究。

猜你喜欢
图片库影视剧形容词
山东图片库
云南图片库
云南图片库
云南图片库
认识形容词
影视剧“烟雾缭绕”就该取消评优
试论影视剧中的第三者现象
形容词
翻拍影视剧是一种文化
影视剧教育了我