金丹丹,于 干
(阜阳师范大学 计算机与信息工程学院,安徽 阜阳 236037)
弹幕起源最早可追溯至日本名为Nico Nico动画视频分享网站,其含义是用户在观影过程中发表在屏幕上以滚动方式实时呈现的评论[1]。弹幕2007 年由ACFun 引入中国,2008 年正式投入使用。弹幕基于内容评估功能的演变,是一种动态的交流媒介,具有很强的互动性和接纳性。B站定位为一个优秀的弹幕式视频网站,其实现了观影过程中的“共时”评论和热门话题制造。用户观看视频发送的实时弹幕,能够真实地反映用户对故事内容的看法以及各种维度的情感。
传统的情感分类方法通常将情感分为正向或负向[2,3]。该分类方法将情绪进行单一划分,没有考虑人的情感具有复杂多样性。文献[4]中阐述了一种基于社交网络中特殊情感符号的跨媒体多维情感(喜、怒、哀、乐)词典的构建方法。将图片与短文本内容相结合,通过计算表情符号与文本词之间的互信息,甄别出基于社交网络的情感词典。文献[5]中将情绪的粒度进行更为细致的划分,所得分类结果为好(like)、乐(happiness)、怒(anger)、哀(sadness)、惊(surprise)、惧(fear)、恶(disgust)。文献[6]中构造了四种不同类型的词典,分别是情感词词典、程度副词词典、否定词词典和感叹词词典,并且词典中的词被赋予相应的权重。利用构建的词典和语义规则计算文本的情感值,并根据积极情感值和消极情感值实现对微博分类。文中虽然考虑了否定词对文本情感的影响,但是没有注意双重否定词在句子中的作用。文献[7]考虑情感词的极性情感强弱,构建四个词典,分别是基础情感词典、表情符号词典、否定词词典和双重否定词词典;在情感词典的基础上,融合汉语语言学特征和微博情感表达特征,提出一种新的基于极性词典的情感分类方法[7]。文章中对双重否定词能增强情感词程度的特性予以肯定,但是没有考虑程度副词与双重否定、否定词的位置关系,位置顺序不同对情感词的加强程度不同。
上述研究成果对本文研究思路及研究方法的选取有一定的指导作用。但是本文在构建多维情感词典的过程中,使用融合改进的词林和改进的知网相似度计算算法,实现已有多本情感词典按照人的七种情感分类。并且在词典的扩充上考虑了B 站年度弹幕,弹幕情感值计算上考虑了修饰情感词的程度副词与否定词、双重否定位置关系等,在多方面引入了新的关键要素。引入多维情感词典来改进情感值计算方法是完成本文研究的重要途径之一。本文尝试利用自构建的多维情感词典来分析B 站视频弹幕倾向,在此基础上实现了获取不同维度下的情感数据,有效地解决通用情感词典不适用于视频弹幕领域的问题。
运用爬虫技术、情感分析技术、数据可视化技术深入分析B 站视频弹幕,本文的研究框架如图1 所示[8-13]。
图1 研究内容框架
1.2.1 改进《词林》存储结构
未改进的《哈工大同义词林》(简称词林)以五层树状结构存储,其中一到四层仅存储分类编码。第五层的原子节点不仅存储分类编码,还存储属于该分类编码下的一个乃至一组概念。其在概念编码时未考虑对概念做具体和抽象的区分,使得抽象概念与具体的概念都存储在原子节点中,这样不利于展开相似度计算。然而改进的词林筛选出原子节点中抽象概念,将其放置到五层树状结构的抽象程度更高的层次,使得每个层次的节点存储不是只有分类编码,而是既有分类编码也有概念,并且将原词典的五层树状存储结构改进为六层树状存储结构。
1.2.2 改进《知网》存储结构
未改进的《知网》以义原树的形式存储,对两个词汇相应语义表达式中的第一独立义原进行对比,计算词汇间的相似度。改进的《知网》是将词汇基于义原树的概念语言表达树状存储结构,可以直接依据该存储结构计算词汇间的语义相似度,在相似度的计算过程中,不仅考虑了第一独立义原还考虑了其他义原的影响。
本文将概念表示语言的语法规则运用到语义表达中,将第一独立义原表达式作为给定概念的父节点,将剩余的义原表达式转化为概念表示语言中带“?”的关系约束,并由逻辑运算符“∩”替换表达式中“,”,最终实现将给定概念的语义表达式转换为概念表示语言。
在原有义原树的基础上添加抽象概念节点形成概念语言表达树,基于义原数的概念语言表达树完成给定词汇间语义相似度计算。
1.2.3 融合改进《词林》和改进《知网》的相似度算法
本文利用改进的哈工大同义词林与改进的知网词汇量的并集,扩大了词汇的覆盖范围,为之后词汇间相似度的计算奠定基础。改进的哈工大同义词林和知网的词汇在韦恩图中的具体分布情况,如图2 所示。韦恩图的公共部分C 代表同时出现在知网和词林中的词汇。韦恩图的A 代表该部分词汇只有在知网中出现,词林中未采集,同理得到B 部分所代表的含义。韦恩图的I 代表知网和词林合并去充后的词汇量。
图2 哈工大词林和知网的词汇合并韦恩图
在合并多本情感词典的过程中,采用混合改进的哈工大词林和知网的相似度计算策略。对于同一个给定词汇分别计算在改进词林和知网中的相似度lin、how,分别给lin和how设置不同的权重λ1、λ2,并且权重满足λ1+λ2=1,得到该词汇间的相似度计算公式为:
知网和词林有着不同的适用领域、收集的词汇存在差异,将其结合使用能够有效的扩大词汇覆盖范围,促进相似度的研究。故本文使用融合改进的《哈工大同义词词林》和改进的《知网》相似度计算方法完成多本情感词典的合并,避免计算过程中出现大量词无法进行合并的情况。
2.1.1 情感词典理论介绍
情感词典在情感分析领域占有举足轻重的地位,使用覆盖面全且精确的情感词典可以提高情感分析的准确率。情感分析领域具有研究价值情感词典如表1 所示。由于词典的侧重点以及包含词语成分具有差异性,导致目前国内缺乏分类标准一致的情感词典。但是现有情感词典对后续情感倾向研究的推进有着不可或缺的作用,为建立新的词典奠定良好基础[14-18]。
表1 情感词典基本情况
2.1.2 合并词典过程
以《情感词汇本体》为基础,提取出情感小类(即分类词)以及所属小类的部分词作为基准词,其它词典的分类词或者所属类的情感词作为候选词。先设置相似度阈值,再使用融合改进《词林》和改进《知网》的相似度算法,计算候选词和基准词之间的相似度,将大于阈值的候选词归为基准词一类,最后将研究所涉及词典按照七种维度合并。其中,隶属图2 不同部分的词汇间相似度计算,采取不同的计算策略。在计算词汇W1、W2间相似度的过程中,涉及如何使用上文所提的算法,具体的流程如图3 所示。
图3 综合两种算法流程图
按照情感七分类标准“好”、“乐”、“惊”、“恶”、“愁”、“怒”、“哀”,合并多本的情感词典过程如图4所示。
图4 合并多本情感词典过程
2.1.3 扩充情感词典
通过收集B 站年度弹幕以及网络热词,其中B 站年度弹幕是由B 站官方发布,网络热词来源于网络平台。收集输入法的表情符号以及颜文字,并以文本的形式存储。利用爬虫爬取不同风格类型的电影弹幕,人工挑选弹幕情感词。最后,将情感词、B 站弹幕、网络热词、收集输入法的表情符号以及颜文字按照情感倾向的七分类标准进行划分。
本文计算弹幕情感值结合中文的语义规则,考虑了对弹幕情感值产生较大影响的几种情况:(1)不同级别的程度副词对弹幕情感的影响,程度副词的权值设置借鉴张小艳[11]等人关于这部分的处理;(2)当弹幕内容中出现感叹号或者感叹词,则要找到离感叹词或感叹号最近的情感词组,然后给已有情感分值的情感词组加上感叹词或感叹号的权值,得到更新后的弹幕情感分值。(3)疑问词以及疑问号在弹幕中出现表达的感情色彩同感叹词以及感叹号近似。因此,采用相同情感分值计算方式。(4)在汉语言中,否定词使得修饰的核心词极性颠覆,双重否定是对被修饰词极性的加强。且否定词和双重否定词对弹幕情感的加强程度与程度副词位置有紧密关系,需分情况考虑。
2.3.1 改进情感值计算方法
利用自构建的多维情感词典搜索每一条弹幕Sj∈{S1,S2,…,Sn}中包含的感情词Wji,以情感词Wji为中心向前拓展搜索3 个词,用于构造情感词组tjn,tjn∈Sj,n∈{1,2,…,k},搭配修饰包括否定词Wjo、程度副词Wjd、双重否定词Wjn,即{Wjo,Wjn,Wjd}tjn∈Sj,其中i,o,d∈{1,2,…,k},情感词Wji为1。
(1)根据弹幕情感理论分析中对否定词与程度副词关系的分析,定义弹幕中情感词组分数公式如下:
(2)根据弹幕情感理论分析中对双重否定词与程度副词关系的分析,定义弹幕中情感词组分数公式如下:
(3)弹幕内容中出现感叹号、问号、感叹词、疑问词修饰情感词组时,定义弹幕中情感词组分数更新计算公式如下:
2.3.2 改进情感值计算算法框架
首先对获取的弹幕内容基于多维情感词典切分,再从循环切分的弹幕分词数组中获取情感词以及位置。其次,结合弹幕内容中出现的程度副词、否定词、双重否定词进行权值计算,再对弹幕中出现的感叹词、感叹号、疑问词、疑问号以及转折词做出相应的权值化处理。最后,将经过以上处理的弹幕数据归类到不同的情感维度下,并且获得该情感维度下本条弹幕内容的情感值。具体算法框架如图5 所示。
图5 改进情感分析算法框架
依据改进情感分析算法,计算部分弹幕的情感分值需要注意的点:(1)一条弹幕中存在不同维度感情词组,采用的处理方式是选择得分最大情感词组的情感倾向作为本条弹幕的情感维度,该词组的得分作为本条弹幕的情感分数;(2)一条弹幕存在不同维度并且分数相同的情感词组,采用的处理方式是将本条弹幕标记为复合情感。
3.1.1 融合算法比较
合并词典过程中,使用的融合算法与朱新华等人[23]的融合算法进行比较。本文设置公式(1)中参数λ1=0.8,λ2=0.2。实验测试数据来源于词语相似度测试平台MC30,该平台利用严格的人工判断打分标准获得词汇间的相似度。使用融合后的算法对平台的30 组词汇计算相似度与朱新华等计算所得的相似度进行对比,如表2 所示。
表2 30 组词汇间相似度比较
3.1.2 融合算法结果分析
基于不同语义词典实现的相似度算法,分别计算指定词汇集合的相似度。利用相似度结果与MC30 词语相似度测试集获取Pearson 相关系数,通过分析Pearson 相关系数可知本文融合改进的《哈工大同义词林》和《知网》计算词汇间相似度的结果较好。不同算法与MC30 词语相似度测试集的Pearson 相关系数如表3 所示。
表3 不同算法与MC30 词语相似度测试集的Pearson 相关系数
通过代码爬取B 站电影—《流浪地球》的弹幕26 万条,对经过预处理的12 万条弹幕的进行如下处理:根据自构建的多维情感词典,对预处理后的弹幕内容进行分词。从循环切分的弹幕分词数组中获取情感词,结合1.3 节中公式(2)、公式(3)、公式(4)计算相对应的情感得分,然后将各个部分的情感值相加得到该条弹幕的情感值。并根据不同的情感维度以及量化的结果对弹幕展开多角度分析。
3.2.1 各时间段主客观弹幕数量对比柱状图
统计经过预处理的弹幕数据中主、客观弹幕的数量。虑到电影的总时长是125 分钟左右,以每25 分钟为一个区间展开统计。基于郑飏飏等人[12]提出的原始多维情感词典与本文自构建情感词典识别的主客观弹幕数量如图8 所示。从图中可知,利用自构建的多维情感识别到具有感情色彩的弹幕条数远多于原始的多维情感词典。
图6 基于不同词典识别的各时间段主客观弹幕数量对比
图7 各时间段正负向弹幕数量柱状图
图8 基于原始词典的多维情感趋势曲线图
3.2.2 各时间段正负向弹幕数量柱状图
同样以每25 分钟为一个区间展开统计,分别统计主观弹幕中正向情感、负向情感的数量。将情感维度下的好、乐归类为正向情感,愁、恶、怒、惊划分为负向情感。文献[12]提出的原始多维情感词典与本文自构建情感词典识别的正负向弹幕数量如图9 所示。从图中可知,利用自构建的多维情感识别正向、负向弹幕的数量均超过原始词典。
图9 基于自构建词典的多维情感趋势曲线图
3.2.3 不同情感维度弹幕数量
对比基于文献[12]提出的原始多维情感词典与本文自构建情感词典,使用改进的情感值算法,根据七种情感维度对电影的主观弹幕进行分类统计。每个维度下主观弹幕数量如表4 所示。
表4 基于不同词典识别不同情感维度弹幕数量
为了获取电影情感走向,本文根据自构建的多维情感词典以及郑飏飏等人提出的原始多维情感词典分别绘制基于不同维度的情感走势曲线图,如图10、11 所示。以视频的时长为横轴,单位是分钟,曲线上的点代表着每分钟弹幕情感的值。选取电影107 分钟展开分析,从图中可以直观的观察到本文构建的多维情感词典在情感的识别上更为准确。
本文以B 站电影《流浪地球》的弹幕为研究对象,利用爬虫技术采集弹幕数据,并对数据进行预处理。设计多维情感词典和改进的情感值计算方法对弹幕内容情感分析,分析结果以柱状图折线图的形式展示。通过以上分析可以获取电影所包含的情感信息,提供一种视频检索的方法。既满足观影者个性化需求,又提升视频播放平台的用户黏度。
本文的不足在于情感词典不能囊括所有情感词汇导致部分弹幕的情感值为零。今后需要研究更加合适的方法来自动扩建情感词典,使能够自动的识别弹幕流行用语以及新的情感词,并将其按照不同的维度,加入情感词典中合适的位置,弥补不同维度中情感词的覆盖面窄的问题。