基于机器学习的剧本角色情感识别研究

2023-04-07 14:47蔡校育邱美兰李德旺
软件工程 2023年4期
关键词:支持向量机

蔡校育 邱美兰 李德旺

关键词:剧本角色;支持向量机;朴素贝叶斯;情感识别

中图分类号:TP181 文献标识码:A

1引言(Introduction)

对于影视制片人来说,剧本的好坏直接决定其商业价值和社会意义,因此,对剧本文本分析成为不可或缺的环节,其中剧本角色的情感识别是剧本分析中一个非常重要的任务。剧本角色情感识别是将剧本中涉及角色的对白和动作描述识别为某一种具体的情感倾向,属于情感分析[1]中句子级别的范畴,输入为剧本中的角色对白或动作描述的句子,输出其对应的情感倾向。

基于机器学习的情感分析是一种有监督的学习方法,属于文本机器学习[2]的范畴,目前常见的基于机器学习情感分析的算法有支持向量机(SVM)[3]、朴素贝叶斯[4]和逻辑回归[5]等,研究人员也开展了与此相关的大量研究工作[6]。本文将对非结构化的剧本数据使用情感分析技术进行处理,从而减少人工处理数据的工作量,利用机器学习算法快速挖掘非结构化数据中的价值,依据情感预测的结果为剧本分析提供有价值的参考,对影视作品的发展具有一定的指导意义。

2 剧本角色情感识别(Emotion recognition ofscreenplay characters)

2.1数据集介绍

本文研究所需数据来源于DataFountain平台举办的剧本角色情感识别竞赛所提供的数据集,该数据集的主要数据来源于一部电影剧本,通过人工的情感标注,同时对数据进行相应的处理,使之划分为三种情感(1:正向情感;0:中性;-1:负向情感)。该数据集共有36,612 条数据样本,而中性数据对于本文模型的研究用处不大,也易产生分歧,所以剔除中性数据,只保留正、负向情感,共10,143 条数据样本,部分数据内容如表1所示。

2.2数据预处理

因为中文语篇中词语不存在空隙,所以必须采用分词的方法进行识别,而在分词过程中,某些对分类不起作用的信息也要去掉,即删除停用词,最后将那些能传达重要信息的关键词从文本中抽取出来,并将文本表示为这些关键词的集合。数据预处理包括数据清洗、文本分词、删除停用词等。

2.2.1文本分词

由于中文文本与英文不同,中文文本分词是预处理中不可缺少的关键步骤,因此在分类过程中使用词语表示文本时必须先进行分词处理。目前的分词技术已经逐步完善,其中jieba分词具有准确率高、性能优越及可扩展性等特点,是一款当下流行的中文分词技术。

jieba分词可以分为三种类型:精确模式、全模式和搜索引擎模式。其中,精确模式实现了对被分词文本的准确分割,并且不存在冗余词,本文将运用jieba分词工具中的精确模式进行分词操作,分词效果如表2所示。

2.2.2去停用词

对于文本分类而言,有些词语在文本中出现的次数并不能反映该词语在文本中的重要性。比如“一二三四”“你我他”“这个”“的”,这些没有特殊语义并且出现频繁的词语,即停用词。本文主要研究中文文本所体现的情感,这些停用词在很大程度上会对该研究产生影响,因此应该将这些停用词从文本中清除掉,避免它们对后续分类产生干扰。去停用词效果如表3所示。

通过对本文的数据集内容进行相应的预处理之后,可以绘制正、负向情感关键词词云图,如图1和图2所示。

从图1和图2两个词云图中可以看出,“看着”“坐在”“我要”“画外音”“爸爸”等词语在两种情感中都是高频词,对本文的研究会产生相应的影响。因此,在停用词表中需添加这些词语,可以减少误差,提升模型预测的准确率。

2.4模型建立

本文将使用Sklearn库(python中的机器学习库)中的支持向量机和朴素贝叶斯两种分类算法构建分类模型。因此,在完成数据预处理和特征工程相关工作后,接下来需对数据集进行划分、交叉检验、模型训练及分类预测等相关操作。

2.4.1划分数据集

机器学习的分类方法需要大量的数据用于训练,特别是对神经网络的训练。在进行机器学习时,数据集被分为两类,一类是训练集,另一类是测试集。本次实验选取80%的数据作为训练集,20%的数据作为测试集。有时为了保证模型的精度,往往需要先进行k 折交叉验证。k 折交叉验证实质上是把一个数据集分成k 份,每次选k-1 份为训练集,剩余的1 份作为验证集,然后取k 个模型的平均测试结果作为最终的模型效果。本文将以10 折交叉验证为基础,尝试探索两种分类模型的有效性。

2.4.2 交叉验证及结果

通过对朴素贝叶斯(Naive Bayes)和支持向量机(SVM)两种机器学习模型进行10 折交叉验证,并将10 次的交叉验证的准确率作为最终的结果。两种分类模型10 次运行对应的准确率如表4所示,根据表4的结果绘制如图3所示的箱型图。

从图3中可以看出,两种模型相比,线性支持向量机的平均准确率要比朴素贝叶斯的准确率略高,但准确率较为分散,即存在不稳定性。因此,本文通过设置超参数的不同取值,进一步研究朴素贝叶斯算法的综合性能。

2.5模型评估

本文利用混淆矩阵对朴素贝叶斯分类算法的性能进行评估,其中包括准确率、精确率、召回率、F1值和AUC指标[8-9]。

根据朴素贝叶斯的拉普拉斯平滑法[10]选取不同的拉普拉斯平滑系数α ,对朴素贝叶斯分类模型进行实验,得到实验结果如表5所示。从表5可以看出,最佳的拉普拉斯平滑系数介于0.1—0.5。通过调整超参数,可以使算法的性能变得更好。

通过前面模型分析及超参数的对比实验,运用朴素贝叶斯算法以及设置超参数拉普拉斯平滑系数α = 0.2进行学习,分别采用训练集和测试集进行预测[11],得到如图4和图5所示的两种情况预测结果。

从图4和图5两个混淆矩阵得出,朴素贝叶斯算法对测试集样本的预测结果准确度接近于80%,训练集样本的预测结果高达93%。

3结论(Conclusion)

本文主要建立了基于支持向量机和朴素贝叶斯算法的两种情感分类与识别模型,对剧本中每句对白和动作描述中涉及的每个角色从多个维度进行分析并识别出情感。

首先,根据剧本角色情感文本的特点,对所获取的数据文本进行预处理,包括文本分词、去停用词、绘制词云图、特征抽取等,建立了基于支持向量机和朴素贝叶斯算法的两种情感分类与识别模型。其次,利用10 折交叉验证得出两种模型的预测准确率,分析了两种机器学习情感识别模型的预测效果,并通过不断调整模型中超参数的取值对模型进行优化。最后,根据研究结果得出朴素贝叶斯识别模型在剧本角色情感识别方面的效果要優于支持向量机的识别模型,并且,当超参数拉普拉斯平滑系数α = 0.2时,朴素贝叶斯识别模型的预测准确率接近于80%。

本研究的不足之处是尽管模型的训练有较好的拟合效果,但由于数据存在样本不均衡的现象,正向情感数据在总样本数据中所占的比重偏低,存在一定的过拟合现象。因此,在后续的研究中,应该增大正向情感的样本数据量,从而对本文的研究做进一步的改进和优化,使得预测结果更加准确、更具有可解释性。

作者简介:

蔡校育(1998-),男,本科生.研究领域:机器学习,大数据分析.

邱美兰(1980-),女,博士,讲师,人工智能高级工程师.研究领域:数据科学与计算,机器学习,深度学习.本文通信作者.

李德旺(1976-),男,博士,讲师.研究领域:经济统计,大数据统计分析.

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究