文本情感计算系统“小菲”的设计及其在教育领域文本分析中的应用

2016-11-03 10:49贾积有杨柏洁

中国教育信息化·基础教育 2016年7期

贾积有+杨柏洁

摘要：文本情感计算是近年来人工智能、教育技术与学习科学等领域出现的一个研究热点。文章在界定相关概念、分析相关研究的基础上，设计并实现了一个基于汉语文本的情感计算系统“小菲”。该系统依照Ekman心理模型将情感分为6种类别：气愤、厌恶、恐惧、愉悦、悲伤和惊讶；每种情感的强度取值范围为[-18，18]；构建了拥有32879条情感词语的情感词典《小菲词典》，每条词语标注了6种情感极性和相应的情感强度；然后建构了词语和短语、句子三个级别的情感计算模型，可以判别情感极性和计算情感强度。作为尝试，该系统处理了一次慕课中产生的377条调查问卷反馈数据，计算F值（查准率和召回率的加权几何平均值）为88.7%。该结果初步证明：该系统可以用于慕课等在线学习产生的大规模交互文本的自动情感识别，具有较好的应用情景。

关键词：文本情感计算；情感词典；教育文本；文本分析

中图分类号：TP391 文献标志码：A 文章编号：1673-8454（2016）14-0074-05

一、情感与学习

情感（sentiment）是由非中性事物引起的并反作用于这个事物的非中性的意图和行为[1]，是人类最惯常、最重要的体验。人类的认知和情感是相互影响和作用的，对两者的研究密不可分。

情感及情感信息对于学习者的学习效果有重要的影响。积极的情感可以提高学习效率，而消极的情感却可能造成学习的失败[2]。许多学习行为是从好奇心和入迷开始的，人在处于“兴趣”与“愉悦”的情感状态下，学习效率最高，学习效果最好；积极的情感促进大脑的活动性，在学习过程中表现为学习动力，从而还可以产生一系列积极情感状态，如兴趣、关注以及参与行为，它们在学习过程中都起着重要的作用。而在“乏味”与“厌倦”的情感下，学习多数则是会失败的，尤其学习的孤独感和焦虑常常影响学习者的信心[3]。消极的情感抑制大脑的机动性，在学习的过程中表现为学习的阻力，如厌倦、疲劳、无聊等都会影响学习的认知过程。

认知心理学家Simon[4]和Norman[5]认识到了情感在学习效果方面发挥着重要作用。他们发现哪怕只有很少的一点积极情绪，不仅可以让人感觉良好，而且还可以产生一种思维，这种思维会更有创造性更灵活地解决问题以及更有效更果断地做出决定。这项研究在不同年龄不同职业的人群中得到了验证。

在学习过程中，教师如果能够识别学生的情感状态，并做出相应的反馈，就可以激发其积极的情感，使学生内心产生对教师的好感、依赖和敬慕，进而产生学习热情，使其处于兴奋状态，促进学习水平的提高，从而达到最好的学习效果[6]。

网络学习具有特殊性，师生在物理空间上的分离，导致师生之间不能通过传统的表情、眼神和肢体等方式进行情感交流和反馈。教师得不到学生的情感状态信息，学生得不到教师的反馈，学生学习效果就会受到影响。因此，在网络教学系统中如何获得学习者的情感，具有重要的研究价值[7]。

网络学习环境下，获取学习者情感的技术包括语音识别、人脸表情识别、身体姿势和运动的识别等[8]。这些技术一般需要使用特殊的传感器来采集学习者数据[9][10]。当然，慕课等大规模在线学习方式中能快速直接获得学习情感信息的介质仍然是文本，如讨论区、BBS、博客、调查反馈等交流活动中的文本。这些文本情感信息反映了学习者在学习过程中的情感状态。

慕课等在线学习平台学员数量众多，讨论区产生的文本数据庞大。而人数有限的教师和助教很难实时、准确地辨别文本的情感状态，并给出恰当的反馈。因此，很有必要设计一个文本情感计算系统，它能自动或半自动地分析文本情感、筛选文本信息，帮助教师针对学习者的情感状态快速做出恰当的反馈。

二、文本情感计算

1.概念

情感计算（Affective Computing）是人工智能的一个分支领域。美国麻省理工学院Picard于1997年首先提出了“情感计算”的概念[11]，并将其定义为关于情感、情感产生以及影响情感方面的计算。情感计算的目的在于使设计的系统和设备能够识别、理解和处理情感。

认知语言学认为人类能够通过语言的表达反映出认知的过程和结果，同时反映出真实的情感。既然语言能够反映出情感，那么文本也当然可以[12]。因此，从认知语言学的理论上来讲，文本中包含了一定的情感信息。

文本情感计算是情感分析领域的核心问题之一，其任务是借助计算机帮助用户快速获取、整理和分析相关文本信息，对带有情感色彩的主观性文本进行分析、处理、归纳和推理[13]。文本情感计算的研究包括极性分类（Polarity Classification）和强度计算（Intensity Classificaiton）两个方面。

2.情感极性分类

情感极性分类的工作就是判别情感的种类。情感种类的集合构成了情感模型。在多种情感模型中，OCC模型和Ekman模型被广泛使用。

Ortony、Clore和Collins于1988年提出了著名的认识评价情感模型OCC（ Ortony， Clore， Collins）模型[14]。这个模型根据三类起因和事件的结果，提出了22种情感类别：高兴，幸灾乐祸，妒忌，遗憾，充满希望，害怕，快乐，悲伤，骄傲，羡慕，害羞，责备，喜欢，讨厌，自满，感激，悔恨，生气，满意，悲观，放松和失望。但是OCC模型被实际应用的情况并不多，主要是因为情感分类过于复杂。Ekman于1992年提出可以将情感分为气愤（Anger）、厌恶（Disgust）、恐惧（Fear）、愉悦（Happiness）、悲伤（Sadness）和惊讶（Surprise）六种类型[15]。这6种情感是组成所有情感的基本单位，人类的所有情感均可由这6种情感衍生而来。同时，相较OCC模型的22种类别划分，Ekman模型的情感极性维度相对较少，实际应用时相对简单。因此，我们也采用Ekman情感模型来为文本分类。

3.情感强度

情感强度计算是能够反映文本情感极性的强弱程度的一个指标，因为在每一种情感种类内，会有情感程度强弱之分。目前在文本情感计算领域，针对情感强度计算的量化问题并没有一个统一的标准。Wilson和Wiebe将情感强度标注为3个级别：低、中、高[16]。Choi和Cardie将情感强度以具体数值计算，取值范围为[0，10]，数值越高，情感表达越强烈[17]。我们设定情感的强弱取值范围为区间[-18，18]。在区间[0，18]，数值越大表明该情感越强烈；数值为0时，表示没有情感；在[-18，0）区间，数值负号表示情感极性相反，即为取“非”操作。例如“anger”的非为“not anger”，即为“不愤怒”。数值绝对值越大表明该情感的相反极性情感越强烈。我们规定，取非操作的情感与原有6种情感之间相互独立，不存在关联。例如，“不愤怒”不一定为“高兴”，而“高兴”一定是“不愤怒”。

4.文本情感计算的层次性

文本情感计算层次代表情感计算的研究领域和范围。根据文本信息的语法结构可以将其分成4个层次：词语、短语、句子和篇章。4个层次之间具有强烈的继承关系，词语是短语的基础，短语是句子的基础，而句子又是篇章的基础。文本情感计算的研究是由最底层的词语层次开始，逐渐过渡到篇章层次，环环相扣。

因为网络学习的文本大都较短，少于150字；文本内容一般由两三句话构成，句子层次的文本情感计算可以满足研究分析要求。又因为词语层次和短语层次是句子层次的研究基础，我们的情感分类工作集中在三个层次进行：词语、短语和句子。

词语层次是文本情感计算的基础，主要任务是发现并提取文本中带有情感色彩的词语，并且确定其情感极性和情感强度值。词语层次的工作主要围绕情感词典的构建来进行。词典中词语的数量和词语的属性直接决定了系统的性能。词语的属性是指情感极性和情感强度。为大规模的词语标识出其情感极性和强度的最原始的方法就是人工标注，虽然准确但耗时耗力。使用基于统计的有监督和无监督的机器学习方法可以实现词语情感的半自动标注。

用已有词典扩充构建词典的方法就是有监督的词典扩展方法。大部分国外的词典扩充研究都是基于WordNet（http：//wordnet.princeton.edu）和 General Inquirer（http：//wjh.harvard.edu/～inquirer）两种词典，而大部分国内的词典研究是基于《知网》（http：//www.keenage.com）和《同义词词林》两种词典。

Turney和Littman的无监督学习法使用一种点互信息和信息检索相结合的计算方法，来判定待定词与种子词之间的信息量。种子集合是由具有正面情感极性和具有负面情感极性的示例词构成[18]。在中文处理方面，Zhang等人利用情感标注语料中抽取的上下文模板，在未知语料中计算模板与词语之间的关系，进而判断词语的情感极性[19]。

由于名词、动词、形容词和副词等不同词性的组合能够产生不同种类的短语，短语层次的情感分析主要关注短语具有何种情感极性以及其强度如何。

句子的分析包括两种方式：基于规则的方法和基于统计的方法。基于规则的情感计算主要依靠语法规则完成，常见的语法规则有两类：一类是通过语法分析器得到句子的语法关系树，利用语法关系树制定相关规则。另一类是使用短语模板，依据不同短语模板的组合形成规则来计算句子的情感。

Turney的研究表明英文中某些短语模式的形容词和副词携带情感信息[20]。这一重要结论推动了基于规则的研究方法的发展。宋光鹏依据Turney的结论，并在其5种短语模板的基础上进行了改进，加入了判断否定情感倾向的词和相应的语句连词。最终归纳形成了适合中文的短语模板语法规则。通过语法规则模板直接进行匹配，就能够计算出句子的情感极性和强度[21]。

基于统计的情感计算需要通过训练集找到相关特征项，使用贝叶斯分类、最大熵分类和支持向量机等统计方法计算句子情感极性。在中文方面，Fei等通过无监督机器学习算法得到短语模式，利用短语模式对文本情感极性进行分类[22]。

三、系统设计

在情感计算领域中，基于统计和基于规则的两大方法都各有所长。因此，我们以基于规则的方法为主，配合基于统计的方法，构造一个文本情感计算系统，并将之命名为“小菲”（英语单词Feeling的音译）。该系统拥有自己的情感词典，按照词语、短语和句子三个层次进行情感识别和综合计算。下面介绍这些模块。

1.情感词典建构

情感词典建构包括整合专业研究机构发布的词典，扩充已有词典容量和手动标注词语情感强度三项工作。词典来源包括《知网》、《中文通用情感词典》、《同义词词林扩展版》、《学生褒贬义词典》和《中文情感词汇本体库》。通过整理这些专业词典的内容，将它们融合为一部词典，包含27561词条。

扩充词典容量使用基于统计的方法完成，利用有监督的机器学习方法从《同义词林扩展版》扩展词典的褒贬词语，利用无监督的机器学习方法从网络中扩展词典的网络词语。由四名研究助理完成手动标注词语情感极性和情感强度的工作，手动共标注了8589条词语。最终将32879条词语整合到一部情感词典中，并命名为《小菲词典》。

2.系统流程

按照情感计算的发展模式，从词语级别开始，经过短语级别，最后到达句子级别，从而实现句子情感极性分类和情感强度计算的功能。

系统在情感计算之前，需要对句子做初步整理，例如删除多余的空格、逗号标点等。然后使用中科院计算所分词软件ICTCLAS（http：//www.ictclas.org）对句子分词，获得构成句子的若干短语。

短语级别的主要工作是使用基于规则的方法构造短语情感模板。有一些短语能够携带情感信息，可以构造为短语情感模板。

副词对词语也有修饰作用，会导致情感强度和情感极性发生变化。所以将副词分为程度副词和否定副词两类进行处理。程度副词不改变情感极性，而是影响情感强度。否定副词既改变情感极性，又影响情感强度。

当句子长度较短的时候，语法省略现象严重，不宜使用过于复杂的判断模型。直接使用词语、短语匹配的方法计算情感反而较为准确。对于较长的句子，就使用简单句的情感计算模型和句子关系模型来计算句子的情感。

句子包括复合句和简单句。复合句是由简单句和关系连词构成，不同的关系连词构成了不同的句子关系类型，如“并列”、“转折”和“递进”等关系。不同的句子关系类型情感的计算方法也不尽相同。比如转折关系，句子的主要情感是靠转折词之后的简单句表达。因此，句子级别的情感计算，首先判断该句子是否是复合句。如果是的话，就找出其中的连词，根据连词确定句子关系，根据该关系和简单句的情感计算结果确定复合句的情感极性和强度值。

简单句的情感计算是使用语法分析器Stanford Parser（http：//nlp.stanford.edu/software/lex-parser.shtml）来分析分词之后的句子，得到句子各个成分，也就是短语。然后根据短语情感模板和短语之间的组合方式确定简单句的情感计算模型。

3.编程语言

系统使用JAVA、Mysql、ICTCLAS和Stanford Parser等开源环境和工具构建。JAVA语言是通用的编程语言，不受操作系统的限制，与其他各类系统的接口支持都很完善。因此，本系统使用JAVA语言实现文本情感计算模型和各系统之间的数据交换处理。Mysql是一个关系型数据库管理器，情感词典和句子类型等表格都保存在Mysql数据库中，通过JAVA语言进行调用。ICTCLAS是中科院提供的支持JAVA调用的分析系统。为更好地识别情感词和句子关联词，我们扩展了ICTCLAS的自定义词典，将《副词词典》、《小菲词典》和句子关系类型导入到ICTCLAS的自定义词典中。Stanford Parser是依存语法关系分析器，输入的数据是经过分词后的简单句，输出的结果是简单句的依存语法关系数据。它本身是用Java语言实现的，方便调用。

四、在教育领域文本情感分析的初步尝试

关于文本分析的性能，有一系列评测指标，包括查准率P（Precision）、召回率R（Recall）和F值等。

P为查准率，是衡量某一检索系统的信号噪声比的一种指标，即检出的正确数据数目与检出的全部数据数目的百分比。R为召回率，是检索系统从数据集中检出的正确数据数目和数据集中所有正确数据数目的比率。

F值是查准率和召回率的加权几何平均值，是情感计算系统最重要的评测指标之一。F值计算方法如下：

为测试该系统的性能，我们选取了一个小样本的文本，以便既可以人工标注，又可以让系统自动识别，并比较两者的结果。2013年北京大学“新媒体与教育”暑期学校创新教学模式，使用慕课的方式展开学习[23]。在课程结束时，通过MOOC平台收集了学员对本次暑期学校的反馈和建议，共377条，其中来自面授学员的201条，来自在线学习学员的176条。我们先人工标注了这些反馈的情感极性和强度，然后使用“小菲”系统进行了自动计算；测评结果算得F=88.7%，在文本情感分析领域属于较好的结果。

五、在教育领域的应用前景

尽管本系统在小样本的教育文本情感计算测试中结果很好，但是它仍然存在一些缺陷，需要进一步完善提高：目前的三万多条情感词还不能完全覆盖浩瀚的中文词语，应该持续添加新词，比如新出现的网络语言，改善ICTCLAS分词结果，增加关于世界的常识性知识，等等。

随着人工智能技术的发展，文本情感计算技术逐步成熟，可以广泛应用于慕课等在线教育的多种文本交互区域的情感分析，如讨论区、调查反馈、聊天室、BBS等。可以实时监控参与者的情感变化，及早发现学生反映的问题并及时给予恰当的反馈；也可以用于事后分析学生在学习活动和过程中的情感变化，因材施教，实施个性化教学。这也必然减少教师和助教的大量宝贵时间和精力，提高在线学习的教学效率。我们将在这些方面继续探索，深入研究。

参考文献：

[1]杨巍峰.对情绪情感定义的管见——兼与杨泽民同志商榷[J].心理学探新， 1986 （3）： 35-39.

[2]卢家嵋.情感教学心理学[M].上海：上海教育出版社， 2000.

[3]A.C.Graesser， B.Medaniel， P.Chipma，ect.Detetion of Emotions during learning with AutoTutor [R]. Department of Psychology， 2006： 285-290.

[4]H.Simon.Motivational and emotional controls of cognition：in Models of Thought[M]. New Haven：Yale University Press，1967.

[5]D.Norman.Twelve issues for cognitive science[A].In Norman DA（Ed）： Perspectives on cognitive seience[C]. Erlbaum， Hillsdale， NJ. 1981.

[6]R.W.Picard， S.Papert，ect. Affective leaming- a manifesto[J].BT Technology Joumal， 2004， 22（4）： 253-269.

[7]唐伟志，贾云.远程教育中情感缺失问题的对策研究[J].甘肃广播电视大学学报， 2012 （2）： 1-4.

[8]J.Tao，T.Tan and R.W.Picard.Affective Computing： A Review[A].LNCS3784. German： Springer-Verlag Berlin/Heidelberg[C]， 981～995. 2005.

[9]傅小兰.电子学习中的情感计算[J].计算机教育， 2004 （12）： 27-30.

[10]付彦飞，牛秦洲，阈小梅.基于情感计算的个性化E-Learning系统的研究[J].微计算机信息， 2010 （36）： 241-244.

[11]R. Picard. Affective Computing[M]. Cambridge： MIT Press，1997.

[12]陈文萃.从认知看情感表达的隐喻概念[J].南华大学学报，2009（9）： 112-142.

[13]B.Pang，L.Lee.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval，2008（1-2）：1-135.

[14]A.Ortony，G.Clore，A.Collins.The Cognitive Structure of Emotions[M]. Cambridge： Cambridge University Press，1988.

[15]P. Ekman. An argument for basic emotions[J]. Cognition and Emotion， 1992， 6（3-4）：169-200.

[16]T.Wilson，J.Wiebe.Annotating Opinions in the World Press[A].In： Proceedings of the 4th ACLSIGdial Workshop on Discourse and Dialogue （SIGdial2003） [C]. 13-22， 2003.

[17]Choi， Y.， and Cardie， C. Learning with Compositional Semantics as Structural Inferencefor Subsentential Sentiment Analysis [A]. In Proceedings of the Conference on Empirical Methods in Natural Language Processing[C]. pp. 793–801. 2008.

[18]P.D.Turney and M.L.Littman.Measuring praise and criticism： Inference ofsemantic orientation from association[J].ACM Transactions on Information Systems，2003 （4）：315-346.

[19]C.Zhang，W.Zuo，T. Peng， F.He.Sentiment Classification of Chinese Reviews Using Machine Learning Methods Based on String Kernel[A].Third International Conference on Convergence and Hybrid Information Technology[C]. 2008.

[20]Turney， P D. Thumbs Up or Thumbs Down？ Semantic Orientation Applied to Unsupervised Classification of Reviews[DB/OL]. http：//arxiv.org/abs/cs/0212032.

[21]宋光鹏.文本的情感倾向分析研究[D].北京：北京邮电大学，2008.

[22]Z.Fei，J.Liu，G.Wu.Sentiment Classification Using Phrase Patterns[A].In： Proceedings of Fouth International Conference onComputer and Information Technology[C]. 2004.

[23]贾积有，王爱华，吴筱萌，等.一次中规模在线开放式课程的设计与实践[A].第十届北京论坛教育分论坛“高等教育的全球参与和知识共享”论文集（2013年11月）[C]，141-156.（编辑：鲁利瑞）