话题型微博中的人称代词特征及消解策略

2014-11-27 05:23梁琳琳滕永林
关键词:人称指代微博

张 瑛,梁琳琳,侯 敏,滕永林

(1.中国传媒大学文学院,北京100024;2.国家语言资源监测与研究中心有声媒体中心,北京100024)

一、话题型微博及人称代词消解相关研究

随着互联网的迅速发展,微博已成为人们分享、传播以及获取信息的重要平台。其中,话题型微博是微博用户发表观点、评价事物的主要形式之一。该类微博“围绕某一话题即标签(hashtag)阐发意见,进行讨论”[1]。通过抽取话题型微博信息,可以追踪网络实时热点、了解大众舆论倾向。由于话题型微博集中讨论某一话题,相同的信息在微博中常会反复出现,为了保证语言的简练,人们会使用大量人称代词衔接语篇。虽然这些人称代词使得句子更加简明,主题更加突出,但也给话题型微博信息处理增加了难度。因此,对微博文本进行人称代词消解就成为微博信息挖掘的一个重要任务。

话题型微博中人称代词消解就是指针对微博中出现的人称代词,依据话题背景信息及上下文语境,找出该词所指代的具体对象。人们称人称代词为照应语,其指代对象为先行语。整个消解过程涉及到三个步骤:实体识别、照应语识别和先行语识别。实体识别是指对语篇中人名、地名、机构名等专名以及其他普通名词进行识别,这些词语都是潜在的先行语,对其进行识别是消解的首要任务;照应语识别是指对微博中具有指代功能的人称代词进行识别;先行语识别则是通过消解算法寻求与微博中人称代词形成衔接纽带的实体。

目前,汉语中人称代词消解时贤已多有研究。大致可以分为两种:基于规则的方法和基于机器学习的方法。基于规则的方法需要借助与人称代词消解相关的语言知识,包括句法结构,篇章结构,词、句的语义信息,篇章的语境信息等,并依据这些知识设定消解规则,例如:王厚峰使用动态评测机制对先行语候选项进行权值计算,提出鲁棒性的汉语人称代词消解[2];臧翰芬、韦向峰和张全提出基于语义结构平行的消解方法[3]。基于机器学习的方法包括聚类、统计等方法,通过对小规模训练语料进行无督导或半督导的机器学习来实现测试语料的人称代词消解,例如:李国成、罗云飞采用决策树和优先选择策略对突发事件文本中的人称代词进行消解[4];胡乃全、孔芳等采用最大熵统计模型对汉语中的指代进行消解[5];王海东、谭魏璇等依据树核函数对汉语代词进行指代消解[6]。这些指代消解方法都包括了人称代词消解。无论是基于规则还是基于机器学习的方法,都对语料和文本中人称代词指代功能的规范性要求较高。然而,不同语体的语言特征存在差异。话题型微博受技术平台以及网络语言的影响,在语言规范度、实体名称特征和人称代词使用等方面有其自身特点。所以,针对话题型微博这一特殊语体,笔者应给出相应的人称代词消解方法。

二、话题型微博语言特征

话题型微博与上述研究中的待消解文本具有较大的差异,兼具微博语体与多人会话语体双重特征[7,8]。

(一)微博特征

话题型微博是微博语体的一种,因此具有一般微博文本的语言特征:

1.语言不规范

话题型微博中包含了大量的表情符号(其文字表现形式为:“/”加汉字,如例1),网络链接,由于微博用户个人习惯导致的重复符号,以及繁体字等,如例2、例3。这些都是不规范的语言形式。

例1:#疯狂的大葱#/拥抱如果现在你还坚强的活着。

例2:#新版笑傲江湖#于妈~~~~你亮瞎了我的钛合金狗眼!!!

例3:#毒玩具#就是這些無良商人,官員不力。你們沒小孩的嗎?

2.英汉夹杂使用

话题型微博中常常会出现英汉两种语言夹杂使用的现象,如例4。有些英语单词具有名词性质,是文本中潜在的先行语。

例4:#魔境仙踪#据说JOHNNY DEPP拒绝主演此片,事实上他演的《爱丽丝梦游仙境》更出色。

3.微博特殊语言形式

除了常见的实体名称,话题型微博中还存在大量的特殊实体名称,包括特殊表达形式、网名、昵称等,如例5、例6。部分特殊语言形式是潜在的先行语,对其进行识别可提高人称代词消解系统的性能。

例5:#查韦斯#@月光的酱说:我觉得杭州的那个市长和查韦斯一样,都是被“美帝”整死的。

例6:#王语嫣#不喜欢#天龙八部#,但更不喜欢#王语嫣#这个人。

针对上述特点,笔者在人称代词消解之前,需要对话题型微博语料进行预处理。首先,笔者将清除文本中不规范的语言,以免影响人称代词消解的准确性。其次,话题型微博中英语单词词型较少,可通过小规模的英汉词典进行匹配对其词性赋值。此外,笔者还设定了一系列的规则对于特殊语言形式进行识别,以便于后期的提取和词性标注(将另拟文详述)。

(二)多人会话语言特征

话题型微博针对某个主题进行讨论,体现为标签(但并非所有话题型微博都具有显性标签)。微博用户们不仅围绕标签发表意见,也会对其他用户的相关评论发表意见,“于是就形成了一个带有鲜明主题的话题型微博群”[1]。因此,笔者认为话题型微博群可以视为一个以众多微博用户为参与者的多人会话,具有以下特点:

1.语句不流畅

一篇话题型微博就是一个会话参与者的发言,其文本具有很强的口语特征。话题型微博中常出现语句不流畅的现象,如例7。

例7:#魔境仙踪#貌似也没有陪我去看。呃…那个…我还是一个人去好了。

2.会话结构

话题型微博群中,每一个微博用户具有发话人的身份,其他参与讨论的微博用户话题中涉及的评价对象等作为默认听话人,标签相关内容可视为被谈及的第三方。一个话题型微博群构成了一个完整的会话结构。因此,文本中会出现大量具有会话性质的语句,如例8。

例8:#王语嫣#你再吵吵也没用,有能耐你演个我看看。

3.语篇和句长较短

笔者对1 000篇话题型微博进行统计,得出2 135个句子,平均每篇话题型微博仅2.135个句子。侯敏等的研究表明话题型微博的平均句长仅为20.11[1]。这说明话题型微博句子少,单个句子非常短,从而导致整个语篇也很短。

值得一提的是,话题型微博与常见的多人会话文本也存在不同。话题型微博不具备多人会话中的一些典型特征,包括话轮转换、视觉信息、语音信息和会话角色信息等,而这些特征都是多人会话人称代词消解中的重要信息。

首先,由于语句不流畅将增加了人称代词消解的难度,笔者将对其进行预处理。其次,基于话题型微博特有的多人会话特征,笔者在对人称代词消解时需要充分考虑到人称代词在会话结构中的指代功能。同时,话题型微博缺乏话轮转换、视觉信息、语音信息和会话角色信息等重要会话信息,基础语言信息在人称代词消解时变得尤为重要。话题型微博篇幅和句子都比较短,人称代词的上下文信息随之减少,这也为人称代词消解增添了一定难度。

三、话题型微博中人称代词特征

话题型微博是一个多人会话文本,其人称代词在使用和分布上也与常规文本有所不同,具有以下特征:

(一)人称代词词型少

汉语人称代词虽然是一个相对封闭的集合,但是每个人称代词在语用上具有一定差异,例如:第一人称代词集合中,“寡人”、“鄙人”和“我”语用上分别为傲称、谦称、普通指称。在话题型微博中,人称代词词型较少,“典型人称代词”[9]居多,含有少量网络用语人称代词(如“偶”)、方言人称代词(如“俺”)和古汉语人称代词(如“寡人”),通过对1 000条话题型微博中人称代词词型的统计,得到表1。

表1话题型微博中人称代词词型

(二)各类人称代词使用比重差异大

话题型微博群是会话的汇集,每条话题型微博都是微博用户就标签或其他微博发布的个人评论,所以在话题型微博中第一人称代词的使用比重往往要高于其他类人称代词。第三人称代词在话题型微博中的使用比重也高于其他类型微博,这是由于话题型微博中的标签暗含了微博的语境,将整个话题型微博群衔接为一个语篇,可以直接使用第三人称代词指代与话题相关的实体。第二人称代词在微博语体中使用比重相对较低,话题型微博用户将其他参与者和阅读者视为听话人,会使用第二人称进行指代。话题型微博中三类人称代词的使用比重分布与其他常规书面文本存在着差异。笔者对1 000篇话题型微博中人称代词使用比重进行统计,并与突发事件新闻中人称代词的使用比重[10]进行对比,结果如表2。

表2话题型微博与突发事件新闻中人称代词使用比重对比

(三)外指与泛指多

外指与泛指是指代中比较特殊的现象。根据被指代的对象是否在篇章内,可将指代分为内指与外指;根据被指代对象是否表示具体的人或事物,可将指代分为泛指或特指。内指的所指对象可以在语篇的上下文中找到,而要明确外指的所指对象则依赖于语境。泛指所指对象通常是抽象的、不明确的,通常不需要进行消解,但是将泛指与定指区分开是人称代词消解的重要步骤。在话题型微博中,微博用户之间已经就某一具体话题形成了默认的语境及背景知识,往往直接使用人称代词对话题及其他用户进行指代。在话题型微博中,外指和泛指的情况较多,以第二人称和第三人称为主,如例9、例10。

例9:#王语嫣#她演技的一点都不好,听说于正竟然还打算让她演新版小龙女。(外指王语嫣的扮演者张檬)

例10:#中国式英语#语言只不过是一个交流工具,我能说你能懂不就行了么?(泛指)

(四)用法不规范

话题型微博属于网络语体的一种,虽然以书面文字形式展现,但其口语色彩较浓,语言表达具有很强的随意性,人称代词的使用也会出现不规范的情况,如例11、例12。

例11:#查韦斯#深切悼念委内瑞拉总统查韦斯。它不仅是伟人,也是中国人民最真诚的朋友。(“它”通常用于指代人以外的事物,但这里指代的却是人)

例12:#王语嫣#人没有漂亮到可以演神仙姐姐,至于他的演技肯定也没有如火纯青到超越经典。(“他”用于指代男性,此处指代的是女性)

(五)伪人称代词

话题型微博语言是一种口语文本,会使用很多非正规用语,其中包括大量的伪人称代词。伪人称代词是人称代词的同形词,不具备指代功能,常与其他词语搭配使用,如例13、例14。进行人称代词消解就必须排除伪人称代词。鉴于这类词组合有特点,成员较少,笔者建立一个伪代词底表作为参照便可将其排除。

例13:#90后暴打老人#这种人渣就应该被枪毙,他妹的

例14:#曼联VS皇马#我只想说“裁判,去你大爷的”。

四、消解策略

话题型微博是一种特殊的多人会话,缺乏语篇信息、会话角色、语音等诸多信息,其人称代词的使用也经常违反“单复数一致”、“性别一致”、“语义类一致”等基本要求。现有的人称代词消解策略多针对规范文本,无法完全适用于话题型微博。因此,针对话题型微博这一特殊语体,笔者提出基于句法、语义、语用多层面信息的消解策略。

(一)句法信息

笔者对句子进行了浅层的句法结构标注,包括:添加句首/句尾标记,主语/宾语标记和特殊句型结构。

1.句首/句尾标记

一句话的句首标记为“^”,句尾标记为“$”。通过判断待消解人称代词是否位于句首/句尾,将选择相应的消解方式。例如:位于句首的人称代词优先进行跨句消解,向前搜索先行语;位于句尾的人称代词使用逆向规则匹配法。

2.主/宾区分

笔者利用规则区分了句子的主语和宾语。中心理论认为一个句子的主语最有可能在下文中被指代,其次是宾语,最后是具有其他句法角色的名词[11]。因此,主语将优先成为先行语候选对象。同时,基于EPR的语言回指加工研究表明,人们在进行指代消解的心理加工时,更容易处理在句法上具有一致平行关系的先行词与照应语[12],这说明与照应语具有平行句法角色的名词性词语更有可能成为先行语(例如:同为主语)。因此,在进行设定规则时,将与待消解项句法角色平行的名词性词语优先设定为候选先行语。

3.特殊句型结构

人称代词常能与其先行语形成固定的句法结构,例如:在包含人称代词的同位语中,人称代词的指代对象就是紧跟在其后面并与之构成同位语的名词;在直接引用句中,第一人称代词和第二人称代词通常指代说话人和听话人;第二人称代词常回指前面出现的呼语。针对这些语言中普遍存在的特殊句型结构,笔者设定相应的消解规则。

(二)语义信息

目前,已经有许多学者从不同的角度对语篇进行语义标注,并应用于人称代词消解之中,主要包括句子的语义论元[13]、代词的上下文相关语义环境[14]等。这些语义信息都在一定程度上增强了人称代词消解系统的性能。然而,话题型微博句子结构不规则、篇幅短小,导致句法及篇章层面的语义信息难以适用。所以,笔者将着重提取词语的语义信息。除了常见的男/女、生命/无生命等语义信息,还添加了整体/个体、话题提示/话题转折、并列/对比词等语义信息。

以“话题提示”为例,当一个名词性词语前出现话题提示语义信息时,该词语则优先成为下文中人称代词的潜在回指对象,如例15、例16。

例15:#曼联VS皇马#曼联的大佬们气场很足啊,尤其是推特男,看看佩佩在他身边一比就知道。

例16:#魔境仙踪#对魔境仙踪实在比较失望,特别是三个女巫超刻板,她们完全没亮点啊!

(三)语用信息

黄衍早已论证了语用因素在指代消解分析中的重要性[15],尤其是语境因素。但由于语用因素内容复杂且难以形式化,所以在人称代词消解中常常被忽略。一个话题型微博群中,微博主将标签相关信息作为共有背景知识,形成特定语境,导致话题型微博中大量外指需要依据这一特定语境才能得到消解。在例17至例19中,人称代词“你”、“他”、“他们”都无法在句内找到指代对象,但可以依据标签及标签相关背景信息消解为“菲律宾”。

例17:#菲军舰恶意撞击#你也只配拿炮艇来撞渔船!

例18:#菲军舰恶意撞击#让外交部谴责他。

例19:#菲军舰恶意撞击#他们一个弹丸之地竟然敢欺负中国!

通过对语料的观察,发现一个话题型微博群中的高频名词性词语反映了该话题热点人物或事物,最有可能成为单条话题型微博文本中人称代词的外指对象。因此,为了增强人称代词消解系统的性能,笔者利用话题型微博群的高频名词性词语构建话题语用表单(后文简称OBJ表单)。话题OBJ表单包含不同话题型微博群中最可能成为指代对象的实体名称。首先统计出某个话题型微博群频次最高的实体名称,将其选入OBJ表单,并添加相应的词性标注与浅层语义信息。针对微博中出现的外指,将依据标签调用OBJ表单进行消解。但是,OBJ表单仅适用于话题型微博,并且需要随着话题的变化进行更新。

五、实验语料及评测标准

(一)实验及语料

为了评价人称代词消解的实验结果,本文采用了准确率(precision)、召回率(recall)和F-指数(F-measure)作为评价指标,定义如下:

Nc指系统正确消解的人称代词数目;Nr指系统识别的人称代词数目;Na指语料中总人称代词数目。

本次实验语料为中国计算机学会(CCF)2013年主办的第二届中文微博情感分析评测提供的评测语料,共10组话题型微博群,选用1 000篇话题型微博,2 135个句子。其中,人称代词共有667处,第一人称代词349处,第二人称代词95处,第三人称代词223处。

(二)系统流程及实验结果

运用上述策略构建了一个基于句法、语义、语用多层面信息的人称代词消解系统CUCpr。系统首先对测试语料进行预处理,去掉网址、表情符号、乱码文本等噪音信息。随后系统将运行文本处理模块、待消解项识别模块、人称代词消解规则解释器。文本处理模块用于常规的文本处理、特殊命名实体提取、多层面语言信息标注;待消解项识别模块对文本中人称代词进行定位,并提取人称代词所在微博的相关信息;人称代词消解规则解释器对消解规则进行匹配,实现人称代词的指代消解。系统流程如下图:

图1 人称代词消解系统CUCpr流程图

通过对10组话题型微博群进行人称代词消解,笔者得出实验结果如下表:

P(准确率)正确消解的人称代词数目系统识别的人称代词数目×100%

R(召回率)正确消解的人称代词数目总的人称代词数目×100%

F-(F-指数)2×P×RP+R×100%

表3话题型微博人称代词消解结果

使用CUCpr系统,1 000篇话题型微博中人称代词的F-指数达到91.37%。表3中的数据显示,第一人称代词消解的F-指数最高,达到97.13%。第一人称代词在话题型微博中的指代对象较为简单:第一人称单数的先行语多为微博发布者,第一人称的复数多为泛指。第二人称代词消解的F-指数最低,仅79.56%。第二人称代词的指代功能比第一、第三人称代词都要复杂,不但存在大量外指与泛指,还会出现使用单数指代多项先行语的情况。因此,第二人称代词的消解难度更大,导致其F-指数更低。第三人称代词消解的F-指数为87.13%。第三人称代词的指代功能比较复杂,尤其是第三人称复数,其先行语往往是多个名词性词语,较难被完整提取。第三人称代词用法较也比较灵活,常出现不同的句法位置。这也导致了第三人称代词消解规则匹配结果错误最多。

对实验结果进行回查,分析错误原因,有如下几种:

一是实验中有39.26%的错误是由于系统对人称代词的指代功能进行了错误的判断,从而影响了进一步的规则匹配。例如:将泛指误判为定指,外指误判为内指,前指误判为后指。

二是实验中有33.33%的错误是由于人称代词匹配了不适当的消解规则,导致消解结果错误。

三是实验中有19.61%的错误是由于人称代词的先行语包括多项命名实体,而消解结果只提取了其中一项,导致消解结果不完整。

四是实验中有7.80%的错误是由于文本预处理失误而产生的,例如:未识别的伪人称代词,文本切分错误,词性标注错误等。

分析说明,进一步完善消解规则和文本预处理是提高消解系统性能的首要工作。正确区分人称代词的泛指与定指、内指与外指、后指与前指也对消解的准确率有着重要的影响。如果能在消解规则匹配之前对人称代词的指代功能进行分类及判定,将会进一步提高消解系统的性能。

六、结 语

话题型微博是一种特殊的多人会话,其语言特征和人称代词的使用有别于其他语体。因此,针对这一特定语体,笔者介绍了基于句法、语义和语用多层面信息的消解策略。实验中,利用该策略建构的人称指代词消解系统F-指数达到91.37%,说明这一消解策略适合处理话题型微博。笔者认为较好的实验结果主要得益于对语料语言和人称代词的深入分析。这启发人们在对不同语体语料进行计算处理时,应充分分析其语言特点并给出相应的计算策略。如何将基于多层面信息的消解策略运用于其他语体人称代词消解将有待于进一步研究。

[1]侯敏,滕永林,李雪燕,等.话题型微博语言特点及其情感分析策略研究[J].语言文字应用,2013(2):136.

[2]王厚峰,梅铮.鲁棒性的汉语人称代词消解[J].软件学报,2005,16(5):700-707.

[3]臧翰芬,韦向峰,张全.基于语义结构平行的汉语人称代词消解[C]∥责任者.第四届全国学生计算语言学研讨会会议论文集.太原:山西大学出版社,2008:152-158.

[4]李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005(4):143-148.

[5]胡乃全,孔芳,王海东,等.基于最大熵模型的中文指代消解系统实现[J].计算机应用研究,2009(8):2943-2955.

[6]王海东,谭魏璇,李艳翠,等.基于树核函数的代词指代消解[J].计算机工程,2009,35(15):165-167.

[7]焦德武.微博舆论中的情绪及其影响[J].江淮论坛,2013(3):129.

[8]宋培杰.网络语言中的词汇变异现象探析[J].河南师范大学学报:哲学社会科学版,2012,39(4):187.

[9]陈翠珠.汉语人称代词考论[M].北京:光明日报出版社,2013:15-85.

[10]庞宁,苏尚宏,赖振丹.中文人称代词消解研究[J].太原科技大学学报,2008(3):179-181.

[11]GUPTA S,PURVER M,JURAFSKY D.Disambiguating Between Generic and Referential“you”in Dialogue[C]∥ Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics(ACL).Madison:Omnipress,2007:105-108.

[12]赵鸣,刘涛.语言回指加工的ERP研究述评[J].心理科学进展,2011(3):355-363.

[13]王厚峰,何婷婷.汉语中人称代词的消解研究[J].计算机学报,2001(2):136-143.

[14]许敏,王能忠,马彦华.汉语中指代问题的研究及讨论[J].西南师范大学学报:自然科学版,1999(6):633-637.

[15] HUANG Yan.Discourse Anaphora:Four Theoretical Models[J].Journal of Pragmatics,2000(32):151-176.

猜你喜欢
人称指代微博
奥卡姆和布列丹对指代划分的比较
奥卡姆和柏力对简单指代划分的比较*
拼图
The Ways of Leading a Healthy Life
基于深度学习的维吾尔语名词短语指代消解
事实与流言的博弈
重大突发事件中微博之力不微
广告语中人称指示语的语用充实研究
神回复
人称代词专练