基于知识图谱的国外话语标记研究热点领域分析∗

2019-12-26 05:29
外语学刊 2019年4期
关键词:语料话语语境

吉 晖

(武汉大学,武汉 430072)

提 要:本文基于知识图谱理论,利用Citespace软件对2001至2016年国外话语标记研究热点及主要领域进行可视化分析。当前国外话语标记研究热点从理论建构向应用研究转移,关注本体属性、二语习得、自然语言处理、社会语言学、机构话语等多个领域。其研究方法的多样性、研究视角的多维性、语料选择的开放性对于国内相关研究均具有重要借鉴意义。

1 引言

从20世纪70年代开始,话语标记(discourse markers)作为一个语言实体(linguistic entity)进入人们的研究视野(Labov,Fanshel 1977:156)。在此后的研究中,尽管各界学者在话语标记的命名、定义、成员类型上存在诸多异见,但话语标记是在话语层次上起作用的单位、表程序意义而非概念意义、标识前后语段关系等观念已成为大家的共识。经过近四十年的发展,国外语言学界的话语标记研究从个案分析、本体属性考察逐步延伸到二语习得、自然语言处理、社会语言学和机构话语等多个层面和领域。本文借助科学知识图谱软件Citespace对2001至2016年间国外重要期刊的相关研究进行可视化分析,结合共词网络分析与文本深度阅读的方式,挖掘国外话语标记研究热点,冀望当前最新的研究视角、研究方法及研究成果能给国内话语研究带来一些启发和帮助。

2 文献来源及分析

本文考察文献来源于美国(Web of Science,简称WOS)核心合集数据库。笔者以discourse markers为主题,检索文献类型包括 Article,Pro⁃ceedings paper,Review,检索年限为2001至2016年,共检索到相关成果525篇。经过Citespace数据查重清洗,最终考察文献为499篇,文献年度分布状况如图1所示。

图1 2001至2016文献年度数量分布

从图1的数据来看,2001-2005年间,话语标记研究持水平发展,年均发文20篇;2006-2011年间,话语标记研究出现平缓增长;经过2012、2013年的短暂下降后,话语标记研究在2014、2015年出现显著增长,2015年发文81篇,达到峰值。

3 话语标记研究热点探测

科学计量学认为,关键词是作者对文章核心研究内容的精炼,学科领域里高频出现的关键词和从数据样本中提取分析出的名词短语可被视为该领域的研究热点(赵蓉英 许丽敏 2010:66)。表1是对前20位热点关键词的词频及中心性的统计。其中,关键词的中心性越大,其研究的吸附力也越大,在连接其它节点的过程中发挥更重要的作用。

表1 前20位关键词

分析表1可知,最大的3个热点分别是会话(conversation)、英语(English)和语法化(gramma⁃ticalization),它们分别代表语料类型、语种对象、理论解释3个研究维度。首先是语料类型,学界对话语范围存在不同理解,大部分学者采用狭义的概念,因此互动会话成为当前研究的主体。但也有不少学者认为应从更宽的范围理解话语,除会话外,独白型语料也应该成为话语标记研究的对象。与话语研究匹配的主要研究方法是语料库语言学方法。其次是语种对象,英语是主要研究语种,well是一个研究热度很高的英语话语标记。此外学界对西班牙语的关注度也很高。第三是理论解释,话语标记的形成是语法化的结果,这已成为很多文献的共识。同时,话语标记的某些变异现象与语言接触(language contact)也存在一定关联。当前的研究热点还包括人们对话语标记的一些普适认识:话语标记来源于副词(adverb)、连词(connective)等功能词;话语标记是一种话语策略(strategy),起关联(relevance)、连贯(coherence)、组织(organization)语篇、说明(account)语境的作用;话语标记在计算机识别自发言语(spontaneous speech)的过程中具有十分重要的作用。

4 话语标记研究主要领域

如果说热点探测解决“点”的问题,那么聚类分析将解决“面”的问题。Citespace的核心功能之一就是在热点探测的基础上,对关键词网络进行聚类分析,通过图谱解读,我们可以探寻当前话语标记研究分布的主要领域。

得到话语标记研究共词聚类网络图(图2)。图2中,聚类模块性(Modularity)Q 值为 0.9111,大于0.3,说明此次聚类效果良好,社团结构显著(李杰 陈超美 2016:150),轮廓值在0.5以上的合理聚类有27个①,#后为聚类编号及聚类名称。

结合图谱分析和文本阅读,我们对当前聚类进行二次整合与重命名,当前话语标记研究主要分布在本体属性研究、二语语用习得研究、自然语言处理研究、社会语言学应用研究、机构话语研究等5大领域,进而可细分为14个分领域,详述如下。

图2 话语标记研究共词聚类网络图

4.1 本体属性研究

4.1.1 话语标记形成演化研究

话语标记的形成往往经历一个从实到虚不断语法化的过程,语法化是当前学界解释话语标记演进的主要理论依据。语法化理论在众多个案研究的基础上不断丰富和完善。一般认为,语法化后话语标记在话语层面的功能会不断增强,而原有语法约束会大大弱化甚至消失。但Koops(2015:232-259)发现,话语标记的语序具有较大约束性,其原因在于话语标记的特殊语法化轨迹使其仍然保留原有句法类型特征,看似自由的语序正是这种句法特征起作用的主要表现。话语标记形成过程十分复杂,诸多因素互为条件、相互影响。Rhee(2015:10-26)在研究韩语认同类话语标记时发现,除语义弱化外,省略机制与交互主观化在语法化过程中都发挥重要作用。不同语种的个案分析让我们对话语标记系统的认识更科学、更全面。

4.1.2 话语标记韵律特征研究

韵律特征是说话者准确传达话语内容、表达思想感情、以求得到听话者准确理解的必要手段(单谊2015:70)。在语言技术的支持下,话语标记韵律特征研究成果不断丰富。Gonen(2015:69-84)采用仪器分析法,分析希伯来语口语中话语标记axshav(now)的韵律特征。Tanghe(2015:125-147)在口语数据库的基础上,分析西班牙语话语标记anda,vamos的超音段参数特征。当前的研究表明,话语标记在停顿、音长、音高及音强等方面的韵律特征将其与对应的实词性语言单位区分开来,同时不同的韵律特征对应不同的语用功能,韵律是理解话语的重要语境线索。

4.2 二语语用习得研究

二语学习者对话语标记的准确理解和得体使用,本质上是对二语语用能力的习得。话语标记习得研究主要解决3个方面的问题:二语学习者话语标记的使用特征、话语标记习得的影响因素及话语标记教学。

4.2.1 二语学习者话语标记的使用特征

对比母语使用者,二语学习者话语标记的使用具有如下特征:(1)二语水平不高的学习者使用话语标记的频率较低;(2)二语越熟练的学习者使用话语标记的频率越高,有时甚至超过母语使用者;(3)话语标记使用越多的第二语言学习者更倾向于融入他国的文化与生活(Hellermann,Vergun 2007:157)。

4.2.2 话语标记习得的影响因素

影响二语语用能力发展的因素很多,其中学习者语言水平、学习环境、目的语接触时间、语言教学以及学习者个体因素(包括年龄、性别、动机、社会心理距离)等的影响较大(戴炜栋杨仙菊2005:2)。学习者的语言水平影响话语标记的使用类型及功能。话语标记的习得有一个内在顺序,其规律是:接近语义平面的话语标记具有更大的语义权重,会被首先习得和使用,而那些更纯粹的表示语用和人际功能的话语标记则习得较晚且很难习得。

在目的语环境中学习、延长与目的语的接触时间对语用能力的习得有积极的作用。学习者在目的语环境中会经历一个语言的社会化过程,即在日常交往中无形地习得社会规范。话语标记的使用正是学习者语言使用社会化的结果。

话语标记的过度使用现象在成年学习者中十分普遍(Polat 2011:3745)。这种“过分使用”可被视为语言的“安全策略”。当一位成年语言学习者具有较强的学习动机后,他会努力模仿当地的语用模式以寻求认同并融入当地社会。过频使用话语标记是一种语用复制机制,学习者往往忽略形式背后微妙的语用功能。

4.2.3 话语标记教学研究

在很长一段时间里,语用能力的教学并没有真正进入外语课堂。Hellermann(2007:157)在研究中发现,话语标记并不属于课堂讲授语言格式与功能特征的一部分。大量研究表明,语用能力是可以教的,而课堂教学在第二语言语用能力发展中起着重要作用。Hellermann认为应该结合学生的语言程度以及话语标记习得程度的分析,适时地在课堂教学中引入话语标记的教学。Her⁃nandez(2011:159-182)探讨显性教学(explicit instruction,EI)与输入流教学法(input flood,IF)结合对学生习得西班牙语话语标记的作用,并与单独的输入流教学效果进行比较。测试表明,两种方式都对学生使用话语标记产生积极效果。显性教学更利于学习者语用能力的习得。

4.3 自然语言处理研究

话语标记的识别对于自动侦测口语话语边界和提取关键句具有十分重要的意义(Kawahara et al.2004:409)。话语标记一般用于句子开头部分,并伴有语音停顿及其他语言模式信息。因此,话语标记在位置、语音上的特征成为机器识别关键句及切分语句的重要参数。Kawahara(2004:409)设计自动提取话语标记的流程:利用停顿信息勘定话语边界—建立语言模型—词频、句频统计—索引出话语标记(如图3所示)。这个实验表明,相比单一的仅用停顿作为基线的方法,话语标记参数的介入使话语边界检索表现更为突出,同时也很好地克服话语识别的错误。

Popescu⁃Belis和 Zufferey(2011:499-518)则采用依据词汇、句法位置、韵律、社会语言学等特征进行自动分类的方法。分析表明,词汇搭配是最可靠的分类指标,随后是韵律特征,而社会语言学特征的作用最小。同时,对各种话语标记进行程序化处理可以提高分类的准确性,不同类型的话语标记需要做个别化处理。

图3 话语标记自动提取流程

4.4 社会语言学应用研究

4.4.1 性别差异与话语标记使用

Escalera(2009:2479-2495)认为,以往的研究将儿童语言性别的差异归结于内在的因袭,男孩和女孩在互动语境中都要尽力去完成他们的社会和认知的目标,差异性来自对性别角色、地位的社会模式的习得。但这些研究忽视会话语境在分析性别模式差异时的作用,而恰恰正是语境在儿童如何学会会话及会话模式的时候产生巨大的影响。活动语境是引发儿童语言性别差异的主因。Escalera的实验表明:儿童使用话语标记存在功能上的差异;话语活动存在性别差异,不同的话语活动使用的话语标记的功能不一样;保持活动的持续性可以降低语言的性别差异。

4.4.2 年龄差异与话语标记使用

很长一段时间里,研究者们关注日常会话层面以及分析在这种语境下成人如何使用话语标记,而关于儿童是如何学会在对话中标记不同层次的话语及如何使用话语标记的研究却并不多见。Furman和 Ozyurek(2007:1742-1757)发现,话语标记的使用频率和功能随着年龄的变化而变化。儿童在话语标记的使用上表现出与成人不同的特点,最突出的特点是儿童在话语标记的功能使用上具有局限性,特别是对于那些多功能的话语标记,儿童尚无法破解多功能形式的特殊用法。即便是有些儿童已经掌握话语标记的某些复杂用法,但要像成人一样地使用还需要时间。

年轻人群体总是和语言的变异创新联系在一起。Tagliamonte(2005:1896-1915)发现,对某些特定话语标记(如 like,just,so)的高频使用是年轻人话语的显著特色,其中15-16岁的年轻女性频率最高。这与年轻人强烈的语言求异心理有密切联系。在年轻人中,女性更容易寻求并推进语言的新变化。年轻人的话语标记使用特征并不是偶发的、随机的或是任意的,而是受社会文化因素的深刻影响。

4.4.3 病患者话语标记使用

语言是人类行为的重要组成部分,语言运用过程中表现出来的障碍、缺陷或失调一般是某种疾病的症状。语言行为成为临床诊断各类疾病的重要依据(卫志强 1987:61)。Lai和 Lin(2012:1982-2003)研究两组使用汉语的老年人(有阿尔兹海默症和无阿尔兹海默症)在话语标记使用上的区别。实验发现,阿尔兹海默症患者与正常老年人相比,在话语标记的使用频率和变化上更少。阿尔兹海默症患者虽然像普通人一样使用话语标记,但不能像正常人一样完全掌控话语标记的功能。造成这种差异的原因包括:患病因素、话语标记类型因素和话语标记功能因素。而失语症患者话语标记使用的情况就不太一样。Neu⁃mann⁃Werth(2010:204-205)发现,失语症患者在进行语码转换和使用话语标记上比正常人更加频繁。但是,失语症患者的话语选择仅仅出于结构上的需求,缺少深层的语用心理动机。

4.4.4 网络数字论坛话语标记使用

随着信息技术的发展,人们在网络虚拟空间中的交流越来越频繁。除使用即时通讯软件(如MSN)外,很多人还选择在网络论坛中进行更广泛的交流,网络论坛中的交流与即时通讯交流存在很大差异。Landone(2012:1799-1820)发现,口语对话中的互动性话语标记也同样频繁出现在网络论坛的文字交流中,网络论坛语境下互动性话语标记与单向独白性话语标记的并存,可以实现对话者之间的高度互动与参与。在网络论坛语境下,话语标记成为凸显对话者态度的线索,他们被用于实现各种对话式功能(建构对话交换,表达道义情感,表达确定性等)。其中,技术性因素及论坛的参与框架创造话语标记的特定媒介模式,这种模式可以帮助参与者的言行达到期望值并合理地应对在线辩论。

4.5 机构话语研究

机构话语(institutional discourse)指在特定机构语境中进行的话语活动,会话的一方具有相关职业背景,会话活动交际目的明确,机构语境对话语的理解具有限制作用。机构话语研究关注话语在机构中的呈现方式及话语与机构相互作用、相互影响的关系。机构话语中话语标记研究主要集中在公共演讲、医患语言、法庭语言和媒体语言等领域。

4.5.1 公共演讲话语标记研究

在话语标记研究过程中,大部分学者长期以来主要关注毗邻语对或较长对话中的话语标记,很少有人关注独白语篇中的话语标记。话语标记一般被认为主要出现在即席话语中,可以看作即席话语的显性化特征。作为非即席有准备的独白性语篇,公共演讲中其实也广泛地使用话语标记。

在公共演讲语境下,话语标记主要在理解话语及取得话语关联上发挥作用,包括阐释观点、解释原因、显示两段信息的不同、展示系列事件的顺序、做出推论或做出总结,等等(Han 2011:2776),话语标记的这些功能基于公共演讲的特殊语境形成。公共演讲和日常话语具有很多共通性,它们的主要目的都是为了传递信息、说服或娱乐他人等。但与日常交谈不一样的是,在公共演讲的过程中,语流的方向往往是单向的,即从演讲者到听众,听众很少有机会与演讲者进行言语交流。因此,公共演讲需要具有更强的结构性,演讲者必须要能预想到听众可能会产生的疑问,从而进行更仔细、更详尽的计划与准备。话语标记可以让演讲线索更加明确,指引话语的逻辑性,最大可能地避免演讲过程中话语理解的问题。

4.5.2 医患语言话语标记研究

在医疗语境下,医生和患者之间存在两种基本关系:角色关系和权势关系。医生具备专业的医学知识和技能,患者求医问诊、缺乏相关知识,医患之间处于不对等的角色关系。角色关系的不对等决定话语权势的不对等。在问诊过程中,医生主导创设特定的话语语境,即他可以选择专业的医疗语态(medical⁃empathetic voice),也可以选择平等的教育语态(educational⁃empathetic voice)。教育语态具有劝说、指导、恳请的功能。在教育语态下,患者往往具有更多的话语权。在咨询话语中患者频繁而且重复地使用话语标记便是他们话语权提高的显著标志(Cepeda 2006:357)。通过对话语标记的研究,我们可以观察医患双方话语权势是否均衡、医生话语策略是否得当,对于研究、改善医患话语关系具有重要参考价值。

4.5.3 法庭语言话语标记研究

法庭语境具有3个特征:审判活动的程序性,交际角色的对抗性及会话结构的不对称性。以往话语标记研究的数据主要来自小范围的社会访谈,一般属于友好语境。语料数据极少涉及法庭这种既对抗又合作的话语语境。

法庭语境下话语标记使用具有独特性。话语标记在法庭语境下主要发挥语境线索的作用,保持话语的连贯与前后逻辑的统一,同时揭示说话人的对事件的反应及看法态度。话语标记不仅仅是语篇关联手段,更是一种社会性指数。Innes(2010:95-117)发现,法庭语境下女性使用话语标记的频率高于男性。同时,处于权力低位的证人和辩护律师使用话语标记的频率最高。法庭语境下话语标记独特性的根源就在于话语权力的差异及交际目的的差异。

4.5.4 媒体语言话语标记研究

从20世纪50年代开始,随着现代媒体的发展,越来越多的学者开始深入研究电视访谈、电台访谈等媒体交流类型。与日常口语及其它机构性话语相比,媒体访谈的显著特征是话语的半机构性(Semi⁃institutional),即具有日常口语与机构语言的双重话语特征(Ilie 2001:209)。媒体访谈半机构话语特性对话语标记使用有深刻的影响。首先是节目类型影响话语标记的功能分布及使用频率,专访节目话语标记的频数往往高于谈话节目。其次是同一节目内部,主持人、嘉宾及参与者之间的话语标记存在差异。主持人更多地使用话语标记实现对访谈进程的控制;而嘉宾则更多地使用话语标记来合理地组织语篇,实现回应问题、叙述事件或是评述话题、表明观点等目的。第三,媒体访谈中话语标记实现的不只是语篇组织功能,还有人际功能、话语标记功能的丰富性也是日常口语的重要特征。对媒体语言话语标记的深入了解也将帮助我们构建对领域话语研究的整体认识。

5 对国内研究的启示

纵观近十五年国外话语标记研究的发展,除已经取得的理论研究成果,在研究方法、研究视角及语料选择等方面的显著特色也给国内相关研究带来重要启示。

5.1 重视研究方法的多样性

5.1.1 共时研究与历时研究结合

话语标记的形成过程往往具有某些共性,如:结构成分的一体化,词汇意义的虚化、主观化,句法位置的漂移,等等。如果要发掘某一具体的话语标记的形成过程,除共时平面的语料分析外,还需要从历时的角度追溯其语用根源。共时研究与历时研究结合的方法在国外研究中使用较为普遍,如 Lewis(2011:415-443),Naya(2006:141-169)等。国内学者大多采用相同的研究范式,从历时平面考察话语标记的生成机制及演变过程一直是国内话语标记研究的热点和重点。大多数研究者将话语标记的生成视为一种典型的语法化现象,话语标记来源于表达概念意义的词汇成分或词汇序列,经历泛化、主观化、去范畴化、重新分析、语音弱化等过程(吴福祥2005:25)。

5.1.2 双语或多语对比研究

基于跨语言的话语标记的对比研究,往往能获得某些对人类语言共性的认识,因而具有重要的语言类型学意义。Dafouz⁃Milne(2008:95-113)以两份知名报纸(英国的《泰晤士报》和西班牙的《国家报》)为语料来源,比较分析英语和西班牙语话语标记在建构和生成劝说性话语中的作用。Vandenbergen和 W illems(2011:333-364)考察英语和法语的两个同源表达的案例(actually,actuellement;in fact,en fait/de fait/au fait),通过考察它们的历时演变,萃取两组词汇项目语法化过程的类型学意义。相比国外学者进行的双语话语标记对比研究,国内的语言对比研究主要集中在句法和词汇领域,基于话语标记的语用对比研究很少见。在今后的研究中,我们应该尝试汉外话语标记对比研究,以及在此基础上进行的汉语学习者话语标记的习得研究。

5.1.3 语料库分析方法

任何可信结论的获得,都建立在丰富真实的语料基础上。国外话语标记丰硕的研究成果离不开强大语料库数据的支持。Popescu⁃Belis(2011:499)在研究话语标记like,well的自动识别时,研究语料来源于ICSI⁃MR语料库,该语料库包含75场会议录音,转写文本时长超过80个小时,数量达80 万词;Kawahara(2004:409)的研究语料来自日本的CSJ语料库,该库包含500小时、7百万词量的日语公开学术演讲语料;Hellermann(2007:157)使用的学习者互动语料库由3,000个学时录音组成,其中有15,000分钟的分组互动对话录音被转写成文本。特别值得一提的是,Polat(2011:3745)建立一个发展型语料库Belz and Vyatkina,用来考察一个成年语言学习者在一年中对话语标记的使用。Polat的研究证明成长型学习者语料库对于研究语用习得具有十分重要的意义。国内学界对基于语料库的分析也十分重视,但国内研究者的最大掣肘是缺少各类可利用的大型开放口语语料库资源,大多数研究者使用自建的小型语料文本库进行研究分析,如许家金(2009)、刘丽艳(2011)等。开放共享已有口语语料库资源、合力创建多类型口语语料库将会给国内话语研究带来极大裨益。

5.2 探寻研究视角的多维性

话语标记研究是一项跨学科、多领域的研究,具有多维、开放、立体的特性。近十五年来,国外话语标记研究重心实现从理论研究向应用研究的转变:越来越多的文献开始关注医患语言、法庭语言、媒体语言等机构语言的话语特征;计算机识别、提取话语标记,从语言信息处理的角度研究话语标记;关注性别、年龄、生理、特定社群(年轻人社群、网络社群等)等因素对话语标记使用特点和传播特点的影响,从社会语言学及应用的角度研究话语标记;关注双语使用者话语标记使用特点(Torres 2008:263,Hlavac 2006:1870)等。这些都是对传统研究领域的突破,进一步拓宽我们的研究思路。就国内而言,我们应改变研究力量过于集中、各研究领域发展不均衡的现状,尝试从更多的角度对话语标记进行探索。

5.3 强调语料选择的开放性

国外话语标记研究具有开放性,其语料选择也具有开放性,语料类型包括如下几类:日常会话语篇 (Escalera 2009:2479,Tagliamonte 2005:1896)、独白演讲语篇(Han 2011:2776,Kawahara 2004:409)、非即时书面交流语篇(Landone 2012:1799)、课堂会话语篇(Hellermann 2007:157)、媒体访谈语篇(Maschler 2012:419)、书面语篇(Da⁃fouz⁃Milne 2008:95)等。国内话语标记研究的语料类型主要是日常会话语篇和书面语篇两种。语料的选择受限于研究对象和研究目的。只有拓宽研究视角,探索新的研究领域,我们才会对丰富的语篇类型有更多的关注。

6 结束语

本文基于知识图谱理论,对2001至2016年国外话语标记研究进行量化统计分析。15年间国外话语标记研究热点从理论建构向应用研究转移。当前,国内话语标记研究在引进、吸收国外话语标记理论的同时,在话语标记的个案研究上做出较多有意义的尝试。诚如前文所述,国内当前研究尚存在诸多空间,我们应努力尝试从应用的角度寻找突破口。话语标记研究,尤其是汉语话语标记研究,依然是一片尚待深入探索而大有可为的领域。

注释

①部分聚类因与中心聚类关联较小,分布比较偏远,因此不能在图中显示。

猜你喜欢
语料话语语境
创作与做梦:精神分析语境下的“植田调”解读
画与理
海量标注语料库智能构建系统的设计与实现
主题语境八:语言学习(1)
主题语境九:个人信息(1)
《漫漫圣诞归家路》中的叙述者与叙述话语
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
雷人话语
雷人话语