基于GloWbE语料库的英语与格交替多因素分析

2019-11-24 06:55李夷
黑龙江教育学院学报 2019年10期

李夷

摘要:基于GloWbE语料库的四个区域变体和两个网络文本体裁,对英语与格交替进行混合效应回归分析。分析发现:各个区域变体和文本体裁中存在一套固定的语言内因素(成分重量比、有定性等),影响了与格交替的变体选择,这些因素的影响是概率性的(probabilistic),任何单因素都无法独立决定语言使用者的选择;各个区域变体和文本体裁内可见不同程度的差异,主要体现在变体(体裁)间对相同语言内因素不同的敏感程度。针对统计分析结果,从语言接触等角度尝试解释,同时也提出对未来心理语言学实验提供“汇流证据”(converging evidence)的期待。

关键词:与格交替;混合效应回归分析;英语区域变体

中图分类号:H313文献标志码:A文章编号:1001 7836(2019)10 0119 03

近年来涌现出一系列针对英语与格交替(如例1)的实证研究,将这一语言现象视为一种概率性语法(probabilistic grammar),即受到多个语言内因素制约,且无法由任何单一因素限定的语法现象。

我们的研究沿袭了前人的研究对象和方法,并使用了GloWbE语料库(Corpus of Web based Global English)获取网络语言数据,从全新的语料和文本体裁来分析这一语法现象。

一、前人研究

针对英语与格交替这一现象,前人研究主要采用了Labov(1972)的变异角度,认为这属于“相同语义内容的不同表达方法”[1]。Bresnan(2007)采用了心理语言学实验的方法,较早分析了美国和澳大利亚英语使用者在不同语言因素影响下,选择与格变体的情况,并发现多个语言内因素概率性地影响了受试者的变体选择[2]。随后,Szmrecsanyi等人(2016)和R.thlisberger等人(2017)使用ICE语料库(International Corpus of English)这一囊括全球多个英语变体的小规模语料库进一步探索了与格交替,并逐步确定了一系列影响交替选择的语言内因素[3]。以上这些研究加深了我们对英语与格交替这个概率性语法现象的认识,并揭示了跨区域和文本体裁的语法变异[4]。但是,我们尚不清楚这些发现是否在更大规模的语料库和网络文本中存在普遍性。

二、语料来源和标注

为研究上述问题,本研究使用了“Corpus of Web based Global English”(GloWbE)作为真实语料来源。

我们选取了四个区域变体代表模型发展的四个阶段:英国英语(British English, BrE)代表传统母语变体(standard),加拿大英语(Canadian English, CanE)代表完成了变异且显著不同于传统母语的五阶变体(differentiation),香港英语(Hong Kong English, HKE)和牙买加英语(Jamaican English, JamE)分别代表发展中的三阶变体(nativization)和四阶变体(endonormative stabilization)。以与格构式高频的动词(bring, deliver, offer, send, explain, leave, refuse)为关键词,我们在GloWbE语料库的以上四个变体模块进行检索,对结果进行进一步的人工语料清理(包括与格语义筛选和确保目标句的可替换性),获得语料数据共2 319条。

根据前人研究,我们对这2 319条数据的以下参项进行了标注。

1.成分重量比(Weight ratio)

该项表示与格中NPrecipient和NPtheme的长度,我们对此进行了二元标注:首先以字母为单位,计算NPrecipient除以NPtheme后的自然底数(ln (# of characters in recipient/# of characters in theme)),数值大于0表示NPrecipient长于NPtheme,数值小于0则反之。

2.句子复杂度(Complexity)

该项表示与格构式中NPrecipient和NPtheme成分的句法复杂程度,包括两种情况:成分中有后置定语(赋值为complex)或无后置定语(赋值为simple)。

3.成分语义(Pronominality)

该项表示NPrecipient和NPtheme成分的名词语义分类,这里为了分析的简洁性和后续统计分析的可行性,我们将成分进行了二元赋值:成分为代词时赋值为pronoun,成分为其他非代词时赋值为non pronoun。

4.有定性(Definiteness)

该项涉及两个赋值:NP成分表定指时赋值为definite,成分表示非定指时则为indefinite。這里我们参照了Garretson等人(2004)的有定性分类原则,即所有专有名词、代词为中心词和[定冠词]+NP结构的成分为定指,其他在非定指解读(There is/are ___)中成立的成分为非定指[5]。

5.动词语义(Verb sense)

该项考察与格交替句子中的动词语义类型,并将其分为四个值:具体事物传递(level 1)、未来允诺传递(level 2)、阻止式传递(level 3)和抽象传递(level 4)。

6.区域变体(Variety)

该项表示与格交替句子所属区域变体,包括四个值:英国英语(BrE)、加拿大英语(CanE)、香港英语(HKE)和牙买加英语(JamE)。

7.文本体裁(Register)

该项表示与格交替句子所属文本体裁,包括两个值:公共网站(Web)和私人博客(Blog)。

三、多因素分析和结果

1.回归模型

针对目前的数据,我们将动词语义(Verb sense)和文本体裁(Register)作为随机效应,其余设置为固定效应,并同时考虑了两个语言外部参项(区域变体和文本体裁)与语言内部参项的互动。具体统计分析依托R软件中的{lme4}(Bates et al, 2015)软件包完成[6]。

2.结果

(1)随机效应阐释

该效应下的两个参项数据中,文本体裁相比动词语义呈现了更高的密集度,这表明动词语义参项下的多个赋值可能对结果有较为不同的作用[7]。表1中,正值表示该赋值下结果偏向于与格变体,负值则表示结果偏向于双及物变体。我们可以观察到,具体事物传递(level 1)和抽象传递(level 4)在英语中更偏向于使用与格变体,而双及物变体在未来允诺传递(level 2)和阻止式传递(level 3)中更为普遍。

以上结果验证了前人在利用更小语料库数据获得的结果(Bresnan & Ford, 2013),同时还和双及物的形式研究结果一致,即英语的具体事物传递事件强调了事物从施事(agent)向受事(recipient)的移动,因此和与格构式关系密切[8]。

(2)固定效应阐释

统计模型中的固定效应显示了各参项对与格交替的影响方向及影响显著大小(p值),同随机效应一样,正值表示该参项下介词与格变体更显赫,负值表示该参项下双及物变体更显赫。具体结果见表2。

表2的数据验证了很多前人对与格交替的心理学实证研究结果(Bresnan, 2007; Bresnan & Ford, 2013):首先,成分的语义特征深刻影响了与格的选择, 如果theme为代词,

各参项固定效应(预测目标为

则偏向选择介词与格变体;其次,成分词长也对结果有很大影响,当recipient长于theme时,该成分往往会偏向于后置,进而导致结果为介词与格变体;最后,有定性也显示出了一定影响,定指的成分会先于非定指的成分出现在句子中[9]。

从以上固定效应分析中,我们已经可以发现一个较为明显的英语使用者与格交替选择模式:更短、句法语义和信息成分更简单的成分会被放置在更长、句法语义和信息成分更复杂的成分前[10]。

(3)参项间互动

为了进一步分析语言内各参项(语义、有定性、重量比等)和语言外参项(区域变体和文本体裁)的关系,我们建立了参项间的互动回归模型,并使用Anova分析的方式收敛模型,获取有显著关联的参项。有关结果展示在表1和表4中。

结合表2和表3,我们发现了调查的英语区域变体间的几个显著差异:第一,加拿大英语对recipient成分的語义有更高的敏感度,而牙买加英语对此参项敏感度明显更低;第二,theme成分的句法复杂度在加拿大英语、香港英语和牙买加英语这几个变体中的敏感度明显比英式英语的高。

由表4可知,文本体裁仅和一个参项有显著互动,即成分重量比。该互动表明当文本来自公共网站(Web)时,成分重量比对与格结果影响更大,文本会在recipient长于theme时选择介词与格变体,即把更短的成分置于更长的成分后。

四、讨论

1.主要发现

以上对语料库数据的回归分析利用更大规模的数据样本(GloWbE语料库)印证了前人对英语与格交替的研究(Bresnan, 2007; Szmrecsanyi et al,2016;R.thlisberger等人,2017):与格变体的选择受到多个语言内因素的影响,这种影响是概率性的(probabilistic),不能由任何单因素决定[11]。这一发现很大程度上加强了MacDonalds (2013)提出的英语与格变体的心理处理模型。该模型认为,该语言构式的处理服从一个“简单优先”(easy first)的原则:语言使用者在说话时会优先选用那些更容易储存在长期记忆中的语言成分,因此更短、句法语义更简单、使用更频繁且在话语中已经给出的成分会早于其他成分被处理[12]。除了与前人研究呼应,本研究还发现了网络文本体裁对英语与格交替的影响。通过把两种网络文本体裁(公共网站和私人博客)纳入回归模型,我们揭示了不同体裁在选择与格交替时的不同特征:公共网站对语言内因素(成分重量比)有明显的敏感性,而私人博客则对这些规则没有这种显著的互动关系。

2.区域变体差异的分析

虽然影响英语使用者与格交替选择的概率语法总体上是一致的,但我们仍然发现了不同区域变体之间对不同语言内参项的敏感度差异(见表3)。这种差异甚至出现在了与格两种变体的总体偏好中:我们根据文中表格进行了估计值和p值的交叉列联比较,比较可见,加拿大英语和香港英语对介词与格变体有更强的偏好,而牙买加英语则更偏向于选择双及物变体。

我们在前人研究的基础上试图解释这种区域性变异。在我们的研究对象中,牙买加英语和香港英语的使用者都处于这种语言接触环境下,并且往往以其他语言为母语(牙买加克里奥尔语和粤语),这种接触很可能就引起了以上观测到的变异[13]。

毋庸置疑,上述解释仅仅是探索性的,我们还需要更多实证研究来证实这些区域性变异。

3.当前研究的局限与未来展望

本研究利用语料库真实数据和回归模型,对英语与格交替进行了多因素分析,揭示了不同语言内和语言外因素对与格交替现象的影响方向和规模,但我们的研究还存在一些局限。首先,我们考虑的区域变体样本量并不全面:英语作为一种极为广泛使用的多中心(pluricentric)语言,当前的与格交替研究已探索了11种遍布全球的区域变体,而我们当前调查的只有其中的4种。这种不足有可能影响结论的普遍性,也敦促我们进一步扩大样本量,在接下来的研究中获得更具有普遍价值的发现。

五、結束语

本研究对GloWbE语料库中与格交替各影响因素进行了句法语义参项标注和分析,根据混合效应回归模型,获得了各因素对与格两个变体选择的影响方向和力度,用真实语料和统计数据描绘了英语与格交替在各区域变体和文本体裁中的共性和差异。一方面,我们发现在更大的语料范围下,前人研究基本得到了证实。另一方面,我们通过检查区域变体与文本体裁两个语言外因素和诸语言内因素的互动,还发现了各区域变体和网络文本对成分重量比、语义特性等因素不同的敏感度。我们将在未来采取更大样本规模的实证分析,并借助心理学实验的结果,在当前发现的基础上加深对与格交替的认识。

参考文献:

[1]Bates D., Maechler M., Bolker Ben., Walker S. Fitting linear mixed effects models using lme4[J].Journal of Statistical Software, 2015(67):1—48.

[2]Biber D., Egbert J., Zhang M. Using corpus based analysis to study register and dialect variation on the searchable web[C]//In Eric Friginal (eds.) Studies in corpus based sociolinguistics. New York: Routledge, 2018.

[3]Bresnan J. Is syntactic knowledge probabilistic? Experiments with the English dative alternation[C]//In Sam Featherston & Wolfgang Sternfeld (eds.) Roots: Linguistics in search of its evidential base, 2007(96):77—96. Berlin: Mouton de Gruyter, 2007.

[4]Farquharson T. Joseph. Jamaican[A].In: Michaelis, Susanne Maria & Maurer, Philippe & Haspelmath, Martin & Huber, Magnus (eds.) The survey of pidgin and creole languages. Volume 1: English based and Dutch based languages[C].Oxford: Oxford University Press, 2013.

[5]Garretson G., M. OConnor C., Skarabela B., Hogan M. Coding practices used in the project optimality typology of determiner phrases[OL].corpus.bu.edu/documentation/BUNPCorpus_coding_practices.pdf, 2004.

[6]Krifka, Manfred. Semantic and pragmatic conditions for the dative alternation[C].Proceedings of the KASELL 2003 International Conference on English Language and Linguistics, 1—14. Hanyang University, Seoul, Korea, 25—26 June, 2003.

[7]Labov, William. Sociolinguistic patterns[M].Penn: University of Pennsylvania Press, 1972.

[8]Mac Donald, Maryellen C. How language production shapes language form and comprehension[J].Frontiers in psychology, 2013(4):226.

[9]Matthews S., Yip V. Cantonese: A comprehensive grammar[M].New York: Routledge, 2013.

[10]Rthlisberger, M, Grafmiller, J & Szmrecsanyi, B. Cognitive indigenization effects in the English dative alternation[J].Cognitive Linguistics, 2017: (28(4)):673—710.

[11]Szmrecsanyi B., Grafmiller J., Heller B., R.thlisberger M. Around the world in three alternations[J].English World Wide, 2016,37(2):109—137.

[12]Thomason Sarah G. Language contact: An introduction[M].Washington,DC:Georgetown University Press, 2001.

[13]Wolk C., Bresnan J., Rosenbach A., Szmrecsanyi B. Dative and genitive variability in Late Modern English: Exploring cross constructional variation and change[J].Diachronica, 2013,30(3):382—419.