基于语料库的医学学术英语词块表的研制及其特征研究

2019-11-14 17:05王慧敏黄河科技学院
长江丛刊 2019年24期
关键词:高频词词块语料

■王慧敏/黄河科技学院

一、研究背景

20多年的词块研究表明,词块在语言使用和语言习得中有重要作用。专门用途英语和学术英语的发展使得词块研究渗入到学术英语领域,“词块知识是学术写作的先决条件”(王芙蓉&王 敏,2013)。2010年,Simson-Vlach和 Ellis在语料库的基础上,通过多方验证的方法研制了学术词块表(AFL),对于学术英语词块研究和教学有指导意义。

然而,AFL是跨学科编制的,它能否全面反映具体学科中高频词块使用的具体情况呢?基于此,本研究将通过研制医学研究领域的学术英语词块表并描述其特征来展示医学学术研究领域的词块使用情况,以期为医学学术英语写作和教学提供帮助。

二、研究设计

(一)研究方法

本研究将通过定量分析和定性分析相结合的方法,采用基于语料库的计算机自动提取和人工筛选的方式研制医学学术英语词块表,并描述本词块表高频词块的特征。

(二)语料及工具

本研究所采用的语料来自“西安交通大学医学研究论文语料库”。该库包含128篇医学研究论文,均为英语本族语者撰写,共515024词。该语料库具备一定规模,建库方法科学,所选语料具有代表性,能满足本研究需求。本研究使用AntConc软件进行词块的自动提取。

(三)词块提取标准

基于对词块界定的研究,采用许家金(2007)的界定标准,即“词块是结构相对完整,使用达到一定频率,能表达某种意义的连续词语片段”。据此,本研究词块的提取标准包括:

(1)词块长度:词块长度应大于等于2个单词,本研究设定词块长度为3~5词。

(2)词块频率:Cortes(2004)认为出现频率是词块的决定性特征。以往研究中,对词块频率的设定从10到40次每百万词不等。本文将采用20次每百万词,保证提取的词块具有代表性。

(3)分布范围:根据 Biber(1999)的研究,词块至少应在目标语料库中的5篇语料中出现。本研究亦采用此标准。

(4)词块的合理性:不少研究者认为,为了保证所选取词块有意义,应在语料库软件自动提取后,对初步所得词块进行人工筛选,剔除“语法结构不完整或意义表达相对不完全的噪音序列”(许家金,2007)。本研究人工剔除诸如 is in the、and in the、and of the等结构或意义不明确、不完整的无意义词块。

三、语料分析

利用AntConc软件Cluster/N-Grams选项卡,按照已设定的标准进行目标词块的提取,得到初步的医学学术英语词块表,其中总类符数为1630,总形符数为33398。

接着,对1630个词块进行人工筛选,剔除结构和意义不完整的词块、非语言单位、人名、地名,同时查阅医学英语词典,以保证在医学上常见的、有意义的词块不被剔除,最终得到包含1118个词块的医学学术英语词块表。

四、数据分析及讨论

将依据提取标准和人工筛选所得到的1118个词块按在目标语料库中出现频次高低排序,得到最终的医学学术英语词块表,本研究重点关注所研制词块表中的前200个高频词块。

(一)医学学术英语词块表高频200词块频率分布

作为词块的决定性特征,频率也是词块研究的重点。在本文所研制的医学学术英语词块表的前200个高频词块中,有67%的词块频率在40~98次每百万词,33%的词块频率甚至大于等于100次每百万词。这表明,这200词块是医学学术英语中具有代表性的词块,也是本文将要研究的重点词块。

(二)医学学术英语词块表高频200词块的医学学科特征

在200个高频医学学术英语词块中,有一部分词块揭示了医学研究领域的内容、主题、研究对象、研究方法等,或者包含医学术语、半术语,属于具有鲜明医学学科特征的词块。

例如,在这些具有医学特征的词块中,“in patients with”在整个医学学术英语词块表中占据第二位,共出现了215次。在医学英语中,这个结构确实很常见,一般“with”后面会接某种疾病的名称,表示“在患有……病的病人中”的意思,例如:“in patients with acute pancreatitis in which none of the common causes of pancreatitis can be indentified,drugs should be considered as a possibility”(该例句来自目标语料库)。而“patients with a”“patients who had”“for patients with”后也常接疾病名称,表示某种疾病的患者。这些词块揭示了医学研究领域的研究对象:病人(患者),且在医学研究论文中很常见。

除此之外,还有词块包含有医学术语,同样也具有鲜明的医学特色:the presence of,the incidence of,the prevalence of,the treatment of,the immune system,the diagnosis of,follow up period,for the treatment of,the progression of等。 其 中“the presence of”表示(疾病、症状)的出现,“the incidence of”“the prevalence of”表示发病率/患病率。

另外,在医学术语学中还有一些词,称为“半医学术语”,即普通词汇,但在医学英语中具有特殊含义(王重稼,1995,p799)。包含“半医学术语”词汇的词块例如:“the duration of(一般指治疗、用药、疾病、症状等的持续时间)”“the onset of(发病)”“the management of(治疗)”“follow up period(随 访 期 )”“the efficacy of(药效、疗效)”“the progression of(疾病进程)”也展现了医学学科特色。

还有词块如“the control group”“men and women”在医学研究论文中也常出现,揭示了研究方法和研究对象。在医学实验中,常需要对照组“the control group”,而 性 别“men and women”也是常用的对比指标。但是这些词块在其他学科中或许也很常见,需进一步通过跨学科词块使用对比来验证是否为医学特有的高频词块。

五、结语

本研究主要以医学研究论文语料库为基础研制了一个医学学术英语词块表并描述了其特征。通过研究该词块表中频率最高的200个词块发现:这些词块的频率均在40次每百万词之上,且这些词块中包含不少能揭示医学研究主题的词块,具有鲜明的学科特色。

研制医学学术英语词块表有一定意义,在医学学术英语写作与教学中,结合AFL与医学学术英语词块表,能够为医学学术英语写作与教学提供有益的指导,提高英语学习者医学学术英语论文写作的质量。

猜你喜欢
高频词词块语料
30份政府工作报告中的高频词
省级两会上的高频词
海量标注语料库智能构建系统的设计与实现
28份政府工作报告中的高频词
省级两会上的高频词
如何在高中英语词汇教学中运用词块理论
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
词块在英语写作教学中的应用
英语专业学生与本族语名人演讲中词块使用特点探究