基础英语课堂话语语料库的建构与研究功能

2010-12-06 10:33刘永兵林正军
当代外语研究 2010年8期
关键词:语料语料库外语

刘永兵 林正军 王 冰

(东北师范大学,长春,130024)

1. 课题背景及缘起

自上世纪90年代末始,我国开始对原有基础教育课程进行全面调整,由此开展了新一轮的基础教育课程与教学改革。2001年,教育部颁发了标志着这新一轮基础教育课程改革的指导性文件《基础教育课程改革纲要(试行)》,颁布了义务教育阶段17个学科18种课程标准的实验稿,审定了20个学科(小学7科、中学13科)的中小学课程实验教材,颁行了一系列教材管理的文件。自2002年始,新的课程标准和教学改革在全国实施。

纵观我国历次基础英语课程与教学改革可以发现,它们均是自上而下推行,改革的理念、内容、策略等却少有系统的实证研究支持,实践方面的系统性长期研究则更少。查阅近几年来公开发表的相关文献就可以发现,除少数个别案例研究外,已有的研究均属综述性或新课标解读或经验式讨论,无一是基于实证数据的大规模系统研究。

国外的长期实践及研究表明,长期系统性的实证研究是大规模课程与教学改革获得成功的必要条件,比如对进行中的课程与教改实践作跟踪研究就显得意义非凡(Lukeetal. 2005;Lingardetal. 2002)。国外很多新的课程和/或教学理论均衍生于此就很好本文系国家社会科学基金重点项目(编号07AYY003)的研究成果,并得到东北师范大学东北三省“教师教育创新实验区”学校师生对本研究的大力支持。“创新实验区”学校师生为本研究数据的采集提供了无私的帮助,在此一并表示感谢。

地说明了这一点。如Hymes(见Austinetal. 2003)的交际能力理论源于他和他的研究队伍在美国国家教育研究院对不同经济背景下小学生的语言使用与学校语言教育关系的大规模研究结果;Bernstein(1996)的教学话语理论(pedagogical discourse)是基于他对伦敦工人和中产阶级子弟的语言使用与学校教育语言的关系所得的大型系统研究数据;而Halliday(1985)构建系统功能语言学的灵感和实证证据来源于他六十年代在伦敦教育学院主持的大规模英语教学研究项目和对自己儿子语言习得的系统观察。

由此可见,在我国新一轮教改过程中,开展长期系统性的实证研究势在必行,意义重大。一方面可以为正在进行的改革提供基础的实证数据,以进一步提高我国基础英语的教学效率;另一方面也能够为构建具有我国本土特色的英语课程和教学理论提供有用的第一手实证资料。基于这些想法,我们设计了“影响中学基础英语教学质量的多因素系统研究”课题,并得到国家社科基金的重点支持。这一课题共包括四个子项目:(1)英语教学环境因素研究,(2)英语教师可变因素研究,(3)学生可变因素研究,(4)英语课堂教学因素研究。我们试图通过对这四个子项目的探索,分析当中涉及到的四组主要变量之间与教学效果的相关性和因果关系;并通过对不同类型学校的课堂教学因素的比较分析,发现或构建有利于提高中学英语教学质量的课堂教学模式。研究对象为东北地区的城市重点、普通和乡镇三种不同类型的中学。

课堂教学是影响中学英语教学质量的最重要因素之一,因此,在该项目的设计过程中我们把它作为项目的主线。在研究方法上,为实现规模化系统性的目的,我们同时采用课堂观察量表观察实录和课堂话语语料库两种主要研究方法。前者我们已有专文讨论(见刘永兵、王冰、林正军2009),在此不再赘述。这里的重点是介绍东北地区中学英语课堂话语语料库的建构过程及其功能。我们首先对国内外语课堂话语研究作简要回顾和述评,阐述中学英语课堂话语语料库在课堂教学研究中的重要性,然后对建库过程进行描述,最后讨论所建库的主要教学和研究功能。

2. 文献综述

外语课堂话语不仅是外语教师和学生完成教、学计划的主要媒介,而且也是学生外语输入输出的重要表现形式。因此,其在课堂教学和学习者语言习得过程中起着不可替代的作用,正如已有研究所表明(Cazden 2001)的那样,每节外语课话语的数量和质量很大程度上影响甚至决定整个课堂教学的成败。

近几年来外语课堂话语研究也已引起我国外语界学者的关注,并进行了很多实证研究(详见林正军等2009),概括起来主要集中在三个方面:(1)课堂的话语量研究(如何安平2003;张敏2002)。这些研究发现,教师话语量远远超出学生话语产出,学生参与课堂活动和发表见解的机会很少,教师与学生之间缺少交流,学生语言交际能力得不到培养。(2)课堂提问、师生间的交互调整以及教师对学生应答的反馈研究(如胡青球等2004;杨雪燕2007)。这类研究发现,教师提问形式和提问策略单一,不能为学生互动提供空间,没有起到提高学生语言输出能力的作用。(3)中外教师英语课堂互动模式对比研究(如胡青球2007;李素枝2008)。这些研究发现,在我国教师课堂里“教师-学生-教师”交互模式出现的频率明显高于外籍教师课堂,但学生启动话步则少于外籍教师课堂。

这些研究在一定程度上揭示了我国英语作为外语教学课堂话语的一些独有的特征,其发现对我国英语课堂话语研究和改进英语课堂教学有一定的参考价值。然而,国内课堂话语研究仍然存在一些问题,如课堂话语质化分析多是对课堂某种现象的百分比描述,而非真正意义上的“会话”分析或“话语”分析;更为重要的问题是,所进行的研究多为零星个案,少有系统性的规模化研究,所发表的研究论文中的录音转写语料贫乏,最多也就限于几节课。这些问题使得它们的研究结论推广受到了很大的限制。

话语分析是广泛用来研究外语课堂话语的方法(详见刘永兵、王冰2008;Green和Dixon 2002;Hall和Walsh 2002),然而,由于技术的原因,它在很大程度上只适用于小样本或个案研究,不适于较大样本的数据分析,从而影响其研究结论的推广。计算机技术在语言学研究的应用以及语料库语言学的发展则使解决这一问题成为可能,一方面它能用于采集大样本课堂话语数据,另一方面语料库方法也为更精确的话语分析提供自动化平台(Conrad 2002;Wegerif和Mercer 1997)。

充分利用计算机语料库方法,分析大样本课堂话语已成为语言学界和信息处理学界共同关心的课题(Conrad 2002;Kennedy 1998)。我国科学系统的英语书面语料库的开发建设始于80年代,经验已经相当成熟和发达(卫乃兴2004;甄凤超2010),但英语口语语料库,尤其是外语课堂话语语料库的建设却仍处在萌芽阶段。事实上,世界上其他语言的口语或课堂话语语料库的开发利用也极为有限。国际语料库语言学家(Kennedy 1998:20)曾指出,口语语料库最能直接真实反映一种语言的本质,也因其昂贵的开发成本,研究价值弥足珍贵。在常规的课堂教学研究中,数据的获得主要依赖观察量表或问卷调查或个案话语分析,然而因为它们自身方法上的局限性已无法满足以教育改革为目的的对课堂话语规模化研究的要求。所以,建构可提供大规模真实录音、录像、文本三维语料的外语课堂话语语料库势在必行。

3. 东北中学英语课堂话语语料库的建构

语料库构建的整个过程包括前期准备、语料收集、文本转写(transcribing)、清理(cleaning)、语料标注(annotating)和语料库的初步生成等。其中,前期准备包括项目论证、工具设计、调查员培训、样本选取(包括样本的确定)及先导研究(pilot research)。

我们大规模语料收集正式开始之前首先进行先导研究。先导研究属于试验性研究,主要目的是检测调查工具以及数据收集程序和语料库的建构方式的可行性。在此阶段,我们在收集处理10节课的基础上,选取了6节课,进行先导建库试验。根据先导试验结果,我们再对调查工具和数据收集的过程进行改进,使人员配备、设备使用、收集方式和数据管理更趋优化合理。限于篇幅,这里只对样本确定、语料收集、语料库建构及其功能等作必要介绍。

3.1 调查点及样本确定

在调查点取样过程中,首要考虑的是样本的典型性,关涉到的因素是语料的真实性和覆盖面的样本构成比例。在项目启动时,正值东北师大与东北地区地方教育管理部门以及中学共同创建“教师教育创新东北实验区”,该实验区共涉及中学82所,外语学院每年有8位教师(含课题组主要成员)到实验区指导师范生实习工作。出于方便的考虑,我们也就选取实验区为研究基地,以便在指导实习的同时与所在学校外语教师开展研究合作,按项目设计收集数据。调查点完全依教务处随机分派外语实习指导教师来确定,未加任何干预,它正好也符合项目开始所设计的城市重点中学、普通和乡镇中学的大体比例。具体样本涉及调查点(中学)21个,其中城市重点中学5所、普通中学11所、乡镇中学5所。

3.2 语料获得

在调查点取样确定以后,我们使用了三种研究工具作为语料获得手段:问卷调查、访谈、课堂观察。这三种研究工具对相同样本进行数据收集所具有的科学性和关联性不言而喻。它们不仅可以达成三角互证,同时使课题设计的四组主要变量之间或与教学效果的相关和因果关系分析成为可能;并能通过对不同类型学校外语教学的多影响因素比较分析发现或构建有利于提高中学英语教学质量的因素关系理论模型。为最大限度地保证科学性,我们在设计这些研究工具时,特别注意以下四条原则:

1) 可最大限度采集课堂语料;

2) 简单实用,可操作性强;

3) 稳定性和可重复性;

4) 灵活性和适用性,即对不同类别中学具有相同的信度(reliability)和可靠性(validity)。

考虑到语料选取过程对所建库料的信度及代表性至关重要,同时国际上对课堂话语语料库语料的定义和取样方式缺乏统一规范,我们对上述三种语料获取方式逐一介绍。

3.2.1 问卷调查

首先,为了能够收集到课题预设的影响中学基础英语教学质量的多因素数据,我们设计了4套问卷调查表:1)《影响中学英语教学质量多因素:中学生英语学习因素》;2)《影响中学英语教学质量多因素:中学英语教师因素》;3)《影响中学英语教学质量多因素:英语教学环境因素》;4)《影响中学英语教学质量多因素:英语教师知识教学信念因素》。每份问卷均分为背景信息和影响因素两个部分。其中背景信息涉及所调查学校的类型(重点、普通、乡镇)、年级、班级、教师学生经济状况、性别、年龄、考试成绩等。这些数据除有助于确认研究对象,方便数据收集外,还有利于对数据进行深入的多因素分析;此外,所收集的关于研究对象的丰富背景知识也有利于我们的调查人员与所调查的学校展开更积极有效的合作研究和教师专业发展培训,从而大大提高了数据收集的数量和质量。我们共发放第1套问卷2312份,回收有效问卷2234份;第2套问卷2312份,回收有效问卷2208份;第3套问卷1280份,回收有效问卷1235份;第4套问卷900份,回收有效问卷733份。

3.2.2 师生访谈

作为主要的语料收集工具之一,师生访谈设计为每次30分钟左右,统一使用专用机器对所选学校进行录音录像,并直接以数码音频储存。为尽可能减少访谈对象的顾虑,我们的研究人员在访谈技巧方面,做了特别的培训和试验。访谈过程和话题采取开放自由式(unstructured open-ended interview)。我们现已访谈教师19人和学生50人,并已将访谈的音像转写成语料入库。

3.2.3 课堂观察

我们设计了两个主要课堂观察的研究工具:一是参考国外课堂观察系统的设计经验,结合我国中学新课标提出的课堂教学理念和原则设计的《英语课堂观察系统》(见刘永兵等2009);二是建构本文引介的《基础英语课堂话语语料库》。我们使用《英语课堂观察系统》对所选定样本的英语课堂进行一个单元(unit)的观察实录,每个单元①涵盖4-6课时(lesson),一般为一个星期,最多不超过两个星期。课堂观察的最基本单位是每一课时中的“课段(phase or transaction)”,即具有某一特别课堂组织形式的时间段,在这种课堂组织形式中师生会进行某种特定的教与学的活动。教学单元由若干课时构成,课时由若干课段构成。课段一般会持续一段时间(有长有短),以完成某种特定教学任务。课段由若干“回合(exchange)”构成;回合又由若干“话步(move)”构成;话步再由若干“话目(act)”构成。在课堂观察实录的同时对所观察课堂进行录音录像,为建构《基础英语课堂话语语料库》收集原始课堂语料。现共收集录音录像57单元、276节课,并已将这些语料全数转写成文字入库。

3.3 语料库的生成

我们参考国际课堂话语语料库设计的相关规范及其赋码系统,利用文本转写专家Transcriber 4.0对所收集的课堂、访谈录音和录像语料进行了文本转写②及清理、词性标注和人工纠误、数据储存等工作,这样初步建立了第一个东北地区基础英语课堂话语语料库。建库过程可简单图示如下:

图1 数据和课堂话语平行资源库

在语料库生成过程中,词语切分和词性标注是我们遇到的主要问题,正如卫乃兴(2004)所指出的,目前尚无开发口语语料库所需的专用数据分析软件。我们采用的是将转写后的课堂话语文本存储成Excel格式,然后利用数据库的导入工具对这些Excel文件进行格式转换,一份转换为成品文本,为下一步的词性标注做准备,一份直接导入数据库以作为原始语料的拷贝和未来语料处理分析的语料基础。我们利用目前较为流行易用的GoTagger软件,将课堂话语的文本语料进行自动分词与词性标注,准确率达98%以上。这里需要说明的是,任何语料库除了自动分词和词性标注外,对话轮中的词组、句子、话步等信息均不能实现自动标注,需要根据不同的研究目的设计相应的标注系统(如词汇语法复杂度、语码标识语、话轮互动等)。然后再将标注后的文本导入数据库,利用数据库强大的数据建模、管理、控制、统计、分析和输出技术,通过数据库服务器端的设计编程,提取相关数据,对课堂话语语料进行综合处理,实现多方位查询和课堂话语语料分析的目的。

3.4 语料库语料描述

3.4.1 容量

该项目设计期限为3年,于2007年6月立项,2007年10月正式启动。经过近三年的努力,截至目前该语料库收集了东北地区10个市县21所中学57个单元、276节课真实课堂的音像语料。我们已借助Transcriber 4.0按照转写规范将这些语料全数转写成文字,进行建库。建库后,我们采用自行研制的词汇语法复杂度、语码标识语、三话轮互动等标注系统,对部分语料进行了人工标注。由于语料标注耗时费力,截至目前我们只标注完成96节课。比对国际知名课堂话语语料库ClassBank English Corpus,我们所标注后语料库的基本信息如下表1所示:

表1 两大语料库抽样后基本信息统计③

所建库共包含课堂话语录音语料190多小时,由课堂观察录音、录像、文本三部分组成。从表1可以看到,语料库规模为英语词次总量(token)147,454词次,汉语300,464字次,英语类符总量(Type)3,952,句子总数为21,467个。截至目前该语料库与国际知名课堂话语语料库ClassBank English Corpus的总容量相当。

3.4.2 功能与研究目的

该课堂话语语料库是对中学英语课堂进行大规模研究所设计的,主要用于对课堂话语研究的多方面质化和量化研究。其研究功能与目的可概括如下:

1) 可以用于作为中介语的教师话语词汇覆盖面和丰富度、语法复杂度、语码标识语、言语行为研究;

2) 通过对课堂话语进行标注,可以用于课堂三话轮互动、教师独白、教师提问、教师反馈等研究;

3) 可以用于比较所发现课堂话语模式在不同类型学校(如重点/普通、城市/农村),不同班级/教师、不同层次(如不同年级)课堂的异同;

4) 可用于课堂教学(模式)与学生英语学习效果(学习成绩)的关系研究;

5) 可以与配套收集的问卷数据(平行数据库)结合,用于研究课堂教学(某种模式)与教师教学理念/信念,或学生学习动机、学习策略等的关系研究;

6) 为学生教育实习前的微格教学提供真实的多模态语料,即音频、视频、文字、图表信息,可以对实录课堂进行分析、反思、重新设计等实践活动;

7) 语料库可提供课堂教学的案例分析,为师范生和在职教师进行教师专业发展培训提供多模态的教学案例素材。

4. 结语

我们扼要报道了“中学课堂话语语料库”的立项背景,语料收集的过程及方法,以及其他相关的基本情况。目前,建库工作已近尾声,课题组成员正在对各种话语、语言现象作深入的分析研究,特别是与问卷调查所得的背景信息、学习者因素、教师因素等相结合的研究,开发利用前景令人鼓舞。语料库的最后完成,将为深入研究作为中介语的教师话语语言发展、验证二语习得理论、特别是发掘中国学习者外语特点等多方面提供难得的语料资源。目前,在深度研究和数据维护方面还有很多工作正在进行。语料库正式完成后,将挂接在东北师大外国语学院东北地区基础外语教学研究中心的“研究资源库”下,有兴趣者可通过http:∥202.198.133.70/Speechinclass/点访。我们也考虑将语料库部分功能上网发布,与国际有关课堂话语语料库(如Classbank English Corpus)建立链接,实现资源共享,为课堂研究者、语言工作者提供一种科学便捷的集成环境和先进的技术手段。

附注:

① 单元由任课教师定义为:为完成英语课程纲要所规定的某一特定教学主题或知识构块所需的一段持续时间,一般为4-6个课时(一课时约40分钟)。

② 课堂话语语料库的文本转写方式一般有两种:篇章性文本转写(orthographic/plain text transcription)和语音学转写(prosodic/phonetic transcription)。语音学转写的语料库称Speech Corpus,其语料主要标注语音学特征,如音位特点、重音、节律及语调等。本语料库为普通的课堂话语语料库,除进行了篇章性文本转写,也对停顿、话语重叠等进行了赋码,但未对语音学特征,如音位特点、重音、节律进行赋码。关于转写软件,请见http:∥trans.sourceforge.net/。

③ 依据Log-likelihood值的计算原理,检验表1中五组数据是否具有显著性差异。例如,形符一列,基础英语课堂话语语料库为147,454;ClassBank为147,547,两个数据相加得到295,001,将其看作一个样本的总容量,对比147,454与147,547在295,001这个总容量中是否具有显著性差异,即是否具有形符上的可比性。在线计算网站可登录http:∥ucrel.lancs.ac.uk/llwizard.html。表1的p<0.0001,显著性突破值为15.13,由此可以看出,两个语料库抽样后形符具有可比性,但类符基础英语课堂话语语料库显著过少,句子总数显著过多,平均单词长度和平均句子长度基本相当。

④ 我们尚有部分已收集的语料正在转写和编码中,以后将有计划连续扩充库容。

Austin, H., Dwyer, B. & P. Freebody. 2003.Schoolingthechild:Themakingofstudentsinclassrooms[M]. London: RoutledgeFalmer.

Bernstein, B. 1996.Pedagogy,symboliccontrolandidentity:Theory,research,critique[M]. London: Taylor & Francis.

Cazden, C. 2001.Classroomdiscourse:Thelanguageofteachingandlearning(2ndedition.) [M]. Portsmouth, NH: Heinemann.

Conrad, S. 2002. Corpus linguistic approaches for discourse analysis [J].AnnualReviewofAppliedLinguistics(22): 75-95.

Green, J. & C. Dixon. 2002. Exploring differences in perspectives on microanalysis of classroom discourse: Contributions and concerns [J].AppliedLinguistics(3): 393-406.

Hall, J. K., & M. Walsh. 2002. Teacher-student interaction and language learning[J].AnnualReviewofAppliedLinguistics(22):186-203.

Halliday, M.A.K. 1985.AnIntroductiontoFunctionalGrammar[M]. London: Edward Arnold.

Kennedy, G. 1998.AnIntroductiontoCorpusLinguistics[M]. New York: Addison Wesley Limited.

Lingard, R. et al. 2002.TheQueenslandschoolreformlongitudinalstudy[M]. Brisbane: Education Queensland.

Luke, A. et al. 2005. Towards research-based innovation and reform: Singapore schooling in transition [J].AsiaPacificJournalofEducation(1): 5-28.

Wegerif, R. & N. Mercer. 1997. A Dialogical Framework for Investigating Talk[A]. In Wegerif, R. & P. Scrimshaw. (eds).ComputersandTalkinthePrimaryClassroom[C]. Clevedon: Multilingual Matters.

何安平.2003.基于语料库的英语教师话语分析[J].现代外语(2):24-29.

胡青球.2007.中外教师英语课堂话语对比分析—个案研究[J].国外语言学(1):32-37.

胡青球、埃德·尼可森、陈炜.2004.大学英语教师课堂提问模式调查分析[J].外语界(6):22-27.

李素枝.2008.中外教师课堂话语策略对比研究[J].西安外国语大学学报(1):56-59.

林正军、刘永兵、王冰.2009.国内英语课堂话语研究的现状与展望[J].西安外国语大学学报,(1):100-104.

刘永兵、王冰.2008.国外课堂研究的两种取向[J].中小学英语教学研究(9):5-9.

刘永兵、王冰、林正军.2009.英语课堂教学量化研究工具的构想与设计[J].中国外语(3):61-67.

卫乃兴.2004.中国学习者英语口语语料库初始研究[J].现代外语(5):140-149.

杨雪燕.2007.外语教师课堂提问策略的话语分析[J].中国外语(1):22-31.

张敏.2002.从自然言语与教师话语的风格差异谈教师话语的效能[J].外语教学(4):41-43.

甄凤超.2010.语料库语言学在中国的成长与发展[J].当代外语研究(3):36-41.

猜你喜欢
语料语料库外语
《语料库翻译文体学》评介
外语教育:“高大上”+“接地气”
基于语料调查的“连……都(也)……”出现的语义背景分析
大山教你学外语
基于COCA语料库的近义词辨析 ——以choose和select为例
大山教你学外语
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法