国际中文教材评价指标体系构建
——基于德尔菲法和层次分析法

2023-12-01 11:07李诺恩

贵州师范大学学报（社会科学版） 2023年6期

梁宇,李诺恩

(1.北京语言大学国际中文教育研究院,北京 100083;2.香港中文大学教育学院,香港 999077)

引言

2020年1月,教育部印发《全国大中小学教材建设规划(2019—2022年)》,首次对大中小学教材建设与管理进行了顶层设计[1]。2021年12月,教育部中外语言交流合作中心发布《国际中文教育教学资源建设行动计划(2021—2025年)》,提出“构建国际中文教材评价指标体系,推动中文教材精品建设和中文教学高质量发展”[2]。国际中文教材是以外国学生为教学对象,以中文和中华文化为核心教学内容,以培养外国学生中文交际能力和跨文化交际能力为主要教学目标的中文作为第二语言教学用书[3]。构建国际中文教材评价指标体系符合国家对教材建设的总体要求,对推动全球中文教材高质量发展具有重要意义。

评价指标是评价对象本质属性与特征的具体反映[4]。评价指标体系则是由多维多层的一系列指标及其权重有机组合,全面反映评价对象的指标群[5]。国外针对英语作为第二语言(English as a Second Language, ESL)教材评价指标体系(或称量表)的研制起步较早,最早可追溯到1975年Tucker编制的评价量表[6]。该量表设计了语音、语法、内容三个维度,突显了早期评价量表对语言知识的重视。在过去的近50年中,新的评价量表不断涌现,评价内容更加丰富立体。Shak等人对2011年至2021年间的36个ESL教材评价量表进行系统分析后发现,对教材内容的评价聚焦在活动/任务、技能、主题/话题、文化、学生适用性、课标一致性六个方面[7]。在国际中文教育领域,教材评价指标体系研究起步于20世纪90年代末。赵金铭于1998年首次编制了“对外汉语教材评估一览表”[8],具有开创性意义。此后,该领域出现了面向不同评价主体的教材评价量表,如以学习者为评价者的教材评价量表[9]、以教师选用为导向的教材评价量表[10]等,教材评价逐渐成为国际中文教材研究的热点议题[11]。

上述国内外二语教材评价指标体系为本研究提供了有益借鉴。然而,在评价内容上,前期研究仍存在学科特色体现不足、二语教学理念有待更新等问题。在研制方法上,前期的评价指标体系主要依赖理论演绎的定性研究[12],以及焦点小组访谈、问卷调查等方法[13-14]。这些方法存在一定局限性,包括主观性强、专家意见相互干扰以及数据解释力度不足等问题。为此,本研究尝试运用德尔菲法和层次分析法构建国际中文教材评价指标体系,确定指标权重,增强评价指标体系的客观性和准确性,并在专家咨询中提升指标体系的简约性和可操作性,使之成为有效的教材评价工具,更好地帮助使用者甄选教材,协助编写者改进教材,全面推进国际中文精品教材建设。

一、研究设计

(一)咨询材料

本研究通过以下三个步骤初步构拟了国际中文教材评价指标体系(以下简称“指标体系”):(1)利用文献法,梳理中外第二语言教材编写与评价的相关理论,确立了“中外融通、素养提升、教学适用、应用实践、科学规范、技术赋能”的评价理念[15];(2)搜集第二语言教材评价量表,建立指标描述语库,入库量表共57个,含2221个指标,利用语料库研究法提取高频指标,再利用分类法,结合评价理念,将高频指标分为11类,形成国际中文教材评价指标基础框架[16];(3)开展两次焦点团体访谈,分别邀请一线国际中文教师和国际中文教学或教材研究专家,对评价指标基础框架进行讨论和修改,从而初步构拟了包含9个一级指标、21个二级指标和110个三级指标的指标体系(见表1),作为本研究的咨询材料。

表1 国际中文教材评价指标体系(初构)(1)指标体系中的“主题”取广义,包括话题,“活动”泛指语言文化实践活动,包括练习、任务等。

(二)研究方法

1. 德尔菲法

德尔菲法是一种匿名的专家意见咨询方法。本研究对13名专家(Z1—Z13)发放了三轮专家咨询问卷。前两轮问卷主要由两部分组成:第一部分是专家对指标体系各级构成要素的评议及修改建议,采用李克特5度量表(1=非常不重要,2=不重要,3=重要,4=比较重要,5=非常重要);第二部分是专家对指标评分依据的自评,包括评分的判断依据(Ca)和熟悉程度(Cs)。第三轮问卷包括对指标体系认可程度的最终评议和对各级指标权重的评分。本研究通过微信或邮件发放并回收咨询问卷,回收的问卷采用Excel 2021软件进行数据统计分析。

2. 层次分析法

层次分析法用于确定指标权重。本研究采用Excel 2021、yaahp层次分析软件对回收的指标体系权重评分表进行数据统计分析。评分表主要由“一级指标权重评分表”和“二级指标权重评分表”构成。评分标度采用Satty 1～9标度法两两比较计算权重,同层次的两个指标分别用i与j表示。

二、研究结果与分析

(一)专家情况分析

被邀请的13名专家中,11名为国际中文教学领域专家,2名为国际中文教材研发与出版领域专家。表2显示,受邀专家均具有较好的专业代表性。13名专家全程参与了三轮咨询,积极系数为100%,说明专家对咨询问题颇为重视。第一轮的专家权威系数(Cr)为0.83,第二轮的专家权威系数为0.85(2)专家权威系数(Cr)由专家对问题的判断依据(Ca)和对问题的熟悉程度(Cs)决定。计算公式为Cr=(Ca +Cs)/2。一般认为专家权威系数Cr≥0.7即咨询结果可靠,且Cr越接近1,则表示参加咨询的专家权威程度越高。,说明专家对指标的熟悉程度较高,对指标的判断具有较高的权威性,咨询结果具有实际参考意义。

表2 专家基本信息汇总表

(二)第一轮咨询结果分析

本研究以均值、众数、标准差作为指标筛选标准。在第一轮专家咨询中,各指标均值(M)应≥3.5,众数(Mo)应≥4,标准差(SD)应<1[17]。若指标同时满足上述三项标准,可被保留,如满足三项标准却有专家修改意见,需修改指标表述;若指标只满足一或两项标准,需同专家沟通后,修改或删除;若指标未满足任一标准,需直接删除。根据第一轮问卷统计结果,9个一级指标均符合三项标准的临界值要求,说明专家对一级指标的意见集中程度较高;1个二级指标和12个三级指标的标准差未达到临界值标准,表明专家对这13个指标的意见存在分歧。

1. 指标修改情况

(1)一、二级指标修改:9个一级指标按均值由高到低依次为:教学适用>主题内容>价值取向=语言内容=文化内容>整体设计>活动设计=外观与配置>情感与策略。13名专家对“教学适用”评分最高,且意见完全一致(M=5.00,Mo=5.00,SD=0.00);对“情感与策略”评分最低,且意见存在一定分歧(M=4.38,Mo=4.00,SD=0.65)。专家(Z8)提出该指标“比较抽象,不易做判断”,专家(Z2)却认为该指标“很重要,教材编写最容易忽略它”。由于该指标符合三项临界值要求,因此本轮予以保留。21个二级指标按均值由高到低依次为:课程适用=学生适用=主题选择>国家意识=编写理念=语言材料>中国特色=框架结构=知识技能=文化内容呈现>世界认知=教师适用=文化内容选择=活动整体编排>主题编排>活动要素设计>创新与特色=配套资源>策略辅助>情感促进>辅文设计。专家对“课程适用、学生适用、主题选择”三个指标评分最高(M=4.85,Mo=5.00,SD=0.38),只有“辅文设计”的标准差不符合临界值要求,需要修改。专家(Z11)建议将“辅文设计”修改为“装帧设计”,认为“目录、使用建议、标题、练习答案、插图等设计都属于正文,不能归为辅文”。同时,专家(Z7、Z10)指出二级指标“世界认知”下属的3个指标(尊重世界各国、各民族、各群体对价值观念、宗教信仰、风俗习惯、行为方式的选择。避免跨文化冲突,以客观公正、平等宽容、真诚友善的态度对待文化差异。没有种族、地域、性别、职业等方面的歧视、偏见和负面刻板印象。)应归入“文化内容呈现”,并且3个指标之间有重合,需要合并。此外,“创新与特色”下属的2个指标(教学理念有所创新。教学模式或方法有所创新。)在三项评判标准上均未达到临界值要求,需删除。专家(Z7)也提出“教学理念、模式、方法可以合并”的建议。最终本轮删除了“世界认知”和“创新与特色”两个二级指标,将“辅文设计”修改为“装帧设计”,并对“装帧设计”下属指标进行重构。

(2)三级指标修改:110个三级指标中,10个指标的标准差未达到临界值标准,结合专家意见,本轮对三级指标进行了如下处理:删除10个、合并后修改19个、合并后移位2个、移位1个,增加1个。(见表3)

表3 第一轮专家咨询对三级指标的修改情况

续表3

2. 专家意见协调程度

专家意见协调程度指专家对指标判断的一致程度,依据变异系数(3)变异系数的计算公式为:Cv =(SD / M)×100%。Cv越小,说明专家对该指标重要性判断的波动越小,协调程度越好,通常以Cv<0.25为参考标准。和肯德尔协调系数(4)肯德尔协调系数检验呈现出显著性,说明专家对该指标重要性判断的一致性较高,协调程度较好,评价结果可取,反之则代表专家意见较为离散。检验的显著性进行判断,是决定是否启动新一轮专家咨询的评判标准。启动第一轮咨询所用的140个咨询指标的中位数为3,上下四分位数区间为2。第一轮专家咨询后,指标体系含9个一级指标,19个二级指标和88个三级指标。各指标的变异系数在0.00到0.29之间,肯德尔协调系数检验在p<.001水平下呈现出显著性。总体来看,专家意见的一致性欠佳,对部分指标的意见存在较大分歧,需启动第二轮专家咨询。

(三)第二轮咨询结果分析

在第二轮专家咨询中,各指标均值应≥4,众数应≥4,标准差应<0.8[17]。第二轮问卷统计结果显示: 9个一级指标和19个二级指标均符合三项标准的临界值要求,无需修改; 3个三级指标的标准差未达到临界值标准,专家意见存在分歧,需进一步修改。

1.指标修改情况

(1)一、二级指标修改:9个一级指标按均值由高到低依次为:教学适用=语言内容>价值取向=主题内容>整体设计=活动设计>文化内容>情感与策略>外观与配置。与首轮排序相比,“教学适用”的评分仍然居首,“语言内容、活动设计”的排位有所提高。综合两轮结果来看,专家认为“教学适用、价值取向、主题内容、语言内容”更为重要,“文化内容、情感与策略、外观与配置”的重要性略低。咨询中,专家(Z1)提出:“教材中语言内容仍为核心内容,教材传达的情感和策略不如知识和技能直接,教材的外在形式不如内容重要。” 专家(Z3)强调:“教师易教、学生易学就是好教材,所以适用性非常重要。”专家(Z5)提出:“应该通过教材让外国学生了解中国智慧,所以教材要强调价值导向。”19个二级指标按均值由高到低依次为:主题选择=语言材料>学生适用=知识技能>中国特色=编写理念=文化内容选择>课程适用=主题编排>框架结构=活动整体编排=活动要素设计=配套资源>国家意识>教师适用 =文化内容呈现>情感促进>策略辅助=装帧设计。其中,“主题选择”的排序与第一轮一致,仍居首位。专家(Z6)指出:“编写教材时一般先定主题后选语料,主题选择得好不好决定了课文和练习编写得好不好。”两轮咨询中均保持前列的二级指标为“中国特色、学生适用、编写理念、语言材料、知识技能”,说明专家对这些指标的重要性更加认可。

(2)三级指标修改:88个三级指标中,3个指标的标准差未达到临界值要求,结合专家意见,本轮对三级指标进行了如下处理:删除7个(包括3个标准差未达标的指标以及4个专家持有修改建议的指标),合并后修改11个,修改5个。(见表4)

表4 第二轮专家咨询对三级指标的修改情况

2. 专家意见协调程度

第二轮专家咨询后,将指标体系进一步提练为9个一级指标,19个二级指标,75个三级指标。启动第二轮咨询所用的116个咨询指标的中位数为4,上下四分位数区间为1。各指标的变异系数在0.00到0.21之间,肯德尔协调系数检验仍在p<.001水平下呈现出显著性。总体来看,专家意见一致性相较上一轮大幅提高,但考虑到少数指标的标准差仍未达到临界值要求,且专家对部分指标的表述提出了具体修改建议,需启动第三轮专家咨询。

(四)第三轮咨询结果分析

1. 指标体系认可程度

第三轮专家咨询采用了李克特7度量表(1=非常不认可,2=不认可,3=比较不认可,4=一般,5=比较认可,6=认可,7=非常认可),考察专家对指标体系的认可程度。结果表明,7名专家“非常认可”经两轮修改后的指标体系,3名专家表示“认可”,3名专家表示“比较认可”,且专家未对指标体系提出进一步具体修改建议,由此本研究判定经三轮专家咨询后的指标体系可被采纳。

2. 权重结果分析

在权重结果分析前,本研究首先构建了指标体系层次模型。该模型分为三个层次:最高层为目标层,即国际中文教材评价指标体系;中间层为准则层,即9个一级指标;最底层为方案层,即19个二级指标。检验结果表明,在利用问卷数据构建的130个判断矩阵中,115个判断矩阵具有满意的一致性,15个判断矩阵数据不一致。为此,本研究采用yaahp层次分析软件的一致性自动修正算法,在最大程度保留专家决策数据的前提下修正判断矩阵,使130个判断矩阵均通过一致性检验,λmax=9.8698; CR=0.07;CI=0(5)如CR<0.1,CI=0,则判断矩阵具有一致性。。最终,本研究得出了9个一级指标和19个二级指标的权重值,并成功构建了国际中文教材评价指标体系。(见表5)

表5 国际中文教材评价指标体系

续表5

三、指标体系的应用

(一)评价设计

为检验指标体系的应用效果,本研究选取了在国际中文教育领域使用广泛的五套综合教材作为评价对象,它们分别是《快乐汉语》《新实用汉语课本》《HSK标准教程》《中文听说读写》和《走遍中国》。每套教材邀请了8名教材使用经验丰富的一线中文教师,并确保他们在充分理解指标体系和评分规则后,对目标教材进行评分。40名教师平均使用过目标教材约4轮,均对目标教材非常熟悉,教材评价结果回收后,利用SPSS28.0对数据的一致性进行检验。

(二)评价结果

本研究以内部信赖系数Rwg作为多层次数据聚合适当性的衡量指标,并依据肯德尔检验结果判断各组教师评价结果的协调程度。检验结果表明:40名教师评价结果的Rwg值为0.985(6)通常情况下,Rwg值介于0—1之间,Rwg值越大则说明数据一致性程度越高,判定标准为:Rwg值>0.5则说明一致性中等,Rwg值>0.7则说明一致性较高,Rwg值>0.9则说明一致性极高。,说明各组教师评价结果的整体一致性较高;各组评价结果的肯德尔协调系数均大于0.2且在p<.001水平下呈现显著性,说明教师评价结果的组内一致性均在可接受的范围之内。总体来看,本研究所建构的指标体系效度较高。基于该指标体系,五套教材的评分情况如表6所示,其结果与教材实际情况基本相符。

表6 五套教材的评分情况汇总

四、指标体系的特点

(一)兼顾系统性与创新性,力求评价内容全面且具有学科特色

国际中文教材是多元要素集成优化的系统性实践成果,教材内部的知识技能体系错综复杂,同时受到教学环境和使用者特点的外部影响。教材不仅承载着价值立场和教学理念,还需要通过外在形式的设计来提升呈现效果。因此,为其构建指标体系,应立足系统论的观点,尽可能全面地关照教材中的所有关键要素,并通过维度设计使之结构化和模块化,注重维度之间、指标之间的层次和逻辑关系。本研究构建的指标体系经过三轮咨询和检验,删除重复、冗余的指标,最终确立了9个一级指标、19个二级指标和75个三级指标。每个指标都具有特定作用,指标数量在各维度下分布较为均匀,且重点突出,确保了指标体系的系统性和协调性。

创新是科学研究的必然要求。指标体系的创新性主要体现在两方面:一是主动更新了教材评价理念;二是集中反映了目标教材的特点。一方面,促进学生全面发展是当前全球教育评价的主要关切,该理念也为本研究提供了重要启示,即评价指标的设计需要立足学生综合素养的全面发展,反映教材对学生价值观、语言能力、文化意识、学习能力和国际理解能力的综合培养。为此,本研究构建的指标体系设计了价值取向(侧重学生价值观的塑造)、语言内容(侧重学生语言能力的发展)、文化内容(侧重学生文化意识和国际理解能力的培养)、情感与策略(侧重学生积极学习情感与能力的提升)等一级指标,以此顺应当今教育评价的发展趋势。另一方面,突显国际中文教材的特点是本研究区别于其他学科教材评价指标体系的核心所在。国际中文教材的独特之处在于其建构在中文和中华文化特色的基础之上,强调了跨语言交际性和跨文化交际性。本研究通过多轮指标咨询、修改,指标体系的跨语言交际性得以提升,涵盖了主题的交际性、语言材料的交际性、语言活动的交际性等方面。跨文化交际性在咨询过程中受到较多关注,文化内容的相关指标经修改后更加注重对多元文化的理解、包容和融通。

(二)突出引领性与对标性,强化指标体系的规范导向

教材评价研究应对提升教材编写质量、促进教材建设发挥引领作用。本研究构建的指标体系在教材编写的价值取向和理念定位方面具有重要的指导意义。在价值取向方面,三轮咨询中,“价值取向”排名靠前,权重也最高,说明专家对该指标的重要性最为认可,认为国际中文教材应向外国学生传递中国意志,展示中国特色。“国家意识”采纳了国家价值立场、国家法律法规和国家主权意识三个具体指标。“中国特色”强调了教材编写既要彰显中华民族优秀的历史传统和文化底蕴,也要反映当代中国人的精神风貌和时代成果,还要优塑中文的语言形象,体现中文特点。“价值取向”中的所有指标构成了国际中文教材编写的基本准则。在编写理念方面,指标体系倡导教材编写要顺应国际二语教学理论和教材编写理论的发展趋势,强调编写中的创新与特色,推动教材编写朝着更加现代化、精品化的方向发展。在这方面,咨询专家给予了许多有益的修改建议,例如突出教材对学生的适用性、在教材中融入学习策略、注重活动设计的系统性和互动性等等。

现代教育评价强调教育系统内各类标准的协同发展。教材是教育系统中的关键要素之一,教材评价应当注重与其他教育标准和规范相互对应与协调。为此,指标体系的构建特别强调教材应符合我国通用语言文字的规范要求,十分重视与现行国际中文课程标准或教学大纲的衔接。在语言知识方面,相关指标对应了《国际中文教育中文水平等级标准》中汉字、词汇、语法的等级分布。在文化内容选择方面,具体指标对应了《国际中文教育用中国文化与国情教学参考框架》中的社会生活文化、传统文化和当代中国三大版块,旨在引导教材在文化内容编写中努力提炼并展示中华文明的精神标志和文化精髓。指标体系在与其他标准充分对接的过程中,不仅提升了其自身的科学性和规范性,也有利于国际中文教育标准体系的构建与完善。

(三)强调实用性与流程性,确保评价实践便捷高效

指标体系的实用性是评价实践便于操作、评价结果可靠有效的重要保障。明确评价对象、评价主体和评价应用场景是体现指标体系实用性的前提条件。在评价对象上,本研究将我国主导研发的国际中文综合教材作为重点评价对象。其原因有三点:第一,综合教材是国际中文教材建设的重点,它是目的语环境下中文教学的主干教材,是非目的语环境下中文教学的必备教材。第二,综合教材的内容全面系统,包括中国语言与文化的基本教学内容,涵盖听、说、读、写、译五项语言技能,涉及语音、词汇、语法、汉字四项语言要素。第三,综合教材具有较强的普适性,以此为基准构建指标体系,对推动国内外其他类型中文教材建设具有更为普遍的指导意义。在评价主体上,指标体系适用于利益相关者共同参与评价,评价者可以是教材研发者、管理者、评审者、选用者、使用者和研究者等多种角色。在评价应用场景上,该体系可用于教材编写评价、推优评价、选用评价,以及教材使用前、使用中、使用后评价,乃至教材评价研究等多种评价场域。此外,本研究通过三轮咨询,逐步聚拢、提练指标体系,提升了该体系的简约性和可操作性,并通过评价实践验证了该体系的有效性,从而进一步突显了指标体系的实用性。

本研究构建的指标体系在一级指标的排序上体现了国际中文教材的基本编写程序,即学情分析、理论准备、结构设计、主题编排、语料选择、知识呈现、文化选择、活动设计、版式设计和资源配备等。按编写程序评价教材的各个方面,能够较好地体现指标体系的完整性和流程化,提高评价效率,也有利于指标体系反哺教材编写,成为教材编写的依据。

结语

本研究对国际中文教材评价进行了有益探索,运用德尔菲法和层次分析法确立了国际中文教材评价指标体系,并通过典型教材的评价实践验证了该体系具有较高的效度。随着教材评价越来越受到重视,其后续研究也亟待开展,主要有以下三个方向:一是面向不同教材使用者开展大规模调查,检验指标体系在不同使用者视角下的适用性。二是对更多教材开展评价实践,进一步检验指标体系的有效性,并通过评价不同类型的教材,观察其评价侧重点,为拟定不同类型教材的评价指标体系奠定基础。三是设计评分规则,如等级水平参考标准,进一步提升指标体系的科学性。

国际中文教材评价指标体系构建——基于德尔菲法和层次分析法

引言