学业述评:概念框架、现实挑战与对策建议

2023-07-06 05:47刘荣飞
全球教育展望 2023年6期
关键词:学业评估素养

刘荣飞 王 洁

2020年,中共中央、国务院颁布《深化新时代教育评价改革总体方案》,要求“探索建立中小学教师教学述评制度,任课教师每学期须对每个学生进行学业述评,述评情况纳入教师考核内容”[1]。这一政策表述不仅提出了极具本土原创性的教学述评概念,要求在中小学教学中探索实施,还明确了学业述评是教学述评的组成部分,是开展教师考核的前提和基础。然而,随着学业述评受到越来越多的关注,人们对它的理解却出现概念外延扩大化、实践操作随意化、评估标准模糊化等弊病。现阶段,为科学推进学业述评,亟需明确其概念框架,梳理实践中遭遇的问题,并在借鉴他国成熟经验的基础上,提出下一步探索实施的对策建议。

一、 学业述评的概念框架

学业述评是任课教师对一段时期以来学生学业的进展情况和达成状态进行的质性描述和评估活动。它建立在质的研究方法和质性评估基础上,扬弃了量化评估过于强调数据和精确性的范式,旨在评估纸笔测验难以测量而世界课程改革又普遍强调的诸如分析、综合、评价等高阶认知能力和情感、态度、价值观等非认知能力。OECD从治理、程序、能力和结果使用等四个方面建立了学生评估的概念框架并进行分析;这四个方面相互联系,共同确保学生评估可以通过改进教学和学习来提高学生学习成果。[2]借鉴上述概念框架,学业述评的概念框架如图1所示。

图1 学业述评的概念框架

(一) 治理

治理(governance)指国家或地方政府管理学业述评的方式,包括制度设计、述评目的、责任分配等。学业述评是学生评估的一部分,在我国与以高考为代表的客观纸笔测试、以班主任为评估主体的综合素质评价等共同构成了学生评估体系。学业述评既可用于总结性目的,也可用于形成性目的。前者旨在评定学生学业成绩,一般与学业认证、选拔淘汰等高利害后果有关;后者以学习为中心,通过总结学生学业成绩、找出不足来促进学生学习进步。在学业述评中,政府是顶层制度的设计者,任课教师是学业述评的实施者,学校是教师学业述评过程和结果的评价者。教师作为学业述评主体具有许多优势,如可以衡量难以在标准化测评中获得的能力;将评价有机嵌入日常课程中,比基于测验的测评更为真实;有更大的潜力用于随后的教学和学习的提升等。[3]

(二) 程序

程序(procedures)指教师进行学业述评所采用的程序和方法,包括述评范围、形式、工具及信息通信技术的应用等。每名学科教师都要对学生学业进行述评,然而述评的重点不是纸笔测验可以有效评估的记忆、理解、运用等低阶认知能力,而是其难以做到、需要教师长时间观察进行评估的分析、综合、评价等高阶认知能力和情感、态度、价值观等非认知能力。学业述评是一个搜集资料,并据以进行描述和评估的过程;教师以观察作为搜集资料的主要方法,辅以访谈、问卷等形式,借助档案袋评价、表现性评价、应答评价等质性评价技术,对学生学业进行评估。述评过程中,描述并非是随意的,而是基于一定的标准;反馈与评估也并非适时的,而是经过一段时间的观察,结合其他资料数据后给出的描述性结论。这其中,信息通信技术的应用能够为学业述评提供较大助力,通过数字化手段和视频分析技术,能够为学生一学期来的学业成就进行数字画像,从而更为便捷地进行述评、更为直观地展示述评结果。

(三) 能力

能力(capacity)指开展学业述评、从述评中受益以及使用述评结果所需的能力和支持,主要包括教师评估素养(assessment literacy)、学生自评能力以及学校等利益相关者的专业知识。教师评估素养是学业述评实施的基础,素养的高低直接决定了学业述评质量和结果的信效度,而素养的提升则是职前教师教育和职后专业培训、学习共同作用的结果。学生自评能力也是学业述评顺利推进的重要因素,尽管教师和其他人的反馈提供了帮助学生取得进步的信息,但是学生自己必须理解这些信息,将它们与之前的知识联系起来,并采取行动弥补学习中的差距,这就是元认知的调解过程。[4]因此,在学业述评过程中,学生正确地监测评估自己的学业水平,并将结果反馈给教师,成为教师收集述评资料的重要内容。学校作为教学述评实施的主要场域,校长及其他教师同行的专业能力是学业述评得以有效实施的重要力量。校长或学校评价专业委员会监督教师开展学业述评的过程,并对其进行评价,他们的评价能力直接决定了学业述评和教学述评的开展及成效。

(四) 结果使用

结果使用(use of results)指如何报告述评结果并将结果用于总结性或形成性目的,包括报告描述的格式、向学生和家长反馈结果的内容与方式,以及结果应用于不同目的的约束条件等。教学述评不是教师凭借自己直觉或主观印象撰写的总结报告,而是遵循一定标准交付的、对学生而言可以纵向比较、对教师而言可供横向对比的格式报告。只有这样,向学生和家长反馈的学业述评报告才具有增值评价的意义,也能让学生和家长明确一段时期以来学生的进步与不足;也只有如此,学校在基于学业述评报告结果对教师进行考核时,才能在不同教师之间横向对比,从而基于一定的客观标准进行考核。

二、 学业述评的现实挑战

我国义务教育新课程方案要求“聚焦中国学生发展核心素养,培养学生适应未来发展的正确价值观、必备品格和关键能力”[5]。课程标准和内容的变化要求评价范式发生转变,而传统纸笔测验的不足使得一系列注重核心素养的评价方法和评价技术得到了开发与运用,学业述评就是其中一例。理论是实践的先导,作为一种新生事物,学业述评在基本概念框架尚未明晰的前提下,在实践层面主要面临五大挑战。

(一) 顶层制度设计不健全

中央对学业述评制度仅作了原则性规定和要求,这虽然给予了地方政府和学校健全制度设计、自主创新探索的实践空间,但同时也因缺少制度指引而导致实践者的迷茫。学业述评到底述评什么、如何述、怎样评,什么样的述评结果可以纳入教师考核,又在考核中起到怎样的作用?学业述评在我国学生评估体系中的定位如何,与纸笔测验、综合素质评价的联系与区别又怎样?这些制度性规定的缺失使得地方政府和学校在探索实施过程中或是规定得较为原则,或是执行得变形走样。如安徽省肥西县较早出台了探索学业述评的制度,其在文件中要求述评工作围绕“述什么、怎么述、评什么、怎么评四个维度进行”,“统整多维要素信息,体现‘五育并举’理念”,“所有教师每学期必须对每位学生进行一次教学述评,为每位学生撰写的教学述评不少于50字”等。[6]这些规定虽然对中央政策进行了一定程度的细化,但整体而言仍较为原则,对实践的指导意义有待提升。

(二) 述评范围重点不清晰

在目前有限的学业述评实践中,部分学校出现了求大求全的现象和趋势,突出表现在将学业述评作为对学生进行全方位、全过程评估的工具。如某校附小建立了短期节点式、动态发展性的评价体系。短期节点式评价通过师评、自评、家长评相结合的方式,全面、全程、多元地呈现学生一学期的学业发展;动态发展性评价确立了“人文素养”“艺术健康”“科学素养”“国际理解”“社会交往”等5类素养作为二级评价指标,在每个指标下又细分出5个观测点,力求完整、深入、全面地了解每个学生的成长过程。[7]这种大而全的述评方式,赋予学业述评太多内容、责任与使命,不仅在较大程度上增加了教师负担,而且掩盖了探索实施学业述评的真正目的,弱化了这种评估方式的特别优势。

(三) 述评信度效度有争议

一个高度主观的评价可以十分有用但又被视为缺乏合理性。[8]学业述评是基于教师的评估(teacher-based assessment),评估主体的主观性就带来评估结果信效度的争议。关于评估效度,即教师评估的结果反映学生是否真实达到了国家课程标准的要求,学者们争议相对较少。有研究表明,相比一次性纸笔测验,教师通过运用适切的工具、长时间跟踪评估得出的结果在有效性上会更强;而书面测验只涵盖有限的课程目标,实施频率相对较低,因此反映出的有关学生能力的信息有限。[9]

而关于评估的信度,即在不同教师、不同学校之间甚至同一教师不同时间内对学生重复评估的结果的一致性,存在着颇多争议。首先,不同教师对国家课程标准的理解并不完全一致,特别是在没有具体指导、专门培训的情况下,这种差异会相应加大,从而导致对学生评估结果的信度随之降低。其次,教师评估在不同学校水平之间也存在差异。有研究者对韩国小学和中学英语教师的评估实践进行研究,发现小学和中学教师的评估存在很大的差异,并将其归因于两个学校水平之间教学环境的差异。[10]校际之间教师评估结果的不一致导致校外对校内评估结果缺乏信任,进而导致评估结果无法在学校之间进行比较。再次,信度和效度在实践中相互联系甚至此消彼长。如果在实践中不断提高信度,越来越接近规范并使用误差最小的方法,效度就会降低;而如果扩大评估范围并包括更高水平的思维技能来提高效度,那么信度就可能下降。[11]因此,实践者在具体评估过程中不得不在信度和效度之间作出妥协。

(四) 教师评估素养待提升

教师评估素养不足,如没有储备足够的教育评估理论知识、缺少使用评估技能的方法、不熟悉学科评估的质量标准、缺乏有效的评估工具等,都会给学业述评实践带来一系列困难。调查显示,我国教师评估素养水平普遍偏低,存在考试思维统领评价活动,评价技能和评价伦理水平都较低的现状,[12]提升教师评估素养迫在眉睫。

然而,素养提升并非一日一时之功,而是一个职前职后相结合、理论建设与时代要求相结合的体系化培养过程。目前就我国而言,教师评估素养提升还面临如下困境:一是我国师范教育缺乏对教师评估素养的足够关注,在课程设置上缺少评估理论与方法工具的系统化培养内容,导致师范生的评估素养不高。二是职后培训带有形式化倾向,学科针对性不强,甚至缺少相关评估素养方面的研修课程,在职教师很少有机会接受教育评估方面的研修学习。三是在基本评估素养基础上,针对义务教育新课程标准,我国教师评估素养新的学科维度和内容建构如何,还缺少相对系统科学的研究。上述种种都在一定程度上阻碍了我国中小学教师评估素养的提升和学业述评实践的开展。

(五) 述评结果使用待优化

学业述评结果使用的问题集中表现在述评报告的交付和总结性、形成性等不同目的的结果应用上。当前,各地各校学业述评的报告格式并不统一,甚至同一地区不同学校交付的报告格式也不尽相同。一些学校使用信息通信技术,将学生一个学期以来德智体美劳的评价结果用雷达图展示,并辅以教师撰写的简单描述报告;一些学校将学业述评与学生综合素质评价混为一谈、合二为一,借用综合素质评价的模式、标准、内容等开展学业述评;还有一些学校在述评报告中包括了学生自评内容和与家长沟通环节,而有些学校却将其直接省略。这些不同的报告内容结构和报告呈现形式,造成了学业述评的不规范与随意性,不利于实施与推广。更为关键的是,用于总结性目的和形成性目的的述评报告,在标准、内容、指标、环节等方面可能大有不同,而这种区别在目前的实践地区和学校中并未得到体现。

三、 学业述评的国际经验

国际上,虽然没有专门的学业述评(academic description and assessment)概念与之对应,但也存在类似的、已经施行了相当长一段时间的国家实践。丹麦的学生个体计划(Individual Student Plans)、英国的教师评估框架(Teacher Assessment Frameworks)、加拿大的学生报告政策(Student Reporting Policy)就是三个由政府自上而下推行的述评范例。它们的经验可为我国开展学业述评提供有益借鉴。

(一) 丹麦:学生个体计划

学生个体计划是丹麦政府2006年实施的强制性教师评估项目。它要求任课教师评估每个学生所有学科的学习结果并做相应记录,内容主要包括学生考试和评估结果的总结(但不包括国家考试的结果)。教师每年有义务为所有一到七年级的学生至少编写一次个人学习计划;在八年级和九年级,学生个体计划将被有机整合进学生的学习计划中。[13]在评估目的上,学生个体计划强调评估的形成性目的,相对弱化总结性的学习结果,旨在促进学生未来学习。这种以学习为中心的评估方式受到教师和家长的广泛好评。一方面,教师可以与更高一年级的教师分享对每个学生学业成就的书面总结,从而有助于其他教师更好地了解学生;另一方面,教师还可以与家长分享关于学生进步情况的书面总结,这让家长们更有意愿、更有准备地与教师交流,从而有助于加强家校之间的沟通联系。[14]但学生个体计划在实践中也受到一些阻碍,比如为教师带来额外工作负担等,丹麦政府正试图通过赋予教师在确定个体学生计划内容维度以及优先次序方面的自主权和灵活性,从而减少教师们的工作负担。

(二) 英国:教师评估框架

虽然教师评估越来越多地用于形成性而不是总结性目的,但是瑞典、澳大利亚昆士兰州和维多利亚州、加勒比地区和英国等许多国家和地区仍将其作为认证总结性评估的组成部分。早在1987年,英国就在大多数科目中采用教师评估方式,包括那些基本上无法通过外部笔试进行评估的重要方面。[15]2017年,英国教育部标准与考试局(Standards and Testing Agency)制定了《关键阶段2(1)英国“关键阶段2”(Key Stage 2)相当于我国1—6年级的小学教育。结束时的教师评估框架》(以下简称“《框架》”)[16],对教师评估英语阅读和科学提供指导,此后又不断对框架进行修正和完善。在此基础上,2023年英国教育部标准与考试局又颁布了《关键阶段2教师评估指南》(以下简称“《指南》”)[17],进一步对教师评估的框架、内容、标准、证据收集、外部审核等进行较为详细的规定与描述。通过自上而下的推动,英国逐渐建构了传统测验与教师评估相结合、外部审核与学校自查相结合、详细标准与灵活方法相结合的教师评估体系。

英国教师评估是总结性而非形成性的。在学段适用性方面,《框架》只能用于关键阶段2结束时作出法定的教师评估判断,而不是形成性评估工具,不应用于跟踪整个关键阶段的进展情况。在学科适用性方面,《指南》规定,完成关键阶段2学习计划并达到国家课程评估标准的学生,适用于英语写作和科学的教师评估框架;低于国家课程评估标准并从事特定学科学习的学生或未完成相关学习计划的学生,适用于英语阅读、英语写作和数学的关键阶段前标准等。在评估标准方面,《框架》给出英语阅读“努力达到预期标准”“在预期标准”“在更深层次学习”三个标准中“学生可以”(pupil can)的具体描述,以及科学“在预期标准”中“学生可以”的具体描述。在证据搜集方面,《指南》明确了学生练习册、项目参与、评估笔记、课堂测验等可以作为评估证据来源,同时强调教师的判断必须基于可靠和可证明的证据,以确保判断尽可能客观,并且尽可能在班级和学校之间保持一致。在外部审核方面,《指南》确立了其强制性和法定性,地方当局需要对选择加入外部审核条款的至少25%的学校进行外部审核,还必须确保至少每四年对其负责的所有学校进行一次校务监督,并在需要时进行更为频繁的校务监督,从而确保教师评估的准确性和公平性。

(三) 加拿大:学生报告政策

从1994年到2016年,加拿大不列颠哥伦比亚省(British Columbia,以下简称“BC省”)的K-12学生报告政策基本保持不变;然而,随着2016年新一轮基础教育改革推出新的省级课程后,学生报告政策的要求和实践都发生了变化。为与省级课程及其评估体系保持一致,BC省为K-9年级的教师提供学生学习精熟度量表(proficiency scale)来评估学生的学习情况,量表包括发展初期(emerging)、发展中(developing)、熟练(proficiency)和拓展(extending)四个层级。基于学习精熟度量表的学生成绩报告包括年度五次沟通情况(分别是两份反映学生学习进展的书面报告、两次口头或其他形式的学习更新报告,以及学年结束时的学习小结)、各学习领域学生学习精熟度、教师描述性反馈、学生自我评估与反思、学生学习行为和出勤率等。[18]

其中,教师描述性反馈成为BC省学生报告政策的亮点之一。学生报告政策规定,描述性反馈包括简洁的、基于优势的书面评论或记录下来的对话;这些评论或对话符合学习标准,具体描述了学生的学习情况,并指出学生未来发展的可能领域。教师描述性反馈的重点是学生能做什么以及他们正在朝着什么方向努力。学生报告政策还为教师如何创建全面的描述性反馈提供了指南,如记录有意义的反馈,尤其应针对学生的学习优势和未来发展方向;既包括学生在学校也包括在家庭努力实现的目标信息;在评论未来发展方向时,重点关注学生的现状(如“弗朗西斯很好地掌握了句子结构,但仍在继续努力正确使用标点符号”)等。[19]同时,学生报告政策还为教师提供了基于精熟度的描述性反馈样例,便于教师在实践中学习并遵照操作(如表1)。

表1 基于精熟度的教师描述性反馈样例[20]

四、 推进学业述评的对策

在建立了概念框架、明晰了现实挑战的基础上,借鉴丹麦、英国、加拿大等发达国家的有益经验,未来我国在推进学业述评和教学述评的实践中可以在下述方面作进一步探索。

(一) 健全述评制度设计

学业述评和教学述评制度作为中央自上而下推行、地方政府和学校自由探索的一项制度,理应发挥制度的价值引领和行为规范功能,由省级或区县政府先行制定并不断健全,从而为学校层面的操作实践提供指引。特别是在学业述评已经探索实施了一段时间并逐渐明确了问题所在、积累了宝贵经验的当下,更应切实加强制度建设。依据由点及面、逐步推广的改革试点原则,建议各省规划设立学业述评和教学述评的改革试点,试点地区政府应切实加强制度设计,及时总结经验、树立典型,为述评制度在我国更大范围内推广奠定实践基础。在学业述评制度构建过程中,建议借鉴丹麦、英国、加拿大等国的有益经验,制度内容应涵盖学业述评的背景、目的、内容、框架、适用学科、标准及说明,以及外部审核的主体、流程、频次等。如有可能,应尽量为教师提供每门学科的评估范例,以供不同学校、不同学科的教师灵活应用。

(二) 明晰述评范围重点

每种评估方法都不是全能的,而是有其适用的范围和重点。纸笔测验在评估学生记忆性知识方面效率显著,而学业述评则在评估高阶认知能力和非认知能力方面具有优势。相比纸笔测验,毕竟基于教师评估的学业述评要耗费更多的人力、时间、金钱等成本,也会在一定程度上加重教师负担。因此,将学业述评作为全方位、全过程评估学生的工具显然并不适切。为提高评估的经济性和效果,校外考试能够轻松评估的学习成果应该采取校外考试的方式,而更复杂的能力应该通过持续的教师评估来测评。建议各地各校应把教师学业述评的重点放在高阶认知能力和非认知能力上,通过有目的、长时间的观察,借助表现性评价、真实性评价等评价技术,切实解决纸笔测验难以对上述能力进行评估的问题。

(三) 提高述评信度效度

提高信度和效度是顺利推行教学述评、减少评估结果争议的重要保障。为提升学业述评的信效度,建议从以下方面协同发力:一是开发并向教师提供一系列权威的测评工具。《OECD国家评论》表明,如果没有为不同学科和年级制定明确的测评标准和准则,教师通常会基于自身经验和学校期望,使用自己的个人评阅参考点。因此,应开发并向教师提供一系列权威测评工具,在他们认为合适时,可以使用这些工具对学生进行可靠的测评。[21]二是设置并应用评分指导原则来提高信度。统一的评分指导原则可以引导不同教师依据同一原则对学生进行述评。这些指导原则应对能力水平进行详细描述,并提供相应的优秀表现样例,加拿大基于精熟度的教师描述性反馈样例便是典型案例。三是促进教师之间相互协商、合作评分。有研究者召集两名评分者采用表现性评价方法对教师评估素养进行评价,进而验证其信度和效度,这一案例表明合作评分的方式比背对背评分的方式具有更高的信度和效度。[22]

(四) 提升教师评估素养

教师评估素养的高低直接决定了学业述评的质量,如何提升教师评估素养成为当务之急。因此建议:一是在师范教育阶段,开设较为健全且符合时代需求的教育评估课程,不仅包括量化也包括质性的评估方法,不仅涵盖传统的评估工具更要涵盖描述性评估、档案袋评估、表现性评价等近年新兴评估方法,从而为未来教师提供丰富的知识,培养他们具备初步的评估素养。二是在职后培训阶段,政府和学校应开展有针对性的、务实的研训指导,切实解决教师评估过程中的知识和技能盲点,并将教师评估素养培训纳入国家和各省教师培训体系,通过职后系统化的培训为素养的提升助力。三是在教学述评和学业述评亟需试点和推广的当下,我们或可借鉴OECD在教师教学国际调查(TALIS)中培训观察员的经验,提供指导原则,进行系统培训,反复进行试测,直至不同观察员对测试题目的理解在同一水平上。

(五) 优化述评结果使用

在我国学业述评制度设计尚未健全、教师评估素养整体不高的情况下,对于将述评结果用于总结性目的,特别是涉及升学、认证等高利害后果时,存在较大的争议和风险。如果要将述评结果用于总结性目的,可以借鉴英国经验,在健全制度设计的同时引入外部审核程序,并确立其强制性和法定性,从而确保学业述评的准确性和公平性。当前,更为稳妥的结果使用方式是形成性的。一方面,在形成性评估中,学生倾向于展示更为真实的自己,敢于暴露自己的缺点,从而为教师学业述评提供更加全面丰富的素材;另一方面,形成性的结果使用也相对减少了述评结果争议和教师教学压力,促进其更全面的反思教学行为,有利于教师专业成长。因此,有效发挥学业述评的形成性功能,不断促进学生学习进步和教师专业发展,是推行教学述评和学业述评的重心。

猜你喜欢
学业评估素养
艰苦的学业
必修上素养测评 第四测
必修上素养测评 第三测
必修上素养测评 第八测
必修上素养测评 第七测
音乐提升学生学业表现
树起学业担当之心
评估依据
35
立法后评估:且行且尽善