学业测验与评价伦理的内涵、表现与反思

2022-11-18 02:44王映学

教育评论 2022年5期

关键词：测验学业伦理

●王映学

学生学业结果评估是课堂学业活动的重要组成部分，也是衡量学生学习结果的主要方式。学业测验与评价伦理涉及对学生学业评估的价值关怀，涉及学业评估的后效。本文讨论三个问题：相关的几个概念、学业测验与评价伦理的具体表现及其反思。

一、学业测验与评价伦理相关的概念

涉及测验与评价伦理的概念比较多，这里主要讨论两组概念：一是测量、测验和评价；二是测验与评价的价值和伦理。

(一)测量、测验及评价

早在20世纪40年代，史蒂文斯(Stevens，1946)就指出，测量是按照规则对客体或事件赋以数字的过程，依据不同规则赋值就出现不同形式的量表和测量。[1]根据测量属性的不同，可以将测量分为心理测量和教育测量：前者关注个体的心理特质(如人格、IQ等)，是对个体心理状态的刻画与描述；后者则通过确定个体的优势与不足，主要聚焦个体在教育方面的进步。换言之，心理测量指向个体之“实然状态”，而教育测量指向个体之“可能”甚或“应然状态”。心理测量旨在为个体安排适当的外部干预条件提供依据，教育测量旨在衡量满足某种适宜条件之后出现的预期变化。

测验是测量一个行为样本的系统程序。[2]内容包括测验思想及目的的确定、测验的编制、测验的实施以及测验结果的分析与反馈；测验涉及的对象范围通常很大，但我们常常从中抽取有代表性的部分作为考察的样本；从完整的测验程序讲，测验包含了前面提及的测量。

而评价则是基于测量或测验的结果，依据一定的准则进行价值判断的过程。对评价的理解，有的关注结果，有的关注过程。关注结果的评价主要偏向通过评价确定教育目标或教育计划的实现程度[3]，或评价学习者实际上是否发生了某些变化，确定学生个体变化的数量或程度。[4]关注过程的评价则强调评价对一个计划、项目、服务或其他感兴趣对象之优点或价值的系统考察，是描述、获得并提供有用信息以判断决策方案的过程[5]，并认为任何教育评价都包括背景、输入、过程以及成果的评价。[6]

概言之，测量涉及对测量属性的数字赋值，测验指向从测验目的确定到测验结果分析之全程，而评价则关乎以一定标准对测验结果的判断和解释。

(二)学业测验与评价的价值和伦理

学业评价一般涉及四个基本问题：做什么，怎么做，做得对吗，做得有效吗。[7]这自然就涉及学生学业测验与评价的两个基本问题，即测验与评价的伦理与价值。凡被称为“教育”的活动，须同时满足两个标准：一要传递有价值的内容；二要采取道德上可以接受的方式。[8]前述测量、测验及评价，均涉及学生学业结果评估中的人或事，因此对价值的追求与伦理的坚守是学业评估的应有之义。

“价值”包含两层含义：一是内在价值，即事物本身有优异性；二是外在或功用价值，指其优异性能满足一定的需要。学业测验与评价涉及的价值和伦理不同：伦理是义务与美德的标准，表明个体应该按照是非原则行事；价值是引导并激励我们态度与行为的信念。[9]评价主要涉及两个领域，一是技术与科学领域，主要采用经济学、社会科学以及统计学等学科的测量方法分析活动、目标与对象；二是价值与目标领域，更多涉及评价方案的道德与伦理以及是否完成等问题。[10]前者确保对客体本真的接近与认识，可以帮助我们了解测量对象的基本属性；后者确保对测量目的、过程及结果合乎价值的关注。如果说技术领域引领测量基础，那么价值领域则确保测量的方向与正当性。价值与伦理之间常常存在某种张力甚至矛盾，而且前者相对规范简单，后者显得复杂而混乱。

有些价值关乎伦理，有些价值在伦理方面是中立的。就涉及伦理的价值而言，可以分为核心伦理价值和文化与个人伦理价值[11]，前者是伦理决策的基础，无论时间、文化及宗教如何不同，这些价值都是全人类普遍接受的基本价值；后者是与宗教信念、文化传统、政治哲学、商业或专业标准及实践有关的是非方面的信念，这些非核心伦理价值随时间推移及不同职业、文化、宗教和个体而变化。有研究者直言，伦理的第一原则是不伤害他人。[12]置于课堂情境，任何与评估有关的教育活动不能伤害学生，不能对其后继的学习活动产生消极影响。

综上，学业测验与评价的价值关注评价的功能与意义，侧重对学生学业结果评估需求的满足；而学业测验与评价伦理则追求活动的道德关怀，聚焦学业评估的人文后效。

二、学业测验与评价伦理之表现

教育教学实践中的学业测验与评价伦理表现各具形态，因而形化为不同的教育生态。有人将中小学评价中违反伦理的现象概括为四种情形：一是排名并张榜公布学生的考试结果，二是对学生的综合素质大都给予“优秀”等级的“千人一面”式评价，三是以学生学业成绩外推学生品德的发展，四是评价旨在应对各种检查或是社会公众对信息公开化的要求。[13]

本文主要从分数污染、项目功能差异及对学业结果的不当解释和使用三方面说明学生测验与评价中涉及的伦理问题。

(一)分数污染

任何提高成绩但未能同时提高学生对内容实际掌握程度的考试，都会产生分数污染，即测验成绩增高却与要测量的结构没有关系，亦即出现与结构无关的测验成绩变异。分数污染是“手段-目的”异化的表现，即过于看重学生学业成绩的时候，就会出现学业变化程度让位于衡量这一变化的外部指标的现象。造成分数污染的原因各种各样，就教师对学生的学业成绩评定而言，通常表现为以下三类。[14]

一是“慷慨偏差”，即教师的偏差导致超越正当的高成绩评定，这类教师往往能在没有好的地方也能看到“好”的一面，多出于教师良好的愿望，因而容易出现“负偏态”的成绩分布，这类评定对高成绩学生的辨别力比较差。以下即是一例：我有时会给某些成绩不佳的学生高于其应得的分数，因为我认为这样做会让他们处于“我能做到”的状态；我也会根据学生在学习上付出的努力程度给一些学生打分；我给勤奋但效果不佳的学生予以宽限评分，也以高分诱惑作为激励手段，作为让学生更加努力学习的一种方式。[15]

二是“严苛偏差”，即教师往往有低估学生作业质量的倾向，在成绩评定中倾向于作低于实际得分的评定，因而出现“正偏态”的成绩分布，这类评定对低成绩学生的鉴别力较差。出现这类分数污染，通常与教师的评分倾向(一贯评分习惯、个人心境等)或与特定的评价对象(成绩不良、不讨教师欢心或作业表达形式欠佳)相关联。

三是“居中倾向偏差”，即教师居中评分(平均分)，避免给高分或低分，喜欢“更加保险”的中分评定，这类评定通常出现“正态”的成绩分布，对中等学生的分辨力较差。

学生学业测验与评价中的分数污染存在学科间的差异。研究人员基于监测与现场调研发现，就评分尺度而言，社会科学考试科目比自然科学考试科目在不同阅卷点更容易出现宽严差异。[16]同样一道地理题，让91位教师评阅，评分差距在2～20分之间；[17]同一份语文卷，省份之间的评分差距高达33分，省内的评分差距高达23分，其中满分45分的作文，评分差距竟然高达27分！[18]

(二)项目功能差异

项目功能差异(简称DIF)关注的是测验题项中的偏差问题，任何公平测验的特征之一是无偏差，任何存在偏差的项目测验自然难以保证测验的公平性，而不能确保公平的测验必定涉及伦理问题。不幸得很，在学生学业测验中常常存在着各种形式的测验偏差，即测验项目(内容)、测验方法(技术)对考生某一特质测试得分的影响，测验内容与测验方法的变化会直接影响学生在测验中的表现。

DIF关注的问题是测验项目对不同文化背景和学习经验的考生的“等值”问题。等值是测量学的概念，指考试成绩可用于对不同考生作出比较性推论的程度。[19]其实，这个问题德国心理学家艾宾浩斯(Ebbinghaus)在研究记忆问题时就注意到了：为了排除学习者已有经验对学习新材料的影响，他创编了许多无意义音节(如QAJ、MOF、GET等)，但他很快发现，这些“无意义”音节对不同学习者也构成不同意义，即原本在测量中要做到等值的音节并不等值。我们现在讨论的DIF也正是这个问题，即测验项目功能不等值或者因项目功能差异而引发的一种测验偏差，它是衡量测验公平性的一个常用指标。

如下面一道数学题：小丽上楼时从一楼跑到六楼，一共用了45秒，平均每层用时多少秒？就这样涉及均数计算的一道数学题，有无相关的居住经验，将对学生构成不同的测验偏差，即测验项目考察的不仅是求“平均数”，而且测查受测者有无楼宇居住的经验。近年来，一些引发热议的高考作文题目，如2017年全国卷Ⅰ“中国关键词”、2016 年浙江卷《虚拟现实》、2016年北京卷二选一大作文题《“老腔”何以让人震撼》以及2015 年全国卷 I《给违反交规父亲一封信》等[20]，大多涉及我们这里讨论的DIF。

如果来自相同能力水平的两组被试对某一题项正确回答的概率不同，那么这个题项便存在DIF；或者总体上有着相似能力或状态的不同群体的考生，对特定项目出现系统性不同应答时，便出现DIF。[21]判断是否存在DIF，主要看以下三点：一是受测学生有相同或相似的能力水平；二是因学生个人经验对测验项目的拟合程度，其成功的机会不同；三是这种不同并非缘于与测验效度有关的能力结构，而是测验题项与应试者已有经验的关联度所致。

一般而言，单一维度(如写一封信、求平均数)时不会出现DIF；在两个或两个以上维度(求平均数+楼宇居住经验或电表读数)时才有可能出现DIF。[22]参加过英语四六级考试的学生常常会在考后提及类似的问题，即阅读部分对学某专业的学生特别有利，即测验中的DIF问题，是因为这类阅读测验既涉及英语阅读能力的测量，也涉及特定专业知识的测量。

(三)对学业结果的不当解释与使用

同样的结果，可以进行不同的解释，也可以当作不同的用途。因此，对学业结果的不同理解、解释及使用就出现万千生态。

1．排名公布

对学生学业结果排名并公布是我们司空见惯的一种教育图景。其表现形式多种多样，并成为教育资源分配的依据与标签。

一是班级内排名比较。将学生阶段内的单科或综合成绩按原始分数累加进行排序，并将排序结果张贴于教室前后比较醒目的位置。不仅如此，教师往往会以此为据进行相应的教育资源配置。请看学生的报告：在我的小学，教师曾经采用过这样的方式：如果考试成绩在班级排名前五名，就可以免去假期作业，五名之后的学生可适当减免。尽管小学的作业并没有那么多，我也会在考试时认真复习，争取取得好成绩，以免去作业之苦。而且，老师还给成绩名列前茅的同学一项特权：优先挑选自己喜欢的座位……笔者认为，这种个体间的成绩排序，满意的可能只有排名第一的那一位！且伴随其愉悦体验更多的是压力与焦虑。学校或教师的任何教育活动应当是面向全体的、普惠的，而上述排名法对大多数尤其是排名偏后学生造成的伤害不言而喻。

二是校内班级间排名比较。这常常是基于学生阶段内的学业测验结果，以班级为单位进行的成绩综合排名，往往张榜于校内比较醒目的位置。以这样的方式公布学生学业成绩，看似班级同学间的比较，实质上多指向教师或班主任之间的比较：通过排名，旨在说明班级任课教师或班主任之间的工作绩效，其后效是影响教师及师生之间的关系。请看例证：记得在我刚上小学的时候，考试成绩总是倒数、不及格，拖班级后退。有一天，班主任语文老师指着黑板上的成绩单，生气地说：“这次我们班的总成绩下降了很多，年级排名也下降到第四名。主要原因在于那几个倒数的同学，成绩真的太差了，老师对你们这些学生也不抱什么期待，不指望你们考多么高的分，但你们能不能有点上进心，不能总拖班级后腿吧？” 我当时满脸通红，恨不得立马逃离教室。

三是校际之间的排名比较。往往由上级教育主管部门或第三方评估机构通过网络的形式进行公布，从而形成一定的社会舆论，对学校的办学产生一定的影响和压力。过去的重点校、如今的星级中学都是这类以学生学业结果为主要评价指标的变相排名。其结果常常会以教育资源分配转移的方式体现在校际之间。请看例证：(重点学校)各学科至少有1/3比较有经验的骨干教师。要尽快配齐所缺的主要学科的骨干教师，特别是外语教师……高等师范院校的毕业生要由省、市、自治区教育厅(局)择优分配给重点中学……重点中学的骨干教师比一般学校多，今后调整工资或晋级等，比例应大于一般学校。[23]

2．不当推论

学生学业结果是学生因经验而发生的变化，这种变化表现为认知、情感及动作技能三个领域。同一领域如认知领域的变化，有的测量多涉及知识及理解方面的低层次变化，有的测量则涉及分析、综合与创造方面的高层次变化。以某次或阶段内学生学业结果进行不当推论，会衍生各种各样的教育伦理问题。具体表现如下。

一是同一领域不同层次的推论，即以基础知识和基本技能测量结果推论学生学习能力的评价，即以低层次测量结果推论学生高层次学业结果，我们经常提及的“高分低能”之偏论[24]实质上就涉及这样的情形。

二是不同领域间的错位推论。即以学生某一学科领域的测量结果推论另一完全不同领域的个体性向或品质，如以学生学科考试结果(多反映认知领域的变化)推论学生思想品德(即情感领域)，并由此将学生分为“好学生”和“差学生”等。

三是不同情境之间的预测式推论，即以课堂学业结果对学生未来发展及社会适应方面进行推论。我们都知道，社会对个体的测量方式与课堂对学生的测量方式完全不同，其不同体现在：一方面，课堂往往追求的是学科逻辑，是远离情境的，多涉及对个体认知能力的考核；而社会往往看重的是综合与整合逻辑，是高度情境化的。雷斯尼克(Resnick，1987)将校内外学习的不同概括为四个方面，即个体认知与共享认知、纯智力活动与工具操作、符号运算与情境化推理、概括化学习和具体情境的能力。[25]正因为学校学习与社会适应的这种巨大差异，使得学校对学生的测量结果并不能很好地预测学生的社会适应与发展能力，而这也是社会对人才培养单位抱怨最为集中的地方。另一方面，课堂偏向学习变化之认知领域的单一评价，而社会则看重认知、情感以及动作技能领域的综合评价。认知测验常常是测量学生的最佳表现，而情感测验则致力于测量其典型表现。[26]与认知变量比，情感变量往往被视为个体未来行为的重要预测因子，因为人们的情感状态往往蕴含着其行为倾向。

四是不同参与方之间的漂移式推论，即以学生学业结果推论教师的教学质量或教学效果，或者推论学生家长对学生学业的精力投入。伴生的问题是：面对学生的学业结果，教师会受到学校和家长的肯定或责难，认为教师应该对学生的学业结果负责；学生家长受到学校或任课教师的警示或面谈，要求对自己孩子的学业结果担当责任。

三、学业测验与评价伦理之反思

学生学业测验与评价之伦理，无不与测验中的偏差及评价中对测验结果的不当使用有关，其中涉及的问题是多层次多维度的。我们以学生阅读《红楼梦》这部经典为例，尝试从目标伦理、手段伦理、过程伦理及结果伦理几方面反思学业测验与评价中的伦理问题。

(一)目标之伦理

目标之伦理常常关注这样的问题：“我们应该做什么？”因为伦理选择的重点是评估所追求的正确价值观和规范。[27]以当下我国的学校教育而论，目标之伦理关切的问题是，我们的教育到底应该追求什么样的目的？是学生的身心健康发展还是之外的东西？对这一问题，学理层面似乎不存在问题，但在教育现实中却是一个很严峻的问题。

如，学生阅读《红楼梦》是出于培养学生的阅读素养——如此，则对阅读的奖励来自阅读本身，即阅读过程所带来的精神享受；还是因为考试要求阅读——如此，则奖励来自阅读之外，即通过阅读能否得到对自己而言很重要的成绩。心理学告诉我们，前者是内部动机，后者是外部动机。

当然，我们不能奢望学生的学习都是内部动机驱动的，这不仅不现实，而且无可能。需要教师和家长警觉的是，如果学生本身对阅读怀有兴趣，那么外部奖励，如阅读与考试或某种个人荣誉关联，往往会让学习者游离目标，将“游戏”变成“工作”，此即奖励的“隐蔽代价”：对活动本身有着内在兴趣的个体施加外部奖励，会损害个体对活动本身的兴趣，降低其内在学习动机。如果我们的教育偏离个体本位而过于追求社会本位的学业目标，或者偏离成长性目标而多为功利性目标所驱动，就难以避免上述目标伦理问题。

(二)手段与过程之伦理

目标有学习导向之功能，为了实现预定的学业目标，当然可以选择不同的学习手段和过程。但无论如何，目的与手段不能混同甚至异化。如，学生若带着各自不同的阅读目标，就会采取各种手段或途径来实现自己的目标，在选择实现目标路径或者手段的时候，自然就出现“手段-目标”之争：目标至上还是手段优先？

仍结合上述例证，对于以阅读素养习得为目的的学生而言，不论采用何种手段，以能真正阅读、品味并享受这部经典为旨要，阅读方式不能超越目的；而对于以得到理想考试成绩为目的的学生而言，“阅读”本身就成了手段，因此通过或辅导或阅读或听书，只要能得到高分就是王道。

这其中存在手段伦理吗？对于阅读有着不同目标定位并选取各自不同手段的学生而言，自然就会采用不同的过程以实现这一目标，这样，或者按计划阅读、或听书、或者接受系统辅导，当目标追求出现偏差的时候，过程伦理就各具千秋了！

所以，手段或过程出现偏差，往往与目标定位偏差有关，要解决前者，须在目标定位上确定合理的价值与伦理。否则，就是上游污染下游治理式的问题解决思路。

(三)结果之伦理

前已述及，测验和评价所涉及的伦理常常与对结果的解释与使用有关。同样的结果可以进行不同的解释，也可以当作不同的用途：对学生阅读部分的成绩，可以视为学生阅读能力的证明，也可以视为学生阅读爱好的佐证，当然也能当作学生阅读成绩排序的依据。

所以，测验结果如何解释、如何采用这一结果所涉及的教育伦理，将对学生的学习动机与学习性向产生长远后效。评估者的职业责任是做出有价值的判断，这是对公众的一种独特的道德义务(如同治病是医务人员的一种独特的道德义务一样)。[28]教育评价者需要承担三方面的伦理责任，即维护评价对象的利益、尊重评价对象的人格和权利、确保评价结果用于发展之目的。[29]

涉及学生学业结果的解释与使用，理应就事论事，不作上下位之间、领域之间的窜位式推论，更不宜以此领域的学业变化预测完全不同的彼领域发展之可能性。