批判性思维理论、教学与评价研究的新动态

2023-02-13 19:01武晓蓓

延安大学学报（社会科学版） 2023年6期

武晓蓓

(1.延安大学外国语学院,陕西延安 716000;2.延安大学西安创新学院国际学院,陕西西安 710100)

在信息爆炸和人工智能时代,批判性思维和推理能力的发展已经成为一个全球性问题,其研究意义和重要性愈发凸显。鲍灵格林州立大学(Bowling Green State University)教育基础、领导与政策荣休教授法斯科(Daniel Fasko, Jr.)曾经于2003年编辑出版了《批判性思维与推理:当前理论、研究与实践》一书。(1)参见Daniel Fasko(ed.). Critical Thinking and Reasoning:Current research,theory,and practice. Cresskill, NJ:Hampton Press,Inc.,2003.18年之后,法斯科与萨姆休斯顿州立大学(Sam Houston State University)哲学杰出荣休教授费尔(Frank Fair)于2021年合编出版了《批判性思维与推理:理论、发展、教学与评价》(以下简称《批判性思维》)。(2)参见Daniel Fasko, Jr. and Frank Fair(eds.). Critical Thinking and Reasoning:Theory,Development, Instruction, and Assessment. Leiden:Koninklijke Brill NV,2021.本书除了前言、后记和导论之外,包括4部分——批判性思维(以下简称CT)理论、发展和学习、课程和教学、评价共16篇文章。此书想让读者理解什么是CT,CT从童年、青春期直到成年如何发展,如何成功地向儿童、大中小学生和成人教授CT,了解各种广泛使用的CT能力和倾向评价工具。每一部分除了包括4篇文章外,都配有一篇专家评论。4位评论专家分别是大名鼎鼎的女性主义教育哲学家塞耶-培根(Barbara J.Thayer-Bacon)、儿童哲学专家特里基(Steven Trickey)、著名CT教科书作者布朗(M. Neil Browne)与CT测试专家哈彻(Donald Hatcher)和波欣(Kevin Possin)。作者中还有其他一些CT名家:Stephen Brookfield、David Hitchcock、Mark Battersby、Noreen C. Facione、 Peter A. Facione和Sharon Bailin等。来自教育、哲学和心理学(或相关专业)领域的作者贡献了多样性观点,使本书具有跨学科性质和国际吸引力。[1]xii

一、批判性思维理论

批判性思维理论的首要问题是“批判性思维”(critical thinking)这一概念。有7个得到充分发展的(哲学)CT概念。这些概念是纲领性定义(programmatic definitions),即对一个教育系统应培养的心智习惯和认知能力的建议。希契柯克(David Hitchcock)指出,一个全面的CT哲学概念将包括:对什么是CT的描述;对关于某一议题的批判性思考过程之构件的分析;与这些构件和过程相关的准则和标准集;对有助于满足这些标准的精神状态(知识、能力、倾向和态度)的说明;对拥有这些精神状态之益处的说明。[2]9-10

杜威(John Dewey)的“反省性思维”(reflective thinking)强调在进一步探究期间悬置判断的重要性——乐意保持和延伸作为透彻探究之刺激的怀疑状态,因而在找到证明理由(justifying reasons)之前,不接受一种想法或对一种信念作出肯定的断言。他聚焦于探究而非评估,所有说明反省性思维的范例没有一个是关于人们评价别人的陈述和论证的。[2]10-11

恩尼斯(Robert Ennis)研究CT概念已有60余年。其早期的CT概念聚焦于评估——“对陈述的正确评价”,后来也走向考察对好思维不可或缺的“贡献性思维活动”(如观察、推断和构想替代)。他明确指出,理性思考者是以倾向(tendencies或dispositions)为特征的。恩尼斯还为CT技能的熟练程度提供了详细标准。与他的定义相适配,恩尼斯提出了CT倾向和能力的清单,有时又将该清单减缩为FRISCO——焦点、理由、推断、情境、清晰性和概览。恩尼斯还区分了4种教授CT的方法:一般方法、注入法、浸没法和混合法,并倡导混合法(将一般方法与注入法或浸没法组合起来的方法)。

保罗(Richard Paul)与埃尔德(Linda Elder)合著的《思考者指南》系列(含21本)论述了科学思维、伦理推理、工程推理等,试图把CT教育在各学科和各教育层次具体化。CT被构想成监督和指导自己的思维,是自我导向、自我约束、自我监督的思维,是一种努力系统地提高思维质量的艺术。保罗的CT定义展开为三大构件——思想(推理)的8要素、9个普遍智识标准和8个理智德性的集成,并进一步区分了“弱意义”和“强意义”的CT。教育机构可以很容易将思想的要素、普遍的智识标准和智识美德的三位一体纳入任何学术科目。当然,这种三位一体的模糊性也引发了人们对这种整合会在多大程度上改变课程、教学法和评价的怀疑,由此又引起它能在多大程度上改善学生思维的怀疑。[2]18

范西昂(Peter Facione)《德尔菲报告》的核心贡献是CT概念共识的两个清单:CT技能和CT情感倾向(affective dispositions)。技能有6个,情感倾向有7个(两者均包括数量不等的子项)。CT是有目的的、自我调节的判断的过程。这个过程对证据、语境、概念化、方法和准则给予理由充分的考量,以形成这个有目的的判断。CT的反身性(reflexivity)允许人们将CT用于判断(judging)正在依靠的那些理论、正在提出的证据、判断正在诉诸的准则或标准的合理性(reasonableness)、正在被描述的语境元素的相干性,或者正在使用的探询方法的有效性。与此概念配套,范西昂开发了《加利福尼亚批判性思维测试》(CCTST)和《加利福尼亚批判性思维倾向清单》(CCTDI)。这两个测试工具已有30余种语言版本,全球60余国使用。[3]71

费舍尔(Alec Fisher)和斯克里文(Michael Scriven)将CT定义为:“对观察、交流、信息和论辩的熟练的、积极主动的解释和评估,作为思想和行动的指南”。照此定义,他们列出了CT所需要的能力,但把批判地思考的习性(propensity)当成是批判态度的全部,且与CT的定义无关。他们提出了CT测试的7个维度:测试的构建、管理、适宜性、覆盖范围、评分过程、解释和报告。在每个维度上,都需要考虑各种标准(如,评估覆盖范围需要同时考虑广度和深度),这比测试设计者通常考虑的标准更全面,而且将多项选择题与多项评价题(如增强论证、削弱论证或与论证不相干)结合起来。费尔(Frank Fair)等开发的《德克萨斯批判性思维技能测试》(2010)纳入了这类题目。

女性主义教育哲学家塞耶-培根(Barbara Thayer-Bacon)批评恩尼斯、保罗等人的当代CT理论将一个人的思想与身体分开,将一个人与社会关系分开,建立在一种不充分的认识论基础上。塞耶-培根将自己的CT概念称为“建设性思维”(constructive thinking),试图以其替代或至少补充正统CT概念。“建设性思维”强调思维是我们在自己内部积极构建的东西,也是社会构建的。[4]67建设性批判性思维者是一个具体化的、融入社会的人,他有独特的个人声音,认识到自己在特定社会环境中所处的位置,以及所处位置可能带来的谬误;他在探究和解决问题时,不仅使用理性,还使用情感、想象和直觉,以达成相互讨论并得到理由充分的判断;他从不假设除了以相互尊重的方式与他人交往之外会存在一种超越它的方法。塞耶-培根所提出的一种新认识论是关系主义、实用主义、女性主义和建构主义的融合:将知识视为由嵌入社会环境和相互关系中的具体化的人所构建的社会性知识,知识通过行动和观察我们行动的结果而获得;知识不仅包括理性(传统上与男性相联系),还包括情感、想象和直觉(传统上和女性相联系),并将这些工具看作创造知识过程中的互动工具;拒绝将认知者与已知者分离。她将“大家缝”(quilting bee)这种获取知识的手段(参与者在制作被子的各个阶段进行协作)作为CT的象征。[2]22

伯林(Sharon Bailin)和巴特斯比(Mark Battersby)也对流行的基于非形式逻辑方法的CT不满,因它往往是防御性的“逻辑自卫”——学会不接受不充分或错误的论证,视角过于狭隘和受限。CT方法基于探询(inquiry),即对问题进行细致的批判性考查,以得出理由充分的判断(reasoned judgment),而CT教学的目标是为学生提供对真实环境中的复杂问题做出理性判断所需的理解和技能。其实,论证存在于围绕争议问题的论辩中。关切某一议题的各方,经常都提出有说服力的论证。做出理由充分的判断需要了解论辩——对议题进行研究,考查各方提出的论点,以及对论点的反对意见和对反对意见的回应;还需要了解论辩的历史和背景(语境还有助于确定哪些立场承担举证责任);理解并能够采用适当的标准来评估主张和信息来源,评估和权衡相互竞争的论证;还要学会意识到自己的偏见并防范其影响。[5]32此外,培养探询精神(spirit of inquiry)应是CT教育方法的核心。探询精神是对理性的欣赏和对理性信念和行动的承诺,以及基于这一承诺的一套子德性(sub-virtues)。其中包括思想开放、公正心、好奇心、关注真和准确性、钦佩人类智识成就、乐意跟随无论导向哪里的论证、接纳不确定性,以及尊敬地对待探询中的其他参与者。促进探询精神要解决阻碍探询精神的诸多认知的、社会的和情感的偏差(biases):一方面,要让探询者个人意识到自己的视角和偏见,监控自己的探询和对话过程,并让他们自己的观点经受批判性评估;另一方面,要在课堂上建立一个以批判性探询实践为中心的共同体。这就需要一个以学生互动为中心,学生进行论证、提问、挑战和批判的课堂。更进一步,还要努力开发一个包括理性决策在内的更全面的CT,寻求用一种更实用、更少意识形态的模型,取代理性决策标准模型。[5]40-41

希契柯克对“批判性思维”一词略表遗憾:该词明面上暗示其专注于评估已经生成了思维产品的那类思维,而忽略了产生这些产品的思维,将探究取向的思维(inquiry-oriented thinking)与评估取向的思维(evaluation-oriented thinking)人为分隔开。他认为,如果帮助个人和群体实现理想目标的思维既包括探究取向的思维也包括评估取向的思维,那么,用杜威的反省性思维、恩尼斯的理性思维,或塞耶-培根的建设性思维来描述这种思维就不会那么容易误导人了。乐意探究是最基本的思维美德。它不仅原则上包括意愿,也包括实际的探究,彻底和全面的探究;不仅包括个体彻底和全面的探究,还包括群体彻底和全面的探究。因而,学校应该促进诸如杜威的实验学校(Laboratory School)、塞耶-培根的蒙特梭利教室(Montessori classrooms)和李普曼(Matthew Lipman)的儿童哲学项目的探究共同体的发展。[2]26-27

为了明白地传达CT必定具有分析的和反省的本质,杜马斯(Denis Dumas)和董一晓(Yixiao Dong)用“批判-分析性思维”(critical-analytic thinking)替代“批判性思维”。因为批判-分析性思维这个术语能反映他们所认为的一种心理需要,即系统地估量、比较或以其他方式分析证据,以便进行批判性思考。[6]48他们认为,CT所必需的两种认知能力是批判-分析性思维和关系推理(relational reasoning),而且这两个构念(constructs)是相互联系的。批判性和分析性思维是个关系过程(relational process)。然而,人们往往因各种原因不能进行批判-分析性思维。换言之,个体围绕某一给定主张的真实性或恰当性进行批判性和分析性思维的能力,可能取决于他们组织或相互关联来自其环境的刺激或他们对这些刺激的现有心理表征这些更基本的能力。这种辨别环境刺激或心理表征模式的关键基本认知过程名之为关系推理。[6]47-48关系推理是人类辨别不相关信息中有意义模式的基本认知能力,以及从关系集合中得出总体模式的基本能力,也是一个与教育高度相关的心理过程,与人类在各种学术背景和领域的学习活动(如早期阅读、高中数学、高中化学和医学临床推理等)有着经验性联系。关系推理研究者确定了四种在学术背景中经常出现的关系推理表现形式:类比(analogy)、反常(anomaly)、二律背反(antinomy)和反题(antithesis)。这些表现形式之间的主要区别是从一个概念到另一个概念的关系类型。类比推理是两个或多个概念、对象或情境之间存在结构相似性的基本关系。与类比(涉及辨别相似关系)相反,反常推理发生在关系偏离或偏离预期模式的时候。反常推理不仅需要从典型模式中识别差异的能力,还需要额外的基础知识——对规范的理解。二律背反与不相容关系有关,通常涉及基于互斥性的分类,实际上是一种悖谬情形(如罗素悖论)。反题即对立推理(antithetical reasoning),它需要观察两种思想、概念或心理表征之间的直接对立关系。对立推理是论证和说服的一个基本要素。[6]51-52关系推理能力代表了对主张或陈述进行批判性分析的必要但不充分的条件,因此,在必要的关系推理得到发展之前,不可能对某些主张进行批判的思考。如果关系推理确实是批判-分析性思维的先决条件,那么以提高学生CT为目标的教育干预措施就可以侧重于关系推理的教学策略。[6]56

塞耶-培根的评论认为,希契柯克对7个关键哲学概念的简短描述遗漏了西格尔(Harvey Siegel)、梅可派克(John McPeck)、李普曼(Matthew Lipman),尤其是弗莱雷(Paulo Freire)。她指出,女性主义学者已经探索了教学问题,提出了许多旨在帮助学生学习如何进行探究,并将其探究技能应用到日常生活中的教学模式。她除了对CT的探询方法表示赞同之外,对杜马斯和董一晓的关系推理一文“感到兴奋”,“因为我的整个职业生涯可以归结为对关系性(relationality)的沉思”,但他们之间对关系的思考方式“几乎没有共同之处”。因为前者对与CT和分析性思维相关的认知过程和心理能力感兴趣,而她自己从与他人的关系、个人关系、社会关系、精神关系、生态关系和科学关系的角度来看待关系,此工作来源于女性主义学术领域——心理分析、社会学、土著研究、佛教和科学,将宇宙视为统一的、互补的、动态的、共情的和联系的。[4]74

二、推理能力的发展

《批判性思维》第二部分的主题是儿童、青少年和成人推理能力的发展。关于儿童推理能力的发展,人们提出了若干理论进行阐释。马科维茨(Henry Markovits)和德·尚塔尔(Pier-Luc de Chantal)用一种语义检索模型(semantic retrieval model)或语义记忆理论(semantic memory theory)解释儿童推理的发展。他们认为,工作记忆反映了在逻辑思维中保留和处理信息的能力。因此,工作记忆与逻辑思维的发展有关。在记忆中保留更复杂的表征需要更大的工作记忆容量。推理过程中检索困难的部分原因是需要保持工作记忆容量中的信息。根据这一基本模型,决定儿童是否能够对任何给定内容进行合乎逻辑的推理(特别是条件推理的肯定后件和否定前件)的关键维度是他们检索替代的能力。这转而又取决于两个因素:1.事实上可获得的替代的数量;2.获得这些替代的难度。[7]87可见,条件推理不仅是一种收敛性思维,也与发散性思维相关。可以把逻辑推理的出现描述为在推理过程中协调收敛和发散运算的能力的发展。让儿童做替代练习可以提高他们的逻辑推理水平。[7]93-94由此,他们论证了儿童推理的发展是由发散性思维的形式支撑的。

青少年或青春期儿童(13-19岁)是一种相对新近的文化建构(cultural construction),而不是青春期大脑的必然结果。与青春期前的儿童(10-12岁)相比,青少年身上出现了未曾看到过的、更高级的推理形式和理性水平,体现在逻辑推理(假设-演绎推理)、元逻辑理解(关于逻辑证明和逻辑真之本质的明确的概念知识)、认识的认知(从客观主义者、主观主义者到理性主义者)、科学推理(不仅仅是演绎推理,至少还包括超越数据而概括的归纳推理,假说检验)、论辩(包括识别和驳斥替代信念,预见对自己证明的潜在反驳,准备辩驳,协调视角,澄清分歧,寻求共同基础)、(第三方)换位思考(perspective taking)和道德理性(原则性道德推理)等方面的质的进步。所以莫什曼(David Moshman)认为,青少年不理性这种说法是极为夸大了青少年和成年人之间差异的刻板印象。应该将青少年融入成人生活的不同角色和多代社会网络,并赋予他们所有的权利和责任。解决青春期问题的办法是承认青少年是成年人。[8]100

著名CT专家布鲁克菲尔德(Stephen Brookfield)在批判理论(critical theory)传统中讨论了CT的过程,探讨了该过程与目前主导成人教育领域的变革性学习理论框架的联系,以及如何围绕白人至上主义(white supremacy)意识形态和白人拒绝承认其白人种族身份的分析来发展成人CT。公民对维持根本不平等制度的主导意识形态(例如,认为白人理所当然的优越智力、客观性、推理能力和逻辑能力意味着他们自动占据权力和权威的位置)进行批判性思考非常重要。CT的过程通常始于一个事件,该事件表明“圆满”解释世界的假设和视角与现实生活中发生的事情不相符。CT的核心过程是假设搜寻——辨识并研究支撑我们思想和行动的假设。白人至上主义、父权制或资本主义等主流意识形态中的假设最难揭开,开始质疑这些基本意识形态假设对我们会产生实质性的影响,从而质疑我们赖以生存的行为准则。[9]114-115面对一些令人迷惑的困境,成年人被迫质疑和重新评估他们理解世界的方式,通过批判地思考他人的假设(客观重构)和自己的假设(主观重构)来改变他们的参照系,并探索其他思维和行为方式。这样,CT就是一种变革性成人学习(transformative adult learning)。[9]117-118布鲁克菲尔德主张一种促进对种族身份进行批判性思考的教育学,这种教育学基于叙事披露的方法论(methodology of narrative disclosure)和批判种族理论(critical race theory)对相反叙事的倡导。[9]128他还提醒,CT不是在真空中发生的,而是关于某件事的,适用于“现实世界问题”。他也例示了如何通过对情绪化话题的理性思考来培养CT,并警醒人们:我们的无意识偏见可能比我们最初想象的更普遍。[10]143-144

特里基(Steve Trickey)的评论将“发展与学习”和儿童哲学(philosophy for children)联系起来,认为儿童哲学过程提供了一种发展通常会在较年轻的群体中出现的理性思维的潜在方式。儿童哲学旨在发展可应用于“自由”和“公平”等一系列抽象哲学概念的推理过程。儿童哲学进程的基本要素与其他干预措施中的基本要素完全一致,这些干预措施往往为提高课堂互动质量和提高学生群体思维的认知挑战水平(探索“重大”道德、伦理和精神问题)提供了一种结构。[10]139哲学探究不是一种促进CT的简单“工具包”方法,其过程取决于互动和对话的质量。儿童哲学提供了一个机会——通过共同体中的理性辩论来挑战特定的观点或信念。一旦在思维共同体中建立了尊重挑战的过程,个体就可以更好地反省自己的想法。[10]144-145

三、批判性思维教学法

“课程和教学”部分讨论了小学、中学和大学的CT教学策略,包括克莱格霍恩(Paul Cleghorn)的小学CT“3步教学法”;马凯奥(Amber Strong Makaiau)根据李普曼儿童哲学计划阐述的提高中学生批判性思维技能的“好思维者工具包”,以及海纳(Amanda Hiner)对温思罗普大学(Winthrop University)将明确的CT教学纳入通识教育课程的方法的介绍。

一项历时15年,综合了800多项关于影响学龄学生成绩的因素的元分析的研究结果显示:对学习影响最大的策略包括元认知、反馈、直接指导和问题解决。[11]151这表明,循证学习(evidence-based learning)即采用经过严格研究证明行之有效的方法和策略是关键。在苏格兰一所小学担任多年校长的克莱格霍恩倡导一种3步骤——认知挑战、社会建构和元认知的CT方法。第一个要素是设置认知挑战,即提出一个不容易回答的问题集(在哲学探究的情况下,可能没有明确的答案)。第二个要素是社会建构,即使用对话来探究问题。这是一个合作的过程,学生们往往通过小组活动探究问题。需要花时间建立规范的对话语言并有效使用它。一种最有效的指导性方法是哲学探究,尤其是“通过哲学思考”(TTP)的方法。第三个要素是元认知。进入这个阶段,学生思考自己的思维。与3步法相适配,有一些相关的思考“工具”,如思考/配对/分享、思维图、二次提问、抑制判断等,还有一些简单的评估方法,比如“参考标准的CT矩阵”(criterion referenced matrix for critical thinking),强调形成性评估作为一种使学生进步的有力方法的重要性。此外,3步法就如李普曼儿童哲学方法一样,不仅强调认知发展,也强调情商的发展。自我意识、自我调节、动机、同理心和社会技能,更一般地说,心理健康,都可以在践行CT3步法的过程中得到改善。[11]165

马凯奥利用自己13年来使用夏威夷儿童哲学(p4cHI)教授高中社会研究的经历,说明如何在中学教育中使用“好思维者工具包”(Good Thinker’s Tool Kit)进行CT和推理。该工具包是杰克逊(2012)创立的让学生和教师参与思考和推理艺术的本土方法。p4cHI很少作为一个独立的学校课程来实践,而是一种“哲学家的教育学”或一种教与学的方法,教师可以用来将“哲学活动”纳入所需的“学校科目”。[12]171-172该工具包从形式逻辑发展而来,是让中学生和教师参与温和的苏格拉底式探究的艺术和技巧的绝佳策略,是帮助师生变成好思考者的探究工具。好思维者工具包7个CT指标:W:你这是什么意思?R:理由是什么?A:假设是什么?或者我可以假设什么?I:可以从推断吗?或者在哪里可以做出推论?T:所说的是真的吗?如果是真的,它意味着什么?E:有什么例子可以证明所说的话吗?C:有没有反例来反驳所说的话?可见,该工具包是一种启发式工具,旨在促进和评估学生的发展,使他们成为负责任的、能够独立推理的批判性思维者。它可以在中学教育尤其是4个主要核心学科领域——社会研究、英语语言艺术、科学和数学中广泛使用。[12]175在6至12年级的各种课程中,该工具包有6种一般用途。[12]176-177马凯奥详细说明了向中学社会研究学生介绍好思维者工具包,概述了运用该工具包上课的过程,讨论了对该工具包的反思和获得的启示。他也看到了学生在课堂外生活中如何使用该工具包引导日常生活,不禁畅想:“如果所有学龄儿童都在接受K-12教育的过程中接触好思维者工具包,那可能会对美国社会产生怎样的影响。”[12]185

大学的CT教学往往与通识教育课程相联系。温斯罗普大学的教师将通识教育计划(general education program)转变为包括CT的集中而明确的教学,帮助学生获得学术和职业成功所需的认知技能和心理倾向。鉴于保罗开发,埃尔德和诺西奇放大的CT方法具有概念简单,兼具潜在的复杂性和应用的深度,重新设计温思罗普通识教育“核心”时采用了它。[13]196在计划修改方面,对大一和大二期间连续必修的一组课程进行实质性修改:1.提高了ACAD 101: Principles of the Learning Academy的严格性,包括使用推理要素对文本进行批判性阅读和分析的指导。2.提高了Writing 101: Academic Writing的严格性,要求在每篇论文中对外部来源整合、综合和分析;强调批判性阅读策略。3.增加了一门新课程HMXP 102: The Human Experience,重点是批判性阅读和对复杂散文文本(prose texts)的仔细、严谨地分析,强调的主要技能是批判性阅读、分析和评估主张,以及将不同的文本合成为合乎逻辑的书面论证。4.将Writing 102改为CRTW 201: Critical Reading, Thinking, and Writing,这门课程明确强调CT和高级学术写作。CRTW 201的学生用整学期的时间学习保罗式的CT,并将这种分析和评价方法应用于严谨的非虚构散文文本,以跨学科为重点,应用于他们自己学术学科中的问题和主题。在课程修改方面,新的必修通识教育课程“CRTW 201:批判性阅读、思考和写作”被设计为一门混合型课程,侧重于CT理论和应用、修辞论证的基本组成部分、批判性写作策略、复杂散文文本中的论证分析、研究方法和来源正确记载的指导。教材是诺西奇(Gerald Nosich)的《学习思考:课程中的批判性思维指南》(2012)。这门课程要求按年级写作6000字的分析和审议性作文,最终完成一篇9到10页的论辩性研究论文。本课程强调保罗的CT方法,旨在提供一套可应用于学生专业课程的技能,丰富和增强他们参与深度学习、批判性阅读、分析推理和批判性写作的能力。在修改课程论文作业方面,CRTW 201要求学生以明确的方式整合CT概念,展示应用CT策略的能力,并纳入元认知元素。该课程通常包括5次论文:论文一:需要元认知和自我分析的4到5页的打字论文,可能要求学生将推理要素应用到导致他们过去错误的思维中,或者它可能要求学生分析他们目前持有的信念,使用过滤器、障碍和CT的障碍的概念。论文二:应用8要素的课堂论文,通常要求学生运用推理8要素来分析一篇文章、一本书的章节或两篇文章。论文三:一篇5到6页的文章,同时运用推理的要素和CT的普遍标准,通常会要求学生同时使用要素和标准来评估一篇或一组相关的文本。论文四:一份9到10页的研究报告,包括要素和标准,以及与课程内容相关的主题的外部研究。本论文主题要求学生考虑CT在他们的学科和未来职业中的应用,并在研究过程中进行元认知自我反思,评估自己的思维。论文五:期末论文考试,可以是元素和标准的应用,也可以有很强的元认知焦点。海纳要求学生学习保罗和埃尔德的CT“阶段”,并写一篇说明为什么他们会把自己置于批判性思维发展的特定阶段的论文。所有评估结果都表明,学生在批判性思考和分析领域取得了积极的学习成果。分析性写作(analytic writing)、做出论证(make-an-Argument)、批判论证(critique-an-Argument)和实作任务(performance task)方面,温思罗普学生的成绩均达到“高于”或“远高于”预期分数,高于全国平均水平(2018,2019)。海纳还从以上教学改革归纳出12条以实质方式整合CT的建议。[13]201

布朗(Neil Browne)在美国中等规模的州立大学教授CT已有52年,是CT名著《问对的问题》(Asking the Right Questions)的作者之一。该书有12个版本和16种语言,已被世界各地的数百所大学使用。其特点是将CT框架化为一组问题(很像马凯奥描述的“好思维者工具包”中的问题)。布朗尖锐地指出,对“批判性思维”这个词的忠诚度与高校职员的日常行为之间有很大鸿沟。这个关键问题也涉及推销CT的问题,需要对鼓励CT的方式进行批判性思考。[14]217布朗指出,一种类似于法庭上喧嚣的CT方法并不是一种畅销的CT,他提倡宣传一种不会产生任何斗争或竞争之感的CT。作为一名校际调解教练(intercollegiate mediation coach)和校际模拟审判教练(intercollegiate mock trial coach),他给CT老师的独特建议是:花点时间研究调解(mediation),它是重塑的、更温暖的、使用者友好的CT指南。[14]220-221

四、批判性思维评价测试

在《批判性思维》第四部分,海恩斯(Ada Haynes)和斯坦因(Barry Stein)讨论了他们开发的CT评价测试(Critical thinking Assessment Test,CAT),范西昂夫妇(Peter Facione和Noreen Facione)以及吉腾斯(Carol Ann Gittens)报告了开发和使用加州CT技能和倾向测试工具(CCTST和CCTDI)的情况,巴特勒(Heather A. Butler)从心理学观点讨论了CT测量的基本问题,哈彻(Donald Hatcher)和波辛(Kevin Possin)合写了对以上文章的评论,而波辛对主流CT测试工具的普遍批评颇具冲击力。

让教师参与CT技能的真实评价(authentic assessments),即让学生在真实生活情境中展现他们的能力,会影响他们修改教学实践以改善学生弱点的兴趣。海恩斯和斯坦因认为,CT评价测试提供了一种评价这些技能的真实方式(authentic way),并为如何开发更好地突出CT的学科特定评价工具提供了一个模型。CAT基于一种当代的、包容的、基于技能的方法。CAT工具是根据教师的输入来设计的,用以评估教师认为最重要的技能;它还被设计成由教师打分,这样他们就可以直接看到学生的优点和缺点。CAT评价的技能领域有4个:1.评估信息(区分事实信息与推断,解释图表中的数值关系,理解相关联数据的局限,评估证据,辨识不恰当结论);2.创造性思维(查明对数据或观察结果的替代解释,找出可能支持或反驳某个假说的新信息,阐明新信息如何能改变一个问题);3.学习和问题解决(区分相干信息和不相干信息,整合信息以解决问题,学习并应用新信息,运用数学技能来解决现实问题);4.交流(有效地交流想法)。CAT使用15个主要是简短答案的短文反应来评估CT(可以在一个小时的课堂上进行),这一点不同于许多基于强迫选择反应(forced choice responses)的CT评估。许多需要CT和解决问题的真实的现实情境都没有一个简单答案,也没有选项的简单集合以供选择最佳答案。[15]236-237此外,CAT还可以考察不能通过选择题测试来评价的创造力、沟通和深度学习。它还包括一个称为“动态评价”(dynamic assessment)的过程。在动态评价中,一系列越来越深入、更明确的问题提示被用来激发学生的CT技能,以衡量人们理解和评估新信息,并将这些信息应用于新情况的程度。教师对CAT工具的表面效度的评价是很高,CAT与其他CT和学习成绩的衡量指标表现出适度的相关性,为评估的效标效度提供了支持。最重要的是,CAT成绩与学生认为大学课程强调死记硬背的程度之间存在负相关。CAT已经在美国300多所学院和大学使用,其他国家(澳大利亚、加拿大、中国、日本和巴勒斯坦)对CAT的兴趣和使用正在扩大。在美国的机构使用CAT时,没有发现有文化或性别偏见,也没有发现CAT存在学科偏见。[15]239-240针对评分过程占用教师太多时间的难题,开发者正在探索简化的评分方法。[15]245

心理学家巴特勒从心理学角度分析了CT评价问题。CT和智能不是一个概念,它们是预测不同生活事件发生的不同构念。任何评价的质量都是基于它是否可靠和有效。在确定评价是否可靠和有效时,有许多类型的信度(reliability)和效度(validity)需要考虑。心理学家做出的另一个区别是依赖再认记忆(recognition memory)的评价和依赖回想记忆(recall memory)的评价。再认记忆是回答选择题时使用的记忆类型。回想记忆是回答一个简答题(short answer question)或作文题(essay question)时所使用的记忆类型。这类评价需要在没有任何提示的情况下从记忆中检索答案,花费更多精力。一般认为,通过回想来回答问题的答案更真实,也更能反映答题者的实际知识。基于回想的评价的主要缺点是,它们需要对所构建的响应进行额外的分级。因此,许多CT评价依赖对选择题的回答,尽管在测量这样一个复杂的构念时存在固有的困难。[16]260-261巴特勒分析了两大类(技能和倾向)CT工具的心理测量特性,对6个CT技能评价和2个CT倾向评价作了简要评论。康奈尔CT测试(Cornell Critical Thinking Test,CCTT)和学术能力与进步测试(Measures of Academic Proficiency and Progress,MAPP)完全依赖再认记忆。康奈尔CT作文(Cornell Critical Thinking Essay,CCTE)、ICATCT作文考试(ICAT Critical Thinking Essay Examination,ICAT)和华生-格拉泽TM II CT评价(Watson-GlaserTM II Critical Thinking Appraisal,W-GII)完全依赖回想记忆。哈尔彭CT评价(Halpern Critical Thinking Assessment,HCTA)同时利用了回想记忆和再认记忆。

CCTT是一项选择题型评价,测量大学生归纳和演绎、确定可信度、预测和实验计划、逻辑谬误(尤其是歧义)识别和假设识别等思维能力。经各种测量方法得到的信度没有一个达到推荐的信度标准。这导致了对该评价工具的改进(但目前尚未发表评价修订后的该评价的心理测量特性的证据)。美国教育考试服务中心(Educational Testing Service)提供的MAPP,除了测试阅读、数学和写作,还测试人文、社会科学和自然科学的CT。这种选择题型考试有短版和长版,可用纸笔或在线完成。有研究认为,由于其结构和格式与经过良好验证的工具——学术轮廓(Academic Profile)相似,因而可以推定MAPP的结构效度,但这需要更多的研究来验证这一假设。CCTE使用答题者对给(虚构的)报纸编辑的信件的评价来测量CT,主要侧重于论辩技能(argumentation skills)和评估。这一评价工具在24项研究中得到了广泛评估,外部效度和内容效度都很好,但效标效度尚未建立。同时,评分者间信度很好,但内部一致性不佳,不符合最低信度标准。国际思维评价中心(International Center for the Assessment of Thinking,1996)发布的ICAT测量阅读理解和论证分析。给被试呈现一篇与领域相关的社论,要求分析并评估该社论——写一篇文章,综述该社论的内容,辨识要点,并确定社论中做出的论证的力量和弱点。开发者论证说,该工具有结果有效性(consequential validity)——它可以作为一种诊断工具来改进教学,但没有进一步的证据证明该测试的信度或效度。W-GII(NCS Pearson,2009)测量推理、假设识别、演绎、解释和论证评估。它是基于问题的评估,有长形式和短形式,也可在线管理。总体而言,W-GII的心理测量特性很好,是一个有效和可靠的评价工具。HCTA测试语言推理(verbal reasoning)、论证分析、假说检验(像科学家一样思考)、可能性和不确定性,以及决策/问题解决。它有多语言版本,在网上进行管理,有短版(只针对再认问题)和长版(回想和再认问题)。最新版本包括对书面回答的计算机辅助评分。这是一种基于问题的评价,向被试提供来自众多生活领域的20个场景。被试阅读、构建开放式问题的答案(回想记忆,仅限长版本)后,回答必选题(再认记忆)。一些研究已经建立了HCTA的信度和效度。有10个研究使用不同的方法和来自不同国家的样本评估了该评价工具的结构效度。总的来说,HCTA为测试的信度和效度提供了坚实的证据。[16]265CCTDI是一项适用于10年级及以上学生的选择题评价。根据德尔菲报告的CT定义,评价求真、思想开放、分析性、系统性、CT自信性、好奇性和判断成熟度7个因素。研究表明,原始7因子结构未得到支持,但4因子结构得到支持。整个评价的信度非常强,但各子量表的强度各不相同。同一出版商(Insight assessment)推出的CMMM为年幼儿童和青少年制作。该评价有几个版本,根据考生的年龄而有所不同。该评价测量学习倾向(learning orientation)、创造性问题解决、精神专注(mental focus)和认知完整性(cognitive integrity)4个因素。各因素的内部一致性和效标效度良好,得分与自我效能(self-efficacy)与包括SAT和GPA在内的学业成绩相关。测试研究证实,那些在CT评估中得分高的人经历的负面生活事件比那些得分低的人要少。当然,关于CT是否在大学得到改善,有不同的结论,这确实凸显了使用质量评价(quality assessment)并确保被试有动力认真对待评价的重要性。[16]266

范西昂等围绕运用自己所开发的CT测试工具的研究结果,分别回答了4大问题:1. 大学生:当今学生的CT技能与几十年前的技能相比如何?2.专业培养方案(professional programs):CT评价对毕业和专业录取以及对向职场过渡的预测有多大帮助?3.K-12学生CT评价的进展:关于CT和最佳儿童期发育之间的关系,K-12的数据告诉了我们什么?4.职场CT评价的价值:CT测试和培训的商业优势是什么?[17]272-273对这些问题的回答是使用CCTST和CCTDI获得的数据做出的。攻读副学士学位(二年制)、学士学位和研究生学位的学生这三个群体在间隔7年的3个时间点(2005,2012,2019年)的平均CCTST总分在增加。(3)CCTST报告的分数为0-34(34道题,每题一分)。2010年引入百分制。地区性公开招生大学的平均CCTST成绩为14.8分(73.2分)——录取了一些CT能力较弱的学生;相比之下,研究型大学的学士学位学生的平均总分为18.0(77.6),表明这些学院的录取标准导致那些CT能力平均较高的学生的选择。总分的变化意味着教育对训练推理技能的重视正在产生效果。有限的证据表明,过去15年来,学生(本科生和研究生)总体CT能力有所提高。改善CT的举措正在世界各地(至少50余国)开展。在许多国家进行的研究,记录了不同国家人群中CT的进步。[17]278研究生水平的样本通常比本科水平的样本具有更好的心态属性分数。有证据表明,随着时间的推移,大学生的CT能力和心态都在提高。多年来,研究人员一直在研究入院时CT分数的作用,以预测临床评分、学位完成率和执照率。大多数项目使用健康科学推理测试(Health Sciences Reasoning Test,HSRT)或CCTST作为评估工具,将学生或申请人与他们专业组的全国比较百分位数进行比较,并使用CCTDI作为思维心态属性的衡量标准。来自澳大利亚、中国(含香港特区)、爱尔兰、加拿大、阿联酋、土耳其、沙特阿拉伯、英国、日本、荷兰、马来西亚、美国和许多其他地区的同行评议研究表明,作为一名成功的健康科学学生和执业临床医生的指标的CT技能分数,具有预测能力。[17]280-281

为测量K-12学生的批判性思维,范西昂等开发了教育洞察(EI)推理技能(EDUCATE INSIGHT Reasoning Skills)和心态系列(Mindset Series)系列(2005-2017)。这些项目共同提供了对整体CT的测量,以及对5个或更多技能领域(分类、说明、分析、推论、评估、归纳推理、演绎推理、数字计算和解释。)的测量。2018-2019年的中学样本研究表明,中学生在CT技能方面取得了进步。甚至K-2水平的孩子也表现出较高的CT能力。这表明,让孩子拥有更好的思考能力越早越好。3年级及以上的推理能力测试包括一个计算能力指标。(4)吉腾斯将计算能力(Numeracy)定义为定量语境中的批判性思维,强调使用分析、推理、解释、说明、评估以及对自己推理过程的反思(元认知和自我调节)。算术不仅仅是简单地加一列数字或求解x,首先是解决问题的能力——确定应用哪种数学运算,以何种顺序,这样人们就可以利用可用的定量信息正确地推理,并解决手头的问题。参见Carol Ann Gittens.Assessing Numeracy in The Upper Elementary and Middle School Years.Numeracy, 2015(1).教育洞察心态(The EDUCATE INSIGHT Mindset)工具包括幼儿园至2年级(小学)、3-5年级(小学高年级)和6-12年级中学生的评价。K-2工具报告4个性格维度的得分:学习取向(Learning Orientation)、创造性问题解决、精神专注(Mental Focus)和认知完整性(Cognitive Integrity)。在3-5级和6-12级的工具上增加了学术严谨度(Scholarly Rigor)作为第5个指标。样本研究结果显示,大多数儿童具有积极的学习取向和认知完整性。创造性问题解决和精神专注的分数在分布更广泛的连续统一体中。在这个非常年轻的群体中,许多孩子都表现出了这种心态属性。[17]288

在学术界之外,组织筛选应聘者时要能够识别表现出强批判性思维的应聘者。专门为在商业、医疗保健、国防、科学和工程、法律等领域工作的人量身定制的CT测试工具也开发出来,例如Insight Assessment的商用评价系列工具。总之,CT的力量越来越多地与教育和工作场所的关键绩效指标联系在一起;而且CT技能和心态的培训通常是有效的。[17]289

在评论CT评价的文章中,哈彻负责一般评论,波辛则提出了对市面上知名CT评价测试的批评。哈彻提醒CT测试的“消费者”应注意五个问题:1.哪个测试最适合要评估的项目或课程?2.各种测试是如何验证的,是否正确验证?3.从评估数据中能和不能学到什么?用于结果比较的数字真正意味着什么?4. 从数据中可以得出批判性思维教学成功或失败的结论吗?5.评估的全部成本是多少?鉴于其费用,商业测试是最佳选择吗?[18]299-300评价测试的消费者首先要将测试工具与一个人的CT概念(不同的概念涵盖不尽相同的技能和倾向)。选择一个测试来评估一个人没有教的东西,或者选择一个不评价一个人所教东西的测试,都是没有意义的。要知道某一测试是否在评价老师所教的内容,那就最好让这些老师参加该测试。[18]301-302要进行有意义的测试分数的比较,需要考虑许多变量。[18]302在解释测试成绩方面,数字本身并不能说明全部情况。目前还没有确切的方法来确定收益或损失是CT教学还是其他因素组合的函数。哈彻认为,各种测试工具对学生的前测和后测分数比较得到的“收益”增长,从百分比看起来“显著”,但实际进步微乎其微:很可能在上完CT课程或大学4年后,普通学生的后测只比前测多做对两道题。况且,测试的更多学生成绩稍好,可能有另外的解释。如果没有一个精心构建的对照研究,就无法知道这个增益是CT课程,还是学生在那个学期所学的其他课程的作用。而如此小的收益可能会让人质疑CT教学的效果:大多数学生要么没有能力以任何重要方式获得必要的技能和倾向,要么老师没有能力教授这些技能。因此,评价测试可以使用,但商业推广大可不必。[18]303

波辛对前述CT评价测试工具逐个提出了具体批评。CAT侧重于一般科学推理和问题解决技能,完全忽略了涉及演绎推理、论证分析和经典非形式谬误识别的技能评价,根本不是对CT技能的一般测试。[18]307-308尽管CAT有高表面效度,但似乎没有足够证据证明其内容效度。CAT本身在测试其重要CT技能子集方面做得很好,然而评分指南的严重问题最终阻碍了其结构效度。CAT的第二部分几乎完美,但第一部分存在严重的评分问题,评分指南或教师评分员接受培训后使用的答案有可商榷之处。[18]309-310

波辛早先(2008)就评论过CCTST和CCTDI。CCTST修订版(2010)的最大变化是增加了6个涉及“计算能力”的题目,使其由34题变成40题的选择题考试(时间由45分钟延长为55分钟)。波辛对CCTST的内容效度评价很高,并将其部分原因归为德尔菲报告这一基础。但CCTST用户手册和洞见评价(Insight Assess)网站中给出的该测试之效度的其他理由并不充分。内容效度的一个主要问题是,参与德尔菲项目的学科专家在制定CCTST及其答案要点中没有发挥作用。由于“所有权”原因,专家评审员因一直未能使用这些题解(answer key)而无法对其验证。波辛强烈反对CCTST的55分钟时间限制,因为CT应是反省性的“慢思维”,而不仅仅是直觉的“快思维”。他还指出了CCTST题目的几个具体问题。[18]311然而,对于CCTDI,波辛认为它没有什么价值,一则因为对自己CT技能和应用这些技能之倾向的自我报告是不可靠的,二则CCTDI很容易“玩测试游戏”,为得到好分数,而不管一个人性格的真实答案是什么。[18]314

波辛(2008)曾对恩尼斯构想和创建的CCTT(针对本科生和研究生的Z级)进行了考查,认为它是一个具有高内容效度测试的佳例。CCTT管理手册(2005)通过其结果与沃森-格拉泽CT评价测试结果的相关性,提供了其效标效度的一些证据。《手册》还列出了使用CCTT-Z的实验研究,其中一些研究为CT中明确的教学(explicit instruction)优于其他教学形式提供了有力证据。由于E-W作者的主题专业知识,它在内容效度方面排名靠前,并且通过与沃森-格拉泽的结果的适度相关性,它也获得了效标效度的证据。与ICTT相比,它是更好的选择。MAPP可用于评估大学机构通识教育项目的有效性。只有四分之一的考试是关于CT的。因此,它不是一种有效的CT评价手段,也不适合高效的课堂或部门应用。[18]315

波辛(2008)也批评了保罗和埃尔德的ICTT。再次考查该测试之后,他发现该测试更多的是一种营销策略,而不是一种评价工具。这是因为,教员评分员将根据保罗的CT分析语言(8要素)和保罗的评估语言(9-11个智识标准)对学生的回答进行评分。而熟悉这种语言的最好(唯一)方法是参加ICTT培训班、为期两天的专业发展工作坊,或者购买和学习他们的出版物。[18]315

早先(2014),对于W-G的最新形式D和E,波辛指出,该测试方向的许多方面是令人困惑和误导的,造成这样的状况:你对CT了解得越多,你的分数就越低(此文的副标题)。波辛的评论指出了另外两个观察:1.根据W-G技术手册和用户指南(2010),W-G的最新版本更多地关注商业主题和场景,现在更多地迎合商业客户,而不是学术应用。2.修订工作不能令人满意,比如:形式D的一半题目来自形式A,形式E的一半题目来自形式B。而在形式D的评估部分,8个新题中的5个有多个合理答案。[18]316

HCTA基于以下CT概念:批判性思维是指使用认知技能或策略来增加理想结果的可能性。它用于描述有目的的、理性的和目标导向的思维——当思考者使用针对特定情境和思维任务类型的深思熟虑、有效的技能时,在解决问题、公式化推断、计算可能性和作出决策时所涉及的思维。波辛认为,这个定义提出了许多问题,最直接的是:什么结果、什么目的和什么目标?不过,哈尔彭所确定的5种广泛的CT技能,都是CT技能的关键类别。然而,CT的其他相关元素,如演绎推理技能,避免(除了滑坡谬误和虚假类比的)非形式谬误的能力,都被忽略了。波辛也不同意巴特勒对HCTA有效性的高度赞扬(波辛在2013年的一篇文章中分析了其在有效性、可及性和可负担性方面的严重缺陷)。和其他测试一样,所发现的问题是由措辞不当的题目、有多个合理答案的题目和完全不正确的答案引起的。[18]316-317

大学学习评价测试(The Collegiate Learning Assessment Test,CLA)(5)波辛在《大学学习评价测试的一个严重缺陷》(2013)一文中对CLA进行了非常详细的批判性考查。有趣的是,这篇文章被翻译成意大利语之后,有人用它来反对意大利政府的计划——要求所有大学都采用CLA,用学生所获的收益来决定教师的工资。被前述巴特勒的列表遗漏了,而它可能是最著名的(或臭名昭著的?)CT评估测试。这是两位研究者(2011)在24所高等教育机构中使用的测试,也是斯佩林斯委员会建议所有美国高等教育机构为确保不让本科生掉队所需要做的,但有所争议。CLA已被修订为CLA+:它的实作任务(performance task)保持不变,但分析性写作任务已被换成了3部分,包括关于简短文档的多项选择题。波辛对CLA+的审查发现,在一个样本测试中,这个新部分的14个题目中有5个有问题或答案错误,这对新测试来说不是个好兆头。[18]317

波辛解释说,对CT评价测试的这么多批评,并不是对CT评价测试持怀疑态度,而主要是一种严厉的爱。若要问波辛选择哪一个CT测试,他会这样做:如果预算紧张的话,那就使用CCTT-Z;若是论文测试,就用E-W(因为它免费,包括答案);关于归纳/科学推理的测试,勉为其难使用CAT(但前提是他可以编辑评分答案,并有一个慷慨的预算)。[18]317-318