美国基础教育项目效果评估经验何在？＊
——基于25 项高质量评估研究的主题文本分析

2022-12-23 06:14时晨晨

华东师范大学学报（教育科学版） 2022年1期

时晨晨

（中国人民大学教育学院，北京 100872）

自1978 年改革开放以来，我国教育改革已持续了40 余年，并将继续进行下去（吴康宁，2012），“建设高质量教育体系”便是国家持续深化教育改革这一意志的集中体现。在当下教育改革全面推进与持续深入阶段，随着我国教育事业发展主要矛盾的变化—从“有学上”到“上好学”再到“公平而有质量的教育”以及“更加公平更高质量的教育”，教育改革的理念与重心也开始发生转向，逐渐由此前对合法性、正当性和价值性的追求转向对科学性、有效性和可行性的追求。为了有效响应和推进这一改革重心的转向，近年来教育政策、项目或实践评估研究开始不断成长与发展，以期为科学、有效和可行的教育改革政策、项目或实践的制定或实施提供来自教育科学研究的证据。基于此，本文将对美国基础教育项目效果评估较为成熟的实践经验进行研究，希望能为我国教育政策、项目或实践评估研究的实践发展提供有效的经验参考。

一、问题提出：美国基础教育项目效果评估的实践经验

为了有效推进教育领域的知识生产，美国教育科学研究院（Institute of Education Sciences，IES）与国家科学基金会（National Science Foundation，NSF）于2013 年合作编制出《教育研究与开发指南》（Common Guidelines for Education Research and Development），将教育领域的科学研究分为三大类—基础性和探索性研究（foundational and exploratory research）、设计和开发研究（design and development research）以及效果评估（impact evaluation），三者依序筑就了一条完整的教育知识生产“管道”。其中，位于“管道”最后一环的效果评估，是指对那些以基础性和探索性研究为知识基础而被科学设计与开发的政策、项目、产品或服务达成其预期结果和最终目标的能力进行可靠估计，以生产效果证据（Earle et al.，2013，p.49）。就基础教育项目而言，效果评估最为主要的目的是判断项目的绩效或价值，利益攸关者可将这一判断结果用于多种用途，包括项目采纳决策、项目研发或项目管理的改进与完善，等等（Fitzpatrick，Sanders，&Worthen，2011，p.16）。

而这种对项目在现实世界情境（real-world settings）中的实施效果进行评估的特殊研究目前也已发展成为美国新近兴起的循证教育改革（evidence-based reform in education）的证据来源（时晨晨，2020，第55 页）。所谓循证教育改革，是指教育政策制定者和教育实践者基于教育研究者循证教育研究的证据结果，尤其是利用严格实验研究方法开展的高质量效果评估研究的证据整合结果，来决策和实施“被证据证实”（evidence-proven）的教育项目、产品或服务的教育改革政策与实践。与美国以往的教育市场化与标准化等制度性改革不同，这场新近兴起的循证教育改革运动将变革的着眼点聚焦在学校与课堂层面上，变革的核心要素有四—项目研发、效果评估、证据整合和学校改进，它们分别构成了循证教育改革的首要前提、证据来源、直接依据和实践落地（时晨晨，2020，第1 页）。由此也不难看出，项目效果评估在整个循证教育改革中具有承前启后的重要意义。

尽管项目效果评估的教育研究价值与教育改革意义重大，但实施一项高质量的评估研究并非易事。从项目方这一角度而言，需要周全考虑评估研究的资源前提、人力输入、开展过程以及成果输出等诸多环节。那么，实践发展根基相对坚实的美国基础教育项目效果评估目前在这些环节上到底积累了哪些较为成熟的实践经验？

二、文献综述：美国基础教育项目效果评估的实践发展

相较于包括中国在内的世界许多国家，美国基础教育项目效果评估的实践起步较早。诸多文献均指出，其实践源头可以追溯至19 世纪以前。不过，其现代意义上的效果评估则是伴随着1965 年《初等和中等教育法》（Elementary and Secondary Education Act，ESEA）的颁布而出现的。该法案推动美国联邦政府为基础教育事业的发展投入了大量的经费（例如学前教育的“开端计划”项目），但随之而来的担忧是，这些经费投入的效果到底如何？所以，提议经费接受者需提交效果评估报告的声音开始不断涌现（Fitzpatrick et al.，2011，pp.44-45）。

在此后的20 世纪70—90 年代，效果评估开始茁壮成长与发展。它的实践表现主要有：首先，在评估的专业人员上，高校争相开设相关学科、专业、学位项目和课程，培养与训练评估研究人才。第二，在评估的专业社群上，美国教育研究协会（American Educational Research Association，AERA）评估分部（Evaluation Division）、教育评估标准联合委员会（Joint Committee on Standards for Educational Evaluation，JCSEE）、美国评估协会（American Evaluation Association，AEA）等组织先后成立。第三，在评估的专业期刊上，《教育评估研究》（Studies in Educational Evaluation）、《评估季刊》（Evaluation Quarterly）、《评估新动向》（New Directions for Evaluation）、《教育评估与政策分析》（Educational Evaluation and Policy Analysis）、《美国评估期刊》（American Journal of Evaluation）等先后被创办。第四，在评估的专业规范上，教育评估标准联合委员会于1981 年发布首版《项目评估标准》（Program Evaluation Standards），1995 年美国评估协会发布首版《评估人员指导准则》（Guiding Principles for Evaluators）。

“21 世纪是评估的时代。进入新世纪后，项目效果评估迎来了激动人心的发展阶段（Fitzpatrick et al.，2011，p.V）。”在2002 年《不让一个孩子掉队法》（No Child Left Behind，NCLB）时期，一方面由于教育问责体制的建立与需求，美国基础教育项目效果评估开始更为关注研制效果测量指标，并评估项目在这些指标上的具体效果表现（Fitzpatrick et al.，2011，pp.53-54）。另一方面由于对教育研究事业强有力的经费支持，美国基础教育项目效果评估逐渐采用严格揭示因果关系的实验与准实验研究方法（Borman，2002），为此，不少学者认为美国教育研究的轨道开始发生转向（Angrist，2004）。

在2015 年《每个学生都成功法》（Every Student Succeeds Act，ESSA）这部新修订的联邦教育法颁布后，美国基础教育项目效果评估也开始获得了新的实践发展：第一，证据等级界定。该法之于效果评估的重要意义之一就在于其对“证据”的明文定义与等级划分。第一等级的“强有力”（strong）证据和第二等级的“中等的”（moderate）证据分别是指来自精心设计且被良好实施的实验研究和准实验研究的统计显著积极效果，这为高质量效果评估的研究设计指明了明确方向。第二，经费资助提升。其典型表现是美国教育科学研究院对效果评估的研究资助不断提升，2021 财年的单项立项资助上限已上调至380 万美元（U.S.Institute of Education Sciences，2020，p.5）。第三，管理系统建立。2018 年10 月31 日，美国教育科学研究院与美国教育效能研究学会（Society for Research on Educational Effectiveness，SREE）联合推出“效力和效能评估研究注册系统”（Registry of Efficacy and Effectiveness Studies，REES）。它鼓励评估人员在该系统中提前登记即将开展的因果推断性效果评估，具体包括随机对照实验（randomized controlled trial，RCT）、准实验设计（quasi-experimental design，QED）、断点回归设计（regression discontinuity design，RDD）和单个案实验设计（single-case experimental design，SCED）等四种研究方法，目的是为了增加效果评估开展过程的透明度以及成果使用的开放度。不少评估人员将其视为效果评估发展历程上一项具有里程碑意义的政策支持（Slavin，2018）。

三、研究设计：25 项高质量评估研究的主题文本分析

在2015 年《每个学生都成功法》对学生出勤这一教育问题的重视与问责背景之下，美国约翰·霍普金斯大学教育研究与改革中心（Center for Research and Reform in Education，CRRE）①的“《每个学生都成功法》证据库”（Evidence for ESSA）②目前已经完成了对全美境内基础教育阶段学生出勤改进项目效果评估的证据整合（evidence synthesis）③。

具体而言，该库基于如下十条严格的筛选标准④，筛选出如表1 所示的18 个学生出勤改进项目的25 项高质量效果评估研究（Shi et al.，2019，pp.8-11）。第一，研究应对美国基础教育阶段的学生出勤改进项目进行效果评估，且所评估的项目需是校本的、能够被传统公立学校自主采纳和实施的。第二，研究的撰写语言须为英语，发表时间在1990 年之后。第三，研究必须使用随机对照实验或准实验设计的研究方法。如果是匹对分配，分配需在项目干预实施前完成，事后匹配（post-hoc）或回顾性（retrospective）研究不予考虑。第四，研究中项目干预的实施时长不能低于12 周。第五，研究必须设置有同实验组相似的对照组，以接收替代性项目干预或正常教育教学。第六，研究中的实验组和对照组必须包含30 名以上的学生。如果分配水平是在班级水平或学校水平上，实验组和对照组必须均包含2 个及以上的班级或学校。实验组和对照组的流失率不能超过50%，两组之间的流失率差距不能大于15%。第七，研究需展示实验组和对照组初始样本的基线等值（baseline equivalence），即不超过0.25 个标准差。此外，两组流失后的最终样本的基线等值也不能超过0.25 个标准差。如果研究中没有呈现两组学生的出勤率基线数据，那么必须要提供两组样本在人口统计学和学业成绩上的基线等值，亦即，两组样本的人口统计学基线等值不能超过0.50 个标准差，学业成绩的基线等值不能超过0.25 个标准差。第八，研究必须定量测量学生的学校出勤（school attendance）效果，比如出勤率或缺勤天数，而不是学生的项目出勤（program attendance）结果。研究中出勤数据的收集必须来自学校记录或教师报告，不能来自家长或学生自己的汇报。第九，研究对出勤效果的分析必须要使用意向处理分析（intent-to-treat，ITT），而不是处理中的处理分析（treatment-on-the-treated，TOT）。第十，研究必须要提供充分的数据分析结果以计算出项目出勤效果的效应值（effect size）和统计显著性（statistical significance）。

表1 25 项高质量学生出勤改进项目效果评估研究

为了有效解答上述研究问题并得出可信的研究发现，本文不仅以表1 中的25 项高质量学生出勤改进项目效果评估研究个案作为文本分析对象，而且还对它们进行了深入的主题文本分析（thematic text analysis）。作为质性文本分析（qualitative text analysis）的基本方法之一⑤，主题文本分析是指对文本中的相关内容（如话题、论断、经验等）进行主题式探究，例如探究文本中“人们关于气候变化的看法”，具体分析过程则通常包含有初步阅读文本、建构主要主题、初始编码过程、整理主要主题编码、确定次要主题、二次编码过程、分析主题与呈现结果等七个典型阶段（Kuckartz，2014，pp.41+70）。

就本文而言，25 项高质量学生出勤改进项目效果评估研究的主题文本分析过程主要表现为：第一阶段，通读纸质文本。将25 项评估打印出来之后，带着研究问题、有目的地阅读纸质文本，并在文本中的相应地方进行标记、注释、评论以及备忘记录。第二阶段，演绎一级主题。在对25 项评估文本有了整体了解之后，立足研究问题，并以“评估研究的实践逻辑（包括资源前提、人力输入、开展过程和成果输出等）”为依据，自上而下演绎式建构⑥出“评估经费”“评估人员”“评估开展”与“评估成果”这四个互斥的一级主题，作为“美国基础教育项目效果评估实践经验”的核心分析框架。第三阶段，初始人工编码。由于25 项评估文本的撰写语言为英语，且数量也并不算多，为了有效地进行中文编码，笔者在经过反复深入地阅读、理解与挖掘后，采用人工编码的方式，从文本中提取同四个一级主题相关的描述或信息，手动记录在编码单中。第四阶段，分析一级主题。在初始编码工作完成后，开始对四个一级主题的编码单进行粗略的系统分析。具体的分析路径主要有三：一是事实统计，如评估经费项数；二是实体识别，如评估人员来源组织；三是语义分析，如评估问题表述。第五阶段，归纳二级主题。基于一级主题的初步聚类分析结果，在各个一级主题之下自下而上地归纳式凝炼出三个互斥的二级主题，亦即，进一步细分出“评估经费来源”“评估经费筹措”“评估经费使用”“评估人员来源”“评估人员选择确定”“评估人员角色定位”“评估规划”“评估设计”“评估实施”“评估发现”“评估结果”和“评估产品”等十二个二级主题。第六阶段，二次人工编码。重新梳理此前一级主题编码单上的已有编码，并合理归类与放置在各个二级主题之下。第七阶段，分析二级主题并呈现研究发现。不同于一级主题，该阶段对二级主题编码单的聚类分析更加细致、全面，并且还是在一定理论指导之下进行的。最后，按照一二级主题分析框架这一最为常见的主题文本分析呈现方式⑦，有序撰写并清晰勾勒出如下美国基础教育项目效果评估实践经验的研究发现。

四、充足的评估经费—美国基础教育项目效果评估的首要前提

项目效果评估的财力、人力、物力和时间成本巨大，其成功开展离不开充足的经费支持这一首要资源前提与条件保障。目前美国基础教育项目效果评估的经费支持具体在经费来源、经费筹措以及经费使用上积累出以下实践经验。

（一）评估经费来源：政府为首的各界支持

美国基础教育项目效果评估的经费支持一般来源于四大渠道：联邦政府、州政府和地方政府，社会上的基金会、公司和企业、研究机构等组织，高校和研究人员个人，以及项目研发或管理组织。

第一，联邦政府通常是项目效果评估的首要政府经费来源。25 项高质量学生出勤改进项目效果评估研究尤其得到了来自联邦教育部（Department of Education）、联邦卫生与公众服务部（Department of Health and Human Services）、联邦司法部（Department of Justice）和联邦农业部（Department of Agriculture）这四个联邦行政部门（Executive Department），以及国家艺术基金会（National Endowment for the Arts，NEA）和国家与社区服务公司（Corporation for National and Community Service，CNCS）这两个联邦独立机构（Independent Agency）的经费支持。州政府和地方政府的公共经费也通常是项目效果评估的次要政府经费来源。第二，社会上一些对教育事业投资感兴趣的基金会、公司和企业、研究机构等组织也会为项目效果评估提供捐赠，是项目效果评估的重要社会经费来源。第三，如果项目效果评估的研究人员来自高校，那么其所在高校的相关部门及其个人的研究经费也是评估的潜在经费来源。第四，项目研发或管理组织有时也会对自己项目的效果评估提供一定经费支持。尽管这一情况在25 项高质量学生出勤改进项目效果评估研究中并不多见。

（二）评估经费筹措：集体同心的智慧行动

美国基础教育项目效果评估的经费支持不仅来源丰富，具体的筹措工作也别具特色。25 项高质量学生出勤项目效果评估研究的经费筹措尤其展现出如下经验做法。

首先，就筹措的主体而言，项目效果评估的经费筹措通常是多位作者的集体行动。所谓“集体行动”（collective action），是指评估研究的多位作者为了研究的集体利益，充分利用自己的资源与优势，共同承担经费筹措任务（Savage，2000，pp.13-16）。其次，就筹措的路径而言，项目效果评估的经费筹措往往会呈现出一定的针对性、竞争性与就近性特征。“针对性”，是指根据项目干预类型、发展成熟度以及效果评估目的等有目标有针对地筹措评估经费。“竞争性”，是指项目效果评估的经费申请往往会经历一个同行评审的、差额的、竞争性的评选过程，尤其是在申请政府这一渠道的评估经费时，更是如此。“就近性”，是指项目效果评估就近寻求评估开展地的经费资助，尤其表现在寻求社会这一渠道的评估经费上。最后，就经费筹措的结果而言，汇聚与整合来自各个渠道的各项评估经费，以全力支持评估开展，是项目效果评估经费筹措的最终结果。

（三）评估经费使用：贯穿评估全程

美国基础教育项目效果评估所获的经费支持，每一项少则数十万美元，多则数百万美元。那么，这些金额巨大的研究经费到底用在了哪些方面？事实上，美国基础教育项目效果评估的时间战线通常较长，25 项高质量学生出勤改进项目效果评估研究中最长的历时六年，经费使用基本上贯穿整个项目效果评估的研究全程，尤其使用在如下四个方面上：

第一，评估启动。项目效果评估的启动具体是指评估开展过程中启动阶段的评估规划与设计工作。第二，评估实施。项目效果评估的实施主要包括评估开展过程中实施阶段的样本招募与分配、干预培训与实施、效果数据收集等。第三，评估结果撰写。项目效果评估的开展过程固然重要，但之后的效果数据分析、评估发现解释、评估结果撰写等工作也不容忽视。第四，评估产品传播。如前所述，项目效果评估的目的是为了判断与使用。所以，将评估产品分享给教育政策制定者、教育实践者等利益攸关者以充分发挥评估的价值与意义，是整个项目效果评估的最后一站。

五、专业的评估人员—美国基础教育项目效果评估的核心输入

项目效果评估的人力成本极高，尤其需要两大类核心群体的人力输入—评估人员和利益攸关者。而作为评估研究的领导者与开展者，前者因其专业的知识与技能更是会对评估研究产生重要影响。目前美国基础教育项目效果评估的评估人员输入具体在人员来源、选择确定以及角色定位上表现出如下实践经验。

（一）评估人员来源：高校为主的专业组织

美国基础教育项目效果评估的评估人员主要来自高校、社会研究机构、政府机构中的相关评估部门等三类专业组织。

第一，高校。25 项高质量学生出勤改进项目效果评估研究中有14 项是由高校研究人员领头开展的。具体来看，有的是由来自同一家高校的研究人员共同开展，有的是由来自多家高校的研究人员合作开展，也有的是由高校研究人员一人独立开展。这些来自高校的评估人员大多为熟练掌握项目效果评估研究方法与技术的教授、副教授、助理教授、博士后研究员和博士生。第二，社会研究机构。余下11 项则是由一些提供项目效果评估服务的社会研究机构领头开展，其中较为知名的有兰德公司（RAND Corporation）和美国研究所（American Institutes for Research，AIR）等。这些社会研究机构中评估人员的技术职称多为研究员和研究助理。第三，政府机构中的相关评估部门。尽管25 项评估中没有一项是由政府评估部门领头开展的，但“第二步”项目高质量效果评估研究（Neace &Muñoz，2012）的第二作者是来自杰斐逊公立学校系统（Jefferson County Public Schools）问责、研究与规划部（Department of Accountability，Research and Planning）的评估专员（evaluation specialist）。

（二）评估人员选择确定：多方因素的全面衡量

尽管能够领导和开展项目效果评估的评估人员来源广泛，但具体到某一特定项目上，如何选择与确定合适的评估人员仍是一门值得深思的学问。

对25 项高质量学生出勤改进项目效果评估研究的评估人员的选择与确定进行分析后发现：第一，对于那些由评估人员自行发起的项目效果评估（11 项），评估人员就是他们自己，不会经历项目研发或管理组织或者学区对其的选择与确定。他们自筹经费、组建团队开展对某一特定项目的效果评估，主要是出于专业发展的需求或兴趣。第二，对于那些由项目研发或管理组织或者学区基于项目研发或管理改进或者学区教育改进等目的而发起的项目效果评估（14 项），评估人员的选择与确定往往会经历一个全面考量的过程，并且会重点思考以下因素：项目类型与特征，项目研发或管理组织所在地、内部自我评估能力、外部评估资源与合作基础，学区所在地，效果评估开展地，外部评估人员所在地、专业知识与技能，经费支持方的要求与限制尤其是其推荐合作的外部评估资源，等等。

（三）评估人员角色定位：三种类型并存

评估人员确定后，从项目方角度来看，他们可以被划分为三类—内部评估人员、外部评估人员和内外合作评估人员。这些不同类型的评估人员角色定位会对整个项目效果评估产生不同的潜在影响。

1.在地的内部评估人员

内部评估人员（internal evaluator），也被称为在地评估人员（on-site evaluator），是指项目效果评估的开展者来自项目研发或管理组织内部，是组织雇员（Giancola，2014，p.3）。25 项高质量学生出勤改进项目效果评估研究中有5 项是由项目研发或管理组织的内部评估人员领导与开展的。例如，“早期预警干预和监督系统”项目高质量效果评估研究（Faria et al.，2017）的七位评估人员均是项目研发组织美国研究所的雇员，其中，该评估的首席研究员还是项目的研发人员之一。

内部评估人员的“在地性”角色属性，会对项目效果评估产生一些潜在的积极影响：第一，熟悉和了解项目以及项目研发或管理组织，有利于评估工作的迅速启动；第二，熟悉和了解评估的利益攸关者以及他们在这项评估中的利益、关切点和影响力，有助于促进最终评估结果的最大化使用；第三，即便评估工作结束，内部评估人员本身在项目研发或管理组织中的存在也能够时刻提醒他人这项评估结果，有益于增强评估结果的长远影响力。此外，内部评估人员也会产生一些潜在的消极影响：第一，由于内部评估人员距离项目太近，很可能会导致他们不能够客观地认清项目；第二，尽管一些成功的内部评估人员能够克服来自视角上的障碍，但难以克服职位上的障碍（Fitzpatrick et al.，2011，pp.28+274）。

2.第三方的外部评估人员

外部评估人员（external evaluator），也被称为第三方评估人员（third-party evaluator）、独立评估人员（independent evaluator）、评估顾问（evaluation consultant）或评估承包商（evaluation contractor），是指项目效果评估的开展者来自项目研发或管理组织外部而非内部雇员。由外部评估人员开展的评估研究，通常也被称为“第三方独立评估”（independent third-party evaluation）（Fitzpatrick et al.，2011，p.271）。25 项评估中有18 项是由非项目研发或管理组织雇员的外部评估人员领导与开展的。

外部评估人员由于他们远离项目研发或管理组织的角色属性以及过硬的专业技能（如果选择正确的话），会给项目效果评估带来一些潜在的积极影响。第一，外部评估人员通常具有更大的行政和财政独立性，因而社会公众会普遍认为其开展的评估是公正的、客观的和可信的。第二，外部评估人员能够为某一特定项目的效果评估带来新鲜的外部视角，以及更广和更深的专业知识与技能。第三，利益攸关者有时更愿意将一些敏感信息暴露给外部评估人员。第四，外部评估人员能更无负担地全面呈现评估结果、揭露不受欢迎的消息、倡议项目改革（Fitzpatrick et al.，2011，pp.28+273）。但是同样也由于外部评估人员的非“在地性”，不仅使其不能具备上述内部评估人员对评估研究的潜在积极影响，甚至还会因此增加评估研究的时间成本和差旅成本（Hatry，Winnie，&Fisk，1973，p.119）。

3.取长补短的内外合作评估人员

项目的内部评估人员与外部评估人员并非互斥，可以共同合作，组建成内外合作评估人员团队，这被认为是确保评估质量以及结果使用的最佳安排（Giancola，2014，p.5）。25 项评估中有2 项是由项目研发或管理组织的内外部评估人员合作开展的。

内外合作评估人员不仅可以取长补短，对共同合作的评估产生潜在积极影响。例如，内部评估人员可为外部评估人员补充项目的背景性信息；由内部评估人员负责收集数据可以有效节约外部评估人员在此的时间成本和差旅成本；敏感的评估结果由外部评估人员负责向利益攸关者解释更容易被接受与认可；即便外部评估人员撤离后，内部评估人员也能继续引导对评估结果的使用。而且从长远来看，外部评估人员与内部评估人员的合作也有助于增进项目研发或管理组织内部的自我评估能力（Fitzpatrick et al.，2011，p.275）。

六、科学的评估开展—美国基础教育项目效果评估的关键过程

项目效果评估的经费支持与评估人员到位后，关键的评估过程便提上日程。尽管评估研究的开展过程非常复杂，但目前美国基础教育项目效果评估的科学开展在评估规划、评估设计和评估实施这三个核心环节上均积累了丰富的实践经验。

（一）评估规划：确定评估类型与问题

项目效果评估的评估规划通常会明确和定位评估研究的类型与问题。

1.不同评估目的之下的评估类型

效果评估的研究类型可被细分为三种—效力（efficacy）评估、效能（effectiveness）评估和推广（scale-up）评估。三者的主要区别在于评估目的、评估中的项目实施情境、项目研发或管理组织工作人员对项目实施的支持程度以及评估所面向的学生群体（Earle et al.，2013，p.9）。

第一，效力评估。效力评估允许项目的效果评估发生在“理想”的“温室”情境中，此时项目研发或管理组织工作人员参与和支持项目实施的程度高于通常情况，他们也会选择将研究限制在所感兴趣的某类学生群体上。为此，效力评估通常适用于新近研发的项目以初步测试项目效力（Flay et al.，2005），也常被用来将项目此前的评估研究复制到不同的实施情境中或学生群体里。25 项高质量学生出勤改进项目效果评估研究中的绝大多数是效力评估。第二，效能评估。效能评估是对“典型”学校教育教学情境中项目的实施效果进行评估，这主要考虑到学校里的教育教学实践并非发生在严格控制的实验室里，而是在现实世界情境中（Giancola，2014，p.25）。此外，项目研发或管理组织工作人员参与和支持项目实施的程度与通常情况并无二致。一般而言，被效力评估证实有效的项目会进一步开展效能评估，以证实其在现实世界情境中的真实效果。25 项评估中仅有3 项为效能评估。第三，推广评估。同效能评估一样，推广评估是在项目研发或管理组织工作人员没有过多参与和支持的“典型”情境中开展的，主要评估项目在更广地域范围上和更加多样化学生群体里的效果。它的存在，主要是因为被效能评估证实在现实世界情境中有效的项目并不一定做好了大规模推广的准备（Gottfredson et al.，2015）。所以，评估那些已经被效能评估证实有效的项目在大规模推广时的效果，能够为推广决策提供重要参考依据。25 项评估中尚未有任何一项属于推广评估。

2.有益效果证据获取的评估问题

项目类型的多样性以及评估类型的多样性也在一定程度上决定了评估问题的多样性。尽管评估问题可以多种多样，但高质量的项目效果评估研究一般会提出尽可能开放的评估问题，避免“是或否”的封闭式问题，例如“某项目有效吗”，因为这类问题会限制评估研究的信息获取（Giancola，2014，p.24）。

就25 项高质量学生出勤改进项目效果评估研究的评估问题而言，它们均含有一个核心或根本要素，即“项目效果或项目影响”。有些评估问题会在这一核心要素基础之上继续突出评估的研究方法，有些会强调评估中的项目实施情境与时长，还有些会指出评估的研究样本或者效果指标。

（二）评估设计：厘清理论基础、评估方法与效果指标

项目效果评估的评估设计会思考和厘清评估研究的理论基础、评估方法与效果指标。

1.以项目理论为首选的理论基础

项目效果评估的研究设计通常会首先考虑用项目理论（program theory）作为评估研究的理论基础。而这种在项目理论驱动下的评估，也会被称为基于理论的评估（theory-based evaluation）或者理论驱动式评估（theory-driven evaluation）（Fitzpatrick et al.，2011，p.160）。所谓项目理论，其实质是对项目研发之初所建构的逻辑模型（logic model）的深入，是在要素式的逻辑模型基础之上进一步揭示出项目发生作用的因果机制或变化过程。因此，项目理论能够为整个评估研究提供一个结构性的理论框架，指导评估人员更好地确定后续评估方法与效果指标，以及解释最终评估发现（Fitzpatrick et al.，2011，pp.161-162）。

例如，“阅读、写作、尊重和解决”项目的高质量效果评估研究（Jones，Brown，&Lawrence，2011）明确指出其所依赖的理论基础是该项目的“多水平项目理论”（multilevel program theory）。它揭示了：第一，该项目的作用变化过程发生在多种水平上，如学生个体、课堂以及学校等；第二，该项目的核心作用领域（即社会—情感）会对项目的次要领域（即学业学习）产生影响；第三，该项目是在动态系统中、在多种水平上、多个领域里随着时间的推进而不断发生作用效果的变化。在这一项目理论的指导下，评估人员对评估研究的设计是：第一，分别测试该项目在学生水平、课堂水平和学校水平上的效果；第二，同时测试该项目在社会—情感作用领域的效果、学业学习作用领域的效果以及两个作用领域的交互效果；第三，连续测试该项目在实施第一年、第二年和第三年的效果。

2.以实验为黄金标准的评估方法

项目效果评估的研究方法多种多样，包含质性研究方法、定量研究方法和混合研究方法等。它们各有各自的突出优势：质性研究和定量研究中的相关性研究对于项目效果的定性描述或各关联因素之间的理论建构十分有益；而实验研究更能理想地揭示项目干预实施与项目效果产生之间的因果关系，是项目效果评估的黄金标准（Slavin &Cheung，2017）。

具体而言，在实验研究中，自变量即为在一定情境中实施的项目，因变量为期待产生的项目效果（Mertens &Wilson，2019，p.63）。高质量的实验研究通常会设置实验组和对照组两组样本，实验组样本接受项目干预，而对照组样本则接受其他替代性项目干预或正常教育教学。根据实验组和对照组的分配策略，高质量的实验研究还可被进一步细分为随机对照实验与准实验设计。随机对照实验的分配策略是随机分配，即样本以同等的机会被随机分配到实验组和对照组，这有利于将两组的分配偏差控制到最低程度。而准实验设计的分配策略则是匹对分配，即首先确定实验组，然后再根据一些关键变量（如人口统计学变量、学业成绩等）为实验组样本匹配相似的对照组样本。因此，相较于随机对照实验，准实验设计在实验组和对照组的分配上存在一定的分配偏差，通常被视为前者的替代性方案，适用于无法随机分配样本的情况。除此之外，在高质量的实验研究中，实验组和对照组样本的分配水平也有两类，一是学生、教师等个体水平上的分配，二是班级、学校或学区等群组水平上的分配。“《每个学生都成功法》证据库”对高质量项目效果评估的筛选条件之一即是利用随机对照实验或准实验设计的研究方法，在最终筛选出的25 项高质量学生出勤改进项目效果评估研究中有24 项是随机对照实验，其中有14 项是学生水平上的，余下10 项是学校水平上的；而仅有的1 项准实验设计的分配是在学校水平上。

3.客观、可测量、非自制的效果指标

项目效果到底如何测量？这尤其是利用了随机对照实验和准实验设计方法的项目效果评估在设计阶段需要重点思考的一个问题，它直接关系到后续实施阶段的效果数据收集以及评估问题最终能否被有效解答。为此，评估人员通常会在此阶段明确制定项目预期作用结果（outcome）的测量指标（measure），即能够指示出项目在一定情境中对实施群体产生预期作用的程度的变量（variable）。总的来说，高质量的效果测量指标应该是客观的、可观察的、可测量的、非项目研发人员或项目评估人员自制的，许多既有研究表明自制指标会对实验组有利进而夸大项目效果（Slavin，2019）。

25 项高质量学生出勤改进项目效果评估研究中的效果测量指标也是紧紧围绕如何有效解答评估问题来确定，均是客观的、可测量的、非自制的。它们中既有同项目类型⑧相关的效果测量指标，如学业成绩、社会—情感、辍学、犯罪逮捕等，也有出勤效果测量指标。就其中的出勤效果测量指标而言，25 项评估又确定了多种形式的子指标，如学年度的出勤率、缺勤率、出勤天数、缺勤天数、无故缺勤天数、出勤率在95%以上的学生比例或者慢性缺勤的学生比例等。

（三）评估实施：做好样本招募、干预实施与数据收集

项目效果评估的评估实施也会重视并做好样本招募、干预实施以及数据收集。

1.首先进行的样本招募与分配

在利用了随机对照实验和准实验设计研究方法的项目效果评估中，样本招募与分配是评估正式实施阶段的首项重要工作。

第一，就学校水平上的实验组和对照组样本招募而言，“积极行为”项目的一项高质量效果评估研究（Bavarian et al.，2013）首先根据评估开展地点和项目干预对象，将样本学校锁定为芝加哥公立学校系统（Chicago Public Schools）中的483 所K-6/8 年级学校。然后，依据六条标准筛选出68 所待招募学校。经过沟通，18 所学校同意参与评估。最后，基于诸多人口统计学变量确定了7 对人口统计学特征相似的、最优匹配的实验组与对照组学校。第二，至于学校水平上的实验组和对照组的随机分配程序，“积极行为”项目的这项评估研究在确定了7 对最优匹配的实验组与对照组学校后，利用电脑的随机数字生成器（computer-based random number generator）赋予每对学校中第一所学校“0”或“1”的数字编号。被赋予“0”的学校自动归入实验组、“1”为对照组，它们所配对学校则相应被归列为对照组或实验组。至此，该评估研究的随机分配工作全部完成。最后，再来看学校水平上的实验组和对照组的匹对分配程序。“第二步”项目的高质量效果评估研究（Neace &Muñoz，2012）以杰斐逊县公立学校系统中已实施该项目的学校为实验组，从学区余下未实施该项目的学校中挑选出同实验组学校人口统计学特征较为相似的对照组学校。为了进一步缩小因匹对分配而导致的实验组学校和对照组学校的基线差异，评估人员还进一步基于学生的五大人口统计学变量对实验组学校和对照组学校里的学生进行个体层面的匹配。

2.培训之后的干预保真实施

在利用了随机对照实验和准实验设计研究方法的项目效果评估中，项目干预在实验组中的实施也非常重要，它直接关乎到项目效果目标的实现以及后续效果数据的收集。

首先，就项目干预的实施时长而言，高质量的项目干预实施至少持续12 周。已有大量研究表明，较短的干预时长会夸大干预效果。其次，项目干预实施的主体会因干预路径不同而不同。有的是学校任课教师，有的是学区或学校管理人员，有的是家长和社区伙伴，有的是项目研发或管理组织工作人员，还有的是由多种不同身份的人员组成的干预实施团队。再次，项目研发或管理组织或者学区一般会对实验组的项目干预实施提供一定的培训与支持。例如，在“追求公平和恢复性社区”项目的高质量效果评估研究（Augustine et al.，2018）中，项目研发组织恢复性实践国际研究所（International Institute for Restorative Practice，IIRP）在项目实施前组织了一个为期四天的专业发展培训，实验组学校的全体教职员工被要求必须完整参加前两天培训，余下两天可自主选择；在实验组学校两年的项目干预实施期间里，项目研发组织一方面为教职员工发放教材、影像、海报以及其他支持性材料，组织两周一次的专业发展活动；另一方面还为每位校长配备了一名来自项目研发组织的教练，每月定期与校长领导的项目实施团队进行会议沟通，以监督项目干预的实施进展并帮助解决实施过程中所遇到的难题与挑战。除此之外，匹兹堡公立学校系统（Pittsburgh Public Schools）也为实验组学校的项目干预实施提供了相应的学区资源。最后，项目干预实施的保真度（fidelity）评估也通常包含在项目效果评估中。例如，“出勤和旷课干预及普遍程序”项目的高质量效果评估研究（Berg，2018）还专门开发了针对该项目干预实施保真度的评估工具。

3.反复充分的效果数据收集

在利用了随机对照实验和准实验设计研究方法的项目效果评估中，项目效果的数据收集是评估实施的最后一个关键方面，其核心依据是先前设计的效果测量指标，它决定了收集哪些数据、从谁那里收集以及借助什么工具收集等问题。

25 项高质量学生出勤改进项目效果评估研究中的项目效果数据收集对象主要有学生、家长、教师和其他教职员工、学校和学区管理人员以及其他项目干预实施人员等。项目效果数据收集工具则包括州、学区和学校官方记录、问卷、量表、观察、访谈、测试等。值得注意的是，项目效果数据收集并非一次完成的，需要在多项效果测量指标、多类数据收集对象、多种数据收集工具、前测与后测以及各学年度等多个时间节点上进行反复收集，以确保收集到充分的数据信息并计算出项目效果。

七、实用的评估成果—美国基础教育项目效果评估的重要输出

项目效果评估最后的重要终端就是输出评估成果，这同样不容忽视。目前美国项目效果评估在评估发现、评估结果和评估产品这三个层次评估成果的输出上，也有丰富的经验。

（一）评估发现：恰当分析与合理解释

在利用了随机对照实验和准实验设计研究方法的项目效果评估中，效果数据收集后的效果数据分析与评估发现解释更是至关重要。

1.恰当的效果数据分析

通常而言，效果数据分析的方法选择标准能够有效回答评估问题。25 项高质量学生出勤项目效果评估研究中绝大多数采用的是多层线性模型（hierarchical linear modeling，HLM）这一统计分析技术。除此之外，25 项评估也均采用了专门针对样本流失问题的意向处理分析路径。所谓意向处理分析，是指评估人员获取和使用所有参与了前测的样本的后测数据，即便部分样本在实验过程中已经流失。它被认为是随机对照实验的严格数据分析，能够避免因样本流失而造成的对实验组或对照组任何一方有失公平的有利或不利影响（Slavin &Cheung，2017）。在进行了意向处理分析之后，25 项评估中也有部分评估对流失后的最终样本进行处理中的处理分析⑨。

效果数据分析的最终结果是计算出项目效果的效应值和统计显著性。前者也被称为实践显著性（practical significance）或教育显著性（educational significance），揭示的是项目实施在效果测量指标上的真实结果，效应值越大，项目效果越好。后者则揭示的是项目实施与项目效果之间因果关系成立的可能性，P 值越小，因果关系成立的可能性就越大。二者共同决定了项目效果的最终判定。25 项评估的效果数据分析结果显示，“星火”项目在改进学生出勤上的效应值最高且统计显著（ES=0.25*），达到了《每个学生都成功法》的“强有力”证据等级。

2.合理的评估发现解释

如果效果数据分析是对收集到的数据进行信息组织与总结的话，那么评估发现解释则是在一定理论视角或概念的指导下，对效果数据分析结果的进一步探究、判断与意义赋予，以便得出评估结论、回答评估问题（Fitzpatrick et al.，2011，p.446）。在评估发现解释中，错误解释（misinterpretation）和过度解释（overinterpretation）是两种需要避免的常见错误，而有利益攸关者参与的联合解释（co-interpretation）备受鼓励。

25 项高质量学生出勤项目效果评估研究也基本上都做到了合理解释评估发现，而且大多数是从项目自身的理论基础以及项目干预的保真实施等角度对项目效果数据分析结果进行了更加深入的解释与讨论。

（二）评估结果：规范撰写与多样呈现

尽管“文本写作同评估研究中的其他技术性任务一样，也是一项艰难的挑战”（Weiss，1998，p.295），但通过正式的书面文本输出项目效果评估结果十分必要，而且一般会进行规范撰写与多样呈现。

1.规范的文本撰写结构

项目效果评估结果文本的撰写结构没有一个统一的固定格式，需要评估人员根据多方面因素来确定。不过，令受众信服的规范文本基本上均包含以下七个核心部分：

第一，导言。25 项高质量学生出勤改进项目效果评估研究在导言部分主要回顾了项目干预所针对的教育问题以及解决或改进这一问题的其他同类项目，重点介绍了该评估的目标项目（包括其逻辑模型、干预路径等）、评估开展地的教育情境以及对这一项目进行效果评估的背景、目的、类型与问题等。第二，设计。25 项评估在设计部分主要描述了评估的方法设计（包括具体的数据收集与分析方法以及效果测量指标等），评估的伦理审查，评估的样本招募、选择与分配，项目干预的培训与实施。第三，发现。25 项评估在发现部分主要以图表的形式客观揭示项目效果数据分析的发现。第四，讨论。25 项评估在讨论部分主要是进一步解释评估发现。有些评估还会在这一部分讨论项目干预实施存在的问题。还有些评估会讨论项目干预实施与项目效果之间的因果机制。第五，总结。25 项评估在总结部分主要概述了评估的结论，评估的创新与局限，相关启示与建议，如对未来相关评估研究与项目实践发展方向的建议以及对教育政策制定者和教育实践者的建议等。第六，致谢与声明。25 项评估在致谢部分主要对评估所获的经费支持以及给予评估帮助和奉献的所有相关人士表示感谢。此外，还通常会声明评估研究的发现与总结仅是作者的研究结果，不代表评估研究利益攸关者中任何一方的官方立场。第七，附录。25 项评估在附录部分主要补充了样本知情同意书，样本分配工具，项目干预实施的培训材料和保真度评估工具，问卷、量表、访谈、观察等数据收集工具，数据分析的统计模型，以及其他补充性数据分析等。

2.多样的文本呈现形式

项目效果评估结果的文本撰写完成之后，以何种形式呈现给评估受众也需要评估人员深思。就25 项高质量学生出勤改进项目效果评估研究而言，其文本呈现形式主要有以下四种：

第一，技术报告。25 项评估中有15 项以技术报告（technical report）的形式呈现。技术报告也被称为工作论文（working papers），通常被视为同行评审期刊论文的底稿。因此，相较于期刊论文，技术报告一般会详细地呈现整个项目效果评估的各个方面，篇幅较长。此外，技术报告也特别重视内容与视觉上的双重吸引力，通常会有一个精心设计的封面，便于广告和营销、吸引受众（尤其是非专业受众）阅读其内容。值得注意的是，虽然评估研究的技术报告大都由评估人员所在组织发布，但有时也会交由项目研发或管理组织或者评估经费支持组织来发布。第二，期刊论文。25 项评估中有8 项以期刊论文的形式呈现。相较于技术报告，正式发表的期刊论文因期刊载体的限制，篇幅大都比较精简。但考虑到细致呈现评估研究的必要性，许多期刊也在官方网站上开设了网络附录，即将评估的支持性信息、补充性材料或附录的电子版添置在期刊的网站上，受众可自行查阅并下载。第三，学位论文。25 项评估中有1 项以俄勒冈大学（University of Oregon）博士学位论文的形式呈现。第四，会议论文。25 项评估中也有1 项以美国教育效能研究学会2016 年年会论文的形式呈现。

（三）评估产品：大力传播与有效使用

以各种形式呈现出的评估研究结果即为评估研究的最终产品。但这个产品的完成并不意味着评估的结束，它会被进一步大力传播与有效使用。

1.媒介助力的产品传播

评估产品面向社会公众的宣传与传播一般会借助新闻发布、网站公告、博客和社交软件、邮件订阅、研究简报、宣传手册、网络研讨会、项目研发或管理组织的年度会议、其他专业社群年会等多种媒介与途径。

例如，在25 项高质量学生出勤改进项目效果评估研究中，“学校中的社区”组织对《“学校中的社区”芝加哥伙伴项目对学生学业成就影响的实验证据》（Figlio，2015）这一评估产品的宣传与传播主要借助的是该组织的季度简报这一媒介。而“星火”项目的研发组织“男孩女孩俱乐部”（Boys &Girls Club）主要通过组织的领导人会议、年度会议和网络信息系统对《“星火”早期读写项目的随机对照实验评估结果》（Jones，Christian，&Rice，2016）这一评估产品在全美范围内进行宣传与传播。

2.实用本位的产品使用

美国教育评估标准联合委员会发布的《项目评估标准》首先将“实用”（utility）列为判断评估研究质量的第一大类标准。因此，通过报告会等多种途径与形式，同项目研发或管理组织方、评估经费支持方等利益攸关者反复沟通与交流评估产品以充分发挥产品的功能与作用，十分必要且重要。具体来看，评估产品的使用主要包括五种核心类型：第一，工具性使用（instrumental use），指评估产品被直接用来决策或解决问题；第二，概念性使用（conceptual use），指评估产品用来影响受众的思维观念；第三，象征性使用（symbolic use），指评估产品无意被真正使用，其意义仅是象征性的存在；第四，劝服性使用（persuasive use），即对评估产品进行选择性使用，以支持某种既存的立场。第五，辩护性使用（legitimate utilization），指评估产品被决策者用来为某种已定决策辩护（Mertens &Wilson，2019，pp.485-486）。

仅就其中的工具性使用而言，评估产品可被直接用来应对利益攸关者的问责，指导教育政策者与实践者对项目的采纳决策，敦促项目的改进与完善，助力市场营销与经费申请，等等（Giancola，2014，pp.68-73）。例如，在25 项高质量学生出勤改进项目效果评估研究中，《通过干预家长观念来减少低年级学生的缺勤》（Robinson et al.，2018）和《通过干预家长错误观念来大规模减少学生缺勤》（Rogers &Feller，2018）这两个“每日在校实验室”项目评估产品就被项目评估人员（同时也是项目研发人员）用来推进与项目同名的管理组织的建立。

八、结语：美国基础教育项目效果评估的实践趋势

尽管目前美国基础教育项目效果评估积累了丰富的实践经验，但毋庸讳言，美国基础教育项目效果评估尤其是利用随机对照实验和准实验设计方法开展的效果评估还存在诸多问题：首先，实验研究方法本身并非完美无缺；其次，在开展过程中，实验研究还存在耗费大量财力、人力、物力、时间成本的问题，这从25 项高质量学生出勤改进项目效果评估研究的经费、人员、项目干预培训和开展时长中可以看出；最后，也还存在研究质量不高的问题，这从25 项高质量学生出勤改进项目效果评估研究筛选自2000 余项同类研究中也能够看出来。⑩

不过值得注意的是，目前美国基础教育项目效果评估在正视问题、努力提升质量的同时，也开始不断迸发出新的发展趋势：第一，激励学校参与实验评估。针对“随机分配是不公平的，剥夺了对照组学校实施项目干预的机会”的批评，以及学校不愿意参与实验研究尤其是作为对照组的现实问题，项目效果评估项目开始采取一些激励举措，譬如，待实验研究结束后，在对照组学校中补偿实施项目干预，或者直接给予对照组学校一定的经费补贴（Slavin &Cheung，2017）。第二，开展复制性效果评估。效仿物理、生物、化学等硬科学领域的科学研究，教育领域同样也需要对早期阶段的效果评估，尤其是显示出项目积极效果的效果评估，进行复制、验证与延伸。目前，复制性效果评估在美国也得到了许多引导与资助，例如，2018 年美国教育科学研究院和国家科学基金会又合作推出《教育研究的复制与再现指南》（Companion Guidelines on Replication &Reproducibility in Education Research），以作为2013 年《教育研究与开发指南》的补充。与此同时，美国教育科学研究院在年度教育研究立项资助中还专门设置了针对效力评估复制性研究和效能评估复制性研究的立项资助。第三，开展推广性效果评估。许多循证教育改革的批判者都表达过“在一些学校里开展的项目效果评估无法推广到其他不同类型学校”（Slavin，2020）的担忧，所以，相比于在“理想”和“典型”学校教育教学情境中的效力评估和效能评估，开展在更广地域范围内和更加多样化的学生群体里的推广性效果评估，更有利于确保被其证实有效的项目在日后的大规模推广。第四，在效果评估之后继续进行经济评估（economic evaluation）。在对项目进行效果评估、判断项目的实施是否带来了更好的结果之后，继续进行成本分析（cost analysis）、成本—效益（cost-benefit）分析、成本—效能（cost-effectiveness）分析等经济评估，更有利于项目成效的全面评估以及大规模推广的明智决策。

综上所述，虽然美国基础教育项目效果评估的实践经验无法完全移植到我国，但为我国教育政策、项目或实践评估研究的实践发展提供了如下有益启发：第一，政府等社会各界需要重视并加大对评估研究的经费支持力度。评估研究并非一日之功，充足的经费会带来一定的激励与保障。第二，高校等专业组织需要不断加强对专门评估人才的培养与训练。譬如，开设相关学科、专业、学位项目和课程，成立专业社群，创办专业期刊，发布专业规范。第三，各类评估研究人员需要努力建设科学规范地开展评估研究的能力，尤其是设计和实施高质量实验研究的能力。第四，相关利益攸关者不仅需要有效使用评估研究成果、充分发挥评估研究价值，也需要尽可能参与到评估研究过程中去。最后，也可尝试进一步整合教育政策、项目或实践评估研究的证据发现，建立证据库，推进科学、有效、可行的循证教育改革。

（致谢：感谢匿名评审专家给本文提出的修改建议。时晨晨工作邮箱：cshi92@ruc.edu.cn。）

注释：

①美国约翰·霍普金斯大学教育研究与改革中心（https://education.jhu.edu/crre/）的核心业务正是项目效果评估与循证教育改革。

②在2015 年《每个学生都成功法》颁布之后，美国约翰·霍普金斯大学教育研究与改革中心在其原有的“最佳证据百科全书”（Best Evidence Encyclopedia,http://www.bestevidence.org/）基础之上，于2017 年新建“《每个学生都成功法》证据库”（https://www.evidenceforessa.org/）。截至目前，该库已经完成了对全美境内PK-12 年级阅读、数学、社会-情感学习、学生出勤等领域项目效果评估的证据整合，此外也正在进行科学、写作、放学后教育、暑期教育等其他PK-12 教育领域项目效果评估的证据整合。

③本质而言，项目效果评估是由评估人员在现实世界情境中开展的一场与多方利益攸关者不断磋商、妥协与共识的“政治性”（politics）研究。也正是由于其复杂的“政治性”内核属性，不同评估人员在不同时间与地点开展的对同一项目的效果评估，会存在研究质量不一、效果证据不一等问题。因此，基于严格标准筛选出高质量的评估研究，并对它们的证据发现进行系统性综述（systematic review）和元分析（meta-analysis）十分必要。而整合后的证据结果才是美国这场新近兴起的循证教育改革的直接依据。

④这十条严格的筛选标准是美国约翰·霍普金斯大学教育研究与改革中心Robert Slavin 教授及其团队自20 世纪80 年代以来开展的诸多项目效果评估与证据整合研究的经验产物，能够有效确保最终筛选出的评估研究是高质量的。而本文以这些高质量评估研究为文本分析对象，是有助于达成研究目的的，因此也是合理的。

⑤除了主题文本分析以外，质性文本分析的基本方法还包括评估文本分析（evaluative text analysis）和类型建构文本分析（type-building text analysis）两种。评估文本分析是指对文本中的相关信息（如现状、程度、情感等）进行等级性评估，例如，评估文本中“教师的失业表现”是“高度自信”“一般自信”还是“不自信”等。类型建构文本分析则是指对文本中的相关概念（如模式、属性、行为等）进行类型学总结，例如，将文本中“失业社群应付失业的心态”总结为“不屈服型”“放弃型”“失望型”和“漠然型”等四种类型。由此可见，本文选择主题文本分析这一质性文本分析方法是适切的，是有益于解答研究问题并得出研究发现的。

⑥在主题文本分析中，主题建构的方式主要有两种。一种是基于研究问题、相关理论或者先验知识以及已有经验，自上而下的演绎式建构，通常用于主要主题的建构；一种是基于实证数据或资料自下而上的归纳式建构，通常用于次要主题的建构。

⑦主题文本分析的分析与呈现方式主要有七种。除了最为常见的主要、次要主题分析与呈现以外，其余六种分别是：主要主题之间的关系分析与呈现，主要主题之下各次要主题之间的关系分析与呈现，资料呈现、图示与可视化展示，质性与量化交叉表，案例综述，对所选案例进行深度诠释。

⑧尽管18 个学生出勤改进项目均包含有学生出勤干预，但有些项目的核心干预并不在此。所以，如果从核心干预角度来看，这些项目中有些还可以被视为早期读写项目、放学后教育项目、社会—情感学习项目、辍学预防项目、暴力预防项目，等等。

⑨所谓处理中的处理分析，是指评估人员仅获取和使用流失后的最终样本的后测数据。它能够解决意向处理分析中使用已经流失样本的后测数据所存在的问题，但在随机对照实验中则会威胁到其原本的随机分配。

⑩那些被筛选掉的学生出勤改进项目效果评估研究的低质量问题突出表现在：第一，在评估研究设计上，缺少对照组，没有为实验组样本匹配相似的对照组样本；或者在实验组实施干预之后为其事后匹配相似的对照组并加以分析；采用项目研发人员或者项目评估人员自制的效果测量指标。第二，在评估研究实施上，样本量低于30 人每组；项目干预实施时间低于12 周；项目由评估人员实施，或者评估人员对项目实施给予过多支持；缺少对项目干预实施保真度的数据收集。第三，在评估研究结果上，要么没有使用正确的数据分析方法，例如，没有根据样本的分配水平使用正确的统计分析技术，没有使用针对样本流失问题的意向处理分析路径；要么没有提供充分的数据分析结果以计算出项目出勤效果的效应值和统计显著性。

美国基础教育项目效果评估经验何在？＊——基于25 项高质量评估研究的主题文本分析