基于Rasch模型的反直觉力学测试（CIDT）质量评价及其对中国学生的适切性研究
——对733名高中生测试数据的分析

2022-07-14 07:16李拉拉邓金祥李太华

考试研究 2022年4期

李拉拉邓金祥李太华

物理学中有大量的概念、规律与学生的直觉相悖。当新的物理概念与先前的认知冲突时，学生常常难以接受[1]，因为在潜意识里他们更相信自己的直觉，而不是习得的物理概念与规律。反过来，一些反直觉的物理问题，也往往会挑战学生潜在的错误概念或思维定式[1]，促进学生质疑创新思维的发展。反直觉问题（counterintuitive problem）通常是指其答案或解决方案超出学生预期的问题[2]。这类问题看起来有一个显而易见的答案，也称常识性回答，但其正确答案却与常识性回答相反[3]。有研究表明，利用反直觉物理问题能使学生形成认知冲突并激发学习兴趣[4]，有效考查学生的概念理解程度[5]，有助于开展问题解决与概念转变等方面的研究。

我国《普通高中物理课程标准（2017年版）》强调教学要增强学生创造性地解决实际问题的能力。而实际情境中的物理问题大多具备反直觉特征，需要学生具备突破思维定势，实现质疑创新的意识和能力。因此，从提高学生物理概念与规律学习迁移能力、促进实际问题解决能力提升的培养需求角度，开展反直觉问题的研究极具现实意义与实践价值。Nuri Balta 等人在综合了一系列相关研究成果的基础上，开发了反直觉力学测试（Counterintuitive Dynamics Test，简称CIDT）[2]，用于评估学生反直觉力学问题的解决能力，成为与国际上广泛使用的力学概念测试（Force Concept Inventory，简称FCI），用于开展力学概念测试与问题解决的教学和研究。作为一个新开发的量表，CIDT 的质量如何，是否适切于中国学生，在国内开展探索其教学与科研价值的研究工作之前，有必要对其进行科学的检验。

一、反直觉力学测试

反直觉力学测试（CIDT）与力学概念测试（FCI）类似，由30 道单项选择题构成，内容涉及牛顿三大定律，如表1所示。

表1 CIDT中的力学概念分布

CIDT 将反直觉问题作为载体，考查学生的反直觉物理问题解决水平。以第24题为例，如图1所示，学生通常会认为t1=t2，因为直觉告诉他们，甲、乙两种情况具有相同的光滑表面和粗糙表面，尽管顺序不同，下落的时间应该是一样的。但实际上，前一半路程木块从光滑表面下滑，相对于粗糙表面，在中间位置的速度更大；且由动能定理可知，甲、乙两种情况下木块到底端时末速度相同，所以后一半路程，甲情况下的平均速度也大于乙。两段时间相加可得t1＜t2，故选C。

图1 反直觉力学测试（CIDT）第24题

二、研究设计

（一）研究对象

反直觉力学测试（CIDT）原为英文版，为了考察其质量及对中国学生的适切性，本研究先对CIDT 进行中文翻译，并进行小样本测试，再根据学生的作答情况组织语言学专家与学科专家进行语义修订，最终得到CIDT 汉译版。本测试采用CIDT 汉译版，由专业人员在课堂上监督完成，测试时间为40 分钟，计分方法为独立记分法，即每答对一题计1 分，答错计0分。

（二）被试

本研究选取四川境内的四所高中进行测试，包括泸州市某重点私立学校、广安市某重点公立学校、南充市某重点公立学校和一所普通公立学校。被试为已经学习了牛顿三大定律的高中普通班学生，共计733人，其中高一347人、高二386人。

（三）研究工具

本研究采用单维Rasch模型评估CIDT汉译版的质量，并利用Winsteps4.4.6 软件进行分析，输出结果包括整体质量检验、怀特图、各项目拟合分析、气泡图等。

Rasch 模型最早是由丹麦数学家乔治·拉希（Georg Rasch）在项目反应理论基础上提出的用于测量被试潜在特质的概率模型[6]。Rasch模型是一种理想化的数学模型，采用个体能力（Bn）、题目难度（Di）以及个体n 正确作答题目i 的概率（Pni）的数学函数来表示，表达式是：

图2 Rasch模型数学关系函数图像

被试是否能正确回答某一问题完全取决于被试的能力与题目难度之间的差异。当被试能力与难度相当时（Bn= Di），被试n 答对题目i 的概率为0.5；当被试能力远低于项目难度时（Bn＜Di），被试答对题目的概率趋近于0；当被试能力远大于项目难度时（Bn＞Di），被试答对题目的概率趋近于1。

Rasch 模型具有被试与题目共用标尺、线性数据、参数分离等特点，所以与经典测试理论相比，更具优势[7]。

三、研究结果

（一）测量工具整体质量检验

将实验测得的原始数据导入Winsteps4.4.6 软件进行整体质量检验，其中包括难度估计值（Measure）、项目拟合（Infit 和Outfit）、信度（Reliability）以及分离度（Separation）等指标，具体参数如图3所示。

图3 整体质量检验结果

Rasch 模型将项目难度均值设定为0。从图3 可知，误差（S.E）为0.09，低于0.4，趋近于理想值0。从拟合度指标来看，Infit MNSQ 和Outfit MNSQ 分别为1.00 和1.03，Infit ZSTD 和Outfit ZSTD 分别为-0.4和-0.1，均在理想范围内，说明本次数据与Rasch 模型拟合程度较好。从分离度指标来看，项目分离度是10.40，大于2，表示CIDT 汉译版能较好地区分被试的能力。项目的信度为0.99，大于0.7，信度较高。从上述各项参数指标可以看出测量工具整体质量较好。

（二）学生能力与CIDT难度匹配情况检验

Rasch模型通过对数转换，将项目难度和被试能力标定在同一把量尺上，生成项目-被试对应图，又称怀特图，如图4所示。怀特图中间的竖线为logit线性量尺，M（Mean）是均值，S（One Standard Error）指距离均值一个标准误差，T（Two Standard Error）指距离均值两个标准误差。左侧分布的是被试的能力水平，每一个“#”代表6 个被试，不足6 人用“·”表示。右侧是CIDT汉译版中30道题目的难度分布情况。从下往上看，被试的能力水平和试题难度均逐渐升高。

图4 怀特图

从图4 可以看出，测试项目分布合理，不存在明显的扎堆现象，项目难度分布较广；被试呈现出中间多两边少的正态分布状态；从被试与项目对应来看，被试能力水平的均值M 略低于项目难度均值，比较接近，表明测试的整体难度适当。被试的能力分布范围约为4.6 个logit，试题的难度分布范围约为4.1 个logit，大部分被试都有与之对应的题目，所以CIDT 汉译版的难度基本能涵盖到全体被试的能力。

（三）单维性检验

对Rasch 模型的分析需要符合单维性的基本假设，即测试项目仅考查被试的一种能力或潜在特质。通过图5 所示的标准残差对比图，可以直观地看出测试项目的单维性。图中30 个大小写字母分别对应一个测试项目，横坐标表示项目的难度区间，纵坐标表示该项目与其他能力或潜在特质的相关系数。一般认为因子载荷（Contrast Loading）在-0.4～0.4 之间表明该项目单维性较好。

图5 标准残差对比图

从图5 可以看出，项目A 和B 超出了理想范围，说明这两个项目可能受到了其他因素的影响，但其他项目均在可接受范围内，故从整体来看符合单维性假设，这表明CIDT 汉译版能够有效测试出被试解决反直觉力学问题的能力。

（四）各项目拟合情况分析

通过Rasch模型处理数据，不但能够得到测量工具整体的质量情况，还能得到每个项目的详细信息。表2 反映了CIDT 汉译版中30 个项目的拟合指标统计情况，包括项目难度（Measure）、相关系数（PTEMEA）、未加权均方拟合统计量（Outfit MNSQ）、加权均方拟合统计量（Infit MNSQ）和标准化均方拟合统计量（ZSTD）等。

从表2 可知，30 个项目的难度范围在-1.75～2.41logit 之间，跨度为4.16 个logit。误差在0.08～0.13 之间，说明项目难度的估计值较为可靠。除了第3 题的Outfit MNSQ 为1.65 略大于1.5 外，其他各题的Infit MNSQ 和Outfit MNSQ 均在理想范围内，且趋于理想值1。大部分ZSTD 统计量的绝对值偏大，超出了理想范围，是因为ZSTD 值易受样本容量影响。而本研究的样本量较大，用Rasch模型进行分析时，导致大部分被试和项目都显著失配，因此这里的ZSTD 值不具有参考意义[8]。相关系数（PTMEA）在0～0.53范围内，且均为正值，表明各个项目与试卷的测量目标相一致。综合各项指标来看，CIDT汉译版中各项目与模型拟合度较好。

表2 各项目拟合情况统计表

（五）项目气泡图分析

图6 是项目气泡图，它可以直观地显示各项目与模型的拟合程度以及测量误差。横坐标为未加权均方拟合统计量（Outfit MNSQ），横轴中的Overfit（＜0.50）表示的是数据的变异量小于Rasch 模型的预期，Underfit（＞1.50）代表的是数据的变异量大于Rasch模型的预期[9]；纵坐标为项目难度估计值，从下往上难度逐渐增加。图中每一个气泡代表一个题目，气泡的大小代表标准误差的大小，气泡越大则标准误差越大，测量的误差越大。

图6 气泡图

由图6 可见，第3 题难度最大，第22 题难度最小，且除第3 题外的所有试题的拟合度都落在可接受范围内。其中第3 题气泡较大，说明其难度估计值的误差较大。本气泡图所呈现的结果与表1 能相互印证（具体题目可参考附录）。

四、结论与讨论

本研究基于Rasch 模型，应用Winsteps 软件对CIDT 汉译版进行质量检验。通过对测量工具整体质量参数、单维性、项目拟合、以及怀特图和气泡图等指标的分析，得到以下结论。

CIDT 汉译版整体质量较好。试题难度均值与被试的能力均值不相上下，所以试题的整体难度设置合理，而且难度分布比较均匀，能与不同水平的被试相匹配；试题的分离度较高，远超理想值，说明该试题能有效区分不同能力的被试；除第3 题的Outfit MNSQ 指标超出理想范围外，其余各项目的测试数据与模型拟合度较高，说明本研究中被试实际作答反应与模型的预期结果一致。

CIDT 汉译版能有效测量被试的反直觉力学问题解决能力。基于Rasch模型的分析，需满足单维性假设，即测试的项目仅能测试出被试的一种能力或潜在特质。从单维性检验的情况来看，除了A、B 两个项目（分别对应第28题和第23题）以外，绝大多数题目都在理想范围内，较好地满足单维性假设。

CIDT 汉译版中个别题目有待进一步观察或优化设计。第23、28 题的单维性指标略超出理想范围，说明这两道题测量反直觉力学问题解决水平的有效性偏弱，在今后的测试中需要进一步观察；第3题的Outfit MNSQ 指标超出理想范围，说明第3 题的测试数据与模型欠拟合，其原因可能是部分低能力水平的学生正确回答了该题目，而部分高能力水平的学生错误地回答了该题目。同时结合难度指标来看，第3 题的难度最高，所以学生在作答该题时，猜测的成分比较大。在今后的研究中，对指标异常的题目，不提倡直接删除，应该结合经典测试理论和学科知识进行判断，再进一步观察或优化。

综上所述，本研究利用Rasch 模型对CIDT 汉译版的质量进行了检验，结果表明该量表适用于我国高中学生。然而在解决了CIDT 适切性的问题后，如何利用该量表考查我国学生反直觉问题解决水平的发展趋势，及其内在的认知机制与差异等问题，则亟需深入研究。

基于Rasch模型的反直觉力学测试（CIDT）质量评价及其对中国学生的适切性研究——对733名高中生测试数据的分析