基于认知诊断理论的国际中文阅读测验Q 矩阵的构建

2023-11-16 16:22李亚男

华文教学与研究 2023年4期

刘慧，李亚男，2

（1.北京语言大学语言科学院，北京 100083；2.汉考国际教育科技（北京）有限公司，北京 100088）

1. 引言

阅读能力是人类最重要的能力之一，同时，阅读能力高度复杂。尽管在阅读能力的构成上，以往研究者并未能完全达成一致，但绝大多数研究者认为阅读能力由不同能力要素构成（Lee & Schallert，1997）。在语言测验领域，很多研究者认为阅读能力是可细分的（Grabe，2009：39），这些细分的阅读能力就称为阅读子技能。

在国际中文教育中，学习者阅读能力的发展情况，是教学中师生共同关心的问题。现实中，由于个体差异的存在，尤其是国际中文学习者背景（母语、性格、语言学习能力、学习风格、动机、对语言学习的态度等）差别大，这会在不同程度上对国际中文习得的不同方面产生影响，其阅读能力的发展情况也会更加分化。然而，对于各阅读子技能发展情况的描述，传统的测验分数和偏误分析都无法实现，而认知诊断分析可以胜任。

认知诊断理论通过运用统计模型识别技术，能够从被试在测验各个题目上的实际作答反应出发，推断其内在子技能的发展状况。阅读领域的认知诊断分析可以报告学生各阅读子技能发展情况，明确其优势和弱势；能够为下一步的教学提供更加详细的建议，进行更加直接的指导，为“因材施教”提供基础。

实际上，语言测验都有提供诊断信息的潜力（Bachman，1990：60），以往国内外相关研究也确实在阅读领域成功进行了一系列诊断分析（Buck、Tatsuoka&Kostin，1997；Jang，2009）。不过，纵观以往阅读测验领域的诊断研究，尤其是国际中文阅读的相关研究，关注点多在于认知诊断模型的使用，主要考查认知诊断模型能否应用于相应的测验，而对于如何构建Q 矩阵关注不足。

Q 矩阵反应的是子技能水平上的测验结构，其合理构建是成功进行认知诊断分析的先决条件（Tatsuoka，1983）。同时，目前的阅读测评使用的几乎均为大型标准化测验，这些测验一般基于非诊断目的开发，属于传统的非诊断性测验；想要从中获取诊断信息，更是需要首先分析测验本身所考查特质的构成，确定Q矩阵。因此，研究拟以中小学生汉语考试（以下简称“YCT”）测验为例，对国际中文阅读测验Q矩阵的构建进行专门探讨，具体研究两个问题：（1）YCT（四级）阅读测验考查了哪些阅读子技能？（2）国际中文阅读测验的Q 矩阵应当如何构建？期望对上述问题所进行的探讨，能够为后续研究确定Q 矩阵提供更多参考建议，提升国际中文阅读测验诊断分析的效用。

2. 研究背景

2.1 认知诊断理论

认知诊断理论（Cognitive Diagnostic Theory，CDT）是新一代测量理论，它不将测量的特质看作意义模糊的统计结构，而是致力于描述个体不同的认知结构。认知诊断理论由Q 矩阵和认知诊断模型两部分构成。

Q 矩阵定义的是正确作答每道题目所需要掌握的子技能，它从不可观测的多个潜在子技能的角度对可观测的测验题目的表现进行解释，体现了子技能水平上的测验认知结构。Q 矩阵的行代表题目，列代表子技能；如果Q 矩阵的元素qjk的值为1，就表示第j道题目考查了第k个子技能；如果为0，就表示第j道题目没有考查第k个子技能。

认知诊断模型根据Q矩阵和实测作答反应来推断被试子技能掌握状态，目前大多数认知诊断模型都定义了一个函数，这个函数用来表达被试对某道题目正确作答的概率与这道题目所考查的子技能和被试的子技能掌握情况之间的关系；它们既可以用于专门的诊断性测验，也可以用于传统的非诊断性测验（Fu&Li，2007）。

2.2 以往的阅读认知诊断研究及其Q 矩阵的构建

从上世纪末开始，研究者就已经开始了阅读领域的认知诊断研究，目前已经有了一定的积累。以往研究中，绝大多数都是基于传统的非诊断性测验开展的。

Buck 等（1997）是阅读领域首批认知诊断研究的代表，研究采用文献回顾、专家判断和回归分析等多种方法确定Q 矩阵，然后使用规则空间模型对考生在托业考试阅读部分的作答进行分析。Jang（2009）是后期研究的代表，研究采用文献回顾、出声思维和基于缩减融合模型（The reduced reparametrized unified model，R-RUM）的量化分析方法确定Q 矩阵，并用R-RUM 对LanguEdgeTM 阅读测验进行认知诊断分析。蔡艳等（2011）是国内相关研究的代表，研究采用文献回顾和专家判断方法建立Q 矩阵，并采用分层回归分析等方法对Q 矩阵进行认定，然后使用属性层级模型对英语高考阅读理解进行分析。

在国际中文阅读领域，也有研究者不断进行探索。黄海峰（2010）采用文献回顾和因素分析相结合的方法确定了Q 矩阵，然后使用融合模型对考生在汉语水平考试（HSK）初、中等阅读测验上的作答表现进行分析；鹿士义和苗芳馨（2014）采用文献回顾和问卷调查相结合的方法确定子技能及其层级关系并计算Q 矩阵，然后使用规则空间模型对某大学入学分班的阅读理解测验进行诊断性研究。

由以上研究可知，Q 矩阵的构建是进行诊断分析的重要基础。Q 矩阵构建通常通过“定义子技能”和“建立Q 矩阵”这两个步骤实现（Lee & Sawaki，2009）。“定义子技能”时，一般会对相关领域认知子技能构成的理论进行回顾，并结合目标测验的特点对测验所考查的子技能进行定义；在条件具备的情况下，出声思维法和专家判断法也是定义子技能的比较有效的方法。“建立Q 矩阵”时，一般会使用两类方法，一类是仅基于对测验内容本身的分析，另一类是将测验内容分析和量化分析相结合。第一类方法是指由一位或者多位专家对目标测验的每道题目内容进行分析并编码（Douglas、de la Torre、Chang、Henson&Templin，2006），第二类方法是指在测验内容分析的基础上，再依靠量化分析识别内容分析中专家判断与实测数据不匹配之处，进而对依据测验内容分析所建立的Q 矩阵进行优化。

以往大多数阅读认知诊断研究在建立Q 矩阵时，采用了将测验内容分析和量化的实证数据分析相结合的方法。在量化方法的选择上，有研究采用了因素分析（Jang，2005；黄海峰，2010）、回归分析（Buck 等，1997）等方法，也有研究采用了基于认知诊断模型的量化分析方法。这些方法中，因素分析方法表现并不太好，尤其是对于传统的非诊断性测验来说（Li & Suen，2014）；回归分析方法也只能对Q矩阵的合理性进行较为粗略的判断；而不少认知诊断模型能够对单个测验题目的表现进行分析，并能够对子技能分配的具体情况进行评估，从而更精确地识别测验内容分析中可能出现的误判，在Q 矩阵构建中表现良好。R-RUM 模型（DiBello、Stout & Roussos，1995）就是这种认知诊断模型的典型代表。

在国际中文阅读测验领域，以往诊断研究在构建Q 矩阵时，仅仅通过测验内容分析直接确定Q 矩阵（鹿士义、苗芳馨，2014），或者在测验内容分析的基础上，通过因素分析、回归分析等量化分析对Q 矩阵的合理性进行总体评估（黄海峰，2010）；少有研究采用基于认知诊断模型的方法对Q 矩阵的合理性进行精细评估。

3. 研究方法

3.1 研究工具

本研究所用测验为YCT（四级）的阅读分测验。

YCT 是一项旨在考察汉语非第一语言的中小学生的汉语应用能力的大型国际汉语能力标准化考试，分为四个级别，水平从低到高分别为YCT（一级）、YCT（二级）、YCT（三级）、YCT（四级）。YCT（四级）考查考生的日常中文应用能力，共80 题，分听力、阅读和书写三部分，其中阅读测验长度为30 题，包括四种题型，均为四选一的单项选择题。第一种题型，每题提供一张图片和3 个句子选项，要求考生选出对应图片的一项；第二个题型提供20个句子，每10 个一组，要求考生找出对应关系；第三个题型提供一个单轮对话，对话中有一个空格，要求考生选词填空；第四个题型提供一句或两句话，之后有一个问题，要求考生从备选项中选出答案。

3.2 研究设计

研究拟综合采用文献回顾法、专家判断法和基于认知诊断模型的量化分析方法构建Q 矩阵。首先，通过文献回顾法初步析出测验所考查的阅读子技能；然后，利用专家判断法，对初步析出的子技能进行考查并构建初始Q 矩阵；接下来，采用基于R-RUM 模型的量化方法对初步构建的Q 矩阵进行优化；最后，对Q 矩阵的合理性进行检验。

专家判断法的基本流程为：（1）对目标测验的目标群体、考察目的、测验构成等相关情况进行详细介绍，为专家分发全部题目，并请专家阅读试题；（2）介绍主要的阅读能力认知结构理论模型，报告初步析出的阅读子技能清单；（3）请专家结合目标测验具体情况，对初步析出的子技能清单进行讨论，确定子技能清单；（4）专家对目标测验的每一道题目独立标注目标群体在作答时需用到的子技能；（5）全部专家对题目标注完成后，对各题所考查的子技能进行逐题讨论；如果专家们在某题目上无法达成一致，就采用专家出声思维法对该题考查的子技能进行讨论并做出决定；（6）基于专家组确定的各题所考查的子技能，构建初始Q矩阵。

3.3 被试构成和专家组构成

3.3.1 被试构成

研究采用的数据为2017 年4 月全球施测的YCT（四级）阅读分测验的考生作答结果和成绩，经清理后的有效数据共1101 条。试卷质量分析显示：以原始分计，考生成绩均值为18.04，测验的平均通过率为0.60，试卷难度中等偏易；全卷标准差为6.67，考生成绩变异合理，考生成绩全距为2 分到满分30 分，得分分布较广；试卷α 系数为0.88，信度较高，较为稳定；全卷平均点二列相关为0.47，题目区分度很好，试题质量不错。

3.3.2 专家构成

专家组由5 名成员构成，均有三年以上国际中文教学经验，熟悉汉语水平考试，且长期参与YCT 或HSK 的命题、审题工作。其中，有三位专家为大学教师，两位专家为考试机构资深工作人员，另有一位语言学专业的硕士生进行会议记录。

3.4 数据处理

研究过程中涉及到的数据处理有三类：基本测量学指标的分析采用ITEMAN 软件完成，基于R-RUM 进行的分析采用Arpeggio 软件完成，其他的数据整理和处理采用R 软件自编程序完成。

4. 研究结果

4.1 认知子技能的初步析出及确认

研究首先基于YCT（四级）阅读测验的基本特点，在阅读认知过程和阅读能力评估相关文献分析的基础上，初步析出了YCT（四级）阅读测验所考查的阅读子技能初始清单。

以往研究中，多数研究者认为阅读是一种高度复杂的活动，阅读能力由不同的能力要素构成（LEE&Schallert，1997），并且认为阅读能力可细分（Grabe，2009：39）。然而，在阅读能力具体包含哪些子技能上，不同的研究者从不同的视角出发，观点并未能够达成一致（Davis，1968；Grabe，2009：21-58）。考虑到阅读能力的潜在结构确实会随研究内容或研究目的不同而不同（Song， 2008），本研究采用文献分析法初步析出子技能时，重点依据在阅读测验背景下构建的阅读认知过程模型。

Perfetti（1999）、Grabe（2009）以及Khalifa和Weir（2009）描述了语言测试领域比较重要的三种阅读认知过程的模型。三个模型虽然在包含的具体要素上略有不同，但其大体结构相似，均认为阅读认知过程包括从“词汇识别”到“建立命题”直至“建立各种层面的文本表征”，且各层级的切分框架与以往认知诊断研究的结果（Jang，2009；Li & Suen，2014）也较为一致。因此，我们将这类模型作为本研究析出YCT（四级）所考查阅读子技能的基础模型。具体到YCT（四级）阅读测验来说，其涉及的文本均为一句或两句话，不考查语段和篇章，那么测验考查的阅读子技能也就不应包括语段及以上层面文本表征构建的能力（Khalifa&Weir，2009：34-61）。

基于以上考虑，研究提取了上述三个模型中建立文本模型之前所涉及的全部五种认知技能（具体为“词汇识别”“词义获取”“句法分析”“意义命题构建”和“推理”），作为YCT（四级）阅读测验的认知子技能的初始清单，并将其提交至专家组。

在对试题内容进行逐一考察后，专家组认为通过文献回顾法析出的子技能初始清单总体合理。不过，结合YCT（四级）具体情况，专家组提出，作为一项大型标准化测验，测验中并没有题目能够对“词汇识别”与“词义获取”这两种能力进行单独考查，建议将两子技能合并，统称为“词汇识别”。

通过以上步骤，研究确定了目标测验所考查的四个子技能，即：词汇识别、句法分析、语义命题构建和推理，见表1。

表1：阅读子技能清单

4.2 Q 矩阵的初步析出及优化

在确定子技能清单后，专家对每道题目所考查的子技能进行独立判断和标注。全部专家均标注完成后，专家组对题目所考查的子技能逐题汇总、讨论。讨论过程中，若专家组在某道题目所考查的子技能上无法达成一致，采用专家出声思维法（Afflerbach &Johnston，1984）对相应题目考查的子技能进行讨论：请专家重新对相应题目进行作答，在作答过程中，作为成熟且可以去自动化的阅读者对自己的思考过程进行出声报告，然后依据五位专家出声思维报告的结果对该题目考查的子技能进行再次标注和分析。多轮讨论后，专家组对测验在认知子技能水平上的结构形成最终的意见，进而析出初始Q 矩阵（见表2）。

表2：初始Q 矩阵

如前所述，R-RUM 模型可以识别基于测验内容分析得到的初始Q 矩阵中可能出现的误判，对其进行优化。进行优化时，主要考查模型的两个题目参数π*和，它们能够对Q 矩阵为每道题目所指派每个子技能的合理性进行评估。

R-RUM 模型如公式（1）所示。

其中P是被试n正确作答题目i的概率；αn=(αn1,...αnk)代表被试n对所有k个子技能的掌握状态，αnk=0/1 表示该被试“未掌握/掌握”相应子技能；π*是指被试在掌握某个题目所考查所有子技能的情况下正确作答题目的概率；是指没有掌握题目i所考查的子技能的被试在题目i上的正确作答概率与掌握了子技能的被试在该题目上正确作答概率的比值，定义为，其值越小，表明题目i越能将掌握子技能k的被试和未掌握子技能k的被试区分开来。

基于初始Q 矩阵，本研究估计了30 个π*和42 个。一般认为，若值小于0.6，表示Q 矩阵对题目所考查子技能的指派不充分，也就是对于Q 矩阵中指派给第i道题目的子技能来说，这道题目过难，那么应给第i道题目指派更多或更难的子技能；若参数值大于0.9，表示掌握子技能k对于被试在题目i上的表现影响很小，意味着Q 矩阵对题目所考查子技能的指派有冗余，应将Q 矩阵中相应的对应关系解除（Leighton & Gierl，2007）。本研究初始Q矩阵估计结果显示、、、和共五个参数值大于0.9，基于此，研究对相应题目逐题分析，考查此五组对应关系的指定是否合理。通过题目分析，专家组认为第11、13 和15 题对第一个子技能、第24 题对第二个子技能以及第3 题对第三个子技能并没有进行考查，这五道题目和相应子技能的五组对应关系不存在，建议将这五组对应关系删除，形成优化的Q 矩阵。

基于优化的Q 矩阵，研究使用R-RUM 模型对被试作答反应进行第二轮估计，结果如表3 所示。

表3：R-RUM 模型基于优化Q 矩阵的题目参数估计结果

表3 显示，全部题目参数均值为0.88，所有值均大于0.6，且过半值都大于0.9，也就是说优化的Q 矩阵对题目考查的子技能的指派比较充分、无重要子技能遗漏；全部题目对所考查全部子技能的值均小于0.9，15 个值小于0.5，也就是说优化的Q矩阵对题目与其所考查子技能关系的认定不存在冗余。

综上，优化的Q 矩阵对每道题目所考查子技能的认定既充分又无冗余，题目与其所考查子技能对应关系的认定较为合理。

4.3 Q 矩阵的检验：模型与数据拟合检验

在确认估计出来的题目参数的合理性后，研究对模型与数据的拟合情况进行了检验。为了直接评估数据模型的拟合情况，并且充分利用R-RUM 模型估计的全信息，研究拟合优度采用了后验预测检验（Henson、Roussos &Templin，2005）。采用R-RUM 模型进行分析时，模型与数据的拟合检验指标一般为题目难度、题目对之间的相关以及测验分数分布情况的平均偏差（BIAS）、均方根误差（The overall Root Mean Squared Error，RMSE）以及平均绝对离差（The overall Mean Absolute Deviations，MAD）；另外，由于分数分布的平均偏差总是会为0，因此计算测验分数分布的拟合情况时，计算指标不是平均偏差，而是最大偏差（maximum deviation，MAXD）。本研究模型与数据的拟合情况见表4。

表4：模型与数据的拟合优度

表4 显示，在题目难度、题目对之间的相关以及测验分数分布情况这三个方面，基于实际观测值与基于模型的预测值计算得到的BIAS（MAXD）、RMSE 以及MAD 值均较小（Jang，2009；Henson、Roussos & Templin，2005）。这一结果表明数据与模型拟合较好，优化的Q 矩阵得到了模型与数据拟合检验的支持。

5. 讨论

5.1 YCT （四级）阅读测验所考查能力的构成

确定目标测验所考查的子技能是构建Q矩阵的第一步，因此研究首先对YCT（四级）阅读分测验所考查的子技能进行了分析。

文献回顾和专家判断显示，YCT（四级）阅读测验考查了“词汇识别”“句法分析”“语义命题构建”和“推理”四种子技能。对照YCT（四级）大纲中规定考查的语言能力可知，其阅读测验的考查目标集中在基础阅读能力上，对于高层级阅读能力涉及较少。本文析出的四种阅读子技能聚焦于词汇和句子层面的基本语义理解和语义命题构建，不涉及高层级能力，与YCT（四级）阅读分测验的考查目标比较一致。

细观可知，测验对四个子技能的考查强度并不相同：“词汇识别”子技能考查了21 次，“句法分析”5 次，“语义命题构建”8 次，“推理”3 次。“词汇识别”和“语义命题构建”均为低层级的阅读技能（Grabe，2009：21-38），YCT（四级）将阅读考查重点放在这两种子技能上，与其考试定位一致。虽然“句法分析”也是一种低层级的阅读技能，但测验对其仅有5 次考查，且考查多嵌套在交际任务中，而非进行单纯的语法考查，这应与测验开发的理念相关：重视考生汉语实际应用能力，不强调对具体语法点的考查。另外，“推理”是对文本中没有明确提及信息的加工过程，它是基于“语义命题构建”或者考生的背景知识进行的，属于稍高层级的阅读技能，不是YCT（四级）的考查重点，仅有3 次考查也符合这一定位。

这四种阅读子技能的确认，不但明确了YCT（四级）阅读测验所考查能力的基本结构，而且为析出Q 矩阵，进而进行诊断分析奠定了基础。

5.2 国际中文阅读测验Q 矩阵的构建

合理的Q 矩阵是诊断分析指导教学实践、为教学提供切实有效建议的重要基础。以往研究中，虽有研究单独采用质性分析方法来构建Q 矩阵，但更多的研究采用的是质性与量化相结合的方法（Lee&Sawaki，2009）。

以往研究所采用的质性分析方法主要包括文献回顾、专家判断和出声思维等方法。本研究质性分析同样采用了文献回顾和专家判断方法，并基于这两种方法，确认了测验所考查的子技能、构建了初始Q 矩阵。虽然被试的出声思维报告可以更直接地获取其语言处理过程（Kucan & Beck，1997），但研究未采用此方法，这主要是因为目标被试在汉语水平和认知能力两方面都处于不太成熟的阶段，在完成试题作答的同时用汉语进行出声思维报告存在较大的困难；而如果无法保证被试在报告过程中所述信息的准确性，出声思维方法的效果就会大打折扣。

构建Q 矩阵所使用的量化方法，随着模型开发的进展，存在较大的变化。早期研究中的量化方法一般采用较为简单的指标，帮助研究者对子技能的取舍进行粗略判断，比如Buck 等（1997）采用了多种基础指标：均值低于0.98、与总分的相关大于0.2 和偏回归系数（在对总分的多重线性回归中）在0.0001水平上显著不为0 的子技能能够被保留下来。后期研究不少都采用了基于认知诊断模型的量化方法，能够利用更为细致的指标对子技能的作用进行具体评估，基于R-RUM 模型的方法就是其中较为突出的一种。本研究采用了质性与量化相结合的方法，基于多角度证据来源构建目标测验Q 矩阵。对实证数据进行量化分析时，研究通过R-RUM 模型的两个题目参数对子技能指派的必要性和冗余度进行判断，通过模型与题目的拟合指标对Q 矩阵所构建的模型与实测数据的拟合情况进行判断，并以此为依据对初始Q 矩阵进行优化和检验。

综上，本研究采用文献回顾、专家判断、基于认知诊断模型的数据分析等横跨质性和量化两方面的方法，构建出了YCT（四级）阅读测验的Q 矩阵。对于结构复杂、所包含子技能模糊的国际中文阅读测验来说，多角度的证据来源能够进行交叉验证，从而在更大程度上保障所构建Q 矩阵的合理性。

5.3 非诊断性阅读测验Q 的构建

开发真正的诊断性测验或者从非诊断性测验中抽取诊断信息，是当下获取诊断信息的两种途径。目前，在阅读测验领域，真正的诊断性测验极少，因为诊断性测验的开发绝非易事，需要耗费大量的人力、物力和时间（Alderson、Haapakangas、Huhta、Nieminen &Ullakonoja，2015）。因此，从非诊断性测验中抽取诊断信息，虽然并非获取诊断信息的最优途径，却是目前较为可行的方案，尤其是对于还没有真正的诊断性测验的国际中文阅读领域来说。

非诊断性测验构建Q 矩阵需要对现有测验进行事后分析，合理的Q 矩阵对于诊断分析的成功实施具有决定性意义。本研究确认的阅读子技能有4 个，这个数量与以往不少研究相当，比如Li & Suen（2014）和Lee & Sawaki（2009）。实际上，在构建非诊断性测验Q 矩阵时，子技能粒度大小的设置尤为关键。子技能粒度是指对子技能划分的细致程度，粒度大则子技能划分较粗、数量较少，粒度小则子技能划分较细、数量较多。子技能粒度越小，诊断能力就越强，分析结果对现实中教学实践的指导就可能越具针对性。考虑到诊断需求的满足，子技能粒度应小一些。然而，对于非诊断性测验来说，测验开发时的蓝图一般并未能考虑到事后进行诊断性分析的需求，如果在事后确定Q 矩阵时子技能划分过细，很可能会导致测验对某些重要子技能的考查次数过少甚至未能考查某些重要的子技能；而一般来说，如果单个子技能的考察次数不足三次，认知诊断模型中的相关参数很难得到准确估计，也就是说子技能的考察次数不足会给后面的参数估计以及诊断分析的结果报告等带来一系列的困难。由此可知，因为非诊断性测验Q矩阵的构建需要在现存测验的框架下进行，就必须综合、平衡更多方面的要求，从而更加具有挑战性。

当然，我们同样清楚，即使构建Q 矩阵时考虑得比较全面，基于非诊断性测验所进行的诊断分析，仍然无法摆脱现存测验本身固有特征的束缚。开发真正的诊断性测验，能够在根本上保障诊断信息的获取，后续研究可以在这一领域持续发力。

6. 结论

研究通过文献分析法与专家判断法，得到了目标测验所考查的阅读子技能并初步构建了Q 矩阵；通过基于R-RUM 模型的量化分析，对初始Q 矩阵进行了优化和检验。结果表明，YCT（四级）阅读测验考查了“词汇识别”“句法分析”“语义命题构建”和“推理”四种子技能；对于所考查能力结构复杂的现存大型标准化国际中文阅读测验而言，采用质性分析与量化分析相结合的方法，能够对测验对各子技能的考查情况进行全面、细致评估，并在此基础上有效构建Q 矩阵。