古诗知识经验测评问卷的初步编制

2021-05-28 02:53陈庆荣

南京师大学报（社会科学版） 2021年3期

陈庆荣窦芬

一、引言

“中华传统文化源远流长、博大精深，中华民族形成和发展过程中产生的各种思想文化，记载了中华民族在长期奋斗中开展的精神活动、进行的理性思维、创造的文化成果，反映了中华民族的精神追求，其最核心的内容已经成为中华民族最基本的文化基因”(1)引自习近平总书记在中共中央政治局第十八次集体学习时的讲话，2014年10月13日。。诗歌是音律的纯文学(朱光潜，2001)，是对语言材料的艺术化萃取。诺贝尔文学奖获得者Eliot指出“诗比任何艺术都更顽固地具有民族性”(Eliot，1957)。较之于以英语为代表的印欧语诗歌，中国古代诗歌具有平仄、押韵、对仗等典型韵律特征(王力，1978，2002，2003)，已经成为中华民族最基本的文化基因之一(陈庆荣、杨亦鸣，2017)，其历史悠久、题材丰富、内容广博、思想深邃，是历经千百年时间流水的冲刷而愈发闪烁着夺目光彩的民族文化的瑰宝。

那么，人们如何阅读诗歌？其内在的心理和神经机制是什么？诗歌阅读对学生知情意的形成和发展有何影响？如何测评？关于这些重要问题，已有的理论假设和实验研究主要围绕印欧语诗歌的典型韵律特征展开(如重音、节奏等)。在理论假设层面，Roman Jakobson(1960)提出了诗意性功能理论，指出欣赏诗歌时读者会有意识地知觉诗歌语言结构所具有的文本语言模式。基于此，Hanauer(1998)进一步提出了“特殊体裁假设”(genre-specific hypotheses)，认为文本的加工模式受到其体裁特征的影响，从而使得具有不同外显特征的文本体裁呈现出显著的加工模式差异(Zwaan,1991)。2011年，Jacobs教授首次提出“神经认知诗学”的概念，并综合修辞学、美学、诗学、心理学、情感神经科学的研究成果构建了神经认知诗学模型(Neurocognitive poetics model,NCPM，2015)，从而尝试将关于神经元、认知、情感和行为过程的假设与语言学和诗学的假设联系起来，预测和测评文本元素的认知或审美过程(Jacobs，2018,2019;Jacobs & Kinder,2020;Jacobs,Lüdtke,Aryani,Meyer-Sickendieck & Conrad,2016)。在实验研究层面，研究者发现，阅读诗歌时人们会用更多的认知资源加工具有明显诗歌特征的前景要素(Yaron，2002)；诗歌的节奏和韵律特征会显著减少阅读时间，增加人们对诗歌信息的记忆(Lea,Rapp,Elfenbein,Mitchel & Romine,2008;Tillmann & Dowling，2007)，生成更强烈的情感体验和审美评价(Obermeier,Menninghaus,Von Koppenfels,Raettig,Schmidt-Kassow,Otterbein & Kotz,2014)，且这种审美评价也受到读者对诗歌的喜爱度调节(Kraxenberger & Menninghaus,2017)；词汇与声音的相似性会促进诗意性文本的词汇识别和语义通达；诗歌阅读激活了与韵律及复杂音乐模式加工相关的脑区，如右侧颞前回、左侧颞上回等(Zeman,Milton,Smith & Rylance,2013)。在诗词的测评和认知计算层面，研究者构建了古腾堡英语诗歌语料库(Gutenberg English Poetry Corpus,GEPC)，且运用机器学习的方法构建了SentiArt工具，定量分析和计算诗歌文本的情感和审美潜力(Jacobs,2019;Jacobs & Kinder,2020)。在诗歌阅读对学生认知能力的影响层面，Kuppen等(2017)发现，有节奏的韵律训练可以提升5—6岁低社会经济阶层儿童的语音意识。国内研究者主要采用眼动、EEG和fMRI等实验技术考察了中国古代诗歌的认知和神经机制。Chen等(2016)采用EEG技术考查了人们阅读律诗时押韵和语义加工的神经认知机制。研究发现，阅读古代诗歌时押韵有典型的神经电生理成分P200，且押韵规则性在晚期时间窗口会调节诗句语义理解。进一步的眼动追踪研究发现，中国古代诗歌具有自上而下的、全时程的典型押韵效应，使得中国人在阅读过程中期待声律和谐、形意相合的文句(陈庆荣、杨亦鸣，2017)。针对汉语诗歌平仄节奏，Chen等(2016)采用眼球追踪技术分析了不同文本分割条件对阅读汉语格律诗的影响，发现节奏切分与字符切分并不利于诗歌阅读，而句法切分则促进了阅读过程。此外，Teng等(2020)运用MEG技术揭示了诗歌结构以及听众对诗歌结构的先验知识影响语音分段的脑机制。

综上所述，较之于印欧语诗歌的理论、实验和测评研究，国内研究者围绕押韵、节奏等典型古诗韵律特征开展了一些实验研究，但是缺乏古代诗歌阅读与个体若干认知能力发展的互动机制研究，以及建筑在系统科学研究基础上的理论构建。造成这种现象的主要原因之一是缺乏测量个体古诗知识经验水平的科学工具。鉴于此，研究者在已有诗歌认知机制实验研究的基础上，根据心理测量学的理论和方法，尝试初步编制《古代诗歌知识经验测评问卷》，并对问卷条目的难度、区分度以及信度和效度进行初步检验，以此测查个体的古代诗歌知识经验水平，为后续中国古代诗歌相关的实证和计算研究提供有参考价值的测评工具。

二、研究工具

(一) 确定测验内容

中国古代诗歌，一般称作旧诗，广义的古代诗歌，是指用文言文和传统格律创作的诗，包括古代的韵文，如赋、词、曲等；狭义上则仅包括古体诗和近体诗。本问卷的测评题目是测量个体古代诗歌知识经验水平的一种“量表”，聚焦于狭义的中国古代诗歌。依据心理测验的理论框架，结合已有研究文献、调查获得的实际情况以及已有相关研究(卢莉君，2019)，确定了测评问卷的结构。(2)“在此感谢本人指导的研究团队成员卢莉君、马晓雅、陈雨绮、梁婧涵、高攀科等在部分初始题目编写和部分数据收集过程中付出的辛勤劳动。”研究者将测评问卷划分为三部分，第一部分设置成填空题，属于客观题；第二部分设置为主观题；第三部分设置为诗句补全题，属于客观题(诗句难度分为难、中、易，按3∶5∶3的比例分配)。

(二) 收集与编写测评问卷项目

本研究运用经典测验理论来编制和分析测评问卷。首先，查阅相关教材、文献中与中国古代诗歌相关的知识，对这些知识点进行细致筛选，编入测评问卷，形成测评问卷条目。在项目编写的过程中，试题中各个题目彼此独立，不含暗示其它题目或参考答案的线索。为保证项目经过筛选后仍有足够的正式项目量，研究者汇总了尽可能多的各类题目。经过小范围的预测后，剔除不符合条件的条目，对个别条目进行修订，并请教古代诗歌经验丰富的专家进行评选，最终形成测试题本。

(三) 抽取实测样本

实测样本抽取了217名被试，其中，诗歌经验者107人，非诗歌经验者110人；男生103人，女生114人；被试年龄为18—28岁，平均年龄21.82岁(SD=2.32)。测试由经过训练的心理学专业研究生主持，指导语和测试程序一致。

(四) 分析测验结果

将所有施测所得数据录入SPSS 21.0软件进行统计分析。具体如下：

1. 难度和区分度分析

古诗知识测评问卷中除第二部分为主观题，第一部分的填空题和第三部分的诗句补全题均为客观题，填空题答对记1分，答错记0分；诗句补全题答对记2分，答错记0分；第二部分主观题按照对应知识点给分，共包括三道题目。测评问卷项目的难度使用通过率来表示，区分度则采用项目鉴别力指数法和项目与总分的点二列相关来考察。

2. 信度分析

使用Cronbach’s α系数分析测评问卷条目的同质性信度。使用古诗知识测评问卷对同一组被试前后施测两次，以两次测评问卷分数的稳定性程度表示测评问卷的重测信度。

3. 效度分析

采用专家评定法和经验法检验测评问卷的内容效度。从考察测评问卷的同质性方面进行结构效度检验。

三、研究结果

(一) 测评结果

两组被试在古诗知识测评问卷各部分得分以及总分的平均值和标准差见表1。结果表明，两组被试在古诗知识测评问卷上的得分存在显著差异，诗歌经验组被试在测评问卷上的得分更高(t(215)=60.92,p<0.001,Cohen’sd=6.35)。此外，被试在古诗知识测评问卷总分和三个部分上的得分均不存在性别差异(ts<1.42,ps>0.16)。

表1 古代诗歌知识经验测评问卷的原始分(M±SD)

(二) 项目分析

1. 难度分析

本研究将被试在测试条目上的通过率作为难度的指标，所得整体和不同部分的难度分布见表2。总体而言，古代诗歌知识测评问卷各部分的难度在0.31-0.60之间，平均难度为0.56。与客观题(第一、三部分)相比，主观题部分(第二部分)的通过率更低，因此对被试来说该部分题目难度更高。

研究者进一步分析了不同组被试在诗歌知识测评问卷上的通过率。结果发现，诗歌经验组和非诗歌经验组被试存在显著差异(t(90)=13.02,p<0.001,Cohen’sd=2.69)。具体而言，诗歌经验组被试在测评问卷条目上的通过率高，因此对他们而言题目难度偏小；非诗歌经验组在测评问卷条目上的通过率偏低，意味着题目偏难。此外，本研究进一步分析了每个项目在不同组别以及总体中的难度，其通过率分布如图1所示。

图1 古代诗歌知识经验测评问卷项目的通过率

2. 区分度分析

本研究从两个方面来考察项目的区分度，一方面计算鉴别力指数，另一方面计算各条目与问卷总分的相关。

首先，将诗歌知识测评问卷的三个部分以及总体得分按照从高到低的顺序进行排列；然后，从分布的两端各抽取27%的被试得出高分组和低分组，将两组在项目上的通过率相减即为鉴别力指数。每个项目的鉴别力指数分布如图2所示。其中，鉴别力指数在0.3以上的项目占总项目89.13%，其中，测评问卷的第一、二、三部分的平均鉴别力指数分别为0.48、0.45、0.59，总鉴别力指数为0.51。根据美国测验专家伊贝尔(L.Ebel)提出的鉴别力指数评价项目性能的标准(郑日昌，2002)，即鉴别力指数≤0.19差，0.20-0.29尚可，0.30-0.39良好，0.40以上很好，本研究中测评问卷各部分及整体的鉴别力指数很好。

其次，采用相关法计算测评问卷中每个项目与测评问卷总分的相关系数进一步考察项目的区分度。古代诗歌测评问卷各项目与问卷总分的相关分布如表3所示。此外，古诗知识测评问卷的第一、二、三部分的得分与问卷整体得分的平均相关系数在0.88-0.93之间，均达到优良水平(具体见表6)。

图2 古代诗歌知识经验测评问卷各项目的鉴别力指数分布图

表3 古代诗歌知识经验测评问卷各项目与问卷总分的相关

(三) 信度分析

1. 同质性信度

本研究使用Cronbach’sα系数对各部分以及总分的内部一致性信度进行检验。结果分析，测评问卷的一、二、三部分的α系数分别为0.89、0.86、0.84，总问卷的α系数为0.90，说明其内部一致性较高。

2. 重测信度

对217名被试首次施测后，选取其中102名被试相隔20天进行重新施测，根据前后两次施测的相关来计算信度系数，以考察测评问卷的稳定性和等值性。从表4可知，诗歌知识测评问卷三个部分的重测信度系数在0.74～0.85之间，总问卷的重测信度系数为0.88，均达到显著水平。这表明古代诗歌知识测评问卷具有较好的跨时距稳定性。

表4 古代诗歌知识经验测评问卷的重测相关系数

(四) 效度分析

1. 内容效度

本研究使用专家判断法和经验法来考察测评问卷的内容效度。首先，邀请6位古代诗歌经验丰富的专家对所编制问卷的各项目进行符合性评定，采用五点计分(1表示“较差匹配”，2表示“一般匹配”，3表示“较好匹配”，4表示“很好匹配”，5表示“完美匹配”)。结果发现，问卷项目的平均符合度为3.84(SD=0.52)，各项目的平均符合度见表5，这说明该问卷能够较好区分出诗歌经验者和非经验者的诗歌知识水平。

表5 专家对各项目的评定等级

其次，根据经验法，诗歌经验组被试和非经验组被试的古诗知识测评得分应该存在较大差异。统计结果表明，诗歌经验组和非诗歌经验组在测评问卷三个部分的得分(t(215)=28.17,p<0.001,Cohen’sd=3.93；t(215)=29.77,p<0.001,Cohen’sd=4.10；t(215)=24.37,p<0.001,Cohen’sd=3.33)和总体得分(t(215)=60.91,p<0.001,Cohen’sd=6.35)均存在显著差异。具体而言，与非诗歌经验组被试相比，诗歌经验组被试在测评问卷各部分以及总量表的原始得分都明显增高(具体见表1)。此外，总分和题目的通过率也随着诗歌经验而升高(见表2和图1)。这些结果说明该测评问卷具有较好的内容效度。

2. 结构效度分析

结构效度是指一个测验实际测到所要测量的理论结构和特质程度。本研究从同质性方面考察测评问卷的结构效度，计算问卷各部分的相关及总分的相关。古代诗歌知识测评问卷不同部分的题目虽然在内容和认知水平上要求不同，但都属于古代诗歌知识范畴。因此，测评问卷各部分之间应该既有差别也有联系。统计结果表明(具体见表6)，各部分之间具有较强的相关，但均低于各部分与总分的相关。

表6 中国古代诗歌知识经验测评问卷各部分及总量表间的相关系数

(五) 古诗相关的背景信息调查

研究者在施测时还收集了被试具有的古代诗歌相关的背景信息。统计分析表明，诗歌经验组中大约有64%的被试曾经加入过与古诗相关的团体组织进行经验交流，71%的被试创作过古诗，44%的被试创作的古诗作品发表在校级及以上刊物上；非经验组被试对应的比例分别为21%、38%和11%。此外，研究者进一步使用7点计分评定被试对诗歌的喜爱度，发现诗歌经验组对诗歌的喜爱度(5.90±0.76)显著高于非经验组被试(4.36±1.00)，t(215)=12.73,p<0.001,Cohen’sd=1.73(具体见图3)。除此之外，与非经验组被试相比，诗歌经验组被试会花费更多的时间进行与古诗相关的阅读(t(215)=12.61,p<0.001,Cohen’sd=1.72)，阅读量也显著增加，t(215)=8.18,p<0.001,Cohen’sd=1.12(具体见图4和图5)。上述结果也在一定程度上表明该问卷具有良好的效度。

四、讨论

先前的文献综述表明，目前缺乏测量个体古代诗歌知识经验水平的相对科学的测评工具，从而在很大程度上阻碍了研究者基于科学工具深入开展古代诗歌学习及其对我国青少年学生若干认知能力影响的基础和应用研究。因此，本研究遵循心理测验编制的基本原理和程序，初步编制了中国古代诗歌知识经验的测评问卷以弥补该领域的不足。该问卷的编制经历了测评结构和内容的确定、测评项目的收集与编写、实测样本的抽取以及测评项目质量的分析四个环节。

图3 诗歌经验组和非经验组被试对中国古代诗歌的喜爱度

图4 诗歌经验组和非经验组被试阅读古诗及相关信息的时间分布

图5 诗歌经验组和非经验组被试对古诗及相关书籍的阅读量

基于已有的研究成果以及国内外相关文献，本研究确定了测评内容并对项目进行收集与编写。问卷中的部分题目来自于本人带领的研究团队在古诗阅读神经机制研究中已初步编制的古诗知识测评问卷(卢莉君，2019)。最终抽取实测样本进行检验的测验项目均经过筛选和专家评估。

(一) 项目分析

1. 测评问卷的难度

理论上一般认为，项目的难度在0.5左右时最具有鉴别能力，同时在实际编制测评问卷时应充分考虑到不同水平的被试。因此一般来说，特别难和特别容易的项目应尽量少一些，中等难度的项目占多数，所有项目的平均难度应在0.5左右(金瑜，2001；王汉澜，1987)。本研究的结果表明，整体而言，中国古代诗歌知识测评问卷各部分的难度在0.31-0.60之间，平均难度为0.56。因此，大部分项目的难度分布比较理想。进一步数据分析显示，项目难度分布在不同诗歌经验组被试中表现出明显差异。具体而言，对于诗歌经验组被试，测评问卷项目难度偏低；对于非诗歌经验组被试，测评问卷项目难度偏高。这种难度系数的分布差异是由于被试的诗歌经验水平导致的，符合测评问卷的效度指标。

2. 测评问卷的区分度

“测评问卷的区分度是检验测验项目的另一重要指标，本研究从项目的鉴别力指数，以及各条目与总分的相关两个方面对其进行考察。”从鉴别力指数看，89.13%的项目具有较好的区分度，达到了优良水平(戴海崎、张锋、陈雪枫，2002)；测评问卷各部分的平均鉴别力指数在0.45-0.59之间，整体的鉴别力指数为0.51，达到了很好水平(郑日昌，1987；漆书青，1998)。从测评问卷项目与总分的相关来看，所有测评项目与总分均呈正相关。诗歌知识经验测评问卷三个部分的得分与整体得分之间的相关系数均在0.8以上。以上结果表明，该问卷的大部分项目区分度良好。

(二) 信度

本研究采用同质性信度和重测信度对测评问卷的信度进行了考察。一般来说，信度水平在0.80以上为好。本研究使用Cronbach’s α系数对测评问卷各部分以及总分的内部一致性信度进行检验。结果表明，三部分的α系数分别为0.89、0.86、0.84，总问卷的α系数为0.90，说明内部一致性较高。同时，重测信度结果表明，古代诗歌知识测评问卷三个部分的重测信度系数在0.74-0.85之间，总量表的重测信度系数为0.88，均达到显著水平，表明测评问卷分数的稳定程度较高。因此，整体而言，测评题本的信度水平良好，作为测量个体古代诗歌知识经验水平具有一定的可靠性。

(三) 效度

测验效度的好坏反映该测验能否真实测量出想要测量的心理特质。本研究分别从内容效度和结构效度方面考察中国古代诗歌知识测评问卷的效度。首先，测评问卷的内容效度反映了测评问卷项目对整个测验内容的代表性程度(Leftly & Pennington,2000)。研究者分别使用专家判断法和经验法考察问卷的内部效度。6位古代诗歌经验丰富的专家的评定结果表明，测评项目的平均符合度为3.84，说明该问卷比较符合古代诗歌知识的内容，具有较高的一致性。其次，理论上，诗歌经验组被试和非经验组被试在诗歌知识测评问卷上的得分存在显著差异。测评数据表明，与非诗歌经验组被试相比，诗歌经验组被试在测评问卷各部分以及总量表的原始得分都明显增加。该结果验证了我们的猜想，说明该古代诗歌知识问卷的测评项目具有较好的内容效度。

在测评问卷的结构效度方面，本研究从测验的同质性方面对其进行考察。通过统计分析发现，测评问卷各部分之间具有较强的相关，但均低于各部分与总分的相关，说明测评问卷符合预想的结构，即中国古代诗歌知识测评问卷不同部分的题目虽然在内容和认知水平上要求不同，但都属于古代诗歌知识范畴。因此，测评问卷各部分之间既有差别也有联系。这也进一步表明，中国古代诗歌测评问卷具有良好的结构效度。

值得关注的是，本研究进一步分析了被试具有的古代诗歌相关的背景信息。分析结果显示，诗歌经验组被试无论是在诗歌创作和创作的质量还是对诗歌的喜爱以及对与古代诗歌相关的书籍资料的阅读时间、阅读量等方面都显著优于非诗歌经验组。这些结果也进一步说明本测评问卷具有良好的效度。

本研究所编制的中国古代诗歌知识测评问卷无论是在项目的难度和区分度上，还是在信度和效度上均良好，能够在一定程度上科学测评个体的古代诗歌知识经验水平，因此在一定程度上弥补了该领域的不足，为后续在该领域的研究提供了借鉴思路。