等级评定量表的最佳反应项数目：来自眼动研究的证据

2015-05-04 13:03陈欣欣于洪彦

心理与行为研究 2014年4期

陈欣欣　于洪彦

摘要在心理学研究中，等级评定量表是研究数据的常用测量工具。然而，研究者们使用的等级评定量表的版式并不一致，尤其表现在使用的反应项的数目不同。关于最佳反应项数目的研究只局限于从被试的最终反应结果来进行分析，而没有从被试对量表的反应过程来进行分析。根据前人相关文献，设计6种反应项的量表，并通过眼动实验来测量被试的信息处理过程。通过对反应时、净默认反应方式、极端反应方式和选项比例变化的综合比较，我们得出最佳的量表反应项数目是5。

关键词等级评定量表，反应项，反应时，注视持续时间。

分类号 B841

1.前言

在心理学研究中，经常要使用等级评定量表（rating scale）来测量人们的态度和观点。最常用的一种测量态度和观点的等级评定量表是李克特等级评定量表（Likert scale）。李克特等级评定量表是给被试呈现一个句子或者问题，让他们在选项中做出选择，这些选项就是量表的反应项（response alterna-tives）。尽管李克特等级评定量表在心理学的研究中应用广泛，但是研究中使用的量表版式并不一致，特别是对等级评定量表应该采用多少个数目的反应项并没有得到一致的结论。然而，等级评定量表的版式可能会影响问卷数据的质量，量表的反应项的标注和反应项的数目也会影响被试反应偏差的水平（Greenleaf，1992），显然量表的版式与反应项的数目对于依赖问卷调查来收集研究数据的心理学研究而言，影响巨大。

关于等级评定量表的反应项数的研究已经具有几十年的历史，但量表的最佳反应项数目的问题仍然没有得到解决。以往的研究者们建议量表应采用的反应项从少到2个或3个（Johnson，Smith，&Tucker，1982；Matell & Jacoby，1971）到多达18个（Champney & Marshall，1939）或20个（Garner，1960）的都有。关于等级评定量表的最佳反应项数目的问题，还包含了一个重要的问题：即应选用奇数还是偶数的反应项。前人对于这个问题的研究也没有得到一致的结论，如Ko（1994）和Oaster（1989）认为量表应该最佳采用6个或者7个反应项，而Preston和Colman（2000）建议7到10个反应项为最佳的量表反应项。

一般来说，拥有最佳的反应项的量表能够从受试者那里获得最多的信息并且减少反应误差（CoxIII，1980）。根据信息理论，量表的反应项的数目越多，它能够传递的信息就越多（Garner & Hake，1951）。然而，每个人的认知能力都是有限的，无法对太多数量的反应项做出反应。比如，Conklin（1923）就建议采用9个反应项的量表而不是13个反应项的量表，因为对于13个反应项的量表来说，被试会忽略某些选项。认知学派理论指出，人们能够进行认知处理的量表的反应项数目存在着上限。Miller（1956）指出人们处理信息的能力限制在7±2个组块。而动机理论也指出，量表中的反应项如果太多，则人们可能没有足够的动机去对这些反应项进行有效的区分（Alwin，1997）。从这两个方面来说，量表的反应项的数目并不是越多越好。

因此，在选择量表的最佳反应项的数目方面，应该在最大化量表可能传递的信息和最小化被试的认知努力之间做出权衡（Weijters，Cabooter，& Schill-ewaert，2010）。人们可能假设量表实际传递的信息和量表的反应项数目之间的关系如图1所示（CoxIII，1980）。它们之间呈倒U型曲线的关系，最初反应项数目的增加使得量表传递的信息量增大，然而到了一定水平之后，反应项数目的增加反而使得量表传递的信息量减少。有意思的是，前人的研究似乎表明7±2是一个合理的量表的最佳的反应项数目的范围（Cox III，1980）。这和MiNer的观点不谋而合。这为探究等级评定量表的最佳反应项数目提供了可能。

对于等级评定量表的最佳反应项的研究，近年来主要采用的方式有信度和效度测量（Preston &Colman，2000）、样本的统计功效（Adelson & Mc-Coach，2010）、选项比例变化（Garland，1991）等。这些方式都是从被试对量表的反应结果来进行分析，而没有从被试对量表的反应过程来进行分析。通过对反应过程进行记录和分析，将可以清晰地看到人们在对量表进行作答时，哪些反应项引起了人们的注意，哪些反应项被人们所忽略，哪些反应项使得人们犹豫不决。而仅仅对反应结果进行分析则掩盖了人们的整个加工过程，会导致无法观测到这些重要现象。因此，通过分析人们在面对量表时的信息处理过程，来揭示出量表的各个反应项的作用，从而更好地揭示出量表的最佳反应项数目是非常必要的。

因此，本研究将采用眼动实验来探究人们在对等级评定量表进行反应时的信息处理过程。眼动实验是采用眼动仪来实时记录实验数据的实验，使用眼动仪可以实时地记录人们在对量表进行反应时的眼动数据（注视持续时间、注视次数、注视位置等）。这种实时的数据记录能够分析人们对量表进行作答时的整个信息处理过程。因此，可以很好地用来分析哪种反应项数目的量表更能传递出更多的信息。

综上所述，量表的最佳反应项数目应该在最大化量表可能传递的信息和最小化受试者的认知努力之间做出权衡。前人的研究似乎表明，量表的最佳反应项数目应该在7±2这个范围内。因此，本研究的目的是使用上述原则，利用眼动实验来探究量表的最佳反应项数目的问题，以及包含在其中的另外一个问题：量表应采用奇数还是偶数数量的反应项。

2.方法

2.1 测量方法

从信息处理过程的角度出发，量表的最佳反应项数目应该在最大化量表可能传递的信息和最小化受试者的认知努力之间做出权衡。据此，制定了作为具有最佳反应项数目的量表标准：（1）被试作答时的认知努力最小；（2）量表给被试传递的信息量最大。通过对这两个标准的综合比较来确定量表的最佳反应项数目。将采用眼动实验，通过记录的眼动数据（注视持续时间和注视次数）和反应时来评判这两个标准。

具体来说，被试作答量表时的反应时越短，则他们做出的认知努力越小。而量表传递的信息量方面，我们通过比较被试作答量表时的反应偏差来揭示。拥有最佳数目的反应项的量表能够传递最大的信息量，从而最大程度降低人们作答量表时的反应偏差。最常见的对量表的反应偏差包括净默认反应方式（net acquiescence response style，NARS）和极端反应方式（extreme response style，ERS）。净默认反应方式指的是被试更倾向于选择同意的选项，而不管测项的内容是什么（Baumgartner & Steenkamp，2001；Greenleaf，1992；Rossi，Gilula，& Allenby，2001）。极端反应方式指的是被试倾向于在等级评定量表中大幅度地选择极端值的反应项（Baumgartner &Steenkamp，2001；Greenleaf，1992）。我们通过比较被试对量表左右两边的反应项（即各种程度的同意项和各种程度的不同意项）的注视持续时间和注视次数比例来确定净默认反应方式的程度。而通过比较各种量表之间的极端值上的被试的注视时间和注视次数比例来确定哪种量表的极端反应方式程度高。

另外一个问题是，等级评定量表应该采用奇数还是偶数的反应项。相对应的奇数项和偶数项的量表的区别在于奇数项的量表多了一个中立项（mid-dle point）的存在。本研究采用选项比例变化（Gar-land，1991）的模式来探讨这个问题。通过比较相对应的偶数和奇数反应项的量表（即4点量表vs.5点量表，6点量表vs.7点量表，8点量表vs.9点量表）来确定是否有中立项存在的必要。如果被试对相对应的奇数和偶数项的量表（如4点量表vs.5点量表）的反应项的反应不存在显著差异，则中立项没有存在的必要。反之，中立项就有存在的必要。而根据信息理论，量表的反应项的数目越多能够提供的信息就越多，那么奇数项的量表（如5点量表）比相对应的偶数项的量表（4点量表）要好。同样我们也将利用实时记录的眼动数据——注视持续时间和注视次数——来探讨这个问题。

2.2 实验设计和数据收集

本研究采用单因素实验设计，自变量为量表的反应项数目，分别为4个、5个、6个、7个、8个和9个反应项（即7±2的范围），分别命名为4点、5点、6点、7点、8点和9点量表。我们以广告的形式在中山大学招募实验的被试，每名被试给予报酬10元。184名来自中山大学的学生被随机分配到6种量表中的一种。最后有4名被试的数据被排除出分析。其中一名被试反应时间过长，在所有被试平均反应时的3个标准差之外；其他3名被试在进入正式实验后，因为眼颤和眨眼太严重，导致仪器记录到的有效数据很少，故他们的数据排除出分析。最后180名被试（男性84人）的数据进入最后分析。每种条件下被试人数均为30人。所有被试的母语均为汉语，都不知道实验目的。所有被试的裸眼视力或者矫正视力正常，平均年龄为22.17岁（SD=2.95）。

本研究为眼动实验，采用SR Research公司的Eyelink 1000型眼动仪，其采样频率为500Hz，即每2ms记录一次眼动位置。显示器屏幕刷新率为60Hz，屏幕分辨率为1024像素×768像素，显示器屏幕中央距被试的眼睛约为65cm。

将实验材料分成两部分，分别是量表的测项和评定项。量表的测项，本研究选取景奉杰和岳海龙（2005）修订的《中国消费者冲动性购买倾向量表》，该量表由26个测项组成。这些测项以宋体形式呈现，每个汉字的大小为25像素× 25像素，每个汉字对应约成0.7°的视角。

评定项分为6个条件，分别为4点、5点、6点、7点、8点和9点量表的反应项。图2显示的是4点量表反应项和5点量表反应项。如图所示，每种量表的反应项都是完全标注（fully labeled）的，即对所有反应项都进行标注而不仅仅只对极端值进行标注（endpoint labeled）。在各个条件下，每个反应项所占的空间都一样大，即每个反应项加上上面的标注大小都为67像素×134像素。采用完全标注的方式是为了减少被试的认知努力。同时，Weijters等人（2010）也提出对于态度和观点测量来说，最好采取完全标注的方式。另外，本研究在被试间平衡了反应项的位置，以免其对实验结果造成误差。即一半的被试看到的反应项的排列从左到右是从“完全不同意”到“完全同意”，而另一半的被试看到的则是从“完全同意”到“完全不同意”。

实验程序为每个被试单独施测。首先出示指导语，告知被试将阅读一些句子，这些句子描述的是人们对于购物的一些态度和看法。要求被试认真阅读句子，尽可能理解句子的意思。当阅读完一个句子后，按空格键进行翻页，进入到下一屏的评定项。要求被试根据自己的实际情况来进行评定，对前面呈现的句子中提到的态度和看法，是否同意？程度如何？被试用鼠标点击相应的反应项的数字来做出选择。被试做出选择后就进入到下一个测项的测评，如此循环26次。这26个测项是随机呈现的。

为确保实验数据的准确性，在实验过程中被试的下巴放在一个下巴托上，以确保头部的相对静止。在实验开始之前，先进行校准，成功校准后进入正式实验。整个实验大约持续10分钟。本研究选择的眼动指标是注视持续时间和注视次数。另外，本研究还记录了被试进行选择的反应时和所选择的反应项。

在分析中，将注视持续时间大于1500ms或小于50ms的数据作为极端数据从分析中剔除。因为，一般认为小于50 ms的注视被试不能获取有效信息，而1500 ms以上的注视则大多是由仪器或被试的误差造成的。总共剔除无效数据占总数据的3.8%。

本实验采取两种划分兴趣区的方式来对眼动数据进行分析。第一种划分兴趣区的方式是按各个反应项加上其上面的标注的区域来进行划分。即将4点量表的4个反应项划分为4个兴趣区，依次类推，9点量表划分为9个兴趣区。通过这样划分兴趣区，可以比较被试在各个反应项上的注视持续时间和注视次数，以便进行净默认反应方式分析和选项比例变化分析。第二种划分兴趣区的方式是将每种版本量表的整个反应项和标注平均进行划分，都划分为10个兴趣区，以便对各种量表的极端反应方式进行比较。

3.结果

3.1 反应时结果

通过反应时来揭示被试的认知努力程度。表1显示的是各种版本的量表的反应时。单因素方差分析结果显示，各个量表之间的反应时差异显著，F（5，174）=8.75，p<0.001。事后检验显示，5点量表的反应时最短，9点量表的反应时最长。9点量表的反应时显著长于其他量表的反应时。5点量表的反应时除与7点量表的反应时差异不显著外，与其他量表的反应时的差异都显著。其他量表之间的反应时差异不显著。结果显示被试对5点量表和7点量表的认知努力程度最低，而对9点量表的认知努力程度最高。

3.2 反应偏差结果

通过眼动数据来比较哪种版本的量表能够给被试传递最大的信息量。拥有最佳数目的反应项的量表能够传递最大的信息量，从而最大程度降低人们作答量表时的反应偏差。因此通过比较被试的反应偏差来揭示量表给被试传递的信息量。由于注视次数的结果模式和注视持续时间的结果模式相同，因此，在接下来的结果部分，只呈现注视持续时间的分析结果。

3.2.1 净默认反应方式结果

先以第一种划分兴趣区的方法来分析被试的净默认反应方式。通过对各种版本量表的不同意项和同意项的注视持续时间进行配对t检验来检测被试是否对这两个部分的注视持续时间存在差异。如果存在差异的话，说明存在净默认反应方式。

表2显示的是被试对各种版本量表的净默认反应方式。结果显示只有6点量表的不同意项和同意项的注视持续时间存在显著差异。被试对6点量表的同意项的注视持续时间多于对不同意项的注视持续时间。表明只有6点量表存在被试的净默认反应方式。

3.2.2 极端反应方式结果

通过第二种划分兴趣区的方法来比较被试在各种版本的量表上的极端反应方式程度的高低。将这10个兴趣区分别命名为I10，I20，I30，I40，I50，I60，I70，I80，I90和I100。比较各种版本量表在I10，I20，I90和I100上被试的注视持续时间，来揭示各种版本量表的极端反应方式程度的高低。

结果表明（见表3），对于I10来说，被试在各种版本量表上注视持续时间百分比差异显著，F（5，174）=5.40，p<0.001。事后比较显示，被试在7点、8点和9点量表上的注视持续时间百分比显著高于在4点、5点和6点量表上的注视持续时间百分比。对于I20来说，被试在各种版本量表上注视持续时间百分比差异显著，F（5，174）=8.62，p<0.001。事后比较显示，被试在8点和9点量表上的注视持续时间百分比显著高于在4点、5点、6点和7点量表上的注视持续时间百分比。对于I90来说，被试在各种版本量表上注视持续时间百分比差异显著，F（5，174）=5.44，p<0.001。事后比较显示，被试在8点和9点量表上的注视持续时间百分比显著多于在4点、5点和6点量表上的注视持续时间百分比。对于1100来说，被试在各种版本量表上注视持续时间百分比差异不显著，F（5，174）=1.84，p>0.1。综合起来，被试在8点和9点量表上的极端反应方式程度更高。

3.3 选项比例变化结果

为了更好地确定量表的最佳反应项数目，将探讨包含在这个问题中的另外一个问题：量表是应该采用奇数还是偶数的反应项。通过比较相对应的偶数和奇数反应项的量表（如4点量表vs.5点量表）的选项比例变化来探讨这个问题。表4显示的是4点量表vs.5点量表，6点量表vs.7点量表，8点量表vs.9点量表的注视持续时间的百分比。

从表4可以得出，4点和5点量表相比时，被试在反应项“不同意”和“同意”上的注视持续时间的百分比上存在显著差异。中立项（即“不确定”）的存在明显地改变了被试对与中立项相邻的两个反应项的注视时间的百分比。根据前面的推论，5点量表要优于4点量表。6点和7点量表相比时，被试在反应项“部分不同意”、“部分同意”和“同意”上的注视持续时间的百分比上存在显著差异。中立项（即“不确定”）的存在明显地改变了被试对与中立项相邻的几个反应项的注视时间的百分比。根据前面的推论，7点量表要优于6点量表。而被试在8点和9点量表的反应项“部分不同意”和“部分同意”上的注视持续时间的百分比上存在显著差异。中立项的存在对其邻近的两个反应项的注视持续时间的百分比变化不显著，反而对其稍远一些的反应项的注视持续时间的百分比变化产生了显著影响。

综合表4结果可以发现，随着反应项数目的增加，中立项的存在对其临近的两个反应项的影响越来越小。这似乎表明，随着反应项数目的增加，中立项的存在对被试的注意分布的影响在降低。只有在反应项数目较少的时候，中立项的存在对被试的影响才明显。

4.讨论

心理学研究者使用诸如李克特量表等级评定量表的问卷来理解、解释和预测被试的行为。然而，研究者们在研究中经常使用不同数目的反应项的等级评定量表。本文旨在使用眼动仪，通过分析被试的信息处理过程来探究等级评定量表的最佳反应项数目。在本实验中，操纵量表的反应项数目从4点到9点共有6种条件。从实验结果可以得到以下一些结论：（1）从被试的认知努力程度来看，即从反应时来看，5点量表和7点量表的反应时最短，而9点量表反应时最长。即被试对5点量表和7点量表做出选择时需要的认知努力最少，而对9点量表做出选择时需要的认知努力最多。（2）从净默认反应方式来看，只有6点量表导致被试的注视时间偏向于一端，产生净默认反应方式。从这个指标上来看，6点量表最差。（3）从对极端反应方式来看，4点、5点、6点量表要优于7点、8点、9点量表。（4）从相对应的奇偶量表的反应项的选项比例变化的结果来看，当反应项数目较少的时候，应该设置中间项。即5点和7点量表分别要比4点和6点量表要好。综合以上这些的指标来看，5个反应项是最佳的等级评定量表的反应项数目。这个结果符合认知学派理论和动机理论。本研究的结果也验证了关于量表传递的信息和反应项数目之间的倒U型关系。

本结果与前人的一些研究结果一致。虽然前人对于等级评定量表的最佳反应项数目还没有定论，但前人的研究似乎表明7±2是一个合理的量表的最佳的反应项数目的范围（Cox III，1980）。Wei-jters等人也建议独立的研究应该采用5点或者7点量表。而在当前实践中，大多数等级评定量表采用的也是5点或者7点量表（Bearden & Netemeyer，1999；Peter，1979；Shaw & Wright，1967）。

在等级评定量表最佳反应项数目的这个问题上，还包含着是采用奇数还是偶数的反应项的问题。一般来说，研究者们喜欢受试做出明确的选择而不是选择中立的模糊的选项（Garland，1991）。然而，在态度和观点的测量中，中立项也可能反映了被试的真实想法。如果不设立中立项，研究者反而可能不能收集到某些被试的真实想法。研究表明中立项的存在有利于降低被试的反应偏差（Weijters，etal.，2010；Garland，1991）。本结果表明，在反应项数目较少的情况下，量表的中立反应项的设置有必要。而在反应项数目较多时，中立项的存在对被试的反应影响则不大。这表明量表的中立项的设置受到总的反应项数目的影响，只有在反应项数目较少的时候，中立项的有无才会影响到信息的收集。

值得注意的是，在本实验设计中，确保的是每个反应项所占的空间大小一样。因此随着量表反应项数目的增加，其总的反应项所占的空间分布长度就随着增加。也就是说，9点量表的反应项所占的空间分布最广，4点量表所占的空间分布最窄。这种设计与现实中的纸笔测试是一致的。这可能导致一种疑问，就是被试对9点量表的反应时最长，是因为其反应项所占用的空间分布广，被试需要花费更多的时间来进行眼跳。然而，正如前面的反应时结果显示，被试对4点、6点、7点和8点量表的反应时是没有显著差异的。应当注意到，这几种量表之间的反应项的空间分布是有变化的，尤其是4点和8点量表之间，但它们之间的反应时却没有显著差异。也就是说，空间分布的宽窄并不是主要影响被试反应时的因素。本研究认为反应时反映出来的是被试对量表的反应项进行区分的认知努力程度。

尽管在本研究中得出最佳的量表反应项数目是5。然而，这并不意味着在以后的研究中就应该全部采用5点量表。在研究中应该采用哪种版本的量表是一个非常复杂的问题。在实际的研究中，往往要根据研究的特定目的、时间，受试人群的特点等情况来选择相应版式的量表。比如，如果研究者不关注受试者的中立态度，而需要受试者做出明确的态度选择的时候，研究者就应该使用偶数项的量表。如果研究的对象是认知能力较低的人群，则研究者可能要相应地选择反应项较少的量表（如3点量表）。

本研究第一次采用眼动研究的方法对量表的最佳反应项数目的问题做出探讨。从被试的信息处理过程出发对这个问题的解答提出新的证据。然而，研究也存在一些局限。首先，选取的被试样本仅仅是在校大学生，这可能会导致结果的推广存在一定的限制。不同的人群可能适用的量表的最佳的反应项数目会不同，这也是未来的研究需要进行探讨的问题。其次，只是探讨了量表版本中的一个方面。在研究中，研究者们使用了不同版本的量表，包括反应项数目、标注方式（如完全标注vs.极端值标注）等。量表版本中的其他方面（如标注方式）也会对研究数据的收集产生影响。这些也是未来可能的研究方向。再次，通过测量被试的反应偏差来间接测量量表传递的信息量，或许在未来的眼动研究中可以找到一种方法来直接对各个版本的量表传递的信息量进行比较。

5.结论

通过眼动实验探究被试在对6种不同数目的反应项的量表做出反应时的信息处理过程来探讨量表的最佳反应项数目的问题。通过权衡被试在对量表做出反应时的认知努力程度和获取的信息量两方面的结果，得出最佳的量表反应项数目是5。

心理与行为研究2014年4期

心理与行为研究的其它文章: 熟练粤语—普通话双言者听觉词的语言表征; 不同阅读能力聋人语篇理解中连接推理的眼动比较; 惩罚对学习时间分配中决策与绩效的影响; 空间参照系建立的时间特征; 我国ASD者面孔识别研究热点知识图谱; 汉语发展性阅读障碍儿童的主要亚类型分析