采用项目功能差异方法分析艾森克人格问卷的性别差异

2012-03-11 14:07邓稳根戴海琦戴慧群

中国卫生统计 2012年1期

邓稳根戴海琦戴慧群

性别是人格特质研究的一个关键因素。Feingold通过元分析得出人格特质的性别差异在不同的年龄阶段、不同时代、不同教育水平的人群，以及不同的文化背景中都普遍存在，涉及的人格特质包括外向、自尊、自信等诸多方面〔1〕。Canals等人则显示男性在精神质方面得分高于女性〔2〕;Eysenck发现女性的神经质得分显著高于男性〔3〕。由于人格特质性别差异的普遍性，Eysenck在编制艾森克人格问卷(Eysenck personality questionary，EPQ)时分别为不同性别的人群建立了常模。

20世纪80年代中期，几个元分析研究证明了人格变量能用于预测重要的工作结果〔4－6〕，之后，人才选拔中人格的评估逐渐增加。例如Delgado在人才选拔中拒绝神经质得分高的求职者〔7〕。由于人格测验经常用于人们生活中做重要的决策，所以调查人格测验上分数的性别差异是人格的真正差异还是人格测量工具的虚假产物就尤为重要。项目功能(differential item function，DIF)分析有助于考查这个问题。目前人格测验的DIF检验文章还很少，并且也只是近年来的事情。例如，Escorial和Navas采用标准化、同时性项目偏差检验、logistic回归、Lord的χ2检验和项目与测验功能差异框架等DIF检验方法来检验EPQ问卷中性别的差异，结果发现尽管在少数项目上存在功能差异，但在整个测验上并不存在功能的差异，因此，性别差异并不是测量工具的产物，而是被试人格的真正差异〔7〕。

Escorial和Navas的方法是基于经典测量理论和项目反应理论的累积模型(cumulative model)，这些理论和模型是建立在项目的优势反应过程(dominant response process)假设上。优势过程认为当被试的特质水平高于项目的位置水平时，被试更可能赞成(或答对)该项目。认知评估项目的反应普遍符合这一假设，即被试能力水平越高于项目的难度(即项目的位置)时，被试越可能答对该项目。但Andrich和Luo认为，态度项目的反应并不是基于优势过程，而是基于理想点过程〔8〕。理想点过程假设只有当被试的特质水平和项目的位置水平最接近时，才最可能赞成该项目，而当被试特质水平高于或低于项目位置水平时，赞成项目的概率都低，两者差距越大，赞成的概率就越低。Chernyshenko等人和Stark等人验证了人格项目的反应也是和理想点过程一致的〔9，10〕。

由于人格项目的反应是和理想点过程一致的，所以采用经典测量理论得到的总分和项目反应理论累积模型得到的潜在特质估计值就会歪曲被试的真正特质水平，采用这些估计值用于形成DIF检验的匹配变量时可能会影响到DIF检验的正确性。

本文采用目前广泛使用的基于理想点反应过程的项目反应理论模型——拓广等级展开模型(Generalized graded unfolding model，GGUM)〔11〕对 EPQ 项目做DIF检验。

对象和方法

1.调查对象

本调查样本共包括1 947名来自某大学的大学生，平均年龄为18.60岁，标准差为1.085。其中男生1181人，占61%;女生766人，占39%。

2.工具

采用陈仲庚修订的艾森克人格问卷(EPQ)中的成人问卷〔12〕，该问卷包括85个项目，分别评估外向性(E)、神经质(N)和精神质(P)三个人格特质以及一个附加的效度量表(L)。目前该问卷在实践中广泛用于与心理健康相关问题的调查，例如王燕等人将其用于中国海员心理健康的调查研究中〔13〕，高宏生等人将其用于大学生自杀意念的研究中〔14〕。表1列出了本研究中三个人格特质在不同性别上的克论巴赫α系数。

从表1中可以看出，E和N量表的信度相对较高，都达到了0.70以上的水平，而且男女生在这两个量表上的信度相差并不大，因而可以用作进一步分析。而P量表的信度无论对男生还是女生都非常低，因而不适合作进一步分析。本文在后面的部分仅对E和N量表作DIF检验。

表1 EPQ信度估计值

3.数据分析方法

为考查性别的影响力，首先考查各个项目上是否存在显著的性别差异。如果存在，则进一步做效果量(effect size)的测量。以往研究只关注有统计学差异检验的结果，但其容易受到样本容量的影响，因而近年来开始转而重视效果量的考查，1994年之后的APA出版手册也鼓励采用效果量来呈现研究结果。效果量普遍采用Cohen的d指标来计算。

本文采用似然比统计量进行DIF检验，这种统计量是基于IRT框架的，因而这些统计量在计算前必须验证所获得的数据对GGUM模型拟合是否良好。为实现这一点，本文考查了模型的单维性假设，并评估模型参数的拟合优度。单维性检验采用四分相关求得相关矩阵，然后用主成分分析抽取成分数目，结果是:对E量表，第一主成分的特征值为8.14，第二主成分的特征值为1.57，两者相比为5.18;对N量表，第一主成分的特征值为9.24，第二主成分的特征值为1.66，两者相比为5.57。两个量表的第一主成分特征值均比第二主成分的特征值高5倍以上，因而可以认为这两个量表符合单维性假设。模型参数的拟合采用Roberts使用的S－X2指标进行检验〔15〕，结果发现，E 量表的所有项目都拟合GGUM，N量表上除了一个项目(项目36)不拟合模型而应被删除之外，其他项目也均拟合本模型。

4.DIF检验程序

拓广等级展开模型的 DIF检验程序，可以在GGUM2004软件1.1版本下进行，其基本步骤可以参见GGUM2004软件手册，该手册可以从互联网上直接下载，网址为:http://www.psychology.gatech.edu/Unfolding/。

结果

1.性别影响力结果

表2列出了存在统计学差异的项目，并指出了哪个性别群体分数更高。同时，也列出了那些存在统计学差异的项目的效果量范围。

表2的结果表明男生在E和N量表的大多数项目上得分更高。男女生在这两个量表上的总分也存在差异(E 量表上，t=3.013，P ＜0.001，d=0.14;N 量表上，t=3.722，P ＜0.001，d=0.17)，男生得分均高于女生。但从效果量来看，无论是在项目水平还是在量表水平，d值都很低。效果量最大的是第82题，但它的值也只有0.38，还未达到中等水平。

表2 性别差异的项目

2.DIF检验结果

为了考查当男生和女生在他们的外向性和神经质水平上相匹配时，上述这些差异是存在还是消失，我们采用前面叙述的程序对E量表和N量表存在显著性别差异的项目进行DIF检验，结果发现，E量表的第26、35、76个项目和 N量表的第74、82个项目存在DIF。

在一个广泛的特质区间［－4，4］上，男生在项目26、74、82上的赞成概率均高于女生。此外，项目26的ICC在［－4，－3］这个特质水平的极低端发生了略微的折迭(folding)，项目74的ICC在整个［－4，4］这个区间上均未发生折迭，而项目82的ICC则在［2，4］这个特质连续体的较高端发生了折迭。图1列出了项目26的项目参数值和ICC。限于篇幅，这里不再列出项目74和82的项目参数值和ICC。

从图2中可以看出，在［－4，－1.5］区间内，男生在项目35上的赞成概率略高于女生，而在［－1.5，1.5］区间内女生的赞成概率高于男生，而在［1.5，4］区间内男生的赞成概率大大高于女生。该图也反应出在男生组上，ICC未发生折迭，而在女生组上ICC则发生明显的折迭。

从图3中可以看出，在［－4，1.5］区间内男生的赞成项目76的概率高于女生，而在之后的区间［1.5，4］上女生的赞成概率总高于男生。无论在男生组还是女生组，该项目的ICC都发生了明显的折迭现象。

图1 项目26在男生组(左图)和在女生组(右图)中的项目参数估计值及特征曲线

图2 项目35在男生组(左图)和在女生组(右图)中的项目参数估计值及特征曲线

图3 项目76在男生组(左图)和在女生组(右图)中的项目参数估计值及特征曲线

讨论

本研究的结果显示，在E和N量表上，男生无论是在总的量表上，还是在量表中的多数项目上得分均高于女生。这与Eysenck等人的研究结果〔3〕不符。这种不符合很可能是由于时代的变迁，项目的参数发生了漂移，即项目的功能发生了变化，一些项目可能逐渐变得更有利于男生，这提示随着时代的变迁，量表需要不断地进行修正。进一步的效果量计算结果显示各个项目和两个量表上的d值都很低，这与Escorial和Navas的结果〔7〕较为一致，表明外向性和神经质量表上的性别差异有统计学意义，是由于样本容量较大导致的结果。

随后对存在性别差异的项目进行的DIF检验结果发现，有5个项目存在DIF。并且在3个项目(项目26、74、82)上，无论对哪个特质水平，男生的赞成概率均高于女生，说明了这3个项目明显偏向男生。对于项目35，在特质连续体的中间部分，女生比男生的赞成概率高，而特质连续体的中间部分集中了绝大部分的被试，说明该题比较偏向女生。项目76的赞成概率有利于男生的区间较有利于女生的区间更长，说明该题总的来说是偏向男生的。这些结果综合在一起表明，前面在这几个项目上发现的性别差异可能并不是真正的特质水平的差异，而很可能是由于项目本身的偏向造成的。

本研究的DIF检验是在IRT理论模型框架下进行的。但本研究采用的模型并不是广泛使用的两参数logistic模型(2PLM)，而是GGUM。2PLM 并不是基于理想点反应过程假设的模型，而是一种基于优势反应过程假设的累积模型，它假设项目的ICC是单调的，即随着特质水平的增加，项目的赞成概率(反向评分的项目需要先进行反向编码)也随之增加。从前面几个DIF项目的ICC可以看出，除项目74的ICC是随特质水平的增加而单调增加外，其他几个项目的ICC在一些特质水平处，都呈现了一定程度的折迭。折迭的发生显然与2PLM的ICC单调性假设不相符，说明采用2PLM并不适合用于EPQ的项目分析。而应该采用与之相符的GGUM分析更为合理。GGUM假设当项目的位置与被试的特质水平(即理想点)一致时，赞成的概率最高，而当项目位置与被试的理想点不一致时，无论是高于还是低于被试的特质水平，赞成的概率都较低，所以项目的ICC是一个单峰形的曲线。这正好与本研究中的几个项目的ICC形状相符。

1．Feingold A．Gender differences in personality:A meta-analysis．Psychological Bulletin，1994，116(3):429-456．

2．Canals J，Vigil-Colet A，Chico E，et al．Personality changes during adolescence:The role of gender and pubertal development．Personality and Individual Differences，2005，39(1):179-188．

3．Eysenck HJ．Sex and Personality，Open Books Publishing Ltd，London，1976．

4．Barrick MR，Mount MK．The Big Five personality dimensions and job performance:A meta-analysis．Personnel Psychology，1991，44(1):1-26．

5．Barrick MR，Mount MK．Autonomy as a moderator of relationships between the Big Five personality dimensions and job performance:A meta-analysis．Journal of Applied Psychology，1993，78(1):111-118．

6．Ones DS，Viswesvaran C，Schmidt FL．Comprehensive meta-analysis of integrity test validities:Findings and implications for personnel selection and theories of job performance．Journal of Applied Psychology，1993，78(4):679-703．

7．Escorial S，Navas MJ．Analysis of the gender variable in the Eysenck personality questionnaire revised scales using differential item functioning techniques．Educational and Psychological Measurement，2007，67(6):990-1001．

8．Andrich D，Luo G．A hyperbolic cosine latent trait model for unfolding dichotomous single-stimulus responses．Applied Psychological Measurement，1993，17(3):253-276．

9．Chernyshenko OS，Stark S，Chan KY，et al．Fitting item response theory models to two personality inventories:Issues and insights．Multivariate Behavioral Research，2001，36(4):523-562．

10．Stark S，Chernyshenko OS，Drasgow F，et al．Examining assumptions about item responding in personality assessment:Should ideal point methods be considered for scale development and scoring?Journal of Applied Psychology，2006，91(1):25-39．

11．Roberts JS，Donoghue JR，Laughlin JE．A general item response theory model for unfolding unidimensional polytomous responses．Applied Psychological Measurement，2000，24(1):3-32．

12．陈仲庚．艾森克人格问卷的项目分析．心理学报．1983，15(2):211-218．

13．王燕，姜潮，刘启贵，等．中国海员心理健康的调查研究．中国卫生统计．2010，27(4):369-371．

14．高宏生，曲成毅，苗茂华．通径分析在大学生自杀意念影响因素中的应用．中国卫生统计．2003，20(1):20-22．

15．Roberts JS．Modified Likelihood-Based Item Fit Statistics for the Generalized Graded Unfolding Model．Applied Psychological Measurement，2008，32(5):407-423．

采用项目功能差异方法分析艾森克人格问卷的性别差异

对象和方法

结 果

讨 论

结果

讨论