大学生团队协作能力测评的多面Rasch分析

2015-10-09 13:15黄明明

心理技术与应用 2015年10期

摘要本文以一个大学社团的团体协作项目活动的参赛大学生为测评对象，运用多面Rasch模型从参赛选手、评分者和测评内容三个侧面考察团队协作能力测评的有效性。结果发现，参赛选手的团队协作能力大都处于中等水平且彼此间相差不大，4位评分者的评分宽严度较低且不一致，评分者在评分过程中产生了偏差。另外，文章还揭示了团队协作能力的结构，为培养大学生团队协作能力提供了参考依据。

关键词团队协作能力；多面Rasch模型；大学生；评分者效应

分类号B841

随着企事业单位管理制度的不断发展与完善，大学生如想实现个人职业生涯的良好发展，就必须学会与人协作，融入团体。所谓协作，就是两个或者两个以上的人相互影响、相互协调，使得彼此都朝着各自的目标发展，高效率地完成任务。王忠伟（2014）提出，团队协作能力是指团队成员为完成共同的目标而相互协作、优势互补、共同努力完成某一任务的能力。由此可见，团队协作能力的核心是为了共同的目标协作，其中要处理好个人利益与整体利益，保持较高的团体凝聚力，使团队高效运转，成员之间取长补短，保障团队成员共同成长、共同完成任务。朱伟峰（2010）从团队成员个体间沟通技能和团队整体运作技能两个方面，归纳了大学生团队协作能力培养的9项要素，包括团队成员个体间沟通技能方面的人际交流能力、团队评价能力、团队协助能力和团队激励能力；团队整体运作技能方面的问题界定能力、项目分工能力、数据收集能力、解读信息能力和提炼成果能力。

本次针对团队协作能力的测评采取多个评委评分的方式进行，评分方式是维度评分法，以下是对各个评分维度（评分标准）的解释：

评分维度一：人际交流能力，指在团队中可以很好地理解别人，并使自己也很好地被别人理解，达到相互沟通的效果。主要包括语言交流和身体语言交流两种能力。

评分维度二：团队评价能力，指对团队内部的绩效进行分析后，做出正确的决策和选择的能力。

评分维度三：团队协助能力，指在团队中，能够帮助其他成员完成团队任务的能力。

评分维度四：团队激励能力，指采取一定的措施，激励团队成员，提高团队积极性的能力。

评分维度五：问题界定能力，指面对所要解决的问题时，可以较快地发现问题的症结所在，确定问题解决的目标。

评分维度六：项目分工能力，指合理地安排团队内部成员的工作内容，使团队成员可以彼此协调完成相应的任务。

评分维度七：数据收集能力，指量化所要解决的问题，对量化的数据进行收集整理，使问题更加客观精确。

评分维度八：解读信息能力，指对数据产生的结果，可以解读出问题解决的策略和方法，解读团队的任务的完成状态。

评分维度九：提炼成果能力，指最后根据完成的结果，提炼出团队的成果，并进行整理。

对大学生团队协作能力的测评是诊断大学生职业生涯发展的重要手段，对大学生团队协作能力测评的过程及效度进行考察具有重要的意义。同时，本研究不仅为团队协作能力测评提供了一种方法体系程序，也为后续的相关研究提供了参考依据。

1分析方法

本文将采用多面Rasch模型（Many Facets Rasch Model，MFRM）对测评结果进行分析。多面Rasch模型属于项目反应理论（Item Response Theory，IRT）模型，它可以将被试能力与测试内容的难度置于同一尺度下进行比较，对被试的能力水平以及彼此间的差异进行分析比较，从而进行因材施教。

针对测评对象的特点，本文将从评委、参赛学生和测评内容三个方面进行分析。多面Rasch模型在表现性评价中具有重要的实践指导意义，现已在教育测评（王立君，黄星艳，2013；陈宛玉，戴海琦，2013）、语言测评（陈艳君，2014；田清源，2007）、人才测评与选拔（孙晓敏，薛刚，2008；孙晓敏，张厚粲，2007）等各种表现性评价中得到广泛应用。依据研究需要，本文采用的三面Rasch模型表达式如下：

Log（Pnijk / Pnij（k-1））=Bn-Di-Cj-Fk

在这个公式中，Pnijk是考生n在题目i上被评分者j评为k等级的概率；Pnij（k-1）是考生n在题目i上被评分者j评为k-1等级的概率；Bn是考生n的能力参数；Di是题目i的难度参数；Cj是评分者j的宽严程度；Fk是分部评分模型（Partial Credit Model，PCM）中考生得分从k-1等级到k等级的等级难度。

《心理技术与应用》 2015年第10期（总第26期）

黄明明大学生团队协作能力测评的多面Rasch分析

2研究设计

2.1测评过程与数据来源

本研究的数据来源于浙江省某高校社团联合会申请的“大学生创新创业基金项目”大赛。参赛学生共24人，均是在校本科生，其中男生14人，女生10人。所有参赛者合作参与这个项目的实施活动，活动维持一个月左右，结束后，评分者对他们逐一进行打分。评分者由学校学生会的骨干成员组成，共4人。测评的结果由4人的评分相加得到，并要求每个评分者从大学生团队协作能力的9个维度分别评分，每个维度的满分是10分，共90分。为了研究的方便并保护隐私，本文对4个评分者以编号A、B、C、D来表示，并以数字1～ 24对所有的选手进行编号。

2.2数据处理与侧面设计

本文采用多面Rasch模型的专用统计分析软件FACETS对所得数据分析，构建了被试、评委和测评内容三个侧面，具体如下：

①被试：被试的能力水平是测评的对象，在多面Rasch模型分析中，我们可以通过被试的测验平均得分、平均能力水平及其标准误等输出指标判断每个被试的能力值。全体被试的能力平均值默认为0，所以被试的能力值有正负值，数值越大，代表能力越强。

②评委：评委在评分的过程中，由于各方面的原因，评分者效应在所难免。目前，影响评分者效应的因素主要有评分者的宽严度、评分者评分一贯性、评分者与被试之间的交互效应等。在本文中，我们主要探讨评分者的宽严度和一致性原则对评分结果的影响。

③测评内容：测评过程对团队协作能力的9个维度分别进行评分，因此，统计结果会显示出每个维度的难度估计值及其标准误，我们可以由此看出大学生群体的团队协作能力结构及其发展状况，从而可以更加精准地找出哪个维度能力需要进行重点培养，有利于因材施教。

除此之外，评定等级、测评偏差也是本文重点研究的内容，因为评定等级是反映测评计分方式是否合理的重要信息，每个等级的难度以及等级之间的难度阈限值等可以有效区分被试的能力水平。而测评偏差则是反映每个评分者评分质量的信息，对于偏差较大的评分者，有必要进行测评事宜的培训，方能参与评分工作。

以上每个侧面都会输出拟合统计指标、观测值平均值、分隔指数（Separation）和分割信度（Seperation Reliability）等（Bond，T. G.， & Fox，C. M.，2007）。其中，拟合统计指标分为内部拟合指标（Infit MNSQ）和外部拟合指标（Outfit MNSQ），Outfit MNSQ是指残差的均方，Infit MNSQ是加权（以方差为加权系数）后的残差均方，两者均为模型拟合指标，由于Outfit MNSQ容易受到极值的影响，一般采取Infit MNSQ作为项目拟合指标。不同的研究对Infit MNSQ规定不一样，Infit MNSQ 和Outfit MNSQ 可接受的取值范围在很大程度上取决于研究目的，Linacre（2006）建议取0.5～1.5。在这里，本研究取值范围规定在0.5至1.5之间，越接近1越好。分隔信度（Separation Reliability）值越接近1，则个体能力差异越显著，而分隔指数（Separation）则反映了测评的有效性。

通过对这些统计指标的考察，我们可以看出整个测评过程以及测评结果的有效性。

3研究结果

根据本文对侧面的设计，统计结果中会产生不同侧面的测评结果。测评的结果均以参数值和相关图表的形式呈现，既客观明确，又具体形象。

3.1被试能力

在多面Rasch模型分析结果中，程序会全面呈现被试的能力估计值及其相关统计量，这些统计量包括了平均得分、能力估计值、能力估计标准误、拟合度以及分离指数、分离信度等。在本文的研究对象中，部分大学生被试的团队协作能力估计列表如下所示，表中既有高水平被试，也有低水平被试，也有中等水平被试。

被试平均观测值能力值标准误内部拟合度外部拟合度被试平均观测值能力值标准误内部拟合度外部拟合度

从表1所示的统计结果可以看出，平均观测值（平均得分）越大，其能力估计值越大。平均观测值在4.0至6.5之间，能力估计值在-0.73至0.49之间，被试4的团队协作能力水平较低，被试20的团队协作能力最高。对于内外拟合度，所有被试的内部和外部拟合度都在0.54至1.40之间，基本都满足测验的要求。

3.2测评内容

测评内容的考察主要反映在对团队协作能力9个维度的难度估计考察，通过对每个维度任务的难度进行估计，我们可以探讨被试完成此项维度任务应具备多大的能力，也可以考察大学生在这些能力维度上的发展情况。如表2所示。

统计结果将团队协作能力进行了分维度考察，在每个维度中，都有相应的难度估计值、误差以及内外部拟合度。在本次统计结果中，数据收集能力维度的难度最大，高达0.19，说明这个团队任务对成员量化数据的收集能力要求较高，也从另一个侧面反映了团队成员在这方面的能力有待加强。难度最低的是人际交流能力和团队激励能力，难度值均为-0.22，说明团队的任务对团队成员的人际交流能力和团队激励能力要求较低，或者这个团队的成员在人际交流能力和团队激励能力方面具有较高的水平。内外部拟合度也符合测验要求，测验结果有效。

3.3评定等级

评定等级是对计分方式进行考察的主要方法，评定等级的结果既可以通过客观精确的评定等级信息表反映出每个等级的难度值以及不同等级之间的难度阈限值，也可以通过评定等级曲线图直观形象地反映出评定结果的等级分布情况。表3反映了各等级的难度值及其难度阈值。

各个评分等级的难度及其阈难度不仅可以反映评分等级设置的合理性，也可以区分不同能力水平的被试群体。本次测评采取10点计分，由表格可以看出，没有评分者打满分的成绩，使用频率高的是4、5、6、7四个等级。平均难度值随着等级的增高而增大，预测到的被试能力也随之增高。在估计的能力阈限中，较大的分别是1.33和1.78，这说明，若想得到高分值8分或者9分很不容易，必须加倍努力。

为更加形象地了解评定结果的分布情况，我们还可以通过评定等级曲线图分析评定结果。

图1显示了9个评定等级的变化概率曲线，覆盖范围是-4.0至4.0Logits左右。从图中可以直观地看出，各个等级的曲线划分较为明显，说明等级设置合理。7等级和8等级的峰值较大一些，说明这两个等级所覆盖的能力范围的被试获得这两个等级的可能性较大，测验等级设置的精准性较好。

3.4评分者宽严度

评分者在评分过程中，由于对评分准则的把持程度不同，导致不同评分者在评分过程中出现宽严程度不一致的现象。统计结果可以看出每个评分者的平均评分、宽严程度等信息，其中宽严度的平均值默认为0，数字越大，说明评分越严格（见表4）。

不同的评分者在测评过程中的评分宽松度不一样。在本次测评中，4位评分者打出的分数都很接近，都较为宽松。其中A和D的平均观测值均为5.4分，相对其他两位较为严格一点，C的评分最为宽松，平均分为5.9分。从内外部拟合度看，A的拟合性最差，其他三位的评分拟合度都很好。这些说明了C在评分过程中，一直坚持着较为宽松的评分原则。通过卡方分析（χ2（96）=525.9，df=3，p< 0.01）可知，达到了显著性差异水平，说明4位评分者评分宽严度差异较明显。

3.5测评偏差

测评的偏差反映了评分者在评分过程中会出现动摇、评分一贯性较差等现象。同一评分者从头至尾是否坚持自己一贯的评分原则将对测评偏差产生重要影响。反映测评偏差的信息主要有评分者与被试间偏差t值变化图等，通过图像可以形象地看出4名评分者对每个被试的评分波动性幅度，波动幅度最大的评分者，其评分偏差最大。4名评分者在测评过程中的评分偏差情况如图2所示。

图2反映了4个评分者在每位被试上评分的偏差，纵轴表示偏差的t值，t值的变化幅度越大说明被试在评分过程中的一致性越差。一般情况下，由于评分者受到生理疲劳等因素的影响，评分总是会产生动摇，导致偏差。从图中可以直观地看出4个评分者在24个被试上评分的宽严度变化，其中，变化最大是评分者B，变化幅度是6.6，其评分最不稳定，一贯性最差；评分一贯性最好的是评分者A，变化幅度最小，为4.0。其中，在对前几名被试的评分过程中，评分者A的评分变化很小，有明显的趋中效应。

4讨论

多面Rasch模型是IRT中较为常用的模型之一，本文将多面Rasch模型应用于大学生团队协作能力测评之中，在国内尚属首例。多面Rasch模型可以将本文所研究的三个侧面置于同一量尺之下进行比较分析，如图3所示。

从图3反映的信息可知，评分者的宽严度均较低，最严格的评分者A和D排在最上面，最宽松的评分者C排在最下面，但4位评分者的宽严度均小于0；被试能力水平较高的排在上面，较低者排在下面，形成了中间水平者多、两端少的格局；测评的9个维度中，难度最高者排在上面，难度低者排在下面，不难看出，数据收集能力维度的难度最大，人际交流和团队激励能力维度的难度最小，其他6个维度的难度适中，可能是此项活动在人际交流和团队激励能力方面对被试的要求较低所致；在评定等级分布中，等级不是等距的，这是受不同被试、不同评分者之间的差异影响所致。

本文通过运用多面Rasch技术，通过FACETS软件的统计结果，分别对被试、不同评分者和测验内容三个侧面进行了分析。通过分析发现，本研究的结果有以下几点值得注意。

其一，对被试团队协作能力及其维度难度的估计。本研究主要从个体间沟通技能上的人际交流能力、团队评价能力、团队协助能力，以及团队激励能力和团队整体运作技能上的问题界定能力、项目分工能力、数据收集能力、解读信息能力和提炼成果能力对被试的团队协作能力进行评估，这9个维度的能力均是大学生职业发展中必须具备的能力，所以测评的针对性较强。通过对24名被试的分析发现，这些被试的能力范围的变化并不大，且内外部拟合性也符合相应的标准，这论证了测评过程中测评结果的有效性。

此外，各个维度上的难度也相当集中，数据收集能力维度的难度较大，说明数据收集的工作涉及面复杂，且要具有较多的耐心和细心。而人际交流能力和团队激励能力则成为被试较易获得的两项能力，可能是因为这些大学生平时活动较多，注重此方面的训练。

其二，评分者效应和评分等级的分析。评分者宽严度在一定程度上影响被试得分，评分者的宽严度与被试所得分数呈负相关，也是造成评分者效应的重要因素之一。通过MFRM对测评数据进行分析，将各评分者宽严度量化处理，为鉴别评分者提供了客观指标。在统计结果中，评分的宽严度在-0.35至-0.09之间，平均值是-0.18，总体评分规则较为宽松。其中，评分者C是评分最宽松的，而且其内部拟合性也是最接近于1.0的，这揭示了评分者C在评分过程中始终较为宽松，其评分的一贯性也较好。

其三，通过对评分者与被试之间的偏差分析可知，4个评分者均存在评分偏差现象，其中评分者B的波动最大，因此建议在测评之前，对评分者进行评分规则等事宜的培训，这样会使测评结果更准确。

本次对大学生团队协作能力的测评可以说是全方位的，形成了多侧面的测评效果，有利于更加有效地测评大学生的团队协作能力，也为测评的改进和发展提供了方法体系。

5结论与展望

通过此次测评的统计分析，可以得出以下几点结论。

第一，团队协作能力是一个多维度的能力，大学生群体在团队协作的各个维度上能力水平有差异，人际交流能力和团队激励能力属于成员个体间沟通技能，大学生在这两方面的能力要比团队整体运作技能方面的能力水平高。

第二，评分者在评分过程中的评分规则非常宽松，其一贯性也有波动，但测评的结果未受到太大的影响，测验结果具有较好内外部拟合度。评分者评分有偏差现象，评分者B的评分偏差最大，应该对评分者进行测评规则的培训，以提高测评的有效性。

第三，评定等级的难度随着等级的增加而增高，等级间的阈难度可以反映被试的努力程度，等级8和9对被试的能力要求较高。评委未对被试打出满分的成绩，等级设置整体合理。

多面Rasch模型作为一种优秀的IRT模型，已经在表现性评价中得到广泛应用。但本研究的研究对象仅限于大学生，且测评规模较小，这是本研究的一大缺点。本研究是对多面Rasch模型在表现性评价中的应用的一次很好的尝试，随着研究的不断发展，这一方法的应用范围也将更加广泛。

参考文献

陈宛玉，戴海琦. （2013）. 教育教学能力测验的GT和多面Rasch分析. 考试研究， 38（3）， 70-78.

陈艳君. （2014）. 多层面Rasch模型在语言评估中的应用研究述评. 教育测量与评价：理论版， 6， 9-12.

孙晓敏，张厚粲. （2007）. 结构化面试评定量表的现代测量学分析. 应用心理学， 13（3）， 250-256.

孙晓敏，薛刚. （2008）. 多面Rasch模型在结构化面试中的应用. 心理学报， 40（9）， 1030-1040.

田清源. （2007）. HSK主观考试评分的Rasch实验分析. 心理学探新， 27（1）， 65-69.

王忠伟. （2014）. 浅谈高职院校学生团队协作能力培养. 教育与职业， 23， 169-170.

王立君，黄星艳. （2013）. 多面Rasch模型在学科能力测评中的应用. 考试研究， 36（1）， 41-50.

晏子. （2010）. 心理科学邻域的客观测量——Rasch模型之特点及发展趋势. 心理科学进展， 18（8）， 1298-1305.

朱伟峰. （2010）. 论大学生团队协作能力培养. 中国人才， 10， 53-54.

Bond， T. G.， & Fox， C. M. （2007）. Applying the Rasch model： Fundamental measurement in the human sciences （2nd ed.）. Mahwah， NJ： Lawrence Erlbaum.

Linacre， J. M.， & Wright. B. D. （1993）. A users guide to FACETS： Rasch model computer program， version 2. 4 for PC compatible computers. Chicago， IL： MESA Press.

Applying the Manyfacet Rasch Model to Analyze the Data

of College Students Teamwork Capability Assessment

HUANG Mingming

（Department of Teacher education， Zhejiang Normal University， Jinhua 321004， China）

Abstract：

In this paper， a university community teamwork project activity was used as the object for teamwork capability assessment. In order to evaluate the effectiveness of teamwork capability assessment， we used the many facets Rasch model to anatyze in the matler of contestants， rater and the content of evaluation in the teamwork assessment. This study firds that most of the contestants are in the middle level of ability and have little difference between them.

The raters are lenient but inconsistent while scoring， and they produce a bisa. Besides， the study

reveals the structure of teamwork capability. Finally， this article provides a reference for developing college students teamwork capability.

Key words： teamwork ability； many facets Rasch model； college students； rater effect

栏目编辑/王抒文终校/王晶晶