德国COMET评分量表在我国应用的多面Rasch模型分析

2017-03-14 08:37何兴国赵志群何壮
职业技术教育 2016年25期
关键词:职业院校

何兴国?赵志群?何壮

摘 要 德国COMET评分量表是职业能力测评的重要评价工具,其蕴含着设计导向的职业教育思想和综合职业能力的人才培养目标,对我国职业教育评价及改革都具有重要借鉴意义。运用项目反应理论之多面Rasch模型,对COMET评分量表在我国学生职业能力测评中的适用性进行了分析。结果表明:COMET评分量表总体区分度较高,能够有效地区分我国职业教育背景下的学生职业能力水平;我国学生对COMET评分量表部分项目存在着不适应现象,部分学生答题行为内部一致性较差;我国教师对COMET评分量表宽严尺度把握内部一致性较好,但不同评分教师个体之间的宽严程度还存在差异;评分教师与评分项目交互作用也存在一些显著偏差。

关键词 COMET评分量表;多面Rasch模型;项目分析;职业能力测评;职业院校

中图分类号 G719.516 文献标识码 A 文章编号 1008-3219(2016)25-0069-06

一、问题的提出

起源于德国的职业教育学生职业能力测评国际研究项目(Competence Development and Assessment in TVET,COMET),对职业能力的理解超越了行为主义和一般个性特征的能力观,将其理解为专业能力、方法能力和社会能力相统一,行动过程和行动结果相统一的综合职业能力,其以设计导向职业教育思想、行动导向教学、工作过程知识等先进的职业教育理论为基础,构建了跨职业领域的职业能力测评模型[1]。COMET项目于2008年对德国不莱梅州和黑森州9所职业学校700名学生进行了大规模标准化职业能力测评,为职业院校学生职业能力测评提供了新的视角和方法,被认为是职业教育领域的“PISA”项目,得到了国际社会的广泛关注[2]。2009年以来,北京师范大学在国际合作项目中引入COMET测评方案,在北京、广州、重庆等地多次开展学生职业能力测评实践,为我国职业院校学生职业能力评估提供了新的方法,也为我国职业教育质量保障提供了有效的工具[3]。

COMET评分量表是职业能力测评的重要评价工具,其蕴含和体现了德国设计导向的职业教育思想和综合职业能力的人才培养目标。即培养的职业人才不仅要具有技术适应能力,而且更重要的是应对能力,本着对社会、经济和环境负责的态度,参与设计和创造未来的技术和劳动世界;具有专业能力、方法能力和社会能力相统一的整体性综合职业能力,即在复杂的职业情境中做出判断并采取行动的职业能力。正是以此思想为指导和目标,COMET评分量表建立了八个评价维度的评价体系,以评估学生职业能力轮廓和职业能力水平。一是“直观性与可展示性”,即通过语言或文字描述,利用图纸条理清晰、结构合理地向委托方展示解决方案以及完成工作任务后的结果。二是“功能性”,即工具性的专业能力、与具体情境无关的学科知识以及专业技能。三是“使用价值导向”,即以职业为导向,除满足用户直接使用要求外,还要考虑后期保养和维修的便利性。四是“经济性”,即在工作行动中,需要估算经济性并考虑各种成本因素,并考虑未来可能产生的使用成本。五是“生產流程与工作过程导向”,即考虑企业的上下级结构以及不同生产部门之间的衔接,考虑跨越每个人工作领域的部门间合作。六是“社会接受度”,即人性化的工作设计与组织、健康保护以及其他超越工作本身的社会因素,例如委托方、客户和社会的不同利益。七是“环保性”,即不仅指一般的环保意识,而且针对生产过程和生产结果提出的特定要求,使用了对环境无害的材料,以及完成工作的计划多大程度上符合环保要求。八是“创造性”,即在特定情境下为完成任务预留的高度设计空间,解决方案在满足创造性要求的同时要有助于目标的实现。COMET评分量表的八个评价维度充分体现了设计导向的职业教育思想和综合职业能力目标,并进一步细化为39个评分项目,见表1,每个项目评分采用0~3分的李克特四级计分,依次为“完全不符合”“基本不符合”“基本符合”“完全符合”[4]。

COMET评分量表是在德国职业教育文化中开发出来并得到实证检验,引进COMET评分量表对我国开展学生职业能力测评和教学改革都具有重要的现实意义。然而,基于不同的职业教育理念和文化背景,COMET评分量表在我国应用中的适应性还有待研究。本研究将通过COMET测评方案下的我国职业院校学生职业能力测评实践,探讨COMET评分量表在我国的适用性,具体包括COMET评分量表的区分性、学生答题行为一致性、评分教师之间的一致性、评分教师内部一致性、评分教师与评分项目的交互作用等问题。

二、研究方法

(一)数据来源

本次研究所使用的是重庆市2014年6月中等职业学校汽车运用与维修专业学生职业能力监测数据。测评工作由重庆市教育评估院统一组织实施,共抽取25所学校的786名2012级在校学生参与测评。选择2012级学生,原因在于2012级学生经过两年的专业学习,处于职业能力发展的关键时期,了解其职业能力现状对检验教学效果及进一步改进教学均具有重要的现实意义。

根据COMET测评方案,本次测评开发并使用了基于该专业典型工作任务的综合测评工具:“发动机水温高排故”。共有16位教师参与评分,每份试卷由随机2位教师评定。评分教师接受了评分培训,根据COMET评分量表的39个项目进行评分。

(二)研究工具

多面Rasch模型(Many-Faceted Rasch Model, MFRM)是项目反应理论模型之一,可以将学生职业能力、评分教师宽严程度、评分项目难度、评分等级梯难度等放在同一等距水平的Logit标尺上进行精确度量,计算每个度量值的估算误差、拟合程度以及各层面的交互作用,为评分量表以及测验质量分析提供了更加客观的视角。因此,研究选取该模型进行参数估计,建立了以下分析模型:

其中,Pnijk是学生n由评分员j在项目i上评为k分的概率,Pnij(k-1)为其他条件相同情况下该学生被评为k-1分的概率。这一概率受到考生能力Bn、评分项目难度Di、评分教师宽严程度Cj和评分量表中各得分梯难度Fk的影响(由K-1到K的相对难度)。

本研究采用SPSS 22对收集到的原始数据进行管理,使用Facets 3.70软件,选择多面Rasch模型(Many-Facet Rasch Model, MFRM)进行参数估计,结果主要包括学生职业能力、测量误差、拟合指数、项目难度、等级量表梯难度、各面之间的交互作用等。

三、结果与讨论

(一)总体分析

图1显示了各层面的总体分布情况。图左侧第一列为Rasch量尺,以Logit为单位。分析中将评分项目的平均难度设定为Rasch量尺的零点。第二列至第五列分别为学生面、评分项目面、评分教师面和评分量表等级面。

从学生面来看,学生职业能力跨度为5.38个Logit单位,职业能力最高值为1.02,最低值为-4.26。学生职业能力集中在[-1,0]区间内,占总人数的71.5%。学生职业能力平均值为-1.13,低于评分项目平均难度值0。

从评分教师面来看,16名评分教师中评分最严格的是5号教师,评分最宽松的是11号教师。教师评分的宽严程度相差在1.26个Logit单位以内。

从评分项目面来看,评分项目难度的跨度为5.7个Logit单位,评分项目难度分布合理,“环保性”的评分项目32(考虑到环境友好的工作设计)难度值最高,这表明该项目的完成对学生职业能力要求高,只有职业能力值达到该项目难度(3.22)的学生才可能胜任该项目。“直观性与可展示性”的评分项目2(恰当表述解决方案)、“功能性”的评分项目6(解决方案满足功能性要求)难度值最低,这表明该项目的完成对学生职业能力要求最低,只要职业能力达到对应难度的学生就可以胜任该项目。

从评分量表等级面来看,在分值使用方面,各分值与临近分值之间的界限清楚,且相邻几个等级区间的宽度分布比较均匀,见图2,不存在等级倒置(disorder[5])的现象。

(二)分层面分析

1.学生面

Rasch模型中以分隔系数(Separation)和分隔信度(Reliability)来衡量某一层面个体之间的差异是否大于测量误差[6]。分隔系数大于2时说明个体之间存在较大差异,分隔系数越大则个体间差异越显著。学生面分析结果显示,分隔系数为3.06、分隔信度为0.90、卡方值为7770.7(p<0.01),这说明学生职业能力存在显著差异。分隔指数(Strata )代表了量表将该层面内个体分成有显著差异的等级数,可根据分隔信度计算得到,计算公式为(4·Separation+1)/3[7]。经计算可得学生层面的分隔指数为4.41,即学生职业能力可分为5个显著不同的层次,这表明COMET评分量表可以有效区分不同职业能力水平的学生。

Rasch模型中最常用的拟合参数为加权均方差(Infit MNSQ)和未加权均方差(Outfit MNSQ)。两个参数取值范围在[0,+∞]之间,理想值为1。拟合参数大于1称为不拟合(underfit),即数据的实际变异大于模型的预期,当高能力学生答错了簡单项目或低能力学生答对了高难度项目时会出现不拟合的情况。拟合参数小于1称为过度拟合(overfit),即数据的实际变异小于模型的预期[8]。当项目难度分布太偏向两个极端,即项目分为太难和太容易的两大类,中等能力的学生全部答对了简单题目,全部答不出难的题目时就会出现过度拟合。拟合参数的取值一般在[0.7,1.3]之间[9],每个面中不拟合的个体数量一般应在5%以下[10]。从此次测评的学生拟合参数来看,Infit MNSQ值大于1.3的比例为16%,Outfit MNSQ的相应比例为17%,明显高于5%的要求。这说明部分学生答题行为内部一致性较差,进一步调查发现,当前中职课程教学活动中教育者更多关注技术的功能性传授,缺乏对技术所涉及的社会和环境问题的关注,这可能导致学生在难度中等的技术的功能性、经济性评分项目表现较好,而在难度较低的直观性与可展示性评分项目,以及难度较高的环保性、社会接受度评分项目上表现过低。这就是中国职业教育理念下学生对COMET评分量表部分项目存在的不适应现象。

2.评分教师面

评分教师面的分析结果显示,分隔系数为8.57、分隔信度为0.99、卡方值为1177.4(p<0.01),说明教师之间的宽严程度存在着显著差异。计算可得教师面的分隔指数为11.76,亦即教师之间打分的宽严程度可以分为12个显著不同的层次,这说明评分教师外部一致性不佳。

从拟合参数来看,仅有5号教师出现不拟合,其Outfit MNSQ值为1.31,非常接近1.3的拟合标准,这表明教师在评分时都能保持较高的内部一致性。总体来说评分教师个体评分素质较高、经验丰富,经过评分培训,能够保持较高的内部一致性。但是不同教师之间,对COMET评分量表的整体理解和把握还存在着一定的差异,特别是表现在评分过程中不同评分教师个体之间的宽严程度存在较大差异。

3.评分项目面

评分项目面分析结果显示,分隔系数为7.17、分隔信度为0.98、卡方值为26361.3(p<0.001),说明评分项目之间的难度存在着显著差异。计算可得分隔指数为9.89,亦即项目难度可以分为10个显著不同的层次。这也充分表明COMET评分量表区分度较高,能够有效地区分不同能力水平的学生。从拟合参数估计结果可以看出,大多数项目的Outfit MNSQ和Infit MNSQ参数都在0.7~1.3的可接受范围之内,拟合效果良好,仅“直观性与可展示性”的评分项目1(方案表述适合与委托方沟通)和“环保性”的评分项目31(考虑到所用材料符合环境可持续发展的要求)出现不拟合的情况,其Outfit MNSQ和Infit MNSQ参数分别为1.46、1.45和1.42、1.19,即在这两个评分项目上,出现了高能力学生得低分,或低能力学生得高分的现象。原因可能在于,我国职业教育理念下的学生对于这两个评分项目的敏感性不强,在答题过程中无意或潜意识行为较多,因而出现了不拟合现象,这也说明这两个评分项目不能有效区分我国职业教育背景下的学生职业能力。

4.评分等级面

图2为各评分等级的概率曲线图,图中每条曲线对应一个分值。从左至右依次为0、1、2、3。横轴为能力量尺,纵轴为概率。图中相邻两个分数的交点就是量表的阈值(Thresholds)。从左至右三个交点分别对应三个阈值:-3.48、-0.07和3.54。由于能力越高的学生获得高分数的概率应当更大,所以梯难度应当呈递增趋势。数据分析结果表明,COMET评分量表不存在低分梯难度高于高分梯难度的等级倒置现象[11]。同时三个阈值将整个Rasch能力量尺划分为四个能力区间,每个能力区间对应一条概率曲线的峰值,在此能力区间内的学生最容易得相应得分值。例如代表1分的概率曲线峰值对应的能力区间为[-3.48,-0.07],所以能力在此区间内的学生得1分的可能性最高。两端的区间可以延伸到无穷大或无穷小,中间两个区间的跨度为3.41和3.61。Rasch理论认为,这一区间的理想宽度为1个Logit,最大不超过4个Logit单位[12]。本次研究中COMET评分量表的两个区间分布比较平均,宽度都在4 Logit以内,没有出现某一区间过大或过小的现象。此外,四个分数等级的拟合参数在[0.9,1.2]之间,不存在不拟合或过度拟合。综合评分等级面的统计结果,说明COMET测评的评分等级方案设计合理,可以有效区分不同能力水平的我国职校学生。

5.教师与评分项目交互作用的偏差分析

评分教师的Infit和Outfit参数表明了教师评分的自身一致性程度。对教师与评分项目的交互作用分析,可以进一步了解中国教师在特定评分项目上的一致性程度。多面Rasch模型中以Z值的大小来判定交互作用的大小,一般认为|Z|>2时存在显著偏差,显著偏差占项目比例在5%以内为可接受范围。当Z值大于2时说明该教师对此学生打分显著严格;相反,当Z值小于-2时说明该教师对此学生打分显著宽松。

教师与评分项目的交互分析表明,实验偏差项目共有624个,其中显著偏差项目272个,占43.59%。其中,偏差超过10个的评分项目有“直观性与可展示性”的评分项目1(方案表述适合与委托方沟通),“功能性”的评分项目7(考虑到当前先进技术)、项目9(从职业活动角度说明解决方案)和项目10(所表述和解释的方案正确),“使用价值导向性”的评分项目12(方案考虑到使用的持久性和功能扩展的可能性)。这表明评分教师在评价这些项目时与其他项目的尺度不一致,其原因一方面在于教师自身偏好等因素,另一方面也在于这些项目内涵难以把握,例如界定方案表述的适合性,从职业活动的角度说明方案,使用价值的持久性和功能的可扩展性等。这也提示应增进和统一评分教师对这些项目在我国职业教育背景下内涵的理解,特别应进一步贯彻“职业教育的学习内容是工作”的职业教育理念,增进教师对职业教育内容的“职业性”理解,而不仅仅是从狭义的“技术”角度理解学习内容。

四、结论

运用现代教育测量项目反应理论的多面Rasch模型分析,对COMET评分量表在中国的适用性研究有以下发现:

COMET评分量表总体区分度较高,能够有效地区分我国职业教育背景下的学生职业能力水平。评分项目难度差异显著,区分性强;评分等级设置合理,不存在低分阈值高于高分阈值的等级倒置现象。

我国职业院校学生对COMET评分量表的个别项目还存在不适应现象,部分学生答题行为存在内部一致性较差现象,主要表现在“直观性与可展示性”的评分项目1(方案表述适合与委托方沟通)和“环保性”的评分项目31(考虑到所用材料符合环境可持续发展的要求)等方面。其原因在于我国职业教育实践界多持行为主义职业能力观,重视技术的功能性教学,而忽视了技术的环保性、社会接受度和顾客导向等方面的培养,学生对这些评分项目的敏感性不强。这提示我国职业教育应进一步建立设计导向的职业教育思想和综合职业能力目标,不仅要培养学生对技术的功能性意识与能力,还要培养学生对于技术的环保性、社会授受度和顾客导向等的意识和能力,也就是对技术的社会性设计的能力。

我国职业教育教师对COMET评分量表宽严尺度把握内部一致性较好,但不同评分教师个体之间的宽严程度还存在着较大差异。交互作用分析发现,教师个体之间的评分宽严程度差异突出表现在“直观性与可展示性”的评分项目1(方案表述适合与委托方沟通),“功能性”的评分项目7(考虑到当前先进技术)、项目9(从职业活动角度说明解决方案)和项目10(所表述和解释的方案正确),“使用价值导向性”的评分项目12(方案考虑到使用的持久性和功能扩展的可能性)等方面。这也表明,应加强我国教师对职业教育本质内涵的理解:职业教育的学习内容是工作,而不仅仅是从狭义的无任何社会关联的“技术”,进一步增进和统一评分教师对项目评价尺度的把握。

参 考 文 献

[1][4]Rauner F, Maurer L H A. Competence Development and Assessment in TVET (COMET)[M]. Springer, 2013:47-50.

[2]Fischer M, Rauner F, Zhao Z. Kompetenzdiagnostik in der Beruflichen Bildung-Methoden zum Erfassen und Entwickeln beruflicher Kompetenz: COMET auf dem Prüfstand[M]. Muenster: LIT, 2014:2.

[3]趙志群,庄榕霞.职业院校学生职业能力测评研究[J].职教论坛,2013(3):4-7.

[5]Linacre J M. Optimizing Rating Scale Category Effectiveness[J]. J Appl Meas, 2002,3(1):85-106.

[6]Myford C M, Wolfe E W. Detecting and Measuring Rater Effects Using Many-facet Rasch Measurement: Part I[J]. Journal of Applied Measurement, 2003, 4(4): 386-422.

[7]Myford C M, Wolfe E W. Detecting and Measuring Rater Effects Using Many-facet Rasch Measurement: Part II[J]. Journal of Applied Measurement, 2004, 5(2): 189-227.

[8]晏子.心理科學领域内的客观测量——Rasch模型之特点及发展趋势[J].心理科学进展,2010(8):1298-1305.

[9]Mok M M C, Cheong C Y, Moore P J, et al. The Development and Validation of the Self-directed Learning Scales (SLS).[J]. Journal of Applied Measurement, 2006,7(4):418-449.

[10]张洁. PETS三级口语考试评分误差研究——结合定量统计和定性描述的方法[J]. 外语测试与教学,2012(2):33-42.

[11]何壮,赵守盈.技能评分项目裁判员评分结果的多面Rasch模型分析——项目反应理论在体育运动领域的应用[J].成都体育学院学报,2014(3):43-48.

[12]Linacre J M. Investigating Rating Scale Category Utility[J]. Journal of Outcome Measurement, 1999,3(2):103-122

Analysis of Application of German COMET Score Scale in China Context with the Many-Faceted Rasch Model

He Xingguo, Zhao Zhiqun, He Zhuang

Abstract German COMET score scale based the guideline of design orientation and comprehensive professional competence is an important evaluation tool for professional competence evaluation, and it is of great significance to the evaluation and reform of Vocational Education in our country. The applicability of German COMET score scale was analyzed in the context of Chinese students' professional competence evaluation with the Many-Facet Rasch Model. The results showed that the COMET score scale had higher differential validity, and could differentiate Chinese students' professional competence; there was the question of adaption of some items on Chinese students; some students answers had poor internal consistency; Chinese teachers had good internal consistency on the COMET score scale, but there was significant difference between teacher individual, and some biases also existed in the interaction between teachers and items.

Key words COMET score scale; Many-Faceted Rasch Model; item analysis; professional competence evaluation; vocational colleges

Author He Xingguo, PhD student of Beijing Normal University(Beijing 100875); Zhao Zhiqun, professor of Beijing Normal University; He Zhuang, Beijing Normal University

猜你喜欢
职业院校
职业院校财务会计网络化建设
影响职业院校毕业生就业质量的因素研究
试论职业院校分层教学的策略分析
教学能力比赛促进职业院校教学改革的实践与反思
职业院校国家安全教育与德育教育融合策略研究
职业院校学生体育锻炼的积极心理效益探析
广东省规范职业院校兼职教师管理
职业院校教学质量评价模式研究
新时期职业院校档案管理的思考
2009年全国职业院校技能大赛广东省参赛选手获奖名单(中职组)等