入伍新兵心理选拔效度验证中的效标

2022-11-23 14:01屠志浩李海立何静文赵后雨瞿靖芮沈兴华
第二军医大学学报 2022年6期
关键词:符合率实际操作效度

屠志浩,李海立,何静文,赵后雨,瞿靖芮,沈兴华*

1. 海军军医大学(第二军医大学)心理系航海心理学教研室,上海 200433

2. 海军潜艇学院潜艇兵训练基地,青岛 266042

3. 海军军医大学(第二军医大学)心理系医学心理学教研室,上海 200433

4. 海军军医大学(第二军医大学)海军特色医学中心人因工程与新概念武器防护研究室,上海 200433

军事人员的心理选拔是指根据军队的特殊需要,运用心理学的方法,由各类职业专家和心理学专家共同对士兵、军官以及各特殊军队群体候选者的心理素质进行检测与评定,选拔那些心理素质适合军队各职业的候选者,淘汰心理素质不适合的候选者[1]。选拔的关键是预测,本质上是根据选拔过程中一系列心理测验的结果来预测候选者未来的表现。因此从心理测量学的角度来讲,心理选拔作为一种心理测验最应该关注的效度是其预测效度。预测效度是效标效度的一种,而评价效标效度的关键是效标的选择。本文将分别介绍美军与我军对入伍新兵在心理选拔效度验证中使用的效标,并对我军的心理选拔工作作出反思与展望。

1 美军心理选拔效度验证中的效标选择

武装部队职业能力倾向测试(armed services vocational aptitude battery,ASVAB)是美军自1976 年开始全面实施,并一直使用至今的军事心理选拔与分类系统。任何美国公民进入武装部队之前都必须参加此项测试,只有测验成绩达到一定标准的候选者才能被批准入伍,并且美国军方会根据测试结果将候选者分配至不同职业岗位。自正式实施以来,ASVAB 的得分迅速上涨,但是测验分数并没有被正确校正,导致入选标准非人为地降低,使数以万计的不合格者进入军队[2]。为此,美国国会要求美国国防部调查征兵标准与工作绩效之间的联系,即工作绩效测量计划(Job Performance Measurement Project,JPM)。另外,美军著名的陆军选拔与分类项目(Army Selection and Classification Project,Project A)的主要内容就是对基于ASVAB 的选拔与分类方法的有效性进行判定[3]。Project A 完成之后,美军在21 世纪开启了1 项新的研究,名为未来战士选拔与分配的新预测因子项目(New Predictors for Selecting and Assigning Future Force Soldiers,Select21)[4]。该研究试图明确21 世纪新型陆军所需要的知识、技能与特质,并基于这些新的知识、技能与特质开发与ASVAB 不同的针对未来战争的入伍战士选拔与分配系统[5]。为了验证新型选拔系统的有效性,Select21 也进行了大量的效度验证[6-7]。以下主要介绍美军Project A 与Select21 这2 个最具代表性的军人心理选拔效度验证研究中的效标选择。

1.1 学校最终评分(finalschool grade,FSG) FSG是指学生在学校所有科目的平均成绩[8]。美军以学校FSG 效标分别在陆军、海军、海军陆战队及空军部队的军事学校中对ASVAB 的效度进行检验。

1.2 完成时间(time-to-completion,TTC)TTC 主要由海军使用,代表1 个新兵完成自定进度初级技术训练项目所需要的时间[8]。研究发现使用该效标时,ASVAB 效度低下。可能的原因是那些聪明的学员并没有动力去尽快完成自定进度的初级技术训练项目,因为如果早早地完成该项目,他们就得待在宿舍等待下一阶段训练的开始,在此期间还可能被安排出公差或打扫卫生[8]。因此TTC 并不能反映新兵的能力。

1.3 工作绩效在Project A 进行效度验证之前并没有研究者一致认可的工作绩效测量方法,因此研究者们不得不自行开发和实施此类测量[9]。同样的问题也出现在Select21 中,经过Project A 后近20 年的快速发展,原先的工作绩效测量内容已经不适用于当时的美国陆军;而且Select21 的目标是预测入伍士兵在未来战争条件下的表现,研究者必须解决在“现在”测量士兵“未来”表现的问题[10]。

1.3.1 实际操作测试(hands-ontest) 实际操作测试是最主要的工作绩效测量工具,其内容效度远远高于其他测量方式[11]。实际操作测试在JPM 中被各军种选为工作绩效测量工具,在Project A 中也是工作绩效测量方式之一[12]。在Project A 中,每个军事职业会选出15 项具有代表性的任务进行实际操作测试。然而,实际操作测试也有一定的局限性:(1)它缺乏评分精确性。实际操作测试要求测试评分员本身就是执行该任务的专家,并对受测者的表现进行准确的评价。但是,在评分过程中评分员难免会带有主观判断。(2)进行实际操作测试时,被试知道自己正在被评估,一般会以自己的最高水平来完成测试。因此,虽然实际操作测试能够提供个人任务熟练度最高水平的信息,但是却不能反映个人日常工作绩效。即实际操作测试能够反映“能做”,而不能反映“愿做”[9]。

1.3.2 书面知识测试(writtenknowledge test) 书面知识采用纸笔测试与多项选择题的范式。在测试中,项目按照个人执行任务时出现的顺序进行排列,并提供所需的工具如地图、分度器、草稿纸等。在Project A 中,每个军事职业都会有30 项代表性任务采用书面知识测试的方式进行测试[12]。专注于理论的书面知识测试往往因其内容效度低而遭人非议。但是,建立一套内容效度高的书面知识测试费时又费力,且相当昂贵[13]。首先,需要专家提供测试内容。然后,需要另一部分专家去评判测试项目是否测量了工作中需要的知识与技能。此外,还需要具有代表性的军人参加并评价测试,以确保测试的用词是合适的。当然,书面知识测试也有优点,它是工作绩效测量中必不可少的一部分,能够提供实际操作测试无法测量的任务方面的信息,例如某些和平时期不易遇到的任务[9]。

1.3.3 任务绩效评定表(taskperformance rating scale) 任务绩效评定表主要由同级及上级评定个人的表现[12]。评定表上的问题类似于“与其他同级别的士兵相比,该士兵执行该项任务时的表现如何”,同事或上级需要根据士兵的实际表现在七点量表上打分,1 分代表“最差”,7 分代表“最好”。任务绩效评定表的评定内容与实际操作测试一致,是由专家选定的每个军事职业具有代表性的15 项任务。任务绩效评定表是由熟悉被试个人日常表现的同级与上级评估,相较于实际操作测试更能够对被试的日常绩效做出清晰的评估,这类绩效被认为是个人工作水平与动机两方面因素的结合,是对“能做”与“愿做”的综合反映[12]。

1.3.4 行为锚定评定量表(behaviorallyanchored rating scale,BARS) BARS 由Smith 与Kendall[14]创立。在Project A 中,美军的研究者分别建立了3 个不同的BARS:工作特定量表、陆军量表和作战表现预测量表[12]。每个BARS 的建立方式基本一致:首先,要求1 个工作组的陆军军士与军官针对1 项工作建立有效与无效表现的关键事件池;然后,对池中的所有事件进行分类,建立维度;最后,对每种事件所代表的水平进行评定。

1.4 行政与档案记录(administrative/archival records)Project A 中,美军研究者检查了3 种资料:入伍资料(enlisted master file,EMF)、正式军事人员档案(official military personnel file,OMPF)和军事人员记录本(military personnel records jacket,MPRJ 或 201 Files)[12]。EMF 是每名美国陆军工资清单上的军人都有的个人数据、入伍情况和军事经历电子清单。OMPF 是每名军人服役经历官方记录。MPRJ 是最为完整的个人服役经历信息保存系统。最后,研究者从这3 种资料中提炼出以下7 种最有意义的信息:延长服役资格、表扬信的数量、奖状数量、军事训练课程数目、违纪行为、M16 射击水平、晋升率(晋升级别/年)。

1.5 训练绩效训练绩效是军事选拔与分类的传统效标[13]。在Project A 中,建立训练绩效测试需要以下8 个步骤[12]:(1)准备项目预算;(2)建立最初的项目池;(3)在岗工作人员对项目池进行检查;(4)学校教员对项目池进行检查;(5)对受训者进行预测试;(6)准备对在岗工作人员进行训练测试;(7)对在岗工作人员进行实地测试;(8)由美国陆军训练司令部正式检查。与实际操作测试相比,训练绩效有如下2 个优点:(1)训练绩效对于所有士兵都是日常可得的;(2)训练绩效往往是在工作训练课程中对表现的客观评价。当然,如书面知识测试一样,训练绩效的内容效度也饱受质疑,因为训练可能包含某些实际工作中不需要的操作与知识。

1.6 效标态势判断测试(criterionsituational judgement test,CSJT) 在Select21 中,CJST 用来测试入伍士兵在未来战争情境下的工作绩效。测试开发主要分为4 步[15]:(1)场景生成;(2)回答选项生成;(3)项目分析;(4)评分。最终由50 名高级军士生成了适应多变环境、支援与联系友军、自我管理、自学、团队协作等5 个维度共89 种不同未来战争情境;由另外的42 名高级军士基于得到的情境给出不同水平的应答行为,其中有76 种情境能够得到足够的应答行为;10 名士官参与项目分析,最后删除76 种情境中10 个不合适的情境;最终,26 名士官对剩余的66 种情境下的行为反应进行评分,建立效标态势判断测试量表[16]。CJST 是由被试自行答题完成,其主要内容是给被试某些未来战争中的特定情境与相应的行为反应,要求被试选择他们认为的此情境下最优的行为反应。与根据日常表现的传统工作绩效上级评价不同,CJST 主要考察被试的知识与判断而非动机强弱,即“能做”绩效而非“愿做”绩效。

1.7 态度测试为了验证Select21 中的人-环境适应性预测因子的效度,研究者专门开发了现时导向的态度测试和未来导向的态度测试作为效标,前者反映士兵当前的状态(例如当前的工作满意度),而后者反映士兵在未来预期的陆军条件下所期待的状态。

1.7.1 陆军生活调查(armylife survey,ALS) ALS属于现时导向的态度测试,是一个较为成熟的量表[17],包含15 个分量表,可进一步归为3 个大类:(1)3 个测量继续在陆军服役意愿的分量表,包括退伍意愿、二次入伍意愿与终身服役意愿;(2)11 个测量承诺的分量表,包括对不同方面陆军生活的满意度(6 个分量表)、组织承诺(3 个分量表)、主观的适应程度与压力;(3)1 个测量士兵对陆军核心价值观评价的分量表。

1.7.2 未来陆军生活调查(futurearmy life survey,FALS) FALS 旨在评估士兵对未来新型陆军任务与生活的态度,有29 道题,测量以下5 个方面:(1)未来条件下的预期满意度;(2)未来条件下的压力;(3)未来条件下的绩效;(4)对未来陆军的主观适应程度;(5)在未来条件下的二次入伍意愿与终身服役意愿。在回答问题之前,士兵被要求仔细阅读介绍未来陆军情况(例如频繁的变化与不间断的学习要求)的指导语,该情况介绍是由前期未来导向的军事工作分析得到的[4]。

1.8 第一任期非正常退伍(firstterm attrition) 虽然有大量研究表明类似于ALS 的工作态度测试能够很好地预测未来的工作变动或非正常退伍[17-18],但是在Select21 中态度测试只是作为检验同时效度的效标,无法真正检验Select21 所开发的选拔工具对士兵未来非正常退伍可能性的预测效度[19]。最好的方法就是直接追踪调查接受Select21 第一阶段选拔测试的新兵在第一任期内的非正常退伍情况。第一任期非正常退伍一般发生在以下4 个阶段:(1)基本作战训练阶段;(2)高级个人化训练阶段;(3)专业培训阶段;(4)下连队之后。

2 我军心理选拔效度验证中的效标选择

我军心理选拔工作起步较晚,但发展迅速。经过我国军事心理学研究几十年探索建立的《中国军人医学与心理选拔系统及标准》已全面铺开运行,该系统能够较好地解决汰劣问题,部分解决选优的问题。我国学者对该系统的2 个分系统——中国征兵心理测试系统[20]和“初级军官心理选拔”[21]的预测性进行了研究。

2.1 士兵工作绩效评价问卷与部队适应性罗正学[22]认为部队适应性是指战士在部队这个特殊的环境中工作表现情况和同伴接纳的程度,士兵工作绩效包括任务绩效与关系绩效2 个维度,正好对应部队适应性的2 个方面:工作表现与同伴接纳程度。而且,士兵工作绩效与部队适应性互为因果,工作绩效好的士兵部队适应性高,适应部队的士兵工作绩效优于适应性差的士兵[20]。因此,在后来的效度研究中研究者利用士兵工作绩效评价问卷来代表部队适应性[23]。

2.2 预测淘汰符合率与假阴性率武圣君[20]利用基于士兵工作绩效问卷制定半结构式提纲,分别在士兵入伍3 个月时对管理士兵的班排长、士兵入伍12 个月时对连长和指导员进行访谈,得到带兵干部心中不合格的士兵名单(提名组),同时由《中国征兵心理测试系统》筛选出不合格者并经过心理专业人员访谈确定为不合格者(访谈组)。预测淘汰符合率是指访谈、提名均不合格(正确拒绝)占访谈不合格者总数的百分比。假阴性率是指访谈合格但提名不合格者(错误录用)占提名不合格者总数的百分比。武圣君[20]使用预测淘汰符合率与假阴性率来反映测试系统的准确性。由于使用中国征兵心理测试系统的目的是汰劣,因此没有计算预测合格符合率。肖利军等[23]也并没有将士兵工作绩效问卷的分数直接作为效标,而是与武圣君[20]的做法类似,根据士兵工作绩效分数将士兵分为良好与不良,再与中国士兵人格问卷合格与不合格数据一起计算预测淘汰符合率。

2.3 工作表现评价苗丹民等[21]在初级军官心理选拔预测性研究中使用部队工作表现为效标。该评价由学员的直接上级2 名、间接上级1~2 名完成,评价分为优秀、良好、合格、基本合格4 级。所有评价者对该学员的评价的平均分作为该学员部队工作表现成绩。

2.4 课程成绩苗丹民等[21]在初级军官心理选拔预测性研究中选取5 门具有代表性的课程成绩(文化课、炮战理论、运筹学、军事地形学、炮射指挥)作为一般能力倾向测试的效标。

3 对我军心理选拔测试效度验证的反思

习近平主席指出:“我们要始终坚持用打得赢的标准搞建设,坚持把提高战斗力作为全军各项建设的出发点和落脚点,坚持用是否有利于提高战斗力来衡量和检验各项工作。”[24]军人心理选拔设立的目的就是淘汰那些心理素质不适应未来作战的人,以提高部队整体的战斗力[25]。那么,我军现行的《中国军人医学与心理选拔系统及标准》和广泛使用的《中国征兵心理测试系统》能否达到提高战斗力的目的呢?效度验证研究给出的数据表明,我军现行的心理选拔预测淘汰符合率高,能够很好地起到汰劣的作用[20,23]。但是,我军现有的系统仍存在一定的问题。

3.1 效标无法反映战斗力我军多项效度验证研究都采用了淘汰符合率这一效标,但是淘汰符合率这个效标真的能反映整个部队的战斗力吗?仔细审视淘汰符合率的计算过程,会发现淘汰符合率是基于金标准“部队适应性”计算出来的,而“部队适应性”是由士兵工作绩效问卷的得分来表示的。士兵工作绩效问卷通过对士兵工作绩效行为事件的提取而编制,共有38 个条目,采用李克特5 点评分,包括任务绩效与关系绩效2 个维度。任务绩效维度又包括军事训练、爱学习、基本能力3 个因子;关系绩效维度包括工作主动、个性关怀 、模范行为、集体荣誉感等4 个因子[22]。事实上,士兵工作绩效问卷类似于Project A 中的任务绩效评定表,它针对的是士兵和平时期日常表现,而且是非工作特异性的。日常表现优异并不等同于在战场上会有突出的表现[26],因此需要明确在战争中最优秀士兵所具备的特质和能力,以此为效标才能真正检验军人心理选拔的有效性。

3.2 效标功能单一淘汰符合率只能作为汰劣的参考指标,而无法作为择优的指标。与直观感觉不同,择优(选拔合适的候选者)与汰劣(淘汰不适宜的候选者)实际上是2 种完全不同的选拔策略,在选拔的理论与实践中表现出巨大的差异[27]。择优的效标一般是工作绩效,汰劣的效标一般为淘汰符合率。我军心理选拔研究使用的效标是淘汰符合率,得到的结果只能证明心理选拔测试能够较好地将有精神障碍倾向与智力低下的应征公民淘汰。

事实上,在工业组织心理学界的人事选拔研究中并没有择优与汰劣之分[28]。选拔的终极目的是招入预期工作绩效高的候选者,为组织带来更高的效益,因此选拔在人事心理学的语境中往往等同于择优[29-30],无论是ASVAB 还是Select21 所开发的选拔测试都是择优测试。我军在研究中一般选择淘汰符合率作为效标,导致士兵工作绩效问卷所得到的信息大量损失。士兵工作绩效问卷是一种顺序量表,可以根据被试的得分高低进行排序,但是淘汰符合率是将士兵工作绩效问卷当作分类量表来使用,结果只有合格与不合格2 种,信息利用率大大降低。直接以士兵工作绩效问卷的得分作为效标,既能汰劣也能择优,效果可能更好。

3.3 效标选择单一如前所述,我军心理选拔的效度验证主要以淘汰符合率为效标,而淘汰符合率基于士兵工作绩效问卷,其本质类似于美军的任务绩效评定表,但是只选择这1 个效标来进行效度验证是远远不够的。因为士兵工作绩效问卷的测试内容是和平时期日常工作表现的综合评价,相较于实际操作测试与书面知识测试,它的评定内容过于宽泛,主要反映的是关系绩效部分,无法细致地反映被试的业务能力。但是,我军并没有如美军那样细致的军事职业分类系统(military occupational speciality,MOS),更没有对每种不同的军事职业岗位进行工作分析、挑选出具有代表性的工作任务样本池,所以暂时还无法使用实际操作测试和书面知识测试等基于任务的效标。较为可惜的是,虽然训练绩效与档案资料等相较于实际工作测试与书面知识测试容易开展、方便收集,但是之前也并没有研究者采用这些资料作为效标。

4 对未来军人心理选拔效度研究的展望

相较于美军,我军在心理选拔领域起步晚、投入少,但是自“战斗力标准”提出之后心理选拔越来越受到重视。心理选拔的效度验证仍旧是心理选拔的灵魂,军事心理学研究人员可以从以下几方面开展研究。

4.1 建立基于任务的效标任务池基于任务的效标主要包括实际操作测试、书面知识测试和任务绩效评定量表[12],是工作绩效测量最主要的方法,也是军人心理选拔效度验证中最重要的效标。但目前我军尚没有基于此的效度验证研究。这些效标主要依赖于任务池的建立,未来的研究者可以先针对建立任务池开展研究。

4.1.1 建立我军军事职业岗位分类建立基于任务的效标任务池,前提是拥有完备的军事职业岗位分类。美军有MOS,我军暂时还没有成型的军事职业岗位分类,因此无法开展运用基于任务的效标的效度验证研究。可喜的是,张家喜[31]初步构建了我军军事岗位职业分析评测系统,未来的研究者可以基于此建立符合我军军情的军事职业岗位分类。

4.1.2 建立每项职业岗位工作的整体任务域(total taskdomain) 目前,我军还没有建立不同专业岗位的整体任务域,可以参照美军的经验建立适合我军军情的专业岗位整体任务域。美军整体任务域的建立主要有3 个来源:(1)士兵手册(soldier’s manual)。每个MOS 提议者和负责规定MOS 政策的机构都需要出版1 个士兵手册,描述该军事职业岗位在职者必须了解和执行的具体任务。(2)陆军职业调查项目(army occupational survey program,AOSP)。这是美国陆军资助的1 项研究,通过定期对在职人员进行问卷调查获得任务描述,问卷清单包括几百个项目。(3)在Project A 中,研究者还直接采访了MOS 提议机构的指定代表,请他们审查任务清单并确定是否存在其他有关任务。最后,至少有3 名高级军士或军官对项目冗余进行了编辑,并对项目进行了修订和组合,进一步细化了综合任务列表。

4.1.3 各领域专家对任务特征进行评定岗位工作的整体任务域明确之后,需要由15~30 名正在一线工作的军官(上尉及以上)或士官(上士及以上)组成的专家组对最终修订完成的任务清单中的任务特征进行评定。任务特征主要包括任务分类、任务重要性和任务难度。

4.1.4 选择项目建立任务池需要由10名军官(上尉及以上)或士官(上士及以上)组成工作组,每人在任务清单中挑选30~40 项自认为最能代表该军事职业岗位的任务,然后工作组进行德尔菲法专家协商,达成共识,最终选出30 项最能代表该军事职业岗位的任务。在Project A 中,书面知识测试是针对任务池中所有30 项任务的,实际操作测试与任务绩效评定量表则针对30 项任务中随机挑选出的15 项任务。

4.2 建立符合现代战争特点的效标无论是美军的JPM、Project A,还是我军的《中国征兵心理测试系统》,瞄准的都是和平时期军人的日常表现。但是和平时期的任务环境与战时的环境有着天壤之别[32-33],不能用来反映部队的战斗力,需要更符合现代战争特点并且瞄准战时表现的效标。美军在21 世纪开展的Select21 能够给我们带来一些启示[7],该研究表明对未来战士的选拔可以从3 个相互补充的方面考虑:(1)未来战争条件;(2)不同的绩效方面(例如沟通、团队合作等);(3)士兵需要完成的特殊任务工作。

4.3 综合运用不同的效标预测淘汰符合率并不能完全反映心理选拔系统的有效性,只选用预测淘汰符合率作为效标是远远不够的,应该综合运用各种不同的效标[34],特别是工作绩效,来验证心理选拔的效度。

猜你喜欢
符合率实际操作效度
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
口服等渗甘露醇多层螺旋CT小肠造影的临床应用研究
职业学校机械专业一体化教学探究
多层螺旋CT与MRI在肝脏肿瘤鉴别诊断中的应用价值
大学生积极自我量表初步编制
浅析逐级教学在大学英语课程运用的必要性
语文生本课堂中字词教学的实践
计算机辅助英语测试研究