如何做实证:测量研究

2017-12-24 11:59
数学通报 2017年10期
关键词:题项效度测验

喻 平

(南京师范大学课程与教学研究所 210097)

要研究人的个性、态度、能力、人格等心理因素的行为表现,常使用测量方法.所谓心理测量,就是根据一定的法则用数字对人的行为加以确定,即依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值.[1]测量也包括学业成就的测验.

与问卷调查不完全相同,测量研究对工具的要求更高,往往把测量的工具称为量表.学业成就的测量,需要编制具体题目,通过预测之后的数据分析题目的难度、区分度等指标,或采用项目分析方法研制修订题目.人格心理的测量,主要是编制由一系列问题组成的量表,让被试根据自己对问题的认识回答.对量表的要求高于问卷,分析指标主要是信度和效度.能力倾向的测量类似学业成就测量,由具体的学科题目组成,但是能力的测试往往需要事先对能力要素作水平划分,通过测试考察被试达到的能力水平.本文主要讨论个性心理测量的量表设计和数据分析方法.

1 量表的设计

与问卷的设计相同,量表的设计也是一种自上而下的过程.研究者根据研究的问题,提出量表结构的框架,编制相应题项,通过预测数据对这个框架进行修正和完善.量表设计的过程如图1.

图1 量表制作过程

前面四个环节,我们对确定维度、拟定题项、量表预测作说明.

1.1 确定维度

确定维度是指把一个量表分为几个维度,每个维度就是一个分量表.确定维度事实上就是提出一种分量表的结构,即总量表由哪几个分量表构成,这对整个量表的编制质量有很大影响.做这件事情要思考下面几点:首先,要参阅相关研究文献,对相似或相同的研究有所了解,在参考别人研究的基础上提出自己的构想.第二,维度的划分要以相关的心理学理论为基础,不宜脱离相关理论而自己提出一套体系.例如,构建《小学生学习意志量表》框架,需要以心理学关于意志品质的理论为依据,心理学将意志品质界定为:意志的自觉性、意志的果断性、意志的坚持性、意志的自制性等,以此为依据可分别建构4个分量表.第三,分量表应当围绕总量表的内核,不能偏离总量表的研究指向,而且要有一定的完备性,不能遗漏一些重要的元素.第四,维度的划分方式不是维一的,采用不同的标准得到的维度可以是不相同的.第五,一般说来,一个量表由总量表和分量表组成的二级结构比较好,当然,根据研究的问题,也可以对每个分量表再细分为若干子量表,但一般不超过三级,否则量表结构太复杂使数据不便处理.

如果采用探索性因素分析方法制作量表,那么构建分量表的过程可以弱化,因为维度的确定是由因素分析提取的因子决定,即事先提出的量表维度可能被因素分析之后进行重组.如果不用探索性因素分析,那么事先提出的各分量表结构就必须有理论基础,设计严谨,经过项目分析、效度、信度计算后修订量表,要求更高的还要进行验证性因素分析.

1.2 拟定题项

人格测量的设计,一般采用利克特量表,因此题项为题干和几个选项组成.选项为单项选择,选项个数可以是4、5、6、7个,一般以5个选项为宜.对学业成绩和能力的测验,一般是根据被解答问题的正确性来计分.

1.3 量表预测

量表预测目的是要收集数据对量表的各项指标作分析,如果还要作因素分析,那么依据Gorsuch(1983)的观点,①题项与被试人数的比例最好为1:5;②被试样本量不得少于100.如果研究主要目的在于找出变量群中包括何种因素,样本量就要尽量大,才能确保因素分析结果的可靠性.[2]

下面对图1中项目分析和效度分析作专门讨论.

2 量表的项目分析

项目分析是指通过预测后,对预测数据进行分析.项目分析的步骤如下:

(1)按量表的总分排序

将各被试在量表中各选项的分数相加,即为每人的总分.然后根据总分由高分到低分或由低分到高分排序.

(2)对被试分组

对被试进行分组,分组原则一般为:总分前27%的被试为高分组,后27%的为低分组.

(3)计算题目的难度和鉴别度

这个项目的分析主要用于学业成绩测量和能力测量,即题目中要有正确答案和错误答案的设计,在人格的测量中一般不做此项目分析.

难度计算公式1:P=平均分/满分值

难度计算公式2:P=(PH+PL)÷2

鉴别度计算公式:D=PH-PL

其中P为题项的难度,PH代表高分组在某个题项答对人数的百分比,PL代表低分组在该题项答对人数的百分比,D为鉴别度指数.

(4)检验高低分两组在每个题项的得分差异

采用独立样本t检验的方法,对高分组和低分组被试在各个题项得分作差异显著性检验,删除检验结果未达到显著性的题项(因为这些题项缺乏鉴别度).

(5)同质性检验

计算全体被试在每一个题项上的得分与每个被试在总量表的得分之间的相关系数,删除相关系数小于0.4的题项(如果相关系数高,说明该题项与研究的主题有密切联系,相关系数低则说明该题项与研究主题关系不大,因而应当删除).

上述过程可以作SPSS软件完成,其中t检验已经在《如何做实证:调查研究》一文中作了介绍,相关系数的计算将在《如何做实证:相关性研究》一文中介绍.

3 量表的效度分析

所谓效度,是指能够测到该测验所欲测心理或行为特质到何种程度.即一个测验对其所要测量的特性测量到什么程度的估计.效度包括内容效度、结构效度和效标关联效度.

内容效度是指测验用的测题对整个测试内容范围的代表性程度.即测试题目的取样要具有代表性,覆盖面广.内容效度一般由研究者拟订题项,然后请有关专家作出评判进行修订.效标关联效度是指测验与外在效标之间关系的程度.作为外在效标的工具,本身应当具有良好的信度和效度,如标准化的学业成绩、智力测验、人格量表、态度量表等.结构效度(建构效度)指编制出来的测验是否真正体现了最初所依据的理论结构,结构效度就是能够测量到理论建构心理特质的程度.

下面介绍结构效度的检验方法.

3.1 用分量表与总量表的相关判断结构效度

假如有一份量表是三级结构:

图2一份量表的结构

结构的合理性.要求:

(1)子量表与总量表之间的相关,应该大于各子量表之间的相关.这样保证各子量表之间有一定相对独立性,而子量表又不能偏离总量表.

(2)各子量表与所属分量表的相关,应该大于子量表与总量表的相关.子量表是各分量表划分的维度,分量表是总量表划分的维度,因此,子量表与分量表是直接关系,分量表与总量表是直接关系,子量表与总量表是间接关系.

(3)分量表之间的相关,应该小于他们各自与总量表之间的相关.这样保证各分量表之间有一定相对独立性,而分量表又不能偏离总量表.

这种判断结构效度的方法比较简单,相关系数的计算可以用SPSS软件完成(相关性计算将在《如何做实证:相关性研究》一文中介绍).如果某个子量表或分量表达不到上述要求,就需要对该子量表或分量表中的某些题项作删除,删除之后再计算,逐步形成结构合理的量表.

案例1高中生数学学习策略调查问卷的编制.[4]

这是天津师范大学王光明教授团队研究编制的量表,整个初始量表、修订量表、数据均见参考文献[4].下面介绍该研究中关于量表结构效度的一个计算.

该研究依据迈克卡等人提出的相关理论以及中国高中生数学学习的现状研究,认为高中生数学学习策略主要由学习者的认知策略、元认知策略和资源管理策略3个主维度组成,包括11个子维度.认知策略包括:复述策略、精加工策略、组织策略、反馈策略;元认知策略包括:计划策略、监视策略、反思与调节策略;资源管理策略包括:时间管理策略、环境管理策略、心理管理策略、外在求助策略.在此框架下,设计量表,经过测试数据,作了结构效度的计算,结果见表1.

表1 问卷各维度及其与总问卷的相关系数矩阵

各维度间的相关系数在 0.74~0.84 之间,而总的数学学习策略与各维度的相关系数在 0.88~0.96 之间,表明该问卷具有较好的结构效度.

3.2 用因素分析方法判断结构效度

用因素分析方法判断结构效度是一种精度更高的方法.因素分析有两种,一是探索性因素分析,二是验证性分析.探索性因素分析的功能是能够将数目众多的变量浓缩成数目较少的几个变量,可以对变量进行重新组合,有效地提取共同因素,此共同因素与理论架构的心理特质比较接近,则可说此测量工具或量表具有结构效度.验证性因素分析是对经过探索性因素分析之后的量表进行进一步验证,此时往往需要重新选择被试进行测试,将数据用结构方程模型软件(如LISREL和AMOS)处理,根据计算数据可以得到量表的结构效度,同时可以调整量表的结构使之达到最优化.下面只讨论探索性因素分析,验证性因素分析的相关内容读者可参考相关文献.

简单地说,探索性因素分析是通过一组测验析取出共同因素的方法.斯皮尔曼认为,学生的每一门功课考试成绩都可以表示成一个“一般因素”与一个“特殊因素”之和.例如,对学生进行语文、数学、外语、物理、化学、生物等学科的测验,每门学科看作是一个变量.那么,从这些变量中可提取若干影响成绩的一般因素(共同因素),如语词分析能力、逻辑思维能力、记忆力等.而每个变量又受到各自特殊因素的影响,如数学成绩受符号推理能力的影响,语文成绩受写作能力的影响等.从量表的角度看,提取的这些共同因素就是对总量表的维度划分,即各分量表的名称.

假设对n个学生进行了p门课程的考试,这p门课程受到m个共同因素F1,F2,……,Fm的影响.若某个学生在第i个测验的得分为di,在该测验上的标准分为Zi,那么其因素分析的数学模型可表示为如下形式:

Z1=a11F1+a12F2+…+a1mFm+d1Y1

Z2=a21F1+a22F2+…+a2mFm+d2Y2

(1)

……

Zp=ap1F1+ap2F2+…+apmFm+dpYp

其中,F1,F2,……,Fm表示第j个共同因素;系数aij表示第i个变量Zi在第j个共同因素Fj上的系数,称为因子负荷;系数di表示与第i个测验有关的特殊因素Yi的系数,称为特殊因素负荷.

把(1)式写成矩阵形式:

Z=AF+DY

(2)

(1)式可看出因素负荷aij绝对值的大小反映了Zi与共同因素Fj关系的密切程度,即表明了共同因素Fj对Zi的负荷程度,所以aij称为因素负荷,A称为因素负荷矩阵.可以证明,[3]因素负荷aij等于变量Zi与因素Fj的相关系数rij,它既反映了Zi依赖于Fj的程度,也反映了Zi在因素Fj上的相对重要性.

对一组测验进行因素分析,找出影响测验的共同因素,每个测验在共同因素上的因素负荷就是测验的因素效度,测验分数总变异中来自有关因素的比例就是该测验结构效度的指标.通过因素分析,提取出共同因素,这就保证了量表结构的科学性,即量表有良好的结构效度.

因此,问题的关键是求出因素负荷矩阵A.这需计算测验的相关系数矩阵、再生矩阵、再生矩阵的最大特征根、变量共同度的估计、共同因素个数的确定、因素负荷矩阵进行旋转变换等一系列复杂计算过程.本文不讨论求因素负荷矩阵A的原理和过程,下面以一个实例说明如何运用SPSS软件作探索性因素分析.

4 一个量表实例的探索性因素分析

案例2高中生数学学习策略调查问卷的编制.[4]

下面介绍其文中探索性因素分析的步骤.

该文研究在作探索性因素分析时,是分别对三个子量表分析的,没有对总量表作探索性因素分析.文章的后面部分采用验证性因素分析时再来考察量表的结构效度.下面以文中“认知策略”子量表为例,介绍探索性因素分析的SPSS操作步骤.

(1)点击[变量视图],定义变量Q1~Q103.(初始问卷有103个题项)

(2)点击[数据视图],输入数据.

(3)依次点击[分析]、[降维]、[因子分析],弹出〈因子分析〉对话框.

(4)在〈因子分析〉对话框中,将“认知策略”变量送入〈变量〉中.(认知策略变量又分为复述、精加工、组织、反馈四个维度,其题项包括44道题,把这44道题目对应的变量送入〈变量〉框中)

(5)点击[描述],在<因子分析:描述>对话框中,点击[单变量描述性](输出每个变量的平均值和标准差),点击[系数](输出相关系数矩阵),点击[再生](输出再生相关矩阵和残差矩阵),点击[KMO和Bartlett的球型度检验](作Bartlett的球型检验,用于检验变量的独立性).点击[继续].

(6)点击[抽取],在<因子分析:抽取>对话框中,点击[碎石图](画出碎石图),在此使用默认的主成分法,抽取特征根大于1的因子.可以在此对话框中改变抽取因子的方法和抽取因子的个数.点击[继续].

(7)点击[旋转],在<因子分析:旋转>对话框中,点击[最大方差法](作方差极大正交旋转).点击[继续].

(8)点击[得分],在<因子分析:得分>对话框中,点击[保存为变量](计算因子得分并在原始数据文件中作为变量观测值).点击[继续].

(9)点击[确定],输出结果.

元认知策略、资源管理策略两个子量表同样操作,将结果作统一分析.

表2的结果显示,理论结构中3个主维度的KMO值均在0.9左右,Bartlett 球形检验χ2值显著(p<0.01),说明题项变量间的关系良好,样本数据适合进行因子分析,具体数据见表1.随后,利用主成分分析法和最大方差旋转法确定问卷的因子数和每个因子所包含的题目数.因子数的确定要满足以下原则:①因子特征值大于1;②因子载荷值至少在0.4 以上;③提取出的主成分符合陡阶检验;④变量共同度大于0.4(同一个因子在不同主成分的载荷值均在0.4以上时,予以剔除).因子命名的原则如下:①如果某个因子的题目主要来自数学学习策略模型的某个子维度,则以这个子维度的名字命名;②如果对某个因子方差贡献率一半以上的题目分散来自于数学学习策略模型的不同子维度,则参考这些题目的共同数学学习策略来命名.

表2 问卷初测数据因子分析检验值

利用以上原则对数据进行探索性分析,删除21个题项(4、5、6、7、9、12、15、17、22、 28、34、38、39、56、69、71、73、76、77、78、81),剩余54题,其中包括50道正式问卷题目和4道测谎题目.同时发现当对认知策略维度提取4个主成分,元认知策略维度提取 3个主成分,资源管理策略提取4个主成分时,得到3个主成分的因子结构及其载荷值、特征值、共同性的数据较为理想,元认知策略维度具体数据见表3,其他表略.

表3 元认知策略因子结构的因子载荷、特征值及因子贡献率

对相关维度进行拆分,合并,并重新命名.认知策略采用四因素结构:精加工策略、组织策略、复述策略、反馈策略.元认知策略采用三因素结构:调节与反思策略、监控策略、计划策略.资源管理策略采用四因素结构:环境管理策略、心境管理策略、时间管理策略、求助策略.由于研究结果与已有理论架构接近一致,因而就得到一份结构效度较高的量表.

5 正式测试后的数据处理

5.1 人格量表测试后的数据处理

用量表正式测验得到的数据,一般是作数据整体的描述性分析,或者对不同群体的差异性作分析.由于量表都是采用计分方式,涉及的不同群体差异比较方法主要是两种:其一,两个群体的差异比较,作t检验(见文[7]);其二,两个以上群体的差异比较,作单因素方差分析,我们将在《如何做实证:实验研究》中介绍.

5.2 学业成绩和能力测试后的数据处理

学业成绩和能力测试,也希望对不同群体的数据进行比较分析,所用方法还是t检验或方差分析.

学业成就测验和能力测验中还有一个问题,就是合格线如何确定,即如何设定一个标准以区分被试中的合格者与不合格者.教育和心理测量学专家提出了数十种标准设置的方法,但至今没有一种公认的最科学的一种方法.其中, Angoff方法因为应用简单且有一定客观性而为多数人接受.[5]Angoff方法分为如下3个步骤:

(1)按照一定的要求选取一组领域评判者,对他们进行培训,使其对于最低能力应试者的概念有较为清楚而统一的看法,并将这组应试者称为边界组考生,他们是达到某一标准最低水平的考生.

(2)要求每一个评判者对于每一个题目做出这样的判断:边界组考生正确回答该题目的概率是多少.

(3)将某个评判者对该测验中所有题目的判断值相加,就是评判者认为边界组考生应当得到的分数.计算所有评判者评分的平均值,就得到合格分数线.

例如,在对学生数学核心素养的测量中,研究者事先要根据测试题目,对优秀水平、良好水平、合格水平、不合格水平有一个准确的界定,董林伟等人选择一组初中数学特级教师,正高级教师和教研人员,采用Angoff方法对四种水平作了界定,从而对江苏省初中二年级学生的数学核心素养发展作了全面调查.[6]

猜你喜欢
题项效度测验
幼儿家长学前教育立法需求调查问卷的编制
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
教师教学风格测量工具TSI修订的实证研究
《新年大测验》大揭榜
高职学生价值观调查的研究变量的项目分析
两个处理t测验与F测验的数学关系
被看重感指数在中国大学生中的构念效度
12题项一般健康问卷(GHQ-12)结构的多样本分析
外语形成性评估的效度验证框架
你知道吗?