应用RUMM 2030软件实施条目反应理论*

2017-01-09 13:43陈新林侯政昆林岳卿周倩仪刘凤斌

中国卫生统计 2016年5期

陈新林侯政昆林岳卿周倩仪胡月刘凤斌△

陈新林1侯政昆2林岳卿3周倩仪2胡月1刘凤斌2△

条目反应理论（item response theory，IRT），也称为项目反应理论，受到越来越多的关注，广泛应用于智力、心理量表、考试系统等潜变量的测量。最近几年，在量表的研制中，条目反应理论逐渐应用于条目的评价和选择［1－3］。如Liu等研制适合中医疗效评价的重症肌无力量表［4－5］，陈新林等研发鼻咽癌患者生存质量量表［6］，董丽敏等用于评价哮喘患者PRO量表［7］，林岳卿研制世界卫生组织生存质量老年人量表简化版［8］。陈炳为等将条目反应理论应用于肝阳上亢证中医证候中［9］，日本学者Tomura等用条目反应理论研究基于中医理论的五脏得分量表（five viscera score）［10］，均取得了良好的效果。

但是IRT理论建立在复杂的数学模型之上，计算困难，难以实现，影响了它的普及。IRT的分析一般要采用专用的软件，如RUMM、Bilog、Multilog、Testfact、Parscale、Winsteps和ConQuest等，或采用R、Winbugs等软件编写程序。RUMM（rasch unidimensionalmeasurementmodel）是由Andrich，Sheridan和Luo共同研发，现在更新到RUMM 2030版本。网址为www．rumm lab．com。RUMM采用二分类Rasch模型（rasch model）和多分类Rasch模型（polytomous rasch model）［11－12］。RUMM采用条件成对估计法（conditional pairw ise estimation）估计参数［13］；该方法通过对主分量参数的估计而计算出条目的阈值参数（threshold parameters）；通过充分统计量将个人能力参数消去，从而获得条目参数的相合估计。另外，RUMM界面清晰、功能强大，被誉为Rasch模型的最完善的分析软件。本文主要介绍如何使用RUMM 2030。

数据简介与格式

1．RUMM 2030主页面的菜单包括File、Edit、Analysis、Facilities、Screen area和Help。右下角有5个按钮，New（新建项目），Open（打开项目），Exit（退出软件），Use project Items（使用项目的条目），Import itemestim（导入条目估计模板文件）。

2．新建项目和导入数据：点击右下角的“New”，或点击“file”下的新建项目（Create new project），输入新建项目的名字，这里命名为“Rumm”。

导入数据的格式（后缀名）为dat、txt或prn。本例是鼻咽癌患者生存质量量表的数据，前3列是id，紧跟4列是人口学资料，后面27列是条目得分。条目是五分类Likert量表，用1、2、3、4和5表示，缺失值用空缺表示。导入数据后见图1。

图1 导入数据

3．确定设计方式，导入数据需要考虑两个方面：①个人设计（person design），考虑ID号和人口学基本资料。本例两者都存在，因此选择“Person ID and person DESIGN”。②条目设计（item design），考虑条目的设计方式。条目设计有三种：单个因素（single factor），只考虑阈值参数，且只有一个评价者；两个因素（two factors），每个条目包括两个参数（阈值参数和区分度参数）、或每个条目有两个评价者；三个因素（three factors）。本例选择单个因素。将资料的前3列录入为ID；后面4列依次录入为性别、年龄、慢性病（otherdisea）、放疗阶段（radiostage）。

4．定义条目属性。最后27列数据录入为条目。本例是5分类条目，因此在“Type”中选择“Poly”，在缺失值（M iss）中选择空格（bsp）。以第一个条目说明如何定义条目属性，名称（Code）为默认的“I0001”，描述（Descript）为默认的“Descriptor for Item 1”，在“No．of response categories”中输入5，在“Response”下面的表格依次输入1到5，其右边的Score分别对应0到4，表示该条目是正向条目（得分越高表示生存质量越好）；如果是反向条目，则点击右边的“Reverse score item”选项。所有条目跟第一个条目一样，点击“Repeat all”。

5．建立分析数据。首先建立整个量表的分析文件，命名为“alldata”（analysis name），点击Continue analysis就生成了“alldata”的分析数据集。

IRT要满足单维性的要求，要求对每个维度独立进行分析。本例选择生理领域的数据（前面9个条目）进行分析。点击“Analysis Options”选项框中的“Create NEW analysis”，“Modification for New Analysis”选项框中的“Analysis Base——Delete items”，点击右下角的“Create NEW analysis”，在“Analysis name”中输入“PHdomain”。进入到删除条目的页面（Deleting items for analysis name，见图2），把条目10到条目27删除，生成了PHdomain数据集。

图2 PHdomain数据集包含的条目

分析步骤及结果分析

图3是RUMM 2030软件的IRT分析页面。主要包括条目参数（item parameter details），拟合度（Testof-fit details），格特曼模式（Guttman pattern），条目分类（Item categorisation），条目特征（Item characteristics）和进一步结果（Further outputs）等。条目参数包括阈值参数（Thresholds）、分类频数（Category frequencies）、主成分（Principal components）和充分统计量（Sufficient statistics）。拟合度包括汇总统计量（Summary statistics）、条目拟合度（Individual item fit）、个体拟合度（Individual person fit）、残差相关（Residual correlations）和残差主成分（Residual principal components）。条目特征包括分类概率曲线（Category probability curves）、条目特征曲线（Item characteristics curves，ICC）和阈值概率曲线（Thresholds probability curves）。进一步结果包括个体-条目分布图（Personitem distribution）、阈值图（Threshold map）、条目图（I-tem map）、平衡检验（equating tests/t-tests）和残差统计量分布（Residual statistics distribution）。双击每个选项框可以显示结果。下面主要介绍一下几个常用的分析。

图3 显示PHdomain的IRT分析页面

图4 显示了阈值参数，Display threshold std errors显示阈值的标准误，Centralised thresholds显示中心化处理的阈值（即所有阈值相加等于0）。本例条目是五分类资料，因此都有四个阈值（CenThr）。本例所有条目的阈值都从小到大依次递增，不存在阈值颠倒的条目。

图4 阈值参数的结果

图5 汇总统计量的结果

图5 显示了汇总统计量。汇总统计量包括条目-个体结果（Item-person interaction）、条目-特征结果（I-tem-trait interaction）、信度指数（Reliability indices）和拟合度总评价（Power of analysis of fit）。条目-个体结果包括条目参数估计值（Location）和残差（Fit residual），个体能力估计值和残差。本例条目参数估计值的均数为0，个体能力估计值的均数为0．7726，说明这些研究对象的能力较高；信度指数等于0．886，整个拟合效果为完美。

图6显示了条目阈值估计值。“Location”表示条目阈值，是四个阈值的平均得分，“SE”是其对应的标准误；“FitResid”表示条目残差拟合度，该数值在－2．5到2．5之间，则说明条目拟合度较好。“ChiSq”是卡方值，“Prob”为P值，如果P值小于0．05/条目数，说明条目的拟合度较差。

图6 条目拟合度的结果

图7 个体拟合度的结果

图7 显示了个体能力估计值（潜在特质），即表格里的Location。图8显示了分类概率曲线，图形中实线表示分类概率曲线，虚线（曲线）表示阈值概率曲线。图9显示了所有对象及不同性别人群的ICC。右上角给出了不同性别的DIF（Differential item function）结果；右下角的“DIF summary”按钮，点击可显示所有条目的DIF结果。

图8 分类概率曲线的结果

图9 条目特征曲线的结果

图10 个体－条目分布的结果

图10 显示了个体－条目分布图，上图是个体能力估计值（图7的Location）的频数分布图，从图形可知，其基本服从正态分布，均数为0．773，标准差为1．497。下图是条目阈值参数的频数分布图。

讨论

RUMM 2030软件简单、易学，是实现复杂的IRT理论的有力工具。RUMM采用Visual basic语言编写。它吸收最新理论成果，根据用户的需求和建议，不断改进，增加软件的适用性。RUMM 2030的使用介绍鲜有报告，希望本文可以让RUMM 2030软件得到更广泛的应用，有助于IRT理论的推广。

［1］吕静，薛江平，罗艳虹，等．慢性心衰PRO量表条目的初步筛选．中国卫生统计，2014，31（3）：379-382．

［2］曹尚，曹荣祥，孙昕霙，等．项目反应理论在居民健康素养标准参照测验中的应用研究．中国卫生统计，2016，33（1）：31-34．

［3］付蓉，苏少飞，包含，等．基于项目反应理论的治疗质量综合评价最适样本量的模拟研究．中国卫生统计，2015，32（5）：762-765．

［4］Liu FB，Chen XL，Guo L，et al．Evaluation of a scale of patient-reported outcomes for the assessment of myasthenia gravis patients in China．Chin J Integr Med，2012，18（10）：737-745．

［5］陈新林，刘凤斌，郭丽，等．重症肌无力患者报告结局指标量表的研制——计量心理学测评．中西医结合学报，2010，（2）：121-125．

［6］陈新林，古模发，何伟玲，等．条目反应理论对鼻咽癌患者生存质量量表的评价．中华肿瘤防治杂志，2013，（18）：1380-1384．

［7］董丽敏，刘晓英，张岩波．哮喘患者报告临床结局量表的研制和条目筛选．中国药物与临床，2012，（7）：873-875．

［8］林岳卿，方积乾．多维IRT与单维IRT在多维量表中应用的差异．中国卫生统计，2011，（3）：226-228．

［9］陈炳为，许碧云，陈启光，等．两分类项目反应理论在中医证候中的应用．中国卫生统计，2011，28（1）：16-18，21．

［10］Tomura T，Yoshimasu K，Fukumoto J，etal．Validity of a diagnostic scale for acupuncture：application of the item response theory to the five viscera score．Evid Based Complement Alternat Med，2013：928089．

［11］Andrich D．A rating formulation for ordered response categories．Psychometrika，1978，4（43）：561-573．

［12］Andrich D，Lyne A，Sheridan B，et al．Rumm 2030．Perth：RUMM Laboratory，2009．

［13］Andrich D，Luo G．Conditional pairwise estimation in the Raschmodel for ordered response categories using principal components．JAppl Meas，2003，4（3）：205-221．

（责任编辑：刘壮）

国家自然科学基金课题（81403296），广东省高等学校优秀青年教师项目（YQ2015041），广州中医药大学“青年英才培养工程”基金项目（QNYC20140101）

1．广州中医药大学基础医学院（510006）

2．广州中医药大学第一附属医院

3．广东省工伤康复中心

△通信作者：刘凤斌，E-mail：liufb163＠163．com

应用RUMM 2030软件实施条目反应理论*

数据简介与格式

分析步骤及结果分析

讨 论

讨论