COSMIN 操作指南对中文版电子健康素养量表的评价

2020-05-12 02:01高云赵俊峰徐丽丽李豪张嘉琪潘世杰蒋俊玲

中国老年学杂志 2020年9期

高云赵俊峰徐丽丽李豪张嘉琪潘世杰蒋俊玲

(1广州医科大学护理学院，广东广州 510515;2河南省中医院河南中医药大学第二附属医院泌尿外科;3河南省中医院精神心理科)

随着互联网及智能手机迅速普及，越来越多的人通过互联网及APP获取健康信息。而使用电子资源进行自我健康管理、做出正确健康决策，需要使用者具备获取、发现、使用、理解及评价网络信息的能力，这种能力称为电子健康素养〔1〕。评估电子健康素养水平是引导使用者通过电子资源进行健康维护的前提。eHEALs是首个电子健康素养自我评估工具，由Norman等〔2〕于2006年研发。郭帅军等〔3〕于2013年将该量表引入我国，进行本土化修订，形成中文版电子健康素养量表。此后又有学者自主研发测量工具对网络电子健康资源使用者进行电子健康素养评估〔4，5〕。然而，这些工具测量特征如何尚不明确，为电子健康素养评估工具的选择带来了困难。COSMIN是一个基于专家共识的健康测量工具遴选指南，其目标是促进评估健康结局评估工具的科学性、管理及保持评估工具的科学质量，使测量工具标准化〔6〕。COSMIN 对测量工具的各项心理学测量指标进行了定义，并针对各类心理测量学指标提出了完善的评价标准，指导操作者从方法学及测量指标的优劣性两方面对量表进行评价，从而筛选出符合研究目的高质量的量表。国外已将该评价标准广泛用于与健康相关领域的量表的评价，如健康素养量表的评价、精神卫生知识测评工具的评价、服药依从性自评工具的评价〔7～9〕，而我国鲜见使用该标准对量表进行评价的报道。本文以中文版电子健康量表为例，采用COSMIN对该量表进行心理测量学的评价，筛选出高质量的电子健康素养评估工具，发现量表研发及验证中存在的问题，对今后的量表研发设计、验证及使用提供循证参考。

1 资料和方法

1.1检索策略以“电子健康素养”为检索词在“中国知网”、“万方数据库”，“维普中文期刊服务平台”中检索，以“ehealth literacy or e-health literacy or digital health literacy” and “reliability or validity or responsiveness or consistency or measurement invariance or hypothesis testing or measurement error or construct validity or cross-cultural”为检索词在MEDLINE、EMBASE、WEB OF SCIENCE、CINAHL 数据库中进行检索，检索日期为2006年1月1日至2019年3月1日。

1.2文献纳入及排除标准

1.2.1文献纳入标准 ①测量电子健康素养；②能获取到全文的原创研究；③呈现至少1条测量特征(包括研发、修订及翻译)；④研究对象为网络信息使用者，包括病人及健康人群。⑤测量工具为中文版电子健康素养量表。

1.2.2文献排除标准 ①与健康无关的计算机能力测量研究；②非中文或英文文献。

1.3文献筛选过程由2名研究者分别对文献进行筛选，先根据文章的标题进行筛选，排除不相关的文献；对剩余的文献逐一阅读摘要，按照文献纳入及排除标准进行筛选。

1.4研究工具采用2018版的COSMIN评价手册〔10〕对中文版电子素养健康量表进行评价。信度包括内部一致性、信度(重测信度、评价者间信度及评价者内部信度)及测量误差。效度包括内容效度、效标效度及结构效度，其中结构效度又包括构建效度、假设检验及跨文化效度。

1.4.1COSMIN偏倚危险清单〔11〕该清单主要针对量表的测量方法学进行评价，包含10个模块，分别为量表的研发、内容效度、结构效度、内部一致性、跨文化效度、信度、测量误差、效标效度、结构效度的假设检验及反应性；将方法学分为非常好、充分、不确定、不充分及不适用(N/A)。以构建效度模块为例，该模块包括2个问题及4个条目。2个问题分别为该量表是否包含效应指标(如，是否基于反应性模型)及研究目的是评价量表的结构还是评价量表是否为线性结构。评价条目1：对于传统测验模型(CTT)而言，采用探索性分析还是验证性分析；条目2：对于项目反应理论(IRT)/RASH分析而言，选取的模型是否与研究问题匹配；条目3：样本量是否充分；条目4：是否存在其他重大研究及统计方法的缺陷？

1.4.2测量特征优劣评价标准〔11〕该标准主要评价量表的测量特征，包括构建效度、内部一致性、信度、测量误差、结构效度的假设检验、跨文化效度/测量稳定性、效标效度、反应性。将测量特征评价为三个等级：+(充分)、-(不充分)、？(不确定)。

1.4.3GRADE研究证据分级〔12〕COSMIN先将每个研究看作“高质量”，然后根据偏倚风险、研究结果是否一致、样本量、量表的适用人群给予降级。

1.5评价步骤首先，根据COSMIN偏倚危险清单对纳入研究的方法学进行评价，然后根据最新测量特征优劣评价标准对研究所报告测量特征进行评价，并合成每个研究工具的评价结果；最后参照GRADE方法对每个工具的证据进行分级〔12〕。由2名评价者根据COSMIN的数据提取表分别对测量特征逐一提取，并分别进行评价，结果不一致时请第3名评价者进行讨论。

2 结果

2.1文献筛选流程及结果共检出文献420篇，用NOTEXPRESS 剔除重复文献47篇，通过阅读文献题目及摘要剔除与主题不相关的文献182篇，对剩余文献进行全文阅读，剔除不符合纳入标准的文献178篇，最终纳入文献13篇〔3～5，13～22〕。文献筛选过程见图1。

2.2纳入量表的特征在13个纳入的电子健康素养量表中，e-HEALs汉化量表为使用范围最广的量表，其应用人群包括初中生、高中生、大学生、癌症患者、糖尿病患者及社区老人。其他的中文版电子健康素养量表还包括用于一般网络用户的电子健康素养量表、用于一般居民的移动电子健康素养量表、用于高校学生的高校学生电子媒介健康素养量表。

图1 文献筛选流程

2.3纳入量表的研究方法学评价及测量特征评价所有的13个量表没有测量重测信度、结构效度的假设检验、测量误差、测量稳定性、效标效度及反应性。就方法学质量而言，仅2个量表涉及了内容效度的评价，但内容效度的方法学均不确定。在评价结构效度的9个工具中，6个量表的研究方法学为充分或非常好，2个为不确定，1个量表为不充分。所有的13个工具评价了内部一致性，其中仅5个量表的方法学为充分或非常好，2个量表不确定，6个量表的方法学不充分。就量表的测量特征质量而言，仅2个工具的结构效度为充分，其余均为不确定；5个工具的内部一致性为充分，8个工具为不确定；仅1个量表测量了结构效度的假设检验，方法学质量为充分，测量特征为不确定。见表1。

2.4纳入量表评价结果的合成与证据等级通过对纳入量表的分析，发现钟苗等〔16〕使用的“电子健康素养量表中文版”实际为eHEALs 汉化版，因此将相同的量表测量特征合并，统称为eHEALs 汉化版，合并结果后共有4个电子健康素养量表，分别是e-HEALs 汉化版、电子健康素养量表、m-eHEALS、高校学生电子媒介健康素养量表。4个电子健康素养量表的维度1～5，内部一致性系数(Cronbach α)为0.753～0.984。其中e-HEALs 汉化版的维度呈1～3不等，Cronbach α为0.753～0.984。根据“GRADE”标准〔12〕对4个量表进行证据等级评定，e-HEALs 汉化版、电子健康素养量表、m-eHEALS、高校学生电子媒介健康素养量表的测量特征及测量特征的证据等级，见表2。m-eHEALS的结构效度及内部一致性证据充分；根据GRADE标准：有多项研究质量为充分以上的研究，或仅有一项研究质量为非常好的研究视为高质量研究，证据等级为高〔12〕，m-eHEALS的结构效度及内容一致性证据等级为高。

表1 纳入量表的方法学质量及测量特征质量

MQ：方法学质量；QM：测量特征评价

表2 量表测量特征的证据等级

3 讨论

本研究发现，纳入量表的内容效度测量不足。根据COSMIN指南，在量表测量特征中，内容效度为最重要的测量特征〔23〕。因此COSMIN指南建议根据测量特征将量表分为A、B、C三类〔10〕。A类为可以推荐的量表：内容效度充分(任何证据等级)并且内部一致性证据等级不低于“低”；C类为不推荐的量表：存在一个不充分的测量特征(证据等级为高)。B类介于A类和C类之间，为有推荐潜力的量表，需要更多的研究去验证测量特征。本研究仅2项研究(量表9和量表12)提及了内容效度的检验，但缺乏对内容效度检验的详细描述而判定为不确定。因此，虽然电子健康素养量表、m-eHEALs及高校学生电子媒介健康素养量表均满足了“内部一致性”的要求，但由于缺乏充分内容效度的证据而不能归为A类予以推荐。在今后的量表研发中，应注重对量表内容效度的测量。

此外，内容效度的测量欠规范也是本研究所呈现的一个问题。内容效度指量表测量内容的适当性及与“预期”的相符性〔24〕。根据COSMIN指南〔10〕，内容效度的评价标准包括三方面：相关性、全面性和理解性。其中相关性又包括：量表条目是否与测量内容相关、条目是否与目标人群相关、条目是否与使用环境相关、条目应答选项是否合适、回忆的时间段设置是否合适5项内容；全面性主要指量表条目所涵盖的概念是否全面，是否有缺失；理解性包括量表的说明或指令是否能被被试对象理解、条目的应答选项是否能被被试对象理解、量表条目的措辞是否合适、量表的应答选项是否与问题匹配4项内容。测量内容效度可以通过收集被试及专家对“相关性”、“理解性”、“全面性”的意见来实现。本研究中，仅2项研究提及了运用焦点小组访谈、专家咨询对量表内容效度进行检验，但未展示相关的细节，因此无法判断内容效度的质量。在今后的研究中建议给出内容效度测量详细过程，如列出访谈提纲，让读者了解访谈是否涉及“相关性”、“理解性”、“全面性”几方面；描述数据分析，尤其是质性研究数据分析的过程(由几名访谈者完成、访谈者是否有相关经验、访谈是否录音、用何种方法分析数据等)。

量表的使用人群也是一个应该关注的问题。量表的使用人群应与研发量表时纳入的人群特征一致〔10〕。以eHEALs汉化版为例，该量表英文版的研发是基于青少年人群，引入我国后进行本土化验证的人群为高中生，被试特征基本一致。而此后该量表逐渐被应用于老人、患者等不同群体，这些群体是否适用于该量表，也应从相关性、理解性及全面性进行内容效度的验证。eHEALs汉化版在青少年、老人、患者群体中呈现不同的结构，这种结构的不稳定也从侧面反映了重新审视量表内容效度的必要性。同理，高校学生电子媒介健康素养量表的研发是基于高校学生，而研究将其应用于高中生群体，按照GRADE标准中对使用人群的要求〔12〕，对该量表的证据等级进行降级，因此，该量表的证据等级由高级降为中级。

本文中13个纳入的量表均测量了内部一致性，而仅9个量表(量表1、4、5、7、8、9、10、12、13)评价了结构效度，在测量内部一致性之前应明确量表结构〔25〕。内部一致性是指每个单维度量表或亚量表条目之间的相互关联性〔26〕。因此量表结构不明确使得内部一致性不明确。尽管量表2、3、6、11的 Cronbach α系数均达到了充分的标准(Cronbachα≥0.7)，他们的内部一致性质量仍被评为不确定。对于结构效度的评价方法，COSMIN指南推荐的方法为验证性因子分析〔10〕。而本研究中，仅量表5和量表7使用结构方程模型对量表结构进行验证，其他量表由于使用探索性因子分析，因此，量表1、4、8、9、10、12、13结构效度测量特征质量评为不确定。量表的结构需基于一个理论模型之上，与探索性因子分析相比，验证性因子分析不但可以更细致地描述测量项目与因子之间的关系，而且可以对这个关系或模型直接进行检验〔10，27〕。今后的研究中，可更多地尝试使用验证性因子分析进行结构效度的测量。在结构效度方法学评价中，量表4未给出因子数量及因子负荷，因此方法学质量被评为不确定；量表10未给出因子分析的详细数据，如因子旋转方法等，在今后的数据报道中应注意充分描述因子分析的以上关键步骤。而量表13的样本量<100例，因此方法学质量评为不确定。按照COSMIN指南，运用传统测验理论(CTT)进行结构效度检验时，样本量大于条目数的7倍且≥100例为非常好；样本量为条目数的5倍以上且≥100例为充分；样本量为条目数的5倍以上但<100例为不确定；样本量不足条目数的5倍为不充分〔10〕。

在评价内部一致性过程中发现，本文的量表2、3、6、10、11、13仅测量了量表总的Cronbach α系数，因此方法学质量被评为不充分。COSMIN指南指出，当量表呈现多维度时，应计算每个亚量表的内部一致性〔10〕。在今后的测量及论文写作中，应注意在明确结构效度的前提下，给出每个亚量表的内部一致性指标。

量表10进行了结构效度的假设检验。结构效度的假设检验是指在多大程度上量表分数与假设一致(如内在关系、与其他量表的对比，相关组间的差异)，假设越具体，检测的假设越多，支持结构效度的证据就越多〔10〕。量表10将电子健康素养量表与电子健康信息利用问卷各维度进行了相关分析，发现电子健康素养与电子健康信息利用问卷呈负相关关系〔16〕。COSMIN指南指出〔10〕，在测量结构效度假设检验中应注意：①若以测量工具为参照，应给出测量工具的结构及充分的测量特征；②应给出具体假设，如假设量表A和量表B呈中度的正相关。量表10的参照工具为电子健康信息利用问卷，研究给出了参照工具的结构及测量特征，但并未给出假设，无法判断研究结论是否与假设一致。因此量表10的结构效度的假设检验质量评为不确定；而研究方法学方面，该量表仅给出了相关系数而未呈现均数及标准差，因此方法学质量由非常好降为充分〔12〕。

本文中m-eHEALS (量表7)使用了验证性因子分析测量量表结构效度，分析过程详细；结构效度的各项指标符合测量特征评价标准(CFI=0.965)；测量了每个亚量表的内容一致性，并给出了Cronbach α系数，且每个亚量表的Cronbach α系数均≥0.7。因此为本研究中测量特征最优的量表。

本研究发现，重测信度、测量误差、测量稳定性、效标效度及反应度几项测量特征均未被用到。重测信度为用同一测验对同一组被试在不同时间实测两次所得结果的一致性〔10〕。在测量重测信度时应注意〔10〕：①报告数据时应描述被试在2次测量中是否稳定，如在2次测量间隙是否给予干预措施或其他影响被试测试结果的干预。②重复测量的间隔时间一般为2 w左右；③对于分类或等级分类量表应计算Kappa系数，而对于连续计分量表，应计算ICC，而不是仅做Pearson相关分析。

效标效度为量表分数足以反映金标准的程度，在COSMIN指南中，只有原版的量表可以作为新研发的“简短版”量表的金标准，其余新研发量表与常用量表或其他工具的比较均按照“结构效度的假设检验”流程处理〔10〕。

反应度是量表检测分值随时间变化的能力，分为效标法，如与金标准比较和结构法，包括结构效度的假设检验、其他量表的结果比较、不同亚组间的比较以及干预前后的比较。因此反应度的部分评价标准与效标效度、结构效度的假设检验相似。而反应度与效标效度、结构效度的假设检验的不同之处在于反应度检测的是不同时间点分数的差值，而效标效度、结构效度的假设检验检测的是单个的分值〔10〕。

测量误差是指测量分数的系统及随机误差，测量指标包括标准测量误差(SEM)和最小可测变化值(MDC)〔10〕。例如，用量表对被试者前后两次测量，计算SEM和MDC，若MDC大于SEM，则说明量表分值的变化是真实的，不是由系统误差造成。

跨文化效度(测量稳定性)是指经过翻译或文化调适的量表能足以反映原版量表结构的程度〔10〕。即经过跨文化调适的量表结构是否与原版量表的结构相符，因此，跨文化效度需要在跨文化调适的基础上测量量表的结构效度〔10〕。理想的量表在不同群体测量时，结构应具有稳定性。例如测量中文版及英文版电子健康素养量表的跨文化效度或测量稳定性时，可选择中文组和英文组2组人群进行测试，对比2组人群中量表的结构有无差异。2组样本除语言的差异外，其他特征(如年龄、性别、年龄特征)应相似；分析结构效度时，建议采用验证性因子分析，理想的样本量应达到每组200例以上〔10〕。

综上所述，由于缺乏充分的内容效度研究，按照COSMIN指南，目前没有可供推荐的电子健康素养量表。而在本研究纳入的电子健康素养量表中，m-eHEALS使用了验证性因子分析测量量表结构效度，分析过程详细；结构效度的各项指标符合测量特征评价标准，每个亚量表的Cronbach α系数均≥0.7，因此其结构效度和内部一致性均评为+(充分)；综合研究的方法学质量、研发人群与使用人群的一致性、测量特征评价结果的一致性三方面来看，m-eHEALS研究方法学质量高，研发人群与使用人群一致、评价结果一致。因此，基于目前可用的研究证据，m-eHEALS为测量特征最优的量表，而其他测量特征，如重测信度、内容效度有待进一步验证。eHEALs汉化版是使用最广的电子健康素养量表，但由于其缺乏内容效度研究、研究方法学质量不确定、结构效度不一致、研发人群与使用人群不一致，需要进一步相关的研究提供更充分的研究证据。今后应重视内容效度的研究，从条目的“相关性”、“理解性”、“全面性”几方面对内容效度进行评定，给出内容效度测量的详细过程；重视研究方法学质量，如进行内部一致性检验前应先明确量表的结构效度，并给出每个亚量表的内部一致性指标；对统计学方法的描述尽量详尽。

COSMIN 操作指南对中文版电子健康素养量表的评价

1 资料和方法

2 结 果

3 讨 论

2 结果

3 讨论