周历活动规划中文版在社区中老年人执行功能评测中的信度和效度

2021-07-05 07:23周兆雯王翠黄真

中国康复理论与实践 2021年6期

周兆雯，王翠，黄真

北京大学第一医院康复医学科，北京市100034

自2001 年起，我国进入老龄化社会，到2019 年，我国65 岁及以上人口已达1.76 亿[1]。随着年龄增长，认知功能常出现下降[2]。West[3]研究发现，老年人大脑结构的改变最早发生在前额叶皮层，基于该发现，West提出认知老化机制，即认知老化的额叶假说，也称执行衰退假说。该假说认为，相对于其他一般认知功能，执行功能随年龄增长衰退更快，并且是引起人们日常认知功能(记忆、推理、视空间能力)衰退的主要原因[3]。使用脑成像技术或行为学测试进行的执行功能研究进一步支持此假说[2]。

执行功能由一组相互关联的能力组成，包括工作记忆、语言流畅性、计划和任务协调、分配注意力和抑制性控制[4]等，能够协调认知控制、指导目标导向行为[5]。然而，随着年龄的增长，执行功能会出现下降[5-6]。当出现执行功能障碍时，中老年人在烹饪、服药、财务管理等工具性日常生活活动(instrumental activity of daily living,IADL)中会出现障碍[7-8]，导致生活质量下降[9]。同时，执行功能障碍还是痴呆的早期预测因子[10]。中老年人在IADL 中表现出轻度功能受限，但仍可保持独立生活的这段时间是干预的关键时期[11]。因此，选择一种能早期筛查并准确、有效评价中老年人执行功能的评估工具尤为重要。

在执行功能的评估中，临床上常用神经心理学测试[12]和自评量表[13]，但这两种评估工具在评估执行功能时都有一定的局限性。神经心理学测试能够提示执行功能单一或几个亚成分的情况，但不能很好地预测生活中的复杂任务表现和功能，生态效度较低[14]。Naomi 等[15]发现，神经心理学测试，如连线试验(Trail Making Test,TMT)、威斯康星卡片分类测试(Wisconsin Card Sorting Test,WCST)、Stroop 测试等，仅能解释日常生活中18%～20%执行功能的变异。自评量表能够反映日常生活中个体主观感受到的执行功能情况[16]，但容易受到反应偏差、心理因素和自我意识的影响[13,17]。而且，对行为的自我评价本身就需要良好的执行功能，当执行功能受损时，受试者更容易低估自己的功能障碍[18]。

基于表现的测试(performance-based test,PBT)是近年作业治疗执行功能评估领域的研究热点。基于表现的测试通过直接观察受试者完成具有高认知需求的IADL 的过程，对其作业表现(occupational performance)进行评分，进而评估执行功能[19]。作业表现是个体在环境中参与目的性活动或任务的动态体验，是人、环境和作业活动互相作用的结果[20]。在作业治疗领域，日常生活活动分为基本日常生活活动(basic activity of daily living,BADL)和IADL。BADL 指与自我照顾相关的活动，如吃饭、洗漱；IADL 指与家庭和社区相关的日常生活活动，如购物、打电话，IADL对认知功能有更高的需求[21]。PBT 使用具有高认知需求的IADL 进行评估，将环境因素、个人情境结合起来，能够反映受试者在实际生活中的执行功能情况，避免神经心理学测试和自评量表带来的偏倚[19]。

由美国默西大学Toglia 教授[22]创制的周历活动规划(Weekly Calendar Activity Planning,WCPA)是一种新研发的基于表现的执行功能评估工具，主要用于评价认知能力中的执行功能，可用于认知康复领域。在WCPA 中，评估者通过观察和记录受试者填写周历这项IADL 的作业表现，评估受试者的执行功能[22]。同时，创制者还将填写周历这项IADL 增加了规则和约束，使之变得更具有认知挑战性，能使个体更好地调动执行功能完成该任务，有利于评估执行功能[22]。WCPA 是标准化的执行功能评估工具，有专门的评估手册，详细介绍评估材料、评估流程、评测指标的含义、评分标准等[22]。作为国际上公认的执行功能评估工具，WCPA 已被应用于评估多发性硬化、遗传性全身性癫痫、注意缺陷多动障碍等患者的执行功能，进行了评估者间信度、重测信度、区分效度、效标效度研究[23-26]，并在美国建立了各年龄段正常人群的常模[22]。WCPA 适用于轻度执行功能障碍的人群，可以评估受试者在完成多步骤任务时的执行功能情况，如计划、抑制、记忆、解决问题、策略使用、遵守规则、排除干扰的能力[22]。与其他执行功能评估工具相比，WCPA 能够测量日常环境下的执行功能，有良好的生态学效度和临床适用性[23]，能够提供客观的分数，以及关于执行功能的表现和质量等多方面信息[22]。WCPA 不仅能够提供客观的分数，以量化执行功能，还可以提供关于执行功能的表现和质量等多方面信息，如策略使用信息等，为个性化的临床干预提供指导，可作为现有的执行功能评估工具的补充[22]。

WCPA于2019年由北京大学第一医院康复医学科引进并汉化[27]，形成周历活动规划中文版(Chinese Version of Weekly Calendar Activity Planning,WCPAC)，并验证了其在我国健康大学生人群中的信度。鉴于中老年人执行功能演化的特殊性及其重要性，本研究旨在探究WCPA-C 在社区中老年人中的重测信度和区分效度。

1 对象与方法

1.1 研究对象

采用便利取样法，于2020 年7 月至8 月在广东省广州市招募中老年人作为研究对象。

纳入标准：①根据WCPA-C 中的年龄组划分，中老年受试者40～94 岁；②居住在广东省广州市社区，生活独立；③对本实验知情同意，并签署知情同意书。

排除标准：①有中枢神经系统疾病或精神疾病史，或患有其他可导致认知功能障碍的疾病；②由于听力、视力、肢体活动障碍(影响执笔或操作)或其他原因不能配合完成评估。

共招募社区中老年受试者55 例，其中男性27 例(49.09%)，女性28 例(50.91%)；年龄41～89 岁，平均(61.6±11.8)岁；受教育年限3～17年，平均(8.53±3.31)年。

本研究已经北京大学第一医院伦理委员会批准(No.2020[107])。

1.2 研究工具

1.2.1WCPA-C

WCPA-C 是一种基于表现的测试，旨在通过观察受试者在规划一周安排时的表现，评估受试者的执行功能。评估过程中，受试者需要将安排清单上随机排列的17 项活动项目填入空白周历(图1)中。安排清单如下：

图1 空白周历

周四下午3:00体检(1小时)；

拜访亲戚，该亲戚只在周四下午2:30～4:00，或周一、周二下午1:00～2:30有空(1小时)；

打车：任意一天的上午九点和任意一天的下午三点(45分钟)；

周二当天下午2:00前和朋友视频通话(半小时)；

周一或周五下午2:00安排看医生(90分钟)；

周五上午9:00～10:30在社区做志愿服务；

周一、周三或周五在上午8:00 到下午4:00 之间去干洗店取衣服(半小时)；

周二下午1:00～2:00和朋友一起吃午饭；

周四或周五晚上和家人聚餐，6:30～8:00任意时间开始(2小时)；

周五之前买菜(1小时)；

周五或周六早上去公园锻炼45分钟；

在蛋糕店周二关门前去取蛋糕，蛋糕店营业时间为每天上午9:00到下午3:00(半小时)；

周四晚上7:00～11:00和朋友一起看电影；

周一上午11:00～12:00理发；

周四当天上午11:00前遛狗(半小时)；

周二中午12:00前打电话预订蛋糕。

安排清单上的某些活动项目的时间是固定的，而其他项目的时间是可选择的，因此，受试者需要做好计划，避免各项安排之间的时间冲突，并使用有效的策略以减少错误。同时，受试者还需要遵守5项规则：①周三或周二不填任何安排；②安排一旦填写不能随意改动；③任务开始后7 min 告知评估者；④测试过程中不回答评估者提出的问题；⑤完成后告知评估者。

评估期间，评估者观察并记录受试者的安排填写数(填入周历中的项目数)、准确数(准确填入的项目数)、总时间(完成任务的总时间)、计划时间(从开始到填入第一项安排的时间)、策略使用数(使用策略的数量，如圈出安排清单中的关键词、将已填入的安排从清单中划掉)、遵守规则数(遵守规则的数量)。安排填写数、准确数、策略使用数、遵守规则数越高，总时间、计划时间越少，执行功能越好[22]。

WCPA-C有3个难度等级(等级I、Ⅱ和Ⅲ)，适用于不同的人群。WCPA-C 的每个难度等级中包含两份安排项目清单(版本A 和B)，它们在部分项目名称和时间上稍有不同，但总体难度相同，可交替使用，目的是降低多次评估产生的练习效应[22]，即由于对先前同一评估内容产生了记忆，导致再次评估时结果有所改善[28]。本研究选用应用最广泛的等级Ⅱ进行评估，该难度等级适用于中年人和老年人。

1.2.2蒙特利尔认知评估量表(Montreal Cognitive Assessment,MoCA)

MoCA 由Nasreddine 编制，是专用于轻度认知功能障碍(mild cognitive impairment,MCI)的筛查工具，包括视空间及执行能力、命名、记忆力、注意力、语言流畅性、抽象思维、延迟记忆、定向力等8 个认知方面的评估，共计30 分[29]。如果受试者受教育年限＜12 年，在总分上加1 分以校正文化程度的偏倚。得分＜26 分为MCI，得分≥26 分为认知功能正常，得分越高，认知功能越好。

1.3 研究方法

评估前，评估者接受经验丰富的作业治疗师的培训，并通过考核。评估在安静不被打扰的环境中进行，除评估者和受试者外无其他人在场。评估者使用标准指导语，按照标准流程进行评估。

1.3.1重测信度研究

使用WCPA-C 对30 例受试者进行评估，首次评估使用版本A，在间隔2 周和4 周后由同一位评估者对受试者再次评估，分别使用版本B 和版本A。计算组内相关系数(intraclass correlation coefficient,ICC)。

1.3.2区分效度

将55 例受试者根据MoCA 得分进行分组，MoCA＜26 分为MCI 组(n=37)，MoCA≥26 分为认知正常(normal cognition,NC)组(n=18)。比较两组WCPA-C在首次评估中各项目结果。

1.4 统计学分析

采用SPSS 26.0 统计软件对数据进行统计分析。本研究中的计量资料多为偏态分布，所以采用M(QU,QL)进行描述；计数资料以百分率表示。计算ICC值以检验重测信度，ICC 值≥0.80 为信度高，0.60～＜0.80为信度好，0.40～＜0.60 为信度中等，＜0.40 为信度较差。3 次评估比较使用Friedman 检验，显著性水平α=0.05；进一步进行两两组间比较，采用Post-Hoc检验，显著性水平经Bonferroni 校正，显著性水平α=0.017。MCI 组和NC 组之间的WCPA-C 比较使用曼-惠特尼U检验，显著性水平α=0.05。

2 结果

共26 例受试者完成3 次评估，4 例在末次评估时失访。

2.1 WCPA-C

遵守规则数在3 次评估间有显著性差异(P＜0.05)，其他指标在3 次评估间无显著性差异(P＞0.05)。遵守规则数两两比较均无显著性差异(P＞0.017)。见表1。

表1 社区中老年人WCPA-C 3次评估结果比较(n=26)

2.2 重测信度

除计划时间外，其他指标的ICC 值均有统计学意义(P＜0.05)。第1、2 次评估的ICC 值为0.43～0.78，重测信度中等到好；第2、3 次评估，ICC 值为0.50～0.80，重测信度为中等到高。见表2。

表2 社区老年人WCPA-C 3次评估间的ICC值(n=26)

2.3 区分效度

WCPA-C 各项指标中，MCI 组和NC 组总时间和计划时间无显著性差异(P＞0.05)；MCI 组安排填写数、准确数、策略使用数和遵守规则数均少于NC 组(P＜0.05)。见表3。

表3 MCI组与NC组WCPA-C结果比较

3 讨论

WCPA 的理论基础是认知的动态互动模型[30]。该模型关注个人情境、自我觉察和策略使用之间的关系，并结合活动的需求及环境来了解个体的功能性认知，即完成日常活动所需的认知功能。在作业治疗中，对功能性认知的评估比特定的认知功能成分的评估更重要，因为功能性认知是完成IADL 和保持独立性的基础[31]。与着重于识别认知功能中特定缺陷的神经心理学测试和自评量表相比，基于动态互动模型的WCPA 更强调分析受试者的错误模式、策略实施、自我监控和自我觉察能力，从而了解其功能性认知情况[32]。

WCPA 的信度和效度在国内外研究中已有所报道。怀宝玉等[27]对在读大学生进行了组内和组间信度检验，其中组内信度ICC 值为0.45～0.89，信度中等到高；组间信度ICC 值为0.84～1.00，信度高。Holmqvist 等[32]对精神疾病、神经发育障碍、轻度智力障碍及执行功能障碍患者进行间隔两周的3 次测试，第1 次与第2 次测试间的ICC 值为0.42～0.66，信度中等至好，第2 次与第3 次测试间的ICC 值为0.65～0.91，信度好至高。效标效度研究中，针对遗传性全身性癫痫的青少年，采用执行功能行为评定量表家长问卷作为效标，其元认知指数及总分与WCPA 得分具有显著相关性，rs分别为-0.41 (P＜0.05)和-0.39 (P＜0.05)[24]。WCPA 弥补了传统心理学测试的不足，在评估执行功能时有其独特优势。本研究使用WCPA-C 评估社区中老年人的执行功能，探究其重测信度和区分效度。

3.1 重测信度

本研究结果显示，除计划时间外，WCPA-C 第1、2 次评估间ICC 值为0.43～0.78，第2、3 次评估间ICC值为0.50～0.80，均大于0.40，提示WCPA-C 有较高的重测信度。在重测信度研究中，一般ICC 值达到0.7以上时，认为该指标具有稳定性[33]。在本研究中，准确数和策略使用数在第1、2 次和第2、3 次评估之间ICC均大于0.7，说明这两项指标有较高的信度。

计划时间在第1、2 次和第2、3 次评估间的ICC值均无统计学意义，说明该指标稳定性较差。计划时间容易受情景因素及个人因素的影响，如受试者在面对任务时采取的策略、认知风格、性格、经验和文化背景[22]。因此，在WCPA-C 中，计划时间需结合评估中对受试者表现的观察进行分析。有些受试者在评估开始后直接开始填入安排，计划时间较短，填入一项后才发现各项安排间可能有时间冲突，再停下来思考；有些受试者在填入前先打草稿，计划时间较长。在这种情况下，观察到受试者停下来思考、使用策略等信息比计划时间更重要。有学者提出计划时间的另一种算法，即从任务开始至填入第二项安排的时间[22]，下一步研究中可验证使用该算法计算计划时间的信度。

在本研究中，总时间在第1、2 次评估间信度好，在第2、3次评估间信度中等，表示信度出现下降。在重测时，不同受试者对于周历任务可能会采取不同的应对方式，从而导致总时间的稳定性下降。部分受试者在前两次评估后对评估内容和策略有所了解，在完成周历时速度加快，总时间减少；另一部分受试者在重测时意识到了在前两次评估时未发现的情况，如安排之间时间冲突、周六日顺序颠倒等，需要花更多的时间应对这些干扰因素，总时间增加。

遵守规则数的重测信度在第2、3次评估时高于第2、3次评估，由中等上升至好，说明遵守规则数在第2、3 次评估时更稳定。可能原因为，在第1 次评估中，周历活动对于受试者是一项全新的任务，而在第2 次评估时，受试者已经对评估内容有所了解，这样的预理解可能会对第2 次评估的表现产生影响[32]。因此，第1、2 次评估间的结果不太稳定。这可能是第2、3 次评估间遵守规则数重测信度优于第1、2 次的原因。

在重测信度研究中，受试者的得分主要受测量误差和练习效应的影响，练习效应的出现可能是因为受试者变得更加熟悉测试环境、记住了测试项目或者学会了完成任务的有效策略，与记忆和策略的使用能力有关[34]。在怀宝玉等[27]对在读大学生的研究中，大学生重测时的准确数、总时间、效率、遵守规则数均优于初测，两次评估间有明显的练习效应。Holmqvist等[32]对精神疾病、神经发育障碍、轻度智力障碍及执行功能障碍患者，以两周为间隔，进行3 次测试，仅第1次与第3次评估的准确数有显著性差异，第3次明显好于第1 次，相邻的两次评估间各项指标没有统计学差异，说明可能存在练习效应，但仍需进一步证明。基于上述研究，本研究对中老年人群进行3 次评估，旨在探究中老年人在3 次重复评估中是否存在练习效应，及练习效应在3 次评估间的变化趋势。结果发现，3 次评估间得分差异无统计学意义，表明以两周为间隔时，中老年人在WCPA-C 评估中的练习效应不显著。这也说明，中老年人在WCPA 评估中的练习效应不如大学生明显，侧面反映中老年人在记忆和策略使用能力方面不及大学生。在本研究中，尽管能够观察到受试者在评估间调整了完成周历的方式，但练习效应并没有在得分的变化上得到证实，下一步可结合定性研究的方法对WCPA-C的练习效应进行研究。

基于以上分析，在评价社区中老年人执行功能的变化时，可以两周为间隔进行重测。其中，准确数和策略使用数较稳定，当准确数或策略使用数发生变化时，更能说明执行功能发生了变化。计划时间较不稳定，使用时需结合评估中对表现的观察进行分析。

3.2 区分效度

在本研究中，MCI组的安排填写数、准确数、策略使用数、遵守规则数少于NC 组，说明两组完成WCPA-C 的表现有显著性差异，WCPA-C 能够有效区分轻度认知功能障碍的中老年人。两组受试者完成评估的总时间和计划时间差异无统计学意义，不建议单独使用总时间和计划时间判断中老年人是否存在认知功能障碍，应结合其他指标及评估中的观察进行分析。

MCI组的计划时间比NC组长，但无显著性差异。原因可能如下：本研究样本量较小，可能未能检验出两组计划时间的差异；计划时间个体差异性较大，易受到个人因素和情景因素的影响。在评估过程中观察到，MCI组中部分受试者没有意识到各项安排间的时间冲突，直接填入安排，计划时间较短；部分受试者启动能力受限，无法开始填写周历，计划时间较长。NC 组中，部分受试者在填入前使用打草稿、分类等策略，计划时间较长；部分受试者识别出安排清单中的固定时间安排，计划时间较短。因此，在两组中均存在计划时间长短不一现象。

然而，Lahav 等[35]使用WCPA 等级Ⅱ的简化版本(仅保留10个活动项目)对65岁以上的老年人群进行评估，以MoCA 总分26 分为界值，将其分为MCI 组与NC 组，发现两组的计划时间有显著差异，MCI 组的计划时间更短。因此，Lahav 等认为，计划时间长是NC 组为了提高准确数而采取的策略。Toglia[22]认为，计划时间受到多种因素影响，应结合受试者在评估中的表现、个人因素、情景因素进行综合分析。本研究与Lahav 等的研究结果不相符，可能原因为，本研究与Lahav 等研究使用的WCPA 版本和受试者的年龄分布、文化背景有差别。本研究使用WCPA-C 等级Ⅱ中的完整版本(共17 个活动项目)，样本为中国中老年人，平均年龄为(61.6±11.8)岁；Lahav 等研究中使用WCPA 等级Ⅱ的简化版本(共10 个活动项目)，样本为以色列老年人，平均年龄为(73.4±3.2)岁。Toglia 等[5]的研究中已证明，年龄和文化背景均为WCPA 表现的影响因素。由于计划时间的个体差异性较大，其在MCI 组和NC 组中是否有差异，WCPA 版本、受试者年龄和文化背景是否影响计划时间，尚需扩大样本量进一步验证。

执行功能障碍在MCI 的早期便出现[36]，也是痴呆的早期症状[2]，因此对其积极干预有重要的意义。本研究结果表明，WCPA-C 在社区中老年人中对MCI具有良好的区分效度。因此，WCPA-C 用于评估社区中老年人的执行功能，能帮助早期识别具有认知功能障碍风险的个体，并且有望通过及早干预，预防或延缓痴呆的发生[2]。

综上所述，WCPA-C 具有中等至高的重测信度和良好的区分效度，适用于我国中老年人执行功能的评估。本研究不足在于样本量较少，下一步可扩大样本量，进一步验证WCPA-C 的信度和效度，并采用随机抽样的方法，建立WCPA 在中国健康人群中的常模，为临床应用WCPA进行执行功能评估提供参考。

利益冲突声明：所有作者声明不存在利益冲突。