FOUR量表评估意识障碍病人院内死亡预测效度的Meta分析

2022-11-07 09:25彭小玉肖菊花景奕瑄张慧霞

循证护理 2022年21期

袁欢，彭小玉，肖菊花，景奕瑄，张慧霞

1.湖南中医药大学护理学院，湖南 410208；2.湖南省中医药研究院附属医院

意识障碍(disorders of consciousness，DOC)由中枢神经系统受损导致个体感知能力出现障碍的一种神经系统疾病[1]。临床上根据评估病人的意识障碍程度来确定可行性治疗，医务人员通过量表评估病人并调整治疗措施，从而促进病人意识恢复。据调查，美国每年意识障碍病人的总数约42万例，我国每年新增意识障碍病人约10万例[2]。研究表明长期处于意识障碍的病人容易并发肺部感染、肺积水、阵发性交感神经兴奋等并发症，导致治疗周期延长，医疗资源消耗增加，因此尽早评估意识障碍有利于病人预后，减轻医疗负担[3]。目前在临床上应用的意识障碍评估量表有格拉斯哥昏迷评分(Glasgow Coma Scale，GCS)、格拉斯哥匹兹堡昏迷评分(Glasgow-Pittsburgh Come Scale，GCS-P)、全面无反应性量表(Full Outline of UnResponsiveness Score，FOUR)、反应水平量表(Reaction Level Scale，RLS)等。最常使用的评估量表是GCS量表，但是随着疾病发展多元化，而GCS无法评估语言反应，因此建立人工气道的病人在语言功能上存在明显的盲区，为了弥补GCS的缺点，FOUR量表被发明出来后逐渐在临床上应用。陶鹏飞[4]的研究表明FOUR量表拥有略高于经典权威GCS评分的可信度和有效性,唐秋月等[5]也得到相似的结论，对于脑卒中合并意识障碍病人的预后恢复情况，FOUR量表预测的准确性以及辨别力可能更好。目前，已有多项前瞻性研究评估了FOUR量表在意识障碍中的预测价值，但由于纳入研究对象、样本量、量表临界值等不同，研究结果也不尽相同。此外数据库中没有关于FOUR量表的诊断Meta分析，与刘振兴等[6]在2018年发表的Meta分析相比，本研究检索时间跨度更长，病人数量更大、纳入的前瞻队列研究更多，其结果更具有说服性。本研究通过使用MetaDisc 1.4软件对大量数据进行Meta分析，以评估FOUR量表对意识障碍病人院内死亡预测的有效性，以期为临床工作者选择有效的意识障碍评估工具提供依据。

1 资料与方法

1.1 文献检索

计算机检索中国知网(CNKI)、万方数据库(WanFang Database)、中国生物医学文献服务系统(SinoMed)、中国生物医学文献数据库(CBM)、PubMed、MedLine Complete、the Cochrane Library数据库,检索时间为建库至2022年2月1日，无语言限制，也包括未出版的灰色文献，其检索网站为http://www.opengrey.eu/。中文检索词为：全面无反应性量表、意识障碍、昏迷、危险评估、诊断、预测。英文检索词为：Full Outline of UnResponsiveness score、consciousness、coma、risk assessment、diagnosis、predictive,并通过手工检索和文献溯源以避免文献漏检。

1.2 文献纳入和排除标准

1.2.1 纳入标准

①研究对象：出现意识障碍的病人，无病种、年龄限制；②干预措施：使用FOUR量表进行评估；③结局指标：院内死亡率；④研究类型：前瞻性队列研究，意识障碍中有明确的分级和界定标准，总分为0～16分；⑤观察指标：敏感度、特异度、阳性似然比、阴性似然比、诊断比值比和总受试者工作特征(summary receiver operating characteristic，SROC)曲线下面积(area under curve，AUC)。

1.2.2 排除标准

横断面研究、动物实验研究、文献综述、重复的研究、方法学不全的研究、数据资料不全的研究以及无法提取四格表数据的研究。

1.3 资料提取

由2名研究者根据纳入和排除标准独立地对文献进行筛选、提取然后汇总。如遇不同意见交由第3名研究者评判，遵从少数服从多数原则。资料提取包括作者、研究国家(地区)、研究时间、纳入研究对象的年龄、性别、院内死亡例数、样本量、FOUR量表的临界值以及FOUR量表预测的结局指标敏感度、特异度、真阴性数(true negative，TN)、真阳性数(true positive，TP)、假阴性数(false negative，FN)、假阳性数(false positive，FP)，必要时通过邮箱联系作者获得数据。

1.4 文献质量评价

由2名评价者根据诊断性研究质量评价工具的评价标准对纳入的文献进行质量评价。本研究采用的评价工具是Quality Assessment of Diagnostic Accuracy Studies-2(QUADAS-2)，其包括病例选择、待评价的诊断试验、金标准、病例流程和诊断实验与金标准间隔的时间。每个条目对应的评价为“是”“不清楚”“否”。在偏倚风险层次为“高”“低”“不清楚”。由2名评价者对纳入的文献逐条进行评价，如遇不同意见则由第3方介入，遵从少数服从多数原则。本研究所纳入的文献质量均较高，无剔除的文献。

1.5 统计学分析

对纳入文献进行数据提取，构建2×2四格表，并采用 MetaDisc 1.4软件进行Meta分析。通过I2检验评估异质性，以P<0.05为差异有统计学意义。当I2<25%表示研究间存在低度异质性；I2在25%～70%则研究间存在中等程度异质性；I2>70%则研究间存在高度异质性[7]。根据异质性检验结果选择随机效应模型或固定效应模型(I2<50%采用固定效应模型，I2≥50%采用随机效应模型)，根据异质性结果来确定是否存在阈值效应，计算灵敏度对数与(1-特异度)对数的Spearman相关系数评估阈值效应，如不存在阈值效应，则提取类别进行亚组分析并探讨异质性的来源。最后合并效应值，包括敏感性、特异性、合并阳性似然比、合并阴性似然比、诊断比值比及各自的95%置信区间(CI)。绘制SROC曲线并计算AUC的面积(0.5

2 结果

2.1 文献检索结果

初步检索到1 615篇相关文献，经过逐项阅读文献题目、摘要或全文，排除重复发表、综述、不符合纳入标准、无法提取四格表的研究，最终纳入23篇文献[9-31]，均为前瞻性研究。其中20篇英文文献，3篇中文文献，共纳入病例2 531例。文献筛选流程图及结果见图1。

图1 文献筛选流程及结果

2.2 纳入文献的基本特征(见表1)

表1 纳入文献的基本特征

2.3 纳入文献的质量风险评价

使用QUADAS-2工具对文献质量进行评价，通过RevMan 5.3软件进行偏倚分析，见图2。

图2 文献质量风险评价比例图

2.4 Meta分析

结果显示,应用FOUR量表预测院内死亡率敏感度的23篇研究间存在中度异质性(I2=68.2%，P<0.000 1)，故采用随机效应模型。结果显示：合并敏感度为0.80[95%CI(0.76,0.83)],见图3。应用FOUR量表预测院内死亡率合并特异度为0.84[95%CI(0.83，0.86)]，见图4。应用FOUR量表预测院内死亡率合并阳性似然比为4.97[95%CI(4.04,6.12)],见图5。应用FOUR量表预测院内死亡率合并阴性似然比为0.24[95%CI(0.19,0.31)],见图6。应用FOUR量表预测院内死亡率合并诊断比值比为23.82[95%CI(17.06,33.26)],见图7。SROC曲线下面积AUC为0.90(SE为0.01),见图8。

图3 FOUR量表预测院内死亡率的合并敏感度森林图

图4 FOUR量表预测院内死亡率的合并特异度森林图

图5 FOUR量表预测院内死亡率的合并阳性似然比森林图

图6 FOUR量表预测院内死亡率的合并阴性似然比森林图

图7 FOUR量表预测院内死亡率的合并诊断比值比森林图

图8 FOUR量表预测院内死亡率的SROC曲线

2.5 敏感性分析

根据合并敏感度、特异度、阳性似然比、阴性似然比的分析结果将敏感性差异较大的研究[15，22，26，28]剔除后再进行Meta分析，敏感性不变，说明纳入文献的稳定性较好，但是异质性明显降低，说明文献的异质性很大程度来源于这4篇研究间的差异。见图9。

图9 去除4项差异较大研究后合并敏感度森林图

2.6 异质性分析

根据数据分析显示23项研究间存在中度异质性。此外，研究表明阈值效应不是引起该研究异质性的主要原因(r=0.262<0.6即不存在阈值效应)，这可能与未达到最佳样本量有关。结果表明，异质性可能来源于研究对象间差异，由于疾病的特殊性，出现意识障碍多见于重症病人，除了无法获取数据的病人，只要符合纳入标准几乎全部纳入，同时也不存在不适当的排除标准。所有病人都使用FOUR量表，没有干预方式的差异，因此来源于临床异质性的原因较低。另外，所有研究均采用前瞻性队列研究，因果证明关系较可靠，根据结局指标显示不需要随访，因此异质性来源于方法学可能性也不高。但是，各研究间还是存在发表偏倚风险，因为病人无意识，无法接受一个相同的金标准，此外，由于样本量偏少，也可能存在结果的偶然性。

3 讨论

3.1 FOUR量表应用的意义

意识是一种动态过程，唤醒和意识的相对组成部分可能在短时间内波动，而意识障碍病人无法说出自身疾病的变化，因此，医务人员及时评估病人的病情变化极为重要[32]。现如今有很多医疗器械可以评估病人意识变化，如神经电生理技术、诱发电位、脑成像技术，但是，昏迷量表作为快捷和最简便的基础评价工具，在各项诊疗基础上是不可替代的。在昏迷量表评估中使用最多的是GCS，以熟悉性占有统治优势，但是实际上，GCS暴露的缺点越来越无法忽视，FOUR量表作为一种新的评估量表，弥补了GCS的缺点。但是关于这2种评分系统中哪一个具有最佳预测价值仍然存在冲突。其中在远程医疗评估中GCS的表现优于FOUR量表[33]，这与之前的面对面评估相反，这可能与机器人远程医疗采用了高清摄像头、变焦和平移-俯仰技术，并调整了环境照明条件有关，然而事实证明，远程判断脑干，尤其是瞳孔反应是具有一定挑战性的。但是总的来说远程医疗评估可用于改善危重病人的早期评估的缺陷，消除不确定性并帮助建立远程医疗昏迷评估。但是也有研究表明FOUR量表在评估脑死亡前期更为准确，研究指出使用FOUR量表和GCS评估脑死亡前期都是可行的，但是FOUR量表可能更为有效，因为FOUR量表结合了瞳孔、角膜和咳嗽反射，因此更容易评估病人的自主呼吸[26]。根据大量文献显示FOUR量表已经应用于脑卒中、自发性蛛网膜下腔出血、肝性脑病等疾病领域中，且对儿童的意识障碍评估同样有效。此外，对于预测院内死亡的临界值也存在众多争议，但是本研究通过数据分析得出临界值不是引起阈值效应的直接因素。陈璇等[14]认为FOUR量表评估院内死亡的最佳临界值为7分，并且大多数研究也将7分作为评估院内死亡的临界值，但是在Marcati等[13]研究中将10分作为院内死亡的临界值，并且其敏感性和特异性分别为91%和86%,对比将7分作为临界值的其他研究的敏感性和特异性都比较高，这可能与Marcati等[13]的研究样本量较少，且未考虑评估者间一致性有关，因为该研究只有医生进行评估，在意大利只有医生拥有评估法律价值，而其他研究考虑了评估者间一致性，因此具有差异性。综上所述，本研究对23篇文献中2 531例病人进行了Meta分析，以确定FOUR量表对意识障碍病人院内死亡危险预测的有效性。结果显示FOUR量表对意识障碍的预测合并敏感度为0.80，合并特异度为0.84，AUC为0.90，提示FOUR评估量表预测院内死亡的有效性较强，具有较强的诊断意义。

3.2 敏感性分析

剔除4篇较大差异的文献后敏感性无明显降低，但是异质性由原来的68.2%下降至27.1%。分析后得出，首先与Chen等[15]研究对象的疾病严重程度有关，该研究共纳入101例病人，其中80例病人都存在严重的创伤性脑损伤，表明FOUR量表在预测微弱神经状态效果更佳，因此预测严重意识障碍病人效能更强。其次，该研究将4分作为预测院内死亡的临界值，与其他研究中的临界值相差较大，说明预测院内死亡率可能还与临界值有关。Saika等[22]的研究对象也是较少的轻微创伤性脑损伤病人，并且纳入对象只为ICU病人，存在较大的发表偏倚，此外，该研究并没有考虑评估者间的一致性，表明这些均是影响FOUR量表评估意识障碍病人的因素。Zappa等[26]的研究对象也是脑损伤病人，并且都在ICU住院超过24 h，研究对象意识障碍程度也较重，此外，该研究对象样本偏少，只有40例，也存在较大的发表偏倚。Hosseini等[25]的研究中考虑了评估者间的一致性，结果显示预测院内死亡的敏感性为100%，但是FOUR量表预测院内死亡的特异性仅为62%，但是FOUR量表预测不良结局的特异性为92%，表明FOUR量表在区分病人存活的能力较低，区分不良结局的能力较强。

3.3 文献质量分析

根据RevMan 5.3软件进行偏倚分析显示本研究纳入的文献质量均较高，这可能与纳入的研究均为前瞻性研究，其次与评估者都是具有一定年限的医务人员有关，同时FOUR量表可以明显区分病人的意识状态，可靠性较强。但由于纳入的文献样本量不够多，这与疾病种类和无法获取研究对象的资料有关，由于研究对象的特殊性，有的研究未严格按照非随机对照试验设计，因此对结果会产生一定的偏倚。

4 小结

因本研究纳入的各研究间存在不同程度的异质性，在一定程度上说明FOUR量表作为单独指标对意识障碍病人的预测有效性还存在一定的局限性。尽管研究发现FOUR量表在预测院内死亡显示出较强的敏感性和特异性，并且可以通过应用于不同的研究对象来提高其预测的有效性。但也不能一味地尊崇新出现的评估量表，在不同病人、不同情况上应该合理地选择有效的评估量表，同时临床护理人员要积极尝试评价意识障碍病人的评估工具，以期为病人提供更有效的优质护理服务，改善现有意识障碍风险评估工具的不足。