Meta分析中二分类数据效应量的选取

2016-08-19 07:25付文杰吴君怡许杨鹏张倩张欢吴迪张超

中国循证心血管医学杂志 2016年1期

付文杰，吴君怡，许杨鹏，张倩，张欢，吴迪，张超

Meta分析中二分类数据效应量的选取

付文杰1，2，吴君怡1，2，许杨鹏1，2，张倩1，2，张欢1，2，吴迪1，2，张超1

目的基于实例研究，探讨Meta分析中二分类数据最佳效应量的选取。方法通过系统回顾551篇系统评价及114篇Meta分析，对比值比（OR）、危险差（RD）、相对获益危险度［RR（B）］及相对有害危险度［RR（H）］4个效应指标进行分析比较。结果经系统回顾551篇Meta所提供的证据显示：在表示结果优越性方面上，RR与OR较RD具有更好功效；同时，与RR相比，OR可能会夸大Meta分析定量的合并结果，甚至产生定性上的不一致。来自于114篇Meta分析结果分析表明，对于预防不良事件的干预试验，基线风险发生率越大绝对获益功效越大，此时应优选RR（H）。结论效应量的选取需要综合考虑基线风险变化原因、效应量可解释性及其数学特性等多方面因素，对于特殊情形下，临床试验特征也是作为效应量选取因素之一。

Meta分析；效应量；基线风险；二分类数据

Meta分析是对具有相同试验特征且相互独立的多个研究结果进行系统性综合评价及定量分析的一种研究方法。来自Meta分析的证据通常采用相应的效应量表示。不同的学者针对二分类变量Meta分析合并统计量的选取，仍存在一定争议，其主要表现为：①效应的一致性［1］；②结果解释的难度［2，3］；③数学特性［4，5］。只有综合考虑多方面因素，所选择的效应量才能更精确的显示Meta分析的结果。作者已就基线风险变化对二分类数据效应量的选取问题作了相关阐述，然而对于最佳效应量的选取除了结合经验证据和临床资料特征外，还需考虑基线风险对绝对获益效应量模型的影响。因此，本研究旨在于全面深入探讨二分类各效应量的意义，以期为合理择选最佳效应量作一概述。

1 经验证据的一致性

1.1OR、RR、RD效应量的比较有实证调查显示大样本的Meta分析学派，可用于评估对比值比（OR），相对危险度（RR），危险差（RD）的一致性。1997年发表在Cochrane Library上的551篇文章中（每篇至少包含5个试验）通过大样本论述了上述结论［6，7］。Meta分析中RD、RR、OR数据处理均使用M-H法。RR是通过作者选取的一次研究中事件发生率计算得出。采用统计量Q检验整体试验一致性，并对分析中3个效应量的意义进行比较。

图1分别对RR与OR（图a），RR与RD（图b）的异质性检验P值进行了比较。在551篇Meta分析中，RR比OR异质性高（即QRR＞QOR）的仅182篇（33.0%）。基于10%的显著水平，其中仅有9篇（1.6%）Meta分析RR显示有异质性而OR未显示，和13篇（2.4%）Meta分析OR显示存在异质性而RR未显示。RR（4.99）的异质性中位数比OR（5.36）的低。

图1　分别对RR 与OR（a），RR与RD（b）的异质性检验P值进行比较（数据来源于Cochrane Library的551篇Meta分析，原文均使用RR进行分析。在对角线以下的点表示OR或RD的异质性大于RR的异质性。需要注意的是，坐标轴的刻度是反序的）

其中384篇（69.7%）Meta分析中RD的异质性要比RR的高（即QRD＞QOR）。有79篇（14.3%）具有统计学意义的Meta分析RD显示异质而RR显示同质，仅有10篇（1.8%）Meta分析RR存在显著异质性而RD未显示。

该研究RD得出一致性的效能较OR差（即QRD＞QOR）。在442篇（73.0%）Meta分析中异质性有所增加。70篇（12.7%）Meta分析中当OR显示为同质性时RD为显著异质性，仅有5篇（0.9%）当RD显示为同质性时OR为显著异质性。

研究发现OR和RR相对一致性的三个理论显示：

①当对照事件发生率极低时（有学者认为结局事件发生率≤10%时），RR和OR具有良好的一致性，RR或OR均可采用。其中对于某些发生率极低的结局事件，如不良反应或并发症，常推荐采用OR进行计算。当对照事件发生率增加时，OR夸大结果效应也会随之明显。在一定程度上，可能伴有结局性质的不一致。对于纳入研究中出现结局事件发生率为100%时，不宜选用OR。

②当对照事件发生率所在范围越大就有更大的检验效能，即可检验出OR、RR存在异质性。

③在疗效方面RR较OR（二者无效线均为1）能更好的检出异质性。如表1所示，OR与RR较RD具有更好的一致性。在疗效方面，相对效应量较绝对效应量更易得出一致性的结论，当纳入研究各随机对照试验人群的基线风险具有较好的一致性时，可以选择RD为效应量。当结局事件发生率为0或100%时，此时OR（或RR）不能计算或者为0，一般选择RD为效应量。

1.2事件转化为危险比的影响大多数卫生保健干预旨在降低不利结果或增加有利结果的发生。通常将干预类型分为预防性干预与治疗性干预。

表1　Meta分析的异质性汇总统计

参照研究［8］中的实例，其中分别为用抗生素根除幽门螺杆菌来治疗消化不良［9］，使用阿司匹林缓解疼痛［10］和拉莫三嗪减少癫痫发作［11］。这些干预的目的均为改善患者的状态。如果事件为患者被治愈或病情改善，则可以最直观地表示为有利结局的相对危险比［本文定义为RR（B）］。例如，RR（B）可以直观地指出，21%以上的消化不良患者在使用抗生素后痊愈，而7%以下的患者在治疗结束时仍为消化不良。选择RR（B）作为有利结局指标的潜在缺点是（a）当存在大量自发治疗（如同对照组所描述的事件发生率）时，观测者会过高的估计其疗效（b）当基线响应率为0的时候，绝对获益量也会局限为0。

预防性干预试验的参加者随着试验的进行，可能会出现患病，病情加重甚至死亡等情况。在使用疫苗预防脑膜炎［8］实例中，可直观地定义为不利结果的相对危险比［即RR（H）］。疫苗的功效被定义为通过接种疫苗防止患病的比例——在接种疫苗后可避免0.07%～93%的脑膜炎发生率。RR值为1.0003并不能直观地表示出试验组和对照组各自事件的发生率，甚至会掩盖真实的疫苗疗效。使用不利结局指标还意味着RR可能与有效性治疗无关。

在这两种情况下，使用RR（H）和RR（B）哪种与真实RR值更接近？目前，存在3种观点：

①当需直接观察结局利弊时，在治疗性干预中使用RR（B），在预防性干预中使用RR （H）；

②当存在结局最差而有最大获益时，RR （H）可以用于任何情况；

③当RR反映的至少有一个共同结局指标（事件或非事件），此时一致性最好。

在1998年～2000年间，第一次发表于Cochrane图书馆的114篇系统评价中，第一个结果指标（二分类变量）是由5个或5个以上试验合并而来。这些Meta分析根据干预类型分为预防性与治疗性，即结局指标根据是否符合期望分为有利结局和不利结局。

图2显示了114篇Meta分析的异质性检验的结果。其中有51篇没有显示显著异质性（P＞0.1），36篇有意义，8篇对于有利结果更一致，19篇对于不利结果（McNemar检验，P=0.05）更一致。

图2　分别对预防性干预试验的RR（B）与RR（H）（a），OR与RR（H）（b）以及治疗性干预实验的RR（B）与RR（H）（c），OR与RR（H）（d）进行异质性比较（数据来源于114篇Cochrane系统评价。各图对角线上方的点表示RR（H）的异质性较小。需要注意的是，坐标轴的刻度是反序的）

表2　Meta分析的异质性汇总结果及RR（B）与RR（H）

平均对照组的事件发生率与干预是预防或治疗相关：91%的预防性干预措施出现不良事件的发生率不到50%，在所有干预中，预后不良率超过80%为治疗性干预（表2）。

在治疗性和预防性的干预措施中，当不良事件发生率不到50%时，RR（H）显示更加一致。但当不良事件发生率大于50%时，该模式仍存在分歧。

2 拟合优度的考虑

2.1研究效应量中权重的变化参照研究中（表1）［8］阿司匹缓解急性疼痛的数据可发现，在四个统计量模型中，除了OR模型，其他模型均有显著异质性。图4（c）明确显示当对照组事件发生率很低时，OR并没有给出合适的预测。系统回顾中有8个零安慰剂反应的试验，均证明了乙酰氨基酚的显著疗效，然而这些实验的OR模型和RR（B）模型的预测值为0，得出了更为合理的预测值的RD模型和RR（H）模型却存在较大的异质性。

表3给出了系统回顾中10组对照组事件发生率较低试验的权重。这里有两种权重：一种是M-H法的加权百分比，它反应了在所有结果中每个点的影响力：另一种是倒方差法的绝对加权，它适用用于计算Cochrane异质性Q检验。

在M-H法中，当对照事件发生率过低时，OR模型和RR（B）模型给予非常小的权重，RD模型和RR（H）模型的权重远高于前两个模型的20倍。

然而在倒方差法中，不同统计量之间这种权重的差异要更极端， RD模型和RR（B）模型的权重比OR模型和RR（H）模型的权重高出了几个量级，这时计算Q值就会得到一个十分荒谬的结果。虽然RD模型和RR（B）模型比OR模型和RR （H）模型的预测值看起来更为合理，实际上，前者的拟合度远不如后者。

四个模型给予不同研究的权重存在显著的差异，因此不同模型间及不同研究间Q值的比较是混乱的，用Q值来判断模型的拟合度是否合理广受争议。有时候某个模型给出一个低的Q值，不是因为该模型对这组试验结果的预测更接近观察到的结果，而是因为它给了存在异常值的试验较低的权重，不论是在计算平均效应值还是拟合度方面。

2.2隐蔽的临床异质性来源虽然Meta分析的目的是计算干预效果，但在临床实际中治疗的有效性取决于多种因素而不仅是基线风险，如患者的特征等。系统回顾中有关异质性来源的探究可能会给出这些患者的分组，并提供每个患者的效应估计值。如果普遍采用具有最小异质性的统计量，那么理论上我们极易忽视某些重要的异质性来源，在系统综述试验中异质性来源和基线风险之间存在偶然关系，所以当仅使用某一种统计量进行分析时，这样的临床异质性来源就会被忽略。

在拉莫三嗪治疗具有部分耐药性癫痫患者的系统评价［11］的疗效分析中，对10个以安慰剂作为对照的试验结果进行了合并，其中仅RR（H）模型的分析显示有显著的统计学异质性。根据患者是成人还是儿童进行分层分析（表4），结果显示成人试验中没有显著的异质性。然而当采用RD或RR（H）模型时，成人和儿童间存在显著差异，这种差异可以被解释为真正的疗效异质性。当用OR或RR（B）模型分析时，没有检测到差异，这样的结论极有可能遮盖了该疗法对儿童患者的疗效。仍需要进一步的临床研究来证实该分析方法的结论的正确性。

在实例［11］中，异质性只会因为统计量的改变而失去统计学意义，它不会随着统计量的改变而消失。在成人组与儿童组比较的结果中，没有统计学意义的相对OR值（relative OR=0.62）和相对RR（B）值［relative RR（B）=1.31］实际上与有统计学意义的相对RR（H）值［relative RR（H）=0.77］相差并不大（表4），这种统计学意义的不同是因为其方差不同而不是因为其预测值的不同。

表3　10组罕见事件试验的异质性Q检验的相对和绝对加权结果对比

表4　实例［11］（拉莫三嗪附加疗法治疗癫痫）中儿童和成人的亚组分析OR，RD，RR（H）和RR（B）的Meta分析试验结果

在实例［11］中的预防干预措施产生了类似的结果，即具有统计学意义异质性的是RR（H）而不是RR（B）。在这五个试验中，其中一个试验招募了一个不同的病患组，并且在使用药物时采用了完全不一样的剂量方案。因此在进行分析时，需除去该试验才能消除异质性。

3 小结

本文提供了一个可供选择的研究方法即通过大量Meta分析来寻找通用模型的证据。从551篇经验主义的Meta分析所提供的数据显示，OR和RR比RD具有更好的一致性，而且两者在一致性方面没有差异。

该调查还显示，选择用RR分析事件获取一致性的假定是至关重要的。因为模型中对照组和试验组事件发生率的联系不同，所以在实质上RR （B）和RR（H）最好考虑单独独立的模型。拒绝使用效应量RR仅仅是因为其不对称性是不合理的——两个模型在描述临床上可能发生的情况时有潜在的用处。第二个实证调查发现，干预是为了防止不良结果的发生，此时使用RR更为一致。但没有明确的模型用于描述病情好转的情况。

因此，实证调查给预防性干预措施［使用RR （H）或OR］在选择效应量方面提供一个指南。除RD外没有通用的指南用于治疗性的干预。

值得注意的是，在115篇Meta分析调查中，Schmid等［12］研究发现基线风险和治疗效应之间的联系是最常见的，当将治疗效应用相对效应量表示时，相比于31%的RD，仅13%使用RR和14%使用OR进行Meta分析时显示存在显著联系。在Meta分析中，绝对效应量需谨慎使用，因各个研究人群的基线风险常常存在差异，限制了绝对效应量的临床推广性。

RR被认为是衡量暴露与事件关联强度最有用的指标，当试验中事件发生率变化时，相对效应量OR和RR均能满足研究者最直观地需求并易于理解。此外，RR与OR已经被作为描述RCTs结果和个体患者Meta分析的模型基础。RR较差的数学特性并没有妨碍其使用。

大量研究表明，虽然OR和RR在定性方向上总是一致的，但在定量数值上可能差异巨大。OR难于理解且经常被解释为RR。如果OR被解释为RR，其总会高估干预效应［13］：当小于1时，OR总比RR小；当大于1时，OR总比RR大。因此，把OR解释为RR常常会产生误导，让人相信干预的效应尺度大于实际的情况。

虽然OR有强大的拥护者，但统计学家和流行病学家认为，OR通常在汇总统计随机试验的结果和系统回顾中不是最合适的效应量［14-16］。Finney曾评价说，没有证据（通过亚组的恒定效应）的OR平均值是没有多大意义的。流行病学家使用OR需要合理的流行病学理论或实验证据，不仅仅是为了统计方便［17］。本文提出的实证研究中没有任何证明OR优于RR的有利证据。相反的，在进行OR估计时一个附加的干预显示：基线风险两端的绝对获益规模预测为0。

M-H法和Peto法仅用于分类资料的计算，其中，M-H法运用了分层分析的思想［18］；Peto法采用倒方差的思想［19］。两者都用于固定效应模型，即在不存在显著异质性的情况下。Peto法主要用于小概率事件的合并效应量的计算。

调查还显示，相对效应量不受基线风险的影响，具有较好的一致性，但某些情况下相对效应量并不能反映关注事件的真实风险情况，容易夸大效应。绝对效应量结果容易被医生和患者所理解，但其临床重要性取决于观察事件发生风险的高低。绝对效应量的临床适用性常因患者基线风险的差异而受限，即很难将结果应用于其他患者和医疗环境。Meta分析的过程常存在效应量的选择错误和解释错误。正如所讨论的，不会出任何情况下，都适合的最优模型。若将RR（B）或RR （H）用于原始研究将产生不同的结果。

也有人指出，在异质性统计中使用标准化方法计算，权重的不同取决于效应量的的选择，虽然在所有情况下统计量被视为近似于自由度为K-1的卡方分布（其中，K为Meta分析纳入研究的数目）。本文未明确指出使用不同的权重合并所有结果的影响。因为赋予权重一个值更能反映调查结果的一致性，故应谨慎对待对照事件发生率和选择效应量间的联系。

本文关于Meta分析中效应量的选择已经从考虑数学特性，讨论不断变化的对照组事件发生率（基线风险）的四个绝对获益模型和Meta分析应用于临床实践的影响上发生转移。选择效应量不可避免的要对相关基线风险获益的模型进行假设。效应量的选择不应该仅基于对数学特性的偏爱，更应从模型的动态全方面考虑，在特殊的临床情况下模型的选择可能是估计治疗获益最一致的方法。在不理解Meta分析结果的情况下应用时需谨慎。本文报道的两个经验调查，结合其他地方提供的数据，给出了一些在特殊情况下选择可能最一致的模型的指导。对一些不确定情况的效应量的选取，仍有待于进一步研究。

［1］ Breslow NE，Day NE. The Analysis of Case-control Studies［M］. Statistical Methods in Cancer Research. IARC: Lyon，1980.

［2］ Sackett DL，Deeks JJ，Altman D. Down with odds ratios［J］. Evid Based Med，1996，1:164-7.

［3］ Deeks J. When can odds ratios mislead？ Odds ratios should be used only in case-control studies and logistic regression analyses［J］. BMJ，1998，317（7166）:1155-6.

［4］ Brumback B，Berg A. On effect-measure modification: Relationships among changes in the relative risk， odds ratio， and risk difference［J］. Stat Med，2008，27（18）:3453-65.

［5］ Higgins JPT，Green S. Cochrane handbook for systematic reviews of interventions version 5.1.0 ［updated March 2011］. The Cochrane Collaboration， 2011. Available at: www.cochrane-handbook.org.

［6］ Deeks JJ，Altman DG，Dooley G，et al. Choosing an appropriate dichotomous effect measure for meta-analysis: empirical evidence of the appropriateness of the odds ratio and relative risk［J］. Control Clin Trials，1997，18（3）:S84-S85.

［7］ Deeks JJ，Altman DG. Systematic Reviews in Health Care: Meta-Analysis in Context［M］. London: BMJ Books， 2001.

［8］付文杰，何倩，许杨鹏，等. 基线风险变化与二分类数据效应量选择间关系简介［J］. 中国循证心血管医学杂志，2016，In Press.

［9］ Moayyedi P，Soo S，Deeks J，et al. Eradication of Helicobacter Pylori for non-ulcer dyspepsia［J］. Cochrane Database Syst Rev，2000，（2）: CD002096.

［10］ Edwards JE，Oldman A，Smith L，et al. Single dose oral aspirin for acute pain［J］. Cochrane Database Syst Rev，2000，（2）:CD002067.

［11］ Ramaratnam S，Marson AG，Baker GA. Lamotrigine add-on for drugresistant partial epilepsy［J］. Cochrane Database Syst Rev，2000，（3）: CD001909.

［12］ Schmid CH，Lau J，McIntosh MW，et al. An empirical study of the effect of the control rate as a predictor of treatment effcacy in metaanalysis of clinical trials［J］. Stat Med，1998，17（17）:1923-42.

［13］ Alman DG，Deeks JJ，Sackett DL. Odds ratios should be avoided when events are common［J］. BMJ，1998，317（7168）:1318.

［14］ Fleiss J. Statistical Methods for Rates and Proportions［M］. 2nd ed. Wiley: New York， 1981.

［15］ Feinstein AR. Indexes of contrast and quantitative significance for comparisons of two groups［J］. Stat Med，1999，18（19）:2557-81.

［16］ Sinclair JC，Bracken MB. Clinically useful measures of effects in binary analyses of randomized trials［J］. J Clin Epidemiol，1994，47（8）: 881-9.

［17］ Walter SD. Choice of effect measure for epidemiological data［J］. J Clin Epidemiol，2000，53（9）:931-9.

［18］ Mantel N，Haenszel W. Statistical aspects of the analysis of data from retrospective studies in disease［J］. J Natl Cancer Inst，1959，22（4）:719-48.

［19］ Yusuf S，Peto R，Lewis J，et al. Beta blockade during and after myocardial infarction: an overview of the randomized trials［J］. Prog Cardiovasc Dis，1985，27（5）:335-71.

本文编辑：田国祥

Selection of effect size from binary data in Meta-analysis

FU Wen-jie*， WU Jun-yi， XU Yang-peng， ZHANG Qian， ZHANG Huan， WU Di， ZHANG Chao. *Center for Evidence-Based Medicine， Taihe Hospital， Hubei University of Medicine， Shiyan 442000， China.

ZHANG Chao， E-mail: zhangchao0803@126.com

Objective To investigate the selection of the best effect size from binary data in Meta-analysis based on case study. Methods Through systematic retrospective of 551 reviews and 114 Meta-analysis documents，4 effective indexes were analyzed and compared including odds ratio （OR）， risk difference （RD）， relative risk of benefit ［RR （B）］ and relative risk of harmful ［RR （H）］. Results The evidence from 551 reviews showed that RR and OR had better efficacy than RD in the aspect of outcome superiority. Meanwhile， OR had an inclination to overestimate the pooled results， even leaded to a qualitative inconsistency in the Meta-analysis. The results of 114 Meta-analysis documents showed that for intervention aimed at preventing reverse events， the highest incidence rate of baseline risk would induce the greatest absolute benefit effect， and RR （H） was optimized at this moment. Conclusion The multiple factors should be considered including cause of baseline risk variation，effect size interpretability and mathematical properties in the selection of effect size. For some special cases， the characteristics of clinical trials should also be taken as one of factors in selecting effect size.

Meta-analysis； Effect size； Baseline risk； Binary categorical data

1674-4055（2016）01-0007-05

湖北省教育厅重点项目（D20142102）
1442000 湖北十堰，湖北医药学院附属太和医院循证医学中心；2442000 湖北十堰，湖北医药学院口腔医学院12级

10.3969/j.issn.1674-4055.2016.01.02

张超，E-mail:zhangchao0803@126.com.