获得现实世界证据的因果推断统计学思考

2021-11-15 07:57黄丽红
中国临床医学 2021年5期
关键词:亚组因果关系受试者

黄丽红, 赵 杨, 王 陵, 李 晨, 陈 峰

1. 复旦大学附属中山医院生物统计室,上海 200032 2. 南京医科大学公共卫生学院,南京 211166 3. 空军军医大学军队卫生统计教研室,西安 710032 4. CSCO生物统计学专家委员会RWE项目组

在医学研究中时常观察到各种变量之间的相关性(association,correlation),但是这些相关关系并不一定反映因果关系(causality)。例如,在某项研究中发现锻炼时长与血脂存在正相关关系,即锻炼时间越长血脂越高(图1A),显然不符合常理,然而在控制年龄因素(每10岁为一个年龄组)的影响后,每个年龄段的锻炼时长与血脂均有负相关关系,即锻炼时间越长血脂越低(图1B)。由于剔除了年龄的影响,假设不存在其他混杂因素,就可以将锻炼时长与血脂的负相关关系归结于锻炼与血脂水平有负向的因果效应[1]。

图1 相关关系和因果关系示例

因果推断(causal inference)是临床医学研究中亘古不变的核心问题,无论是探索疾病的病因亦或观察某种新药对疾病的治疗效果[2]。因果推断反应了一种在设计和分析过程中对混杂、偏倚等干扰的审慎考虑,从而在声明“因果关系”时能尽所能排除各种误判的可能[3-4]。现实世界研究(real-world study, RWS)近年来备受关注,尤其是基于现实世界数据库的RWS,逐步开始应用。获得现实世界证据(real-world evidence, RWE)是RWS的核心目标,而因果推断是判定RWE的重要前提[5]。

本文从因果关系的判定标准出发,解析混杂因素的存在对因果关系的影响,并针对临床研究设计与分析中的随机分组、分析数据集及亚组分析3个重要问题,探讨其中的因果推断元素,旨在帮助研究者正确理解因果推断在临床研究中的重要地位和价值。

1 Hill因果推断标准

Hill标准是目前学界公认的评判事物与事物之间的因果关系的“标尺”。由Austin Bradford Hill[6]在1965年提出,包含8条标准,即关联的时序性、强度、可重复性、剂量反应关系、实验证据、生物学合理性、特异性以及一致性(图2)。

图2 Hill因果推断标准

在因果关系的判断中,关联的时间顺序是必须满足的,是因果推断的必要条件,在确定前因后果的时序性问题上,前瞻性队列研究和干预性研究比较容易判断。关联的强度、关联的可重复性、剂量-反应关系及实验证据有非常重要的意义,其他标准可作为参考。因此,并不一定要求8条标准全部满足,但满足的条件越多,则其因果关系成立的可能性越大。显然,RWE需要经过Hill标准的评判。

2 混杂因素对因果关系的影响

混杂因素(confounder)又称外来因素(extraneous factor),与干预因素和研究结局皆相关,但不是暴露-结局的因果关系通路上的中间变量,该因素的存在将可能歪曲(夸大或缩小)暴露因素与结局的真实关系[7]。流行病学家常用有向无环图(directed acyclic graph,DAG)来展示混杂[8]。以G、Y和C分别代表研究因素、结局和混杂因素,一个典型混杂现象的DAG,见图3。

图3 混杂因素示意图

根据因果推断的相关理论,当混杂存在时,应当有一条从Y指向G的未被阻断的路径,即指向G的“后门”路径(backdoor path)。这里,由于C同时指向G和Y,故可以认为G和Y是相关的,该路径成为了一条后门路径。此时在估计G对Y的效应时若忽略了C,则估计的效应受到了混杂干扰,此时G与Y的相关性并非因果关系[9]。

因果关系分析中处理混杂因素的方法就是截断“后门”路径,通过控制混杂因素,从而排除混杂因素的干扰,控制混杂因素可以简单地理解为固定混杂因素的值。图3中一旦给定了C的值,G与Y的相关性就与C无关,二者的相关性就反映了因果关系。因此,控制混杂因素是因果推断中的重大挑战,临床研究中最理想的办法是在研究设计时就对混杂因素进行控制,例如通过随机分组的方法,从源头上控制已知和未知混杂的影响。而对于非随机对照研究中混杂因素的控制,一直以来是因果推断统计学方法的研究热点[10-11]。

3 随机分组中的因果推断元素

要评价一种药物的疗效,最理想的方法是评价同一个受试者同时接受试验药物和安慰剂对照治疗,利用得到的使用试验药物的效果与使用对照药物的效果之差来评价。然而,事实上这是做不到的,因为分身无术,同一个受试者一次只能接受一种处理。

Hill早在1948年就在BritishMedicalJournal发表了世界上第一篇应用随机对照设计方案的论文,该论文首次将严密的数理统计理论应用于临床医学的科研设计,并成功地探讨了链霉素对肺结核的疗效[12]。1990年,93岁的Hill在回忆录中说:“自1937年我的著作出版后,我一直在寻找机会将随机化应用于临床试验,10年后机会终于来了,而我也早已准备好了”[13]。

所谓随机化分组是指使参加临床研究中的每一位受试者都有同等的机会被分配到某处理组中,而不受研究者或受试者主观意愿的影响。随机化分组的意义在于可以使得各处理组间的各种非处理因素,不论是已知或未知的,在组间的分布皆趋于相似,使组间基线具有可比性,从而避免处理组和对照组之间的系统差异。

受试者接受随机化分组后,存在2种潜在结果(potential outcome),即受试者接受处理组(D=1)的结果和受试者接受对照组(D=0)的结果,具体表示如下:

之所以称为潜在结果是因为2个结果是受试者本身应该具备的,只不过不能同时显现出来,如果没有显现就无法观测到。例如,受试者无论是否服药,都有服药和未服药2种情况下的潜在身体健康结果。对于未服药的受试者,服药的潜在结果没有观测到。在现实中没有观测到的状态也称为反事实(counterfactual)状态。

通常在临床研究中,所关心的因果效应为处理组平均因果效应(average treatment effect among the treated, ATT),即处理组个体接受处理条件后的平均潜在结果E(y1|z=1)与处理组个体接受对照条件后的平均潜在结果E(y0|z=0)的差值,即ATT=E(y1|z=1)-E(y0|z=0)(1)。直接从观察结果估计ATT时,并不能同时观察处理组个体接受处理条件和对照条件的2个潜在结果(实际观察结果和未能观察到的反事实结果)。但在随机对照试验中,试验组与对照组是随机分配的,基于反事实的一致性假设,即试验组的受试者如果接受对照组的治疗,可以得到与当前对照组一致的结果,反之亦然。因此,对照组的观察结果是试验组受试者接受对照组治疗的潜在结果的一个无偏估计,从而能够得到ATT的无偏估计值,这是随机对照试验可以进行因果推断的关键原因。

在Hill的8大标准中,采用随机化分组技术评价关联关系,可有效排除混杂因素的干扰,获得“关联的时序性”、“关联的强度”、“关联的可重复性”、“关联的特异性”评价的可靠信息,合理设置对照组后的随机对照试验,可获得“实验证据”,因此随机对照试验获得的循证证据最强。

4 分析数据集中的因果推断元素

随机对照试验的统计分析中,根据不同的分析目的往往需要定义不同的数据集,数据集的定义是统计分析计划(statistical analysis plan, SAP)的重要组成部分。最常用的数据集有全分析集(full analysis set, FAS)、符合方案集(per protocol set , PPS)和安全数据分析集(safety set, SS)[14]。其中,FAS一般是临床试验疗效的主分析集,常常定义为按照意向性治疗(intention to treat, ITT)原则,所有随机化并有记录接受至少一次研究治疗的受试者,为一种调整过的ITT数据集(modified ITT, mITT)。可见,ITT原则是分析数据集定义的重要原则,即以意向性治疗(即计划的治疗方案)为基础进行评价,不以实际给予的治疗为基础进行评价,计划被分到某处理组的受试者即应作为该组成员被随访、评价和分析,不论其是否依从方案。常见分析数据集见图4。

图4 常见分析数据集示意图

在随机对照试验中,随机化分组是控制混杂的重要手段,各处理组间基线是均衡的。在试验实施过程中,需要维护这种均衡性。只有这样,对照组的观察结果才能作为试验组受试者接受对照组治疗的潜在结果的无偏估计,因而基于ITT原则的分析集通常定义为主要分析集。尽管基于ITT数据集的分析往往属于一种保守的估计,在统计学上是有偏估计,但是控制了Ⅰ类错误,符合药品审评的一般原则。PPS集是FAS集的一个子集,这些受试者符合试验方案、依从性好,试验期间未服用禁止药物,完成病例报告表(case report form, CRF)的信息收集等。然而,PPS集人群有可能破坏了随机化分组,组间存在基线不均衡的风险。实际工作中,ITT分析与PPS分析相结合是十分重要的,结论一致可以加强结论的可靠性。这一常规做法,是因果推断标准中“关联可重复性”的重要体现。

随着肿瘤临床研究的不断发展,单臂临床试验也可用于支持具有突破性疗效药物的新药注册申请,2020年5月,国家药品监督管理局药品审评中心发布《单臂试验支持注册的抗肿瘤创新药进入关键试验前临床方面沟通交流技术指导原则(征求意见稿)》,原则指出“单臂试验的有效性分析集应以ITT原则为参考”。 在单臂设计的前提下,ITT分析估计了在“主观意向性”前提下治疗方案的有效性,某受试者同意入组但没能按照方案要求完成试验,按照ITT原则,此类受试者仍需纳入ITT分析。然而,单臂试验因缺乏对照,所能评价的因果推断标准有限,在实际应用中较为局限。

在非随机化的RWS中,由于缺乏随机分组,所比较的组间缺乏均衡性。是否能够进行因果推断取决于混杂因素是否有效控制,分析数据集的定义需要与研究设计、统计分析和结果解释融为一体进行综合考量[15]。

5 亚组分析中的因果推断元素

所谓亚组(subgroup)是指临床试验中所有受试者按照某个基线特征定义的一个子集(subset)。亚组分析是针对亚组进行的统计分析。

异质性是基于临床结局测量的,处理效应在方向或者尺度上的非随机变异,与目标患者群体或临床研究人群中影响预后或预测治疗效果的因素差异程度有关。人群的异质性越强,在明确的亚组中调查治疗效果就越重要。通常采用森林图(forest plot)展示亚组分析的结果,当相关亚组在治疗效应的方向和尺度上基本一致时,能为研究的整体结论外推到研究患者总体增加说服力。

随机对照临床试验能够进行因果推断,但只能针对满足入、排标准的特定人群进行评价,如果存在异质性问题,则“关联的可重复性”这一重要标准无法满足,难以进行明确的因果推断[16]。异质性的问题越来越受到重视,尤其是新药注册的确证型研究。对于已知的导致异质性的因素,例如:不同年龄组、不同性别,是否抽烟,是否有某种并发症,适应证的亚型等,应当在临床研究中定义亚组进行亚组分析。异质性的评价常常通过检验基线因素与处理因素的交互作用,临床研究目标人群的异质性越大,亚组分析越关键。

亚组分析包括2种情况:事先计划的分析(prespecified analysis)和事后分析(post-hoc analysis)。事先设计的亚组分析需要在设计时将亚组作为一个因素进行分层随机,维持亚组的随机性,从而保持随机化技术在亚组中的因果推断作用。另外还需考虑亚组分析的检验效能(针对亚组进行样本量估计),需要考虑多重比较的Ⅰ类错误校正等问题。因此,只有事先设计的亚组分析才可能提供因果推断标准的“实验证据”,从而回答研究因素在某个特定人群中是否有效的问题,解释异质性的来源。即使整个目标人群结果没有统计学意义,亚组的意义也能提供有效证据。而事后亚组分析、或事先没有分层随机的亚组分析,亚组人群可能缺乏随机性;事后定义的亚组人群的分析,易受结果导向性影响进行“P值”挖掘的不当分析,假阳性结果风险较大。因此,事后亚组分析属探索性分析,仅用于评估临床研究结论的敏感性或稳健性,试验内部的一致性,或探索影响因素,为后续研究设计提供线索。

6 讨 论

随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,医学研究也迎来了大数据时代。大数据时代一个显著现象就是更关注数据的相关关系,有学者甚至提出“相关关系比因果关系能更好地了解这个世界”,尽管在商业领域对相关关系的分析颇具价值,但相关分析往往只是停留在数据表面,相关关系强的对象之间并不一定存在因果关系,为决策提供指导的能力受到了限制,特别是在医学领域,对疾病进行预防和治疗的具体措施,必须建立在因果关系的基础上。因此,因果推断才是临床研究的最终目标。

从Hill的因果推断标准可以看出,临床研究的证据强度与严谨的试验设计、高质量的数据以及精细的统计分析密切相关,并且单靠一个临床研究往往无法完全满足因果推断的标准,需要多个临床研究从不同的角度加以验证。本文充分探讨了随机化、分析数据集及亚组分析中因果推断元素,在RWS中同样应当充分考虑因果推断元素才能获得高质量的RWE。显然,由于非随机化的RWS需要考虑潜在的偏倚和混杂因素的影响,在进行因果推断时充满挑战。在注册类临床研究中提出了估计目标(estimand)框架[17], 将试验目的、恰当的试验设计以及疗效评估和假设检验的方法紧密结合,融入了因果目标(causal estimand)的思想,值得在RWS中借鉴。

对于临床医生而言,进行医学研究设计时,应在设计的角度考虑现有设计能否回答因果问题,并事先计划好分析策略以避免事后数据挖掘带来的P值掘取问题(P-hacking);在研究执行的过程中,时刻监督研究中是否出现会扭曲因果关系的事件,并提前考虑分析方式;在数据分析和解读的过程中,除了使用事先计划的分析策略和方法获取分析结果外,通过分层分析了解结论的一致性,通过敏感性分析考察结论的稳健性。总之,研究者应当充分认识到临床试验中的因果要素,从而正确认识试验所能提供的证据等级,并在实际工作中产生高等级的医学证据。

利益冲突:所有作者声明不存在利益冲突。

猜你喜欢
亚组因果关系受试者
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
浅谈新型冠状病毒疫情下药物Ⅰ期临床试验受试者的护理
不同煎煮方法及时间对炮附子配伍大黄治疗阳虚型便秘的效果及对心脏的影响
急性脑梗死患者血清微小RNA-145、程序性细胞死亡因子4 mRNA水平变化及诊断价值研究
血浆Lp-PLA 2水平评估冠心病患者病情及冠状动脉病变的价值
玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系
疫情下普通患者应如何进行肺功能检查?
冠心病患者肠道菌群变化的研究 (正文见第45 页)
浅谈侵权法中的因果关系